[교양지식]서울대 공대생들이 줄서서 듣는 빅데이터 특강

세상을 읽는 새로운 언어, 빅데이터 | 조성준

서울대 공대생들이 줄서서 듣는 빅데이터 특강


우리가 일상생활에서 만들어내는 수많은 데이터들이 돈이 될 수 있을까요? 내가 만들어낸 데이터에 주인의식을 갖자는 '마이 데이터' 운동이 있습니다. 마이 데이터 운동이란 개인정보의 주권을 개인에게 돌려주자는 운동으로, 개인이 자신의 정보를 어디에 어떻게 활용할지 적극적으로 관리하는 것을 말해요.



일상생활 속 빅데이터

빅데이터는 방대한 양의 데이터, 빠른 처리 속도, 그리고 이미지나 동영상 같은 비정형 데이터의 다양성을 특징으로 합니다. 빅데이터는 개인이 의도적으로 생성하지 않아도 일상생활 속에서 자연스럽게 생성되어요. 출생 신고, 근로 소득 기록, 병원 진료 및 처방, 영화 관람, 지하철 이용 등 일상적인 활동들이 모두 데이터로 기록되고 관리되고 있어요.

과거에는 단순한 현상에 불과했던 일들이 기술의 발달로 인해 데이터화되고 있으며, IT의 발전 덕분에 이러한 방대한 양의 데이터를 저장하고 분석할 수 있게 되었습니다. 이로 인해 과거에는 불가능했던 많은 일들이 가능해진 세상, 그야말로 빅데이터와 인공지능 없이는 편리하게 살아갈 수 없는 세상에서 빅데이터를 어떻게 사용해야 하는지 대한민국 최고의 데이터마이닝 전문가가 답을 내려줍니다.


빅데이터와 플랫폼

빅데이터는 어떤 가치를 만들어내고 우리의 삶을 변화시키고 있을까요? 개인의 취향을 넘어 기계 장비 속에서 일어나는 일까지 모든 것을 분석하여 가치를 창출하고 있어요.

아마존, 호텔스닷컴, 유튜브 등을 우리는 '플랫폼'이라 부릅니다. 플랫폼이란 생산자와 소비자를 연결시키는 중간자로서 생산을 하거나 구매도 하지 않고 오직 중개 역할만 해요. 이러한 플랫폼들이 성공하려면 소비자를 끌어들여야 하는데, 이때 이용되는 것이 바로 빅데이터입니다.

예를 들어 아마존이나 호텔스닷컴에서는 구매 후기와 별점이 소비자에게 큰 영향을 미쳐요. 유튜브는 단순히 동영상 공유 사이트에서 발전하여 머신러닝을 통해 사용자의 취향을 학습하고 맞춤형 동영상을 추천해주는 콘텐츠 소비 플랫폼으로 자리 잡았습니다.


개봉 전 영화의 관객 수를 예측하는 방법

빅데이터를 활용하는 이유는 가치를 만들어내고 인사이트를 찾기 위함이에요. 마케팅, 영업 분야에서 어떻게 빅데이터로 가치 창출을 하는지 살펴볼까요?

영화가 상영관에 걸리기 전 영화사는 데이터를 바탕으로 관객 수를 예측합니다. 만일 예측 관객 수가 손익분기점 이하로 예상된다면 버스, 옥외광고판, 홍보 프로그램 출연 등 영화 홍보를 위한 마케팅을 펼쳐야 해요. 과거에는 이러한 예측이 주관적인 경험에 의존했지만, 이제는 데이터를 기반으로 한 애널리틱스를 통해 예측 공식 형태의 인사이트를 도출합니다.

구체적으로는 수년간 한국에서 개봉한 모든 영화의 장르, 국가, 제작사, 배우, 감독, 제작비, 인지도 등의 데이터를 확보해 개봉 후 첫째 주 토요일 관객 수를 예측해요. 이러한 데이터는 시간이 갈수록 축적되어 예측의 정확도가 점점 높아지고 있습니다.



내 데이터의 주인은 나일까?

우리는 일상생활에서 의식하지 않아도 모든 정보를 제공하고 또 제공받고 있다는 것을 알았어요. 그렇다면 내가 만든 데이터의 주인은 나일까요?

현재 우리나라는 법적 근거를 통해 생년월일, 주소 등을 정부가 수집하고 있으며 민간 기업은 '편리함'이라는 당근으로 데이터를 확보하고 있습니다. 그 예로 사이트마다 일일이 회원가입을 하지 않아도 '카카오톡 1초 회원가입'이라는 편리한 기능을 통해 데이터를 제공하게 되어요. 카카오톡이나 네이버, 구글, 인스타그램 등 무료 서비스를 이용하면서 우리는 공짜로 개인 데이터를 건네주고 있는 거예요.


단순히 취미와 관심사 같은 검색어뿐 아니라 건강, 투자 등 민감한 개인정보까지 구글을 비롯한 대형 플랫폼에 차곡차곡 쌓아두는 중입니다.

다양하게 모은 나의 데이터에 주인의식을 갖자는 '마이 데이터' 운동이 있어요. 마이 데이터 운동이란 개인정보를 비롯한 데이터의 주권을 개인에게 돌려주자는 운동입니다. 세금과 헬스케어 데이터까지 다 모아서 나 스스로가 데이터의 용도를 결정하는 거예요. 이 데이터는 연구용으로 기부할 수도 있고, 기업에 돈을 받고 판매할 수도 있어요.


자산 관리 앱 뱅크샐러드는 마이 데이터 기반 서비스의 대표적 사례입니다. 우리는 빅데이터로부터 얻는 이익과 비용을 고려하고, 데이터에 대한 주인의식을 가져야 해요. 또한, 이러한 권리가 주어졌을 때 어떻게 사용할지에 대한 판단이 필요합니다.