약력
KBS 디지털뉴스제작부 데이터저널리즘팀 팀장이다. 제8회 한국온라인저널리즘어워드 데이터저널리즘 부문(2019년), 한국조사연구학회 한국조사보도상 방송부문(2018년, 2019년), 2019 한국 데이터저널리즘 어워드 ‘올해의 주목할 만한 데이터저널리스트상’, ‘데이터혁신상’(2019년) 등 여러 상을 수상했다. 1997년 KBS에 입사해, 1999년 인사부, 2013년 디지털뉴스국 등을 거쳤다.
‘세상’과 ‘데이터’를 잇다
소위 데이터를 분석한 결과들이 종종 뜻하지 않은 오류를 나타내기도 한다. 분석과정에서의 방법론적인 오류가 아니라 데이터 그 자체에 대한 이해의 부족에서 기인하는 경우를 말한다.
잘 정비된 금융권의 자료나 수백만 건의 빅데이터를 분석한 결과, 혹은 공공기관에서 제공한 자료가 과연 제대로 사회현상을 담아내고 있는가에 대한 데이터 이전의 과정에 대한 호기심 혹은 이해를 갖지 못한다면, 우리는 수집된 데이터를 단순히 분석함으로써 이제까지 몰랐던 사회현상에 대한 어떤 새로운 사실(뉴스, 인사이트, …)을 찾아냈다는, 실제 세상과는 무관한 결론을 도출하는 심각한 오류를 범할 수 있다는 사실을 알아야만 한다.
사례1) 데이터를 활용한 기사 작성 과정의 7-80%는 데이터를 수집하고 수집된 자료를 다시 ‘정리(클리닝)’하는데 소모가 된다. ‘정리한다’는 과정에는 오타 수정, 빈값 채워넣기, 데이터형식(날짜 등) 수정 등 다양한 형태로 진행되며 또 지난한 단순 작업의 과정을 되풀이하게 된다. 그러던 어느 날 카드사의 데이터센터에서 잘 정리된 데이터 확보하게 된다. 반갑다. 자료는 클리닝의 과정이 불필요할 정도의 깔끔함을 제공하지만 여전히 불완전성을 내포하고 있다. 왜 그럴까?
사례2) 바야흐로 수많은 개인들의 일상생활에 대한 세세한 기록에서 부터 첨예하게 대립되는 사회 이슈에서 대한 다양한 디지털 여론에 이르기까지 엄청난 데이터가 생산되고 있는 Big Data 시대에 살고 있다. 저널리즘 영역에서도 여론의 흐름을 읽고자 기존의 설문조사뿐만 아니라 SNS 등 온라인 여론(Big Data)에서도 많은 의미를 찾고자 한다. 여기서 과연 수백만 건의 SNS Big Data가 사회 문제에 대한 폭넓고 다양한(Variety) 의견을 제대로 담겨져 있다고 볼 수가 있을까? 양적인 크기(Volume)에 갇힌 Big Data 분석의 문제점을 들여다보자.
많은 경우 우리는 사회현상에 대한 가설을 세운 뒤 데이터 분석을 통해 가설을 검증하는 과정에서 기대와는 상반되는 결과를 얻곤 한다. 과연 가설이 잘못된 것인가? 아니면 분석대상으로서의 데이터가 사회현상을 제대로 반영을 하지 못한 것일까? 여기서 우리는 데이터 이전의 세상을 살펴보는 폭넓은 인식과 현장의 다양한 관점을 접하는 것이 데이터를 대함에 있어 무엇보다도 중요하다는 사실을 발견한다.