빅데이터를 향한 비판적 사고

#빅데이터
오늘 페이스북 피드에서 빅데이터의 위험성에 대해 언급한 블로그에 대한 내용을 참 많이 보았습니다. 그 블로그에는 작년, 미국의 페이스북 연결지도를 제작했던  Pete Warden의 블로그에서 작성한  why you should never trust a data scientist? 포스팅이 언급되어 있었습니다. Pete Warden은 해당 포스팅에서 데이터 시각화의 위험성에 대해 크게 3가지의 측면에서 말했습니다. 첫번째로는  과연 연구에 쓰인 데이터의 소유권이 누구에게 귀속되야 하느냐였고, 두번재로는 데이터 시각화에서 연구자의 해석의 위험성이었고, 마지막으로는 해당 데이터를 분석한 연구자의 신뢰성에 대한 문제라고 볼 수 있었습니다. 그러면서 문득 얼마전부터 보려고 저장해둔 논문 한 편이 생각이 났습니다.

<CRITICAL QUESTIONS FOR BIG DATA>는 Microsoft Research의 연구원 2명이 빅데이터에 대해서 몇가지 이유를 언급하며 비판적인 사고의 필요성에 대해 필력하는 논문이었습니다. 우리 나라에는 얼마전까지 ‘빅데이터’가 세상의 모든 문제를 다 풀 수 있는 만능 해결사라는 인식이 참 많았던 것 같습니다. (물론, 전에는 빅데이터 처리 문제 때문에 할 수 없었던 일들이 하둡이나 맵리듀스와 같은 분산 처리 시스템의 도입으로 대용량의 데이터 처리가 가능해지며, 이전에 비해 빅데이터의 활용의 활용이 쉬워진 것은 사실입니다.) 또한, 기존에는 가볍게 여기던 로그 데이터를 활용해 다양한 분석을 하고, 활용할 수 있다는 점도 그러한 데이터를 가진 기업에게는 더할 나위 없이 천운처럼 여겨졌습니다. 그러나 과연, 빅데이터는 기존 데이터와는 전혀 다른 새로운 것이고, 만능 해결사인 것일까요?

해당 논문에서는 빅데이터는 주관적이라고 명시하고 있습니다. 사실 사회 과학에서, 사회 조사를 실시할 때, 연구 주제를 선정하고, 연구 가설을 세울 때 연구자의 견해가 반영이 되며, 1차적으로 biased되고, 그 가설에 맞게 연구 방법을 설정하면서 2차적으로 biased되게 됩니다. 이러한 것은 빅데이터 분석에도 크게 다르지 않습니다. 연구자가 빅데이터를 연구하고자 하는 크기로 쪼개거나, 혹은 연구하고자 하는 데이터만 수집할 때, 연구자의 견해가 거기에 녹아들고, 해당 데이터를 분석하는 방법론을 선택할 때, 2차적으로 biased되기 때문입니다. 

해당 논문은 small data is as good as big data라고 언급하고 있습니다. 새로운 메가 트렌드인 것 처럼 빅데이터를 포장하는 현 행태를 꼬집은 것이라는 생각이 듭니다. (그러나 해당 논문은 2012년에 발행되었습니다.) 대다수의 기업이 빅데이터를 가진 것도 아니고, 혹시라도 SNS의 정보를 활용하여 데이터 분석을 시도한다 해도 많은 한계를 가진다는 것을 언급하며, 기존의  small data와 big data를 비교하며, small data의 중요성을 간과하지 말 것을 당부하고 있습니다. 사실, 어느 분야에서나 big data가 중요한 것도 아닐 뿐더러, 결국 빅데이터에서 필요한 부분을 발췌해서 사용하는 경우, 기존의 small data 분석으로 문제 해결이 되기 때문입니다.

이 외에도, 빅데이터 분석에 있어, 앞뒤를 고려하라, SNS의 공개된 자료를 분석하는 것이 연구 윤리에서 벗어난 것일 수도 있다 등과 같이 빅데이터 분석을 하고자 하는 사람에게 빅데이터 분석에 필요한 다양한 방점을 준다는 점에서 해당 논문은 참 우수하다라는 생각이 들었습니다. (물론, 다 옳은 것은 아닐 수도 있습니다) 

그러면서 든 생각은 많은 사람들이 맹목적으로 빅데이터의 아우라에 빠져, 많은 것을 놓치고 있지는 않은가 라는 생각이 들었습니다. 사실, 빅데이터는 전혀 새로운 것이 아닙니다. ‘빅’이라는 것이 데이터를 기존에 분석해온 사람들에게 지레 겁을 주는 것일지도 모릅니다.  연구 윤리를 지키며, 올바르게 데이터를 분석하기 위해서는 ‘빅데이터’에 압도되지 않고, 기존에 하던대로 연구자가 중립을 지키며 데이터를 바라볼 필요가 있을 것 같습니다.