빅데이터를 향한 비판적 사고

#빅데이터
오늘 페이스북 피드에서 빅데이터의 위험성에 대해 언급한 블로그에 대한 내용을 참 많이 보았습니다. 그 블로그에는 작년, 미국의 페이스북 연결지도를 제작했던  Pete Warden의 블로그에서 작성한  why you should never trust a data scientist? 포스팅이 언급되어 있었습니다. Pete Warden은 해당 포스팅에서 데이터 시각화의 위험성에 대해 크게 3가지의 측면에서 말했습니다. 첫번째로는  과연 연구에 쓰인 데이터의 소유권이 누구에게 귀속되야 하느냐였고, 두번재로는 데이터 시각화에서 연구자의 해석의 위험성이었고, 마지막으로는 해당 데이터를 분석한 연구자의 신뢰성에 대한 문제라고 볼 수 있었습니다. 그러면서 문득 얼마전부터 보려고 저장해둔 논문 한 편이 생각이 났습니다.

<CRITICAL QUESTIONS FOR BIG DATA>는 Microsoft Research의 연구원 2명이 빅데이터에 대해서 몇가지 이유를 언급하며 비판적인 사고의 필요성에 대해 필력하는 논문이었습니다. 우리 나라에는 얼마전까지 ‘빅데이터’가 세상의 모든 문제를 다 풀 수 있는 만능 해결사라는 인식이 참 많았던 것 같습니다. (물론, 전에는 빅데이터 처리 문제 때문에 할 수 없었던 일들이 하둡이나 맵리듀스와 같은 분산 처리 시스템의 도입으로 대용량의 데이터 처리가 가능해지며, 이전에 비해 빅데이터의 활용의 활용이 쉬워진 것은 사실입니다.) 또한, 기존에는 가볍게 여기던 로그 데이터를 활용해 다양한 분석을 하고, 활용할 수 있다는 점도 그러한 데이터를 가진 기업에게는 더할 나위 없이 천운처럼 여겨졌습니다. 그러나 과연, 빅데이터는 기존 데이터와는 전혀 다른 새로운 것이고, 만능 해결사인 것일까요?

해당 논문에서는 빅데이터는 주관적이라고 명시하고 있습니다. 사실 사회 과학에서, 사회 조사를 실시할 때, 연구 주제를 선정하고, 연구 가설을 세울 때 연구자의 견해가 반영이 되며, 1차적으로 biased되고, 그 가설에 맞게 연구 방법을 설정하면서 2차적으로 biased되게 됩니다. 이러한 것은 빅데이터 분석에도 크게 다르지 않습니다. 연구자가 빅데이터를 연구하고자 하는 크기로 쪼개거나, 혹은 연구하고자 하는 데이터만 수집할 때, 연구자의 견해가 거기에 녹아들고, 해당 데이터를 분석하는 방법론을 선택할 때, 2차적으로 biased되기 때문입니다. 

해당 논문은 small data is as good as big data라고 언급하고 있습니다. 새로운 메가 트렌드인 것 처럼 빅데이터를 포장하는 현 행태를 꼬집은 것이라는 생각이 듭니다. (그러나 해당 논문은 2012년에 발행되었습니다.) 대다수의 기업이 빅데이터를 가진 것도 아니고, 혹시라도 SNS의 정보를 활용하여 데이터 분석을 시도한다 해도 많은 한계를 가진다는 것을 언급하며, 기존의  small data와 big data를 비교하며, small data의 중요성을 간과하지 말 것을 당부하고 있습니다. 사실, 어느 분야에서나 big data가 중요한 것도 아닐 뿐더러, 결국 빅데이터에서 필요한 부분을 발췌해서 사용하는 경우, 기존의 small data 분석으로 문제 해결이 되기 때문입니다.

이 외에도, 빅데이터 분석에 있어, 앞뒤를 고려하라, SNS의 공개된 자료를 분석하는 것이 연구 윤리에서 벗어난 것일 수도 있다 등과 같이 빅데이터 분석을 하고자 하는 사람에게 빅데이터 분석에 필요한 다양한 방점을 준다는 점에서 해당 논문은 참 우수하다라는 생각이 들었습니다. (물론, 다 옳은 것은 아닐 수도 있습니다) 

그러면서 든 생각은 많은 사람들이 맹목적으로 빅데이터의 아우라에 빠져, 많은 것을 놓치고 있지는 않은가 라는 생각이 들었습니다. 사실, 빅데이터는 전혀 새로운 것이 아닙니다. ‘빅’이라는 것이 데이터를 기존에 분석해온 사람들에게 지레 겁을 주는 것일지도 모릅니다.  연구 윤리를 지키며, 올바르게 데이터를 분석하기 위해서는 ‘빅데이터’에 압도되지 않고, 기존에 하던대로 연구자가 중립을 지키며 데이터를 바라볼 필요가 있을 것 같습니다.

MIT OpenCourseWare를 통해 바라본 ‘Open’에 대한 개인적인 견해

MIT OpenCourseWare를 통해 바라본 ‘Open’에 대한 개인적인 견해

Image

최근들어 ‘Data Science’, ‘Open’이 사회의 화두가 되고 있다. 국내 공공기관들이 앞다퉈 다양한 형태로 공공데이터를 공개하고 있고, 이런 흐름에 맞춰, 각종 기관(공공기관을 포함한 교육기관 등), 기업, 개인까지 한차례 이상 가공이 끝난 정보부터 가공되지 않은 순수한 데이터에 이르기까지 다양한 형태로 데이터를 공개하고 있다.

Open Data 

사실, 오픈 데이터만, Open 흐름의 중심에 서있는 것은 아니다. 오픈 소스 기반의 프로그램과 프레임워크들이 대중적으로 소비되고 있고, 이러한 기술을 활용한 대기업들도 점차 늘어나고 있다.

 

통계 프로그래밍 R은 미국에서 가장 많이 쓰이는 빅데이터 분석하는데 가장 넓게 쓰이는 도구가 되었고, noSQL 데이터베이스인 Cassandra는 트위터와 페이스북를 지탱하는 도구로 알려져 있다.

8321 

공개된 툴로, 공개된 데이터를 만질 수 있다니 이제 누구나 데이터를 만질 수 있는 데이터 평등은 어느정도 실현되고 있다고 할 수 있다. 

 

그럼에도 불구하고, 데이터는 누구나 만지고 가공하기란 참 어렵다. 데이터를 가공하기 위해서는 데이터를 사용하기 위한 목적을 설정해야하고, 그 데이터를 통해 얻고자 하는 바를 달성해야 한다. 또한, 데이터를 바라보는 시각이 필요하다.

 

물론, 데이터 공개의 봇물이 터지기 전부터 교육분야에서 컨텐츠 공개가 이루어졌다. 양질의 대학 교육 자료들을 공개하고, 누구나 전문 교육을 원하는 사람들이 쉽게 양질의 컨텐츠를 받아 볼 수 있다. 이러한 움직임은 우리가 명문 대학이라고 알고 있는 미국의 아이비리그를 중심으로 일어났다. 각 대학에서 OpenCourseWare를 통해 대학 강의를 제공했다. 또한, 각 대학들이 일부 강의를  edx(edx.org)와 cousera(coursera.org)와 같은 플랫폼을 통해 강의 제공뿐 아니라, 다양한 협업까지 함께 할 수 있게끔 서비스를 제공하고 있다.

 

이제 더이상 가난해서, 혹은 교육을 많이 받지 못해서 차별받는 시대는 아닌 것 같다. (물론, 약간의 영어 공부가 선행되야 조금 더 편할 것 같다는 생각이 든다.) Openess가 몰고온 엄청난 변화가 많은 개인에게 더 많은 기회로 작용되길 바란다.

 

참고 : OCW 참고 사이트 정리 – https://www.facebook.com/Sibangse/posts/307596909365937

MIT OpenCourseWare – http://ocw.mit.edu/index.htm

Coursera – http://coursera.org

 

첫번째. / First

블로그를 만들며 많은 고민을 시작했다.

대부분의 프로그래머가 블로그를 운영한다는데… 나도 해볼까?

 

물론, 나는 프로그래머가 아니다.

살짝 맛보기 식으로 배운 프로그래밍이 내가 할 수 있는 전부다.

hello, World 정도라고나 할까?

 

그럼에도 첫 도전을 시작하려고 한다.

비전공자의 프로그래밍 배우기 + 컴퓨터를 전공하지 않은 나의 관점에서 바라보는 시맨틱 웹, 링크드 데이터에 대해서 말이다.

 

이제 막 걸음마를 떼기 시작한 나로써, 이 큰 주제들을 어떻게 풀어나가야 할지, 아직 막막하다.

그러나, 시작이 반이라고 하지 않는가?

 

새롭게 세팅된 컴퓨터와 새로운 환경이 나의 새로운 시작에 도움이 되지 않을까? 라는 생각과 함께 첫 글을 마무리 지으려고 한다.

 

 

이제 시작이다!