본문 바로가기
경영/E-BIZ

빅데이터 승리의 과학

by Diligejy 2017. 8. 18.

p.19

오바마 캠프의 최고기술책임자인 하퍼 리드가 겸손하게 말하였듯이 테크놀로지는 '화력 증강다'(force multiplier)일 뿐이다. 승리하기 위한 전략과 이를 구체적으로 표현한 핵심성과지표(KPI)가 명확할 때만이 빅데이터는 의미를 가진다. 전략과 목표가 없는 빅데이터는 '빅 쓰레기더미'(Big Garbage)일 뿐이다. '무엇'을 '왜' 하는지 확실할 때 '어떻게'할지도 알 수 있다.


p.34~35

물론 소셜 네트워크의 활용은 선거운동에서 매우 중요하다고 할 수 있다. 하지만 이러한 언론의 호들갑은 과녁을 잘못 맞힌 것이었다. 지난 4년 동안 IT기반 기술에는 일반 사용자들과 정치부 기자들이 제대로 파악하지 못한 변화가 일어나고 있었다. 그것은 바로 클라우드 컴퓨팅과 빅데이터의 등장이었다.


지난 2008년 미국 대선 때는 클라우드 컴퓨팅 서비스가 사실상 존재하지 않았으며, 현재도 초대형 클러스터 구축 및 운영에 대한 노하우를 획득하여 서비스하는 기업은 극소수에 지나지 않는다. 아마존 웹서비스,  구글 앱 엔진, 마이크로소프트 윈도우 애저 클라우드, 애플 아이클라우드, 랙스페이스(Rackspace), IBM, 세일즈포스닷컴과 이동통신회사인 버라이존(Verizon) 정도가 이에 해당한다.


p.40

새롭고 유의미한 정보를 발견하려면 기존에는 서로 무관하게 여겼던 데이터들을 결합하여 분석해 보아야 한다. 그래서 기존의 구조적 데이터베이스에 사용되던 '구조적 질의 언어'(SQL : Structured Quary Language) 대신에 '비구조적 질의 언어'(NoSQL)를 사용한 검색방법이 도입되고 있다.


이 경우에 데이터의 '잡다한' 특성으로 인해서 '잡음'같은 정보가 끼어들어 있을 수도 있으며 이가 빠진 듯이 부분부분 빈 공간도 생기게 마련이지만 워낙 많은 양의 데이터를 종합하여 판단하므로 이런 정도의 편차는 허용하면서 유의미한 통찰을 얻는 데 중점을 둔다.


p.41~42

문제는 그것을 어떻게 찾아내는가이다. 주로 자기 내부에 저장되어 있는 데이터들을 처리하고 분석하는 기존의 컴퓨팅 환경에서는 불가능하였을 것이다. 그러나 클라우드 컴퓨팅이 가능해지고 새로운 대용량 분산 파일시스템(HDFS)과 병렬처리 기법인 맵리듀스(MapReduce)를 기반으로 하는 하둡(Hadoop)의 등장으로 빅데이터의 분석이 기술적으로 가능해졌다.


이렇게 빅데이터를 처리하는 기술이 발전하면서 IT 기술 그 자체보다는 그것으로 처리할 수 있는 '데이터'가 어떤 것인지가 더 중요해졌다. 그리고 데이터 그 자체보다 데이터를 '분석'하여 얻은 의미 있는 정보를 가지고 '새로운 가치'를 창출하는 것이 더욱 중요해졌다.

댓글