티스토리 뷰

얼마전 빅데이터 관련한 글을 찾던 중 "빅데이터 벤더파, 검색파, 하둡파 3파전"이란 글을 봤습니다. 대략적으로 빅데이터 시장을 조망하면서 크게 몇가지 축으로 세를 확장해가고 있는 분야를 소개하는 글이었습니다. 

인상에 남았던 것은 빅데이터 시장을 좌지우지 하는 빅데이터 그룹이 있다는 것입니다. 크게는 벤더파, 검색파, 하둡파라고해서 기술 속성등으로 구분하고 있습니다. 들어가기에 앞서 빅데이터 관련해서 iamday.net의 IT칼럼에 기고했던 글(아래)을 참조해 주시기 바랍니다. 

빅데이터 기술에 대한 모호함?

"현재 진행중인 미 대선에서 오바마 대통령 이용자들의 SNS 활용등을 분석해 예측 가느한 시나리오를 만들기 위해 빅데이터를 수집하고 이를 분석하는 일에 3000만달러 가까운 비용을 쏟아 부었다고 한다. 이 데이터를 어떻게 분석하고 활용할지에 대해서 까지는 알려지지 않았지만, 빅 데이터는 이처럼 다양한 분야에 쓰일 수 있다"


해외 용병으로 구성 된 벤더파

벤더파로 분류되는 기업은 오라클, IBM, EMC ..등의 기존 외산 벤더들로 구성된 해외파를 의미하고, 이들의 특징은 DBMS부터 다져진 기반을 바탕으로 현재 엔터프라이즈 시장에 가장 강력한 강자로 군림해오고 있고, 이런 성과 덕택에 빅데이터 개념이 이제야 형성되는 한국 시장에서 각종 컨퍼런스등에서 선점 효과를 높여가고 있다는 것입니다. 

이 글을 쓴 분에 따르면 이런 이유로 언론에서 많이 이들을 찾고, 이로 인해 인지도가 높아져서 벤더 중심의 빅데이터 시장이 형성되고 있다고 보는 것 같습니다. 

 






검색 기능을 이용한 데이터 분석 중심의 검색파

빅데이터의 또, 다른 한 축으로는 바로 분석 기술을 앞세운 검색파가 있다고 합니다. 특히 SNS 등의 확장으로 소셜 빅데이터 분석의 수요가 생김에 따라 이런 분석 분야에 승부수를 던지고 있는 기업들인데, 아직 해외의 대형 벤더는 아직 없지만, 국내 기업 중심의 시장이 만들어지고 있습니다. 

솔트룩스, 와이즈넛과 같은 기존에 검색 기술에 강점을 가지고 있었던 업체들이 먼저 이 시장에 출사표를 던지고 있고 다음소프트, 코난테크놀로지 등도 빅데이터 관련한 분석 영역에 도전하고 있는 것으로 알고 있습니다.

다음 소프트의 경우 트위터몹으 바탕으로 트위터와 같은 소셜 데이터 분석을 시도하고 있고, UserStoryLab이란 밴처는 트윗믹스라는 트위터 DB를 바탕으로 트랜드 믹스라는 소셜 데이터 분석 서비스를 제공하고 있습니다. 아직 시작단계라 시장이 혼전 양상을 보이고 있고, SK나 SDS 같은 기업들도 해당 분야에 진출해 모회사의 지원으로 영역을 넓혀가고 있다고 합니다. 

빅데이터의 경우도 사실상 웹 서비스가 확장되면서 데이터 화용과 축적에 대한 이슈속에서 파생 된 만큼 분석 기술이나 데이터 수집 기술에 있어서 이정 부분은 검색 기술의 조류를 따를 수 밖에 없는데, 검색 솔루션에 기반한 분석 업체들이 이쪽 분야에 진출한건 바로 이런 강점을 극대화하기 위해서입니다. 


새롭게 강자로 등극하고 있는 하둡파

하둡(Hadoop)은 대량의 자료를 처리할 수 있는 일종의 컴퓨터 클러스터라고 할 수 있습니다. 서버를 클러스터로 묶고 분산 처리 기술을 이용해 데이터를 분산 처리하는 기술인 겁니다. 오픈 소스 소프트웨어 프레임워크로 많이 알려져 있고 이 기술은 원래 너치라는 오픈소스 검색엔진 프로젝트에서 검색 데이터를 분산처리 하기 위해 개발 된 것이 시초라고 알려져 있습니다.

아파치 루씬의. 최상위 프로젝트에 올라 있고 분산처리 시스템의 큰 골격을 구축한 구글 맵리덕스에 기반한다고 합니다. 물론, 구글은 현재 빅테이블 기반으로 맵리덕스의 단점을 한단계 계선시킨 분산 파일 처리 시스템을 제공하고 있는데, 개념적으로 결국 빅 테이블 기반 기술로 확장 되고 있다고 보면 됩니다.

결국, 하둡은 하둡분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리덕스로 구현한 것입니다. 

국내에서 하둡파로는 그루터, 넥스알.. 등이 많이 알려져 있고 이들 업체는 해당 기술을 5,6년 동안 집중적으로 기술력을 키워온 업체입니다. 

단순하게 하둡 이용한건데 무슨 기술력이 필요하느냐 말하겠지만, 절대 그렇지 않습니다. 하둡도 모든 기술적 환경을 다 만족 시키는 것이 아니기 때문에 이 기술을 활용하기 위한 부가 기술들이 필요하고 이 부가 기술들을 조합해 사용하면서 다양한 문제들에 대응하는 기술과 노하우가 필요합니다. 

단순하게 오픈소스 잘쓴다고 생각하면 큰 오산인 겁니다. 이들의 전문 분야는 그리드 컴퓨팅, 분산 컴퓨팅, 클라우드 컴퓨팅등을 통해 빅데이터 처리 기술을 축적해 왔습니다. 

위 링크를 제공한 저자에 따르면 이들 하둡파의 경우 빅데이터라는 마케팅용어로 포장하고 있는 벤더파와 검색파를 비난하며 자신들만이 빅데이터 적자라고 얘기하고 있습니다. 이들이 말하는 빅데이터 개념과 접근법이 다르다는 점을 강조하고 있는 것입니다. 
 


빅데이터 결국 데이터 컨트롤과 분석 기술
많은 사람들이 결국 데이터를 다루기 때문에 데이터 마이닝적 영역만으로 생각하지만 절대 그렇지 않습니다 그 안에서 하당 소프트웨어를 이용해 데이터를 처리하고 데이터 베이스 처럼 쿼리를 담당해야 하기도 하기 때문에 마이닝 분야로만 국한하긴 힘들고 데이터 기술로 그 개념을 넓혀야 합니다. 

하둡쪽에서 검색이나 벤더파를 비난하는 것도 빅데이터 개념이지만 기술적 접근보다는 데이터 분석과 마이닝적 영역에 더 특화하고 있기에 빅데이터 분야의 범주에는 있을 수 있어도 빅데이터 기업은 아니라고 보는 것입니다. 

누구의 말이 옳고 그른지는 제 지식 수준에서는 알 수 없을 것 같습니다. 다만, 확실한 결론 하나는 단순한 데이터 마이닝은 아니라는 것이고, 이런 논쟁은 당분간 지속 될 수 밖에 없다는 것입니다. 

누가 시장의 주도권을 가져 갈지는 모르겠지만, 빅데이터란 흐름에 대해서 기업들도 관심을 기울여야 한다는 생각은 변함이 없는 것 같습니다. 

댓글