티스토리 뷰

정보 주심의 시멘틱스, 웹 3.0과 맞물려 있다


그동안의 정보는 뭐랄까? 검색한 키워드에 대한 관련도를 따져 문서를 가져왔다고 할 수 있다. 만약 현재의 검색을 2.0으로 표현한다면 검색 3.0은 온톨로지 기반의 시멘틱스 검색으로 간다고 봐야 한다. 


온톨로지(Ontology)란? 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 서로 간의 토론을 통하여 합의를 이룬 바를 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델로, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술이다. 온톨로지는 일단 합의된 지식을 나타내므로 어느 개인에게 국한되는 것이 아니라 그룹 구성원이 모두 동의하는 개념이다. 그리고 프로그램이 이해할 수 있어야 하므로 여러 가지 정형화가 존재한다.


온톨로지는 전산학과 정보 과학에서, 특정한 영역을 표현하는 데이터 모델로서 특정한 영역(Domain)에 속하는 개념과, 개념 사이의 관계를 기술하는 정형(Formal) 어휘의 집합으로 정의된다.


출처: http://ko.wikipedia.org/wiki/%EC%98%A8%ED%86%A8%EB%A1%9C%EC%A7%80

출처: http://ko.wikipedia.org/wiki/%EC%8B%9C%EB%A7%A8%ED%8B%B1_%EC%9B%B9


시멘틱스는 단순한 단어에 대한 문서의 관계도를 기반으로 하는 것이 아니라 검색한 단어가 요구하는 문서에 대한 의미를 전달하는 개념이라고 생각하면 될 것이다. 정형 언어(Formal Language)로 기술된 어휘의 집합인 온톨로지는 추론(Reasoning, Inference)을 하는 데에 사용된다. 


그래서 오늘은 이 이야기를 해보려고 하는데.. 이 분야에서 선두 기업인 구글의 변화를 좀 다뤄볼까한다. 





시멘틱스의 현재는?

어설프군이 엔지니어가 아니라서 기본적으로 기술적인 요소에서 시멘틱스의 진전을 이야기하긴 어렵다. 다만, 구글검색의 시멘틱스 기술 베타 서비스를 보면 검색을 요청한 단어에 대한 유명인, 책, 영화이름 등을 연관 자료로 박스를 제공하는 개념이다. 


수많은 링크를 참조하지만 그중에서 위키피디아 등의 정보를 자주 이용하는 것으로 조사된다.


단순하게 보면, "이미 네이버도 하고 있는 종합 검색이네?" 말할 수 있을지 모릅니다. 하지만 차이가 있다면 네이버는 모든 DB(영화, 위키피디아, 인물.. 등)를 일일히 사람이 만들어 저장한 DB를 가지고 각 데이터마다 메타 키워드등을 연관시켜 검색 키워드별 데이터를 노출하년 형식을 취해왔습니다. 


물론, 그렇게 모은 데이터를 검색페이지에 노출하는 것도 쉬운일은 아니고 각 요구 데이터에 대한 DB의 연관도를 따질 것으로 예상되기에 이 역시도 어쩌면 한국형 시멘틱스라고도 볼 수 있습니다. 


사람이 직점 만들어 넣은 자료와 데이터를 연결하는 것만큼 정확할 수는 없을테니깐요? 그리고 이렇게 요구된 검색 키워드에 대한 단어와 사용자 클릭률과 페이지 연관도등을 내/외부링크를 이용해 관여도를 따져 데이터를 노출시킬텐데, 자주 이용되는 데이터는 캐싱처리해 빠른 검색이 가능하게 하는 수준입니다. 


구글도 큰 그림에서는 이정도 수준을 좀 더 정확한 데이터를 검색 할 수 있게 만들어왔는데 이제는 본격적으로 시멘틱 웹을 통해 문서와 사용자의 요구를 파악하는 진정한 인공지능 검색의 첫 단추를 끼우게 된 것입니다. 



시멘틱스 과연 얼마나 의미가 있을까?

개인적으로는 의미가 있느냐 없느냐를 따지기는 어렵다고 생각합니다. 일단, 지금 검색으로도 충분히 사용자가 요구하는 자료를 여러 꼼수로 노출가능하니깐요. 그리고 구글이 내세운 시멘틱스 웹의 모습은 기술적인 토대는 어떨지 모르겠지만 UI적인 요소에서는 한국의 검색엔진들과 큰 차이를 보여주지 못합니다. 


과거 구글 출신들이 만든 에드박크 검색(사용자가 검색한 키워드와 연관성이 가장 높은 인물을 찾아 소개하는 검색엔진)를 인수한 것도 연관성을 파악해 연관 인물을 노출해주려고 했던 것인데 이 역시도 이제 구글에 흡수가 완료된듯한 느낌입니다. 


검색한 키워드를 설명 할 수있는 정보, 관련 DB (맛집, 광광지, 영화, 책.. 등), 관련 인물을 노출하는 형태입니다. 2년동안 이런 데이터를 엔진을 이용하고 가공하는 작업과 최적화 작업을 해온 것입니다. 


구글은 이 시멘틱스를 지식그래프라는 용어를 통해 설명하고 있습니다. 문서의 연관도등을 어떻게 따지는지 기술적으로 설명을 하고 있지는 않지만 기본적인 개념은 사용자가 요구하는 문서 정보를 좀 더 빨리 찾을 수 있는데 포커스를 맞추는 분위기 입니다. 


하지만 온전한 시멘틱 기술이라고 보기는 어렵다는게 제 생각입니다. 사용자가 요구한 키워드에 대한 요구점이 뭔지 알 수 없는 상황에서 다양한 정보(한국형 통합검색 처럼..)를 한꺼번에 노출해 사용자 불편을 최소화하는 수준이라 보고 있기 때문입니다. 


방대한 데이터를 모두 이렇게 처리하려한다는데서 나름 의미가 있지만 온전한 시멘틱스라고 보기는 어렵지 않을까 하는 것입니다. 



온전한 시멘틱이 되려면.. 

말 그대로 사람의 요구한 정보를 파악해야 할 것이고 궁국에는 문장 기반 검색을 지원하는 형태가되어야 할 것입니다. 지금은 "오늘의 추천 영화"라는 문장을 검색하면 오늘, ~의, 추천, 영화등의 단어를 쪼개과 이 단어별 연관도를 다양한 연산을 똥해 인덱스화된 문서를 호출하는 개념입니다. 


좀 더 기술적으로 들어가면 각 단어별 의미와 사용자의 클릭등에 따른 문서의 관계도를 검색엔진만의 수식을 이용해 저장하고 이를 각 단어별로 별도의 데이터로 쌓는 형식으로 검색을하는 것으로 알 고 있습니다. 


구글은 페이지 랭크라는 공유 알고리즘을 통해서 각 단어별 연관도와 완성도를 따지고 그 문서를 포함한 인/아웃 링크의 문서 정보를 파악해 문서별 랭킹을 만들어 정확도를 높혀 표현하는 것이지요. 


기본적인 검색 기술을 공부하면 요구한 검색어가 제목, 내용, 태그에 얼마나 포함되고 이 키워드의 의미를 어간/어미 차원에서 어느정도 일치하는 지를 따집니다. 아주 기초적인 수준인데, 게시판 DB 검색시에도 기초적으로 활용 할 수 있는 것이죠. 


(부족한 지식인 줄 아는데 저보다 더 모르는 분들을 위해서 최대한 간략하게 검색 기술을 이해 할 수 있는 정보 소개한 것이니 참고하고 읽으시길..)


아무튼 온전한 시멘틱이 되려면 "오늘의 추천 영화"를 검색 했을때, 오늘이 무슨 요일이고 몇월 몇일인지와 사용자가 추천한 영화정보등을 시차와 추천점수, 예매 순위등을 모두 파악해 소개 할 수 있어야 합니다. 


그리고 그와 관련한 가장 추천 할만한 영화순위, 추천 할만한 영화 순위별 리뷰, 영화관 위치, 작품에 따른 영화배우나 감독 정보등을 다양하게 보여주는게 의미적인 시멘틱스라고 볼 수 있을 겁니다. 



아직 갈길 멀지만 의미있는 구글의 시도는 칭찬해야.. 

구글은 이 시멘틱스를 개발하기 위해 2년을 투자했습니다. 2009년 말부터 시작된 것인데 이제야 결실을 맺게된 것이지요. 그만큼 쉬운게 아닙니다. 또한 구글 처럼 글로벌 검색엔지을 지향하는 서비스에서는 더더욱 그렇지요. 


수백개 나라의 언어를 분석하고 최적화 하는 것이 쉬운일은 아니기 때문에 더더욱 그런것입니다. 


그래도 구글이 대단한 점은 이런 기술들을 적용함에 있어서 사람손을 거의 빌리지 않는다는 점입니다. 물론, 저작권 문제등을 이유로 프리베이스와 위키피디아, CIA월드팩트북 등의 데이터만 수집해서 데이터 풀도 적고 노출 범위도 작지만 어떻게 해서든지 자체 DB 구축을 기술적으로 이미 외부에서 만들어진 데이터를 가지고 처리할려고 하는 경향이 높습니다. 


이렇게되면 외부에서 다양한 영화정보, 리뷰 등을 생산하는 업체가 해택을 볼 수도 있고, 별도 DB 구축을 통해 수익화 할 수 있는 벤처가 생길 수도 있는 것이죠. 이런 생태계를 유지하면서 자체적인 연관도에 맞는 키워드와 정보를 사람 손으로 수집해 적용하지 않아서 좀 더 범용성있게 접근 할 수 있고, 정확도는 좀 떨어지더라도 더 많은 커버리지를 확보 할 수 있게 되는 것이죠. 


그리고 위에서도 말했듯.. 아직 초기입니다. 갈길 멉니다. 시멘틱스는 앞으로 10년뒤에나 제대로 된 가치를 발현할 수 있는 기술입니다. 웹 3.0의 발전도 결국 이 시멘틱스 기술 발전과 괴를 같이한다고 할 수 있고 의미에 초점을 맞춘 서비스도 그에 맞춰 발전해야 다양한 데이터가 생기고 시멘틱스 기술도 발전 할 수 있는 것입니다. 



소셜검색과 차별점.. 

구글에 대항 할 수 있는 기술은 SNS를 기반으로 한 소셜 검색이라고 합니다. 사람이 추천한 정보를 소셜 그래프에 기반해서 데이터화하고 추천수를 기반으로 노출하기 때문에 의미적으로는 구글 검색보다 더 정확한 정보를 만들어낼 수 있을지도 모릅니다. 


구글도 이 사실을 알고 있어서 구글 플러스를 만든 것이고요. 사용자가 많이 이용 안하더라도 거기에서 생성된 유의미한 데이터를 소셜 그래프와 지식그래프등을 이용해 기존 구글 검색 엔진과 믹스하면 충분히 유의미한 데이터를 만들 수 있는 것입니다. 


다만, 소셜 검색이 성공하려면 단순한 추천수와 사용자가 추천한 정보에만 기댈 수는 없다는 생각입니다. 가장 큰 문제는 사생활 정보의 문제가 있습니다. 


사용자가 sns를 사용하는 목적은 친구와의 관계 증진과 정보 취득이 목적이지 자신의 정보를 모든 사용자에게 오픈하는 걸 목표로 하지 않습니다. 소셜 검색은 결국 이런 사용자의 정보를 기반으로 하기에 문제가 될 수 있고 페이스북의 검색 점율이 높아질 수록 이런 문제가 큰 이슈가 될 수도 있습니다. 


또한, 소셜 서비스에선 이미 자기가 원하는 정보를 친구 기반에서 찾기에 소셜 검색이 무의미 할 수도 있습니다. 


구글처럼 sns 이용자가 아닌 검색하려는 이용자를 타겟으로 한다면 지금처럼 로그인후 서비스를 이용하는 방법을 개선해야 할지도 모르고 여러 문제가 있지요. 그래서 개인적으론 앞으로 페북이 검색을 특화해도 구글을 넘어서긴 어렵다는 생각입니다. 


오히려 요즘 뜬 소문처럼 나도는 ms 빙을 인수해 자사의 소셜 정보와 검색엔진을 연동해 별도의 검색 서비스를 하는게 더 효율적일지도 모른다는 생각을 그래서 하게됩니다.



결론, 한국도 변화하고 있어.. 

잘은 모르지만 한국에도 벤처 기업과 연구소등을 통해서 시맨틱스가 개발되고 있고 기존 포털등의 검색 서비스 업체도 지속적으로 검색 기술을 개발하고 있는 것으로 알고 있습니다. 


대표적인 시멘틱 기술을 내세우는 큐보로라는 서비스도 있고, 이미지 중심 검색 서비스도 있습니다 (이름은 잘 기억이 안나네요 ㅡㅡ;) 다만, 문서의 관계도등을 파악하고 연관성을 찾아가는 수많은 검색 이론을 보면 한국의 검색 업체는 너무 영세합니다. 


그나마 nhn이 좀 큰 편이지만, 과연 온전한 검색 기술에 투여 될 수 있는 이론을 가진 엔지니어가 몇이나 될지 싶습니다. 검색 기술은 도서관, 일반 웹, 회사.. 등 수많은 영역에서 사용되는 기술입니다. 


그런데 인력이 부족하죠. 단순히 석박사급 인력이 몇 있느냐가 중요한게 아니라 연구 과제로 그 기술을 연구하면서 체계적인 교육을 받은 인력이 몇 있느냐가 중요한데 많이 부족하다는 생각입니다. 


국가에서 이런 인력 양성을 위해 국가 DB의 검색화를 프로젝트로 내걸어 1년에 500명 내외의 검색 인력을 양성하는 프로젝트라도 했으면 좋겠습니다. 검색 기술이 어려운것은 단순한 프로그래밍만 해서는 안되기에 어려운 것입니다. 


수많은 문서의 관계도와 연관성을 따지기 위해 인지공학, 뇌과학, 네트워크 공학.. 등 다양한 분야의 전문가가 양성되어야 온전한 검색 기술이 만들어질 수 있습니다. 당장은 시장도 작고 돈도 안되지만 지금부터 10년만 이런 인력을 키워내면 머지 않은 미래에 한국에서도 구글가 겨룰 검색 서비스를 만들어 볼 수 있지 않을까 하는 생각을 남기며 이번글 마무리해야 겠습니다. 

댓글