티스토리 뷰

두 서비스의 공통점은 자체 알고리즘에 기반해 사이트를 순위화 한다는 것!!

여러분은 정보를 취득할때 어떤 기준과 원칙에 의해 정보를 취득하나요? 정보란 것은 어떻게 취합하고 정리하느냐에 따라 유용한 정보가 되기도하고 의미 없는 단순한 데이터가 되기도 합니다.

검색 엔진이란 것은 결국 세상에 널려 있는 수많은 정보중 우리가 필요로하는 데이터중 유용한 정보를 찾기 위한 도구가 되고 있는데요. 오늘은 이 정보의 보고 검색엔진에 대해 이야기를 해볼까 합니다.



세상의 수많은 정보를 어떻게하면 사용자가 원하는 데이터로 가공해 이중 유용한 정보를 골라 제공 할지 생각해본 사람은 많지 않을 것입니다. 인터넷 초창기 너무 많은 데이터를 도서관식 색인에 의한 분류의 한계를 체감하고 일찌감치 이를 개념화해 논리적으로 데이터를 분류해 제공하는 서비스들이 생겨났습니다.

이것이 바로 검색엔진인데요. 메타 데이터에 기반해 정보를 찾아주던 수많은 검색엔진중 구글이 살아남게 된 것은 인간의 정보 검색 방법을 개념화해 프로그램으로 구현해 내면서 좀 더 가치있고 유용한 정보를 제공 할 수 있었기 때문입니다.

그중에서도 핵심이 될 수 있는 키워드에 따른 랭크 개념을 오늘은 이야기 해볼까합니다.


1. 구글 페이지 랭크의 탄생배경
페이지랭크(PageRank)는 월드 와이드 웹과 같은 하이퍼링크 구조를 가지는 문서에 상대적 중요도에 따라 가중치를 부여하는 방법입니다. 이 알고리즘은 서로간에 인용과 참조로 연결된 임의의 묶음 평가해 랭킹을 만들어 사용자에게 좀 더 유용한 정보를 제공하는 것입니다.

페이지랭크는 스탠퍼드 대학교에 재학 중이던 래리 페이지와 세르게이 브린이 새로운 검색 엔진에 대한 연구 기획의 일부로 개발되었습니다.

아마도 당시만해도 이런 거대 기업의 창업자가 되리라곤 생각도 못했겠죠 ㅡㅡ;; 이 기획은 1995년 시작되었고 중도에 구글을 팔려고도 했습니다.

대학생 둘이서 단순한 프로젝트로 진행하기에는 부담 될만큼 프로젝트가 커지기도 했고 좀 더 가치있는 집단에서 좋은 서비스가 되길 기대했던 것 같습니다.

희망 가격 16억원에 야후, 인포시크, 익사이트 등 여러 포털에 구매를 독려했지만 결국 너무 비싸다는 이유로 판매가 좌절되 1998년 벤처투자가로 부터 100만달러를 투자 받아 구글을 창업하게 됬습니다.

재미있죠. 만약이란 단서가 붙지만 당시 구글이 팔렸으면 어떠했을까요? ㅎㅎ;;


2. 알랙사 인터넷의 탄생
알렉사는 1996년에 설립된 이후 바로 이름을 날리기 시작 했는데 특히, 알렉사가 사이트별 트래픽 정보를 수집하는 데 사용하는 알렉사 툴바를 1998년에 넷스케이프 브라우저에 내장됨으로써 매우 넓은 범위의 데이터를 수집 할 수 있게 되면서 본격적인 명성을 얻게 됩니다.

하지만 윈도우즈 98에 인터넷 익스플로러가 내장됨으로써, 그 때를 기점으로 넷스케이프의 점유율은 급격히 감소했기 때문에 독보적인 트래픽 조사기관이 될 수 있는 기회를 잃게되죠.

어찌보면 알렉사의 꿈은 MS에 의해 잃게 된 것이나 다름 없습니다.

하지만 알렉사가 그나마 지금가지 명맥을 유지해 온 것은 가장 큰 표본 집단인 알렉사 툴바 사용자를 확보하고 있기 때문인데요. 현재까지도 어느정도 이 툴바 사용자로 권위를 유지하고 있습니다.

결국 성장은 한계가가 있었고 궁극에는 아마존에 인수되면서 아마존 자회사가 되는 걸로 알려져있습니다.

네스케이프가 세상을 지배했으면 어땠을까? ㅎㅎ


3. 페이지 랭크와 알랙사 랭크의차이점은?
알렉사는 아마존 인수후 본격적으로 아마존에 기반한 웹서비스에 특화시킵니다. 인터넷 리서치 기관이 아닌 아마존의 하류서비스가 되죠. (그렇다고 모든 서비스를 아마존에만 맞춘 것은아니었습니다.)

암튼, 알렉사 랭크의 핵심은 바로 툴바 이용자의 표본 집단을 활용한 서비스의 평가에 대한 "권위"를 기본으로합니다. 그래서 그들은 그들의 조사 방법에서도 논리적 기준을 제시하는데 통계학적 방법을 많이 고민하는 것 같습니다.

전통적인 표본 집단을 활용해 다양한 계층적 특징을 반영헤 이들의 인터넷 사용 패턴과 내용을 계측화해 이를 객체화하는 것이지요.

반대로 페이지 랭크는 구글의 전체 지역 페이지까지 사용자들의 사용 현황을 패턴화해 이용하는 것이 아닌 사용자가 의미를 부여 할 수 있는 다양한 인용 정보를 기초로해 이를 사용자의 평가 지수화해 알고리즘에 반영하고 있습니다.

한마디로 구글은 인용과 컨텐츠 내에서의 데이터를 기본으로 한다면 알렉사 랭크는 표본 집단의 사용 패턴이 좀 더 큰 비중을 가지고 있는 것이 큰 특징인 것입니다.


4. 두 랭크의 장단점과 한국에게 시사하는 점은?
알렉사 랭크는 표본 집단을 기준으로 하기 때문에 장점은 사람의 이용 습관이나 패턴 등이 큰 영향을 미친다는 것입니다. 그래서 어찌보면 이런 사용자를 기반으로 해는 데이터에서는 꽤 좋은 근거를 제시하기도 합니다.

하지만 사람 개개인마다의 사용 특징이 너무 다르고 지역, 성별, 연령 등의 분포에 따른 세부적 특성이 서비스 이용과 통계 측정에 영향을 미쳐 논리적 객관화가 불가능하다는 점입니다.

구글 페이지 랭크(Google Page Rank)는 5억개 이상의 변수와 20억개 항으로 구성된 방정식을 계산하여 웹페이지의 중요도를 객관적으로 평가합니다. 중요한 페이지는 높은 점수를 받고 검색 결과의 상단에 표시가 되고 돈을 받고 검색결과를 변경하는 등 사람의 개입이나 결과 조작이 없어 객관적인 점수란 평을 받고 있는 것이 특징입니다.

어떤면에선 데이터를 객관적으로 이용하기 때무에 논리적 객관성 증명에는 유리합니다. 하지만 반대로 일정 부분 패턴화되어 있어서 이 패턴을 알면 검색 상위 노출과 이용을 의도대로 변경 할 수 있다는 단점도 생깁니다.

그래서 최근 이 문제때문에 논란이 일자 알고리즘을 변경해 최대 11% 이상의 검색 결과 노출을 변경시켰습니다. 그로 인해 검색 최적화로 돈벌고 있던 많은 에이전시와 제조사들이 큰 타격을 받았다는 기사도 있습니다.

중요한 것은 두개의 서비스 모두 독보적 기술력으로 지속적인 사용자 의도와 유용성을 제공하기 위해 지속적으로 개선 작업을 거치고 있지만 한국의 경우 그 빈도나 방법에 많은 문제점이 있다는 것이죠.

네이버처럼 자사 서비스 내에서의 사용자 정보를 기반으로만 한다거나 유의미한 데이터 제공에 대한 가중치 증대로 검색 퀄리티를 떨어 뜨리거나 네이트의 어설픈 시맨틱스를 이용 사용자 이용 쿼리를 뻥튀기하는 이상한 짓을 하는한 언젠가는 구글에 시장 잠식이 가능 할 것 같습니다.


결론, 기업이 성공하는 것은 철학과 기술력
구글은 뇌과학, 환경공학, 도시공학등 많은 분야에서 인문학적 특성과 인간에 대한 탐구를 위해 끊임 없이 노력하고 자금을 투자하고 있습니다.

이런 이유는 결국 서비스도 인간의 발전과 역사의 발전에 따라 그 의미와 서비스 개발 방법이 바뀌기 때문입니다.

예를들어 뇌과학은 구글의 네트워크 구축에서 개발 방법론은 찾고 있고 환경공학은 구글의 서비스 환경과 구조에 많은 영향을 행사하고 있습니다.

하지만 한국의 기업은 어떤가요? 철학도 의미도 없이 돈벌기에 급급해 펌글을 조장하고 자사 서비스에 대한 비중을 높이기 위해 저작권도 무시하는 행태가 많아지고 있습니다.

어떤때는 스팸글이 전 화면을 뒤덮기도 하죠. 지금이야 포털만 이용하면 다 되지만 그런 날이 얼마나 남았을까요. 서비스를 만들고 운영해가는 자신들의 철학과 방법이 무었인지를 생각하고 이를 위해 끊임 없이 기술투자하는 노력이 지금부터라도 병행되어야 하지 않을까 싶습니다.

여러분의 성원덕에 어제 2011년 03월 27일 늦게 메인에 올랐네요. 전 잘 몰랐는데 올라가 있었네요. 모두 감사드립니다.



[참고] 구글 페이지랭크와 알렉사 랭크에 대한 이해 http://fb.me/OvGab3ns
댓글