티스토리 뷰

한국에 시사하는 바가 큰, 구글의 스팸전쟁

구글이 드디어 스팸에 대한 정책적 접근에 기준을 설정 한 것 같습니다. 과거에도 스팸머나 부적격 (금융광고, 19금 컨텐츠.. 등)이 상위에 노출되지 않도록 하는 정책을 취했으나 이번처럼 구체적 기준을 제시하지는 않았었습니다.

해당 내용은 구글의 블로그에 올라온 내용을 기초로 살펴볼 수 있는데요.  해당 내용을 살펴보도록 하시죠.


<출처: Google Blog>

이번 개편의 핵심은 바로 "어뷰징(abusing)" 문제를 공식화 한 것입니다. 어뷰징은 인기 검색어나 인기글 등을 활용해 클릭수를 조작하는 행위라고 규정 할 수 있습니다.

바로 이 어뷰징은 한국 같은 경우는 인기 검색어를 이용, 해외의 경우는 구글에서 이용하는 페이지 랭크 같은 개념의 이용해 검색 순위를 높여 궁극에는 클릭수를 높이는 그런 행위를 일삼는 행위일텐데요.

해외에서는 이런 행위를 스팸머에 견주어 평가하는 것 같습니다. 그리고 이런 행위를 배제하려는 노력이 곳곳에서 일어나고 있는데요. 문제는 한국의 경우 이를 조장하고 있는 것입니다.


1. 구글이 하려는 어뷰징 규제책은 무었인가?
구글은 어뷰징을 질이라는 표현으로 정의하고 있습니다. 즉, 퀄리티가 높고 낮음에 대한 기준을 가지고 서비스를 평가해 이런 행위를 차단한다는 것인데요.

블로그에 올라와 있는 내용을 기초로 평가해 보면 다음과 같은 내용을 전제로 이런 스팸머를 필터링하는 알고리즘을 개선 한 것 같습니다.

이번 검색 알고리즘 개선에서는 원본(original) 콘텐츠를 적당히 베껴 운영하는 사이트를 질 낮 사이트로 규정했다는 것입니다. 이를 통해서 인기 검색어를 기반으로 원본 콘텐츠를 적당히 베껴 조악한 콘텐츠를 대량으로 생산하면서 검색 랭킹 상위에 올리는 행위를 차단하기로 한 것입니다.

이런 작업으로 인해 기존 검색 결과에서 전체적으로 11.8% 정도의 결과가 달라 질 수 있다고 발표 했습니다.

그러나 과거엔 이런 작업이 쉽게 이루어지지 않았던 것은 구글이 스팸머를 차단하면 결국 자신들의 철학이 배여있는 페이지랭크(구글의 검색 결과 순위를 평가하는 기본 개념)을 뒤 업는 것이기에 쉽게 인정하지 못했고 또, 근간을 뒤흔드는 로직 개선이 필요해 고민이었을 것입니다.

여기에 광고주 문제도 있겠구요.


2. 이런 어뷰어들의 특징은 무었이고 어떤 문제가 있었나?
이번 문제는 어떤 면에서는 미국 유명 백화점 제이씨 페니(JC Penny)의 구글 검색결과 조작 문제로 촉발 됬을 수 있습니다.

뉴욕타임스(NYT)보도에 따르면 제이씨페니가 지난해 말 미국 최대 쇼핑시즌을 포함해 최근 수개월 간 구글에서 의류,가구,침구류,스키니진 등 부문에서 검색 결과를 높여 검색 유입을 늘리기 위한 작업을 진행했을 것으로 진단하고 있습니다.

이 작업에 사용 된 기술이 사이트 인지도 향상에 사용되는 블랙 햇(black hat) 기술과 화이트 햇 (white hat) 기술로 검색 랭킹을 조작하는 것으로 밝혀졌습니다.

"블랙 햇의 경우 구글 페이지 랭크에 영향을 미치는 백링크를 높이기 위해 수백개 사이트에 돈을 주고 링크를 걸어 순위를 높이는 방법이고 화이트 햇은 방법은 검색 결과에 대한 타당성에 대한 컨설팅 회사 의뢰를 통해 인위적 조작이 아닌 로직에 따른 조작화를 진행하는 것이라고 합니다."

그러나 구글의 최대 광고주 기업중 하나인 제이씨페니라 알면서도 모른척 눈감아 준 것이라는 비아냥을 들어야 했다고 하네요.

이 이외에도 전문적으로 블로그로 먹고사는 사람중 자신의 블로그 이외에 수백개의 클론 블로그를 운영하고 돈을 받고 컨텐츠를 제작해 주는 업체에 의뢰해 이 수백개의 클론 블로그를 운영하고 애드센스를 달아 수익을 버는 유저등 교묘한 이용자가 많았다고 합니다.

이런 문제는 결국 검색 결과에 대한 신뢰를 떨어뜨리고 사용자로 하여금 구글 검색과 수익 모델에 문제를 제기하기 시작하면서 이에 대해 개선 움직임이 있었을 것으로 생각됩니다.

한마디로 구글의 광고주와 이용자 사이에서의 고민이라고 할 수 있는 것입니다. 차후 제이씨 페니의 검색 결과 순위가 낮아지면서 해프닝으로 끝났지만 완벽한 문제 해결이라고 볼 수는 없었겠죠.


3. 페이지랭크 알고리즘의 문제
공학쪽 특히 검색 알고리즘 쪽을 공부하시는 분들은 알고 계실텐데요. 컨텐츠를 수집해서 수집 된 글과 검색어의 연관성을 유추하는 방법이 크게는 키워드 삽입 비율과 해당 글의 참조, 댓글이용.. 등 해당 사이트에 기록된 각종 정보를 나름의 로직과 계산법으로 계산해 순위를 산정하는 것입니다.

구글에선 이를 페이지 랭크라고 불리우고 있고 페이지 랭크도 제목, 내용, 태그, 카테고리, 백링크, 인링크.. 등 여러 평가 기준을 이용하는데요. 그중에서도 백링크 즉 타 웹사이트나 블로그에서 자신의 글을 인용하는 회수 등을 기본 줄기로 삼고 있습니다.

내글이 다른 사이트에 걸린다는 것은 인용으로서 컨텐츠 가치가 높다는 것인데요. 스팸머들이 이를 인용하고 있는 것입니다.

내부에서 이런 문제를 고민하고 있기에 단순 백링크 이용수와 해당 사이트와의 연관성등 여러 부가적 평가 요소를 통해 문제를 최소화 하고 있을 것으로 판단됩니다.

그러나 검색 알고리즘이란게 현재 기술로는 이를 완벽하게 평가 할 수 없고 스팸머들이 수개월에 걸쳐 점진적으로 진행한 작업을 구분해내는 것은 불가능에 가깝다고 할 수 있습니다.

그래서 이를 이용해 어뷰징이 최근 확산되는 추세에 있었던 것입니다.


4. 구글이 채택한 방법의 핵심과 한국에 시사하는바는?
구글이 원본 사이트에 대한 카피 사이트의 어뷰징 방지란 내용을 게시한 걸로 보아 컨텐츠내에 최초 수집 된 글에서 카피한 내용을 평가해 이를 알고리즘화 한 것이 아닐까 추측 됩니다.

처음 발행한 사이트 노출후 몇시간내 수집된 글들에 대한 연관성을 평가후 이글에서 문단이나 키워드 연관성을 따져 카피사이트를 판단후 제안하는 것이지요. ㅎㅎ;; (일단, 이정도 추론밖에는 못하겠네요.)

하지만 한국의 검색 서비스들은 검색 결과보다 광고 노출에 혈안되 있고 무었보다 문제인 것은 스스로 어뷰징을 조장하고 있다는 것입니다.

자신들이 제공하는 블로그, 카페등을 중심적으로 노출해 어뷰징을 유도하고 외부 수집 컨텐츠는 제한을 걸어 노출에 제한적으로 허용하고 있습니다.

구글은 자신들의 블로그 조차 한국 검색 사업자 처럼 대놓고 어뷰징하지는 않더군요. 아이러니 하죠? 서비스 제공자가 어뷰징을 하고 있으니 말입니다. ㅡㅡ;;

한국의 유저가 그만큼 어리석다는 것이고 문제는 한국 기업들이 이를 철저히 이용해 수익과 트래픽 향상에만 목을 매고 있다는 것이 문제점입니다.


결론, 구글의 노력은 미래가 있지만 한국 사업자의 미랜 불투명해..
그동안이야 한국의 사업자는 자신들이 쌓아 놓은 기틀안에서 버텨 왔지만 앞으로 구글과 같은 노력을 기울이지 않는다면 결국 도퇴 될 것입니다.

특히, 네이버처럼 카페, 블로그내 스크랩을 조장하고 이를 검색 결과 노출에 반영해 자사 서비스 이용을 높이는 어뷰징이 계속된다면 길이 안보입니다.

이렇게 생각하는 것은 현재 수년내 결국 모든 플랫폼이 모바일과 무선 클라우드로 큰 변혁이 이루어 질텐데요. 이런 대응 과정에서 사용자가 한국 이외의 서비스에 대해 알아가기 시작하면서 인식이 변할 것이라 판단하기 때문입니다.

지금도 모바일 점유율로 따지만 네이버 점유율이 웹처럼 독보적이진 않습니다. 웹과는 다른 결과죠. 새롭게 학습이 진행되고 있고 한국 이외의 서비스를 알아가고 있는 중입니다.

저만해도 메일 Gmail 씁니다. 검색 구글 쓰구요. 마이크로 블로그 트위터, 페이스북 이용중입니다. 한국 서비스 이용은 다음뷰, Tistory, 뉴스정도 이용합니다. 네이버 안가본지가 언젠지 모르겠습니다.

그런데 이런 모바일 환경에서도 정신 못 차리고 지속적으로 어뷰징을 한다면 누가 그 서비스를 이용하겠습니까. 다양한 결과과중 최적의 결과를 보여줘야하는데 들어가면 다 네이버 컨텐츠 밖에 없을텐데 이용하는게 오히려 이상한 거죠.

그것 마저도 퀄리티가 한참 떨어지지만 말입니다.

이제는 서비스 제공에 대한 마인드를 변화 시켜야 합니다. 검색 결과도 사용자가 원하는 needs에 부합하게 변경해야 하고 외부에서 수집된 컨텐츠 노출 비율도 높여야 합니다.

그래야 한국내 수많은 경쟁 서비스가 많은 수해를 입을 수 있을테고 그래야 한국의 IT 경쟁력이 상승해 외산 서비스 방어가 더 수월해지고 결국 이런 선 순환이 한국 서비스의 경쟁력을 높이는 길이란걸 알야야 할 때가 아닐까 생각됩니다.

댓글