티스토리 뷰

Think Tree/갥소리

필터링은 과학이 아닙니다.

어설프군 YB 2007. 9. 12. 11:41

사람들이 필터링이란 이야기를 많이한다.
그럴수밖에 없는것이 누구나가 필터링을 통한 좋은글을 보고자하는
간절한 마음을 가지고있기 때문이다.

하지만 그 간절함을 반영하여 시스템에서 적절하게 필터링해주기란
정말 어렵다는 생각을 한다.

일예로 얼마전 네이버에서 일종의 필터링 시스템을 선보였다.
물론 좀더 자세히 말하자면 필터링은 아니지만 말이다.

그렇지만 그러한 시도를 한다는것 자체가 응원해 주어야 할 일이라 생각한다.
그당시 어떤 블로거는 기획장 입장에서 아주 객관적으로 네이버의 시스템에
대해 언급한적이 있는데..

대략 내용은 이러했다.
"어떤 시스템이든지 100% 완벽한 결과를 얻어낼 수 있는 시스템은 없다.
100%에 가깝게 다가가기 위해 노력할 뿐이다. 이런 관점에서 네이버의 시스템은
90%이상의 정확한 필터링을 자랑한다. 10%의 오차는 차차 시간을 통해서
고도화하는 길뿐이라 생각한다"고 했다.

그런데 그 10%오차를 못참는 사람들이 있다. 이들이 주도하여 여론몰이를
통해 몇몇 블로거 자신들의 의견이 온라인에서 대세인양 이야기한 적이 있는데
작은 블로그 스피어 내에서 너무 한다란 생각을 했던적이 있다.

더군다나 몇천만건의 달하는 데이터중 90%가까운 적중률을 보일 수 있다는 것만으로도
충분히 이 시스템은 값어치가 있으며, 또한 경험을 축적하는 과정에서 더 고도화 되어
나갈 수 있다고 생각이된다.

어쨌든 결론은 필터링은 어렵다는 것이다.
사람의 인력이 들어가면 들어갈 수록 결과치는 좋아지겠지만
그만큼 금전적 투자가 따라야하며 기술적인 도전을 한다는것은 너무나 많은
한계를 가지고 있다는 것이다.

어설프군은 이에 여러 고민을 하게된다.
구문분석을 통해 특정한 문장중 스팸성이라 판단되는 글을 제외한다던지..
네이버같은 문서 분석 시스템을 만든다던지..

그도 아니면 일정한 블로거 그룹을 만들어 다음처럼 사전 검열을 한다던지 말이다.

어느것하나 이것이 정답이다라고 말할 수 없지만 결국 어떤 방식으로든
글의 퀄리티를 보장할 수 있는 필터링은 진행되어야 할 것으로 보인다.

암튼 필터링의 중요성을 되집어본 어설프군의 넋두리였다.

댓글