2008년 09월 08일
기업검색엔진의 현혹되기 쉬운 마케팅 용어 (1)
기업검색엔진의 브로셔나 영업자료를 보다가 지식이 별로 없는 사용자들이 쉽게 현혹 되기 쉬운 몇가지 단어를 시리즈로 알아보자
"고정밀(혹은 고성능) 한글 형태소 분석기", "풍부한 언어사전 보유"
형태소분석기술은 검색의 색인 및 검색과정에 관여하는 핵심 기술이라 해도 무방할 정도로 중요한 기술이기 때문에 이 기술이 얼마나 빠르고 정확한 성능을 발휘하느냐는 굉장히 중요한게 사실이다.
또한, 각종 사전류들도 형태소분석 품질이나 검색엔진에서 검색품질을 높히는 핵심요인이라 할 것 이다.
따라서, 검색엔진 벤더들은 거의 대부분 한글형태소 분석기의 성능이나 사전의 보유량으로 언어처리의 우수성을 입증하는 도구로 사용하려는 경향이 있다.
하지만,
- 형태소분석기의 품질은 100%가 아니다.
모든 언어처리기술은 사람은 언어를 이해하는 것을 목표로 하는데 아직 컴퓨터는 사람의 언어를 이해하는 수준이 다다르지 못했다.
따라서, 현재의 형태소분석기술은 언어의 문법 및 각종 예외상황을 알고리즘으로 정리를 한 것이며 이로 처리되지 않는 부분을 각종사전으로 처리하게 된다.
따라서 현재의 기술 수준으로 사람이 생각하는 정도의 품질이 나오지 않는 것이 현실이다. - 회사마다 형태소분석기의 성능의 차이는 크지 않다.
현재 메이저급의 회사들은 각자의 형태소분석기를 개발하거나 외부의 것을 도입하여 사용하고 있으며 전체적인 품질은 거의 비슷한게 현실이다.
실지로 BMT를 실시하여 우열을 가린다 할 지라도 그 차이가 크게 나지 않는게 현실이고 그 차이 또한 알고리즘보다는 튜닝된 사전에서 날 확률이 높다.
또한, 수치상으로는 1%정도 차이가 날지라도 보는 사람 관점에 따라 우열이 나뉘기도 한다. - 사전의 절대적인 양이 많은것이 무조건 좋은 것은 아니다.
형태소분석기의 사전은 알고리즘에 우선하는 경우가 많고 이 경우 잘못 입력된 사전은 계속적인 오류를 내보내게 된다
또한, 잘못입력된 검색엔진의 동의어 사전도 원하지 않는 엉뚱한 결과를 내보내게 되어 검색의 품질을 떨어트리는 요인이 된다.
따라서, 적절하지 못한 대규모의 사전은 색인/검색의 속도를 느리게 할 뿐만 아니라 검색의 품질을 오히려 떨어트리게 한다. - 형태소분석기의 성능을 좌우하는 것은 잘 튜닝된 사전일 확률이 많다.
실지로 형태소분석기의 성능은 잘 튜닝된 사전에서 차이가 나게 되며, 이 작업은 계속적인 반복을 통해서만 좋아 질 수 있다.
또한, 업종 및 회사의 데이타 특성에 따라 튜닝 방법이 틀려질 수 밖에 없다.
따라서
검색엔진 도입단계에서 형태소분석기의 성능이나 사전 보유량으로 검색벤더 회사를 (쉽게) 비교하는 것은 크게 의미가 없으며, 사전을 튜닝해 줄 수 있는 역량 및 경험을 얼마나 가지고 있는가를 평가하는 것이 훨씬 도움이 될 것으로 판단된다.
주석)
"사전의 튜닝"이라고 이야기하는 것은 꼭 "사전의 추가"에만 목적이 있지 않기 때문이다.
필요에 따라서는 "편집" 및 "삭제"도 이루어져야 하기 때문에 "튜닝"이라는 용어를 사용한 것이다.
# by | 2008/09/08 13:47 | 기업검색 | 트랙백 | 덧글(0)





☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]