기업검색엔진의 현혹되기 쉬운 마케팅 용어 (2)

타 검색엔진에 비해 000% 이상 빠른 색인 속도

검색엔진에서 색인속도는 준비된 정보를 얼마나 빨리 검색엔진에 반영 시킬 수 있느냐는 점에서 상당히 중요한 요인이 될 수 있다.
하지만, 검색의 색인방법에 관한 핵심기술은 이미 1960년대 부터 알려지기 시작하여 현재까지 크게 발전되지 못하였다.
따라서, 검색엔진에 크게 하자가 없는 한 다음의 항목에 의해 색인속도가 달라지게 되며 검색엔진 자체의 알고리즘으로 엄청나게 빨라지지는 않는다.

  1. 색인어를 추출하는 방법
    색인어를 많이 추출하게 되면 색인량이 많아지게 되기 때문에 색인속도가 느려질 수 밖에 없다.
    따라서, ngram색인은 색인량이 많아져서 아무래도 색인속도에서 손해를 보게 되기 쉽다.
  2. 형태소분석기의 성능
    형태소분석방식으로 색인이되더라도 형태소분석기 자체의 성능 및 옵션에 따라 색인속도는 달라질 수 있다.
    예를들어
    • 명사만 추출할 것인지
    • 모든 품사를 전부 추출할 것인지
    • 기분석사전을 사용할 것인지
    • 형태소분석 옵션을 얼마나 사용할 것인지
  3. 색인DB 파일의 저장 매체
    색인DB를 디스크에 저장하게 되면 아무래도 디스크IO가 많아지고 이로 인해 CPU/memory는 놀고 디스크만 바빠지는 상태가 되기 쉽다.
    따라서 디스크를 얼마나 빠른걸로 구성되었느냐에 따라 색인속도는 큰 차이가 나는 경우가 많다.
    문서의 전체 양이 얼마되지 않는다면 in-memory방식으로 색인db를 구축하는 방법이 있기도 하다.
  4. 색인과 검색의 분리 여부
    색인/검색을 수행할때는 CPU, 메모리, (특히) 디스크의 사용이 많아 질 수 밖에 없다.
    따라서 검색을 수행하는 시스템과 색인을 수행하는 시스템이 같고 동시간에 모든 작업이 이루어지게 되면  아무래도 양쪽 모두에 영향을 줄 수 밖에 없다.
    특별히 실시간 색인을 필요로 하지 않는 곳에서는 사용자가 거의 없는 시간대에 색인을 수행하게 된다.
  5. 색인이 빠른게 무조건 좋은 것은 아니다.
    색인단계에서 많은 문서로 부터 많은 정보를 추출하게 되면 아무래도 약간은 속도가 느려지게 된다. 그리고 더 많은 정보를 추출하게 되면 더 많은 옵션 및 기능을 제공할 수 있는 것은 당연하다고 할 수 있다.
    따라서 검색엔진에서 얼마나 많은 기능를 제공하는지를 비교하지 않고 단순히 색인이 빠른것만 비교하는 것도 무리가 있다.

색인시간은 사용자에 따라 중요한 요인이 될 수도 있지만, 대부분의 경우 검색품질보다는 아무래도 덜 중요하기 마련이다.
따라서 색인시간을 단축하기 위해 구지 색인어를 추출하는 양을 줄이는 것은 바람직하지 않아 보이고 대신 색인시스템과 검색시스템을 분리한다던지 디스크를 좀더 좋은 성능의 것으로 바꾸는 것이 좋을 것을 생각된다.

주의)
경우에 따라서는 색인시 CPU나 메모리에서 병목이 발생할 수도 있으니 세심한 관찰이 필요한다.

by 슈퍼맨 | 2008/09/09 09:36 | 기업검색 | 트랙백 | 덧글(0)

트랙백 주소 : http://esconsult.egloos.com/tb/807050
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]

:         :

:

비공개 덧글

◀ 이전 페이지다음 페이지 ▶