기업검색 웹문서 수집기의 발전

일반적으로 웹문서 수집기를 이르는 용어는 크롤러(Crawler), 스파이더(Spider), 로봇(Robot), 에이전트(Agent) 등으로 표현되며 웹에 존재하는 HTML문서나 binary파일을 로컬로 수집하는 용도로 사용하게 된다.

전통적인 웹문서 수집기는 웹문서 1페이지를 실제의 문서 1페이지로 보고 수집을 하게 되며 이때 HTML상의 <TITLE>테그의 내용을 제목으로, 그 외의 내용에서 테그를 제외한 텍스트를 본문으로 인식하게 된다. 또한 해당 HTML에서 추출된 링크(예를들어 <A href="....">)를 추출하여 다음에 찾아갈 페이지를 찾게한다.
현재 Google과 같은 인터넷 검색엔진은 모두 이러한 방식으로 수집이 이루어지고 있다.

기업검색에서도 인터넷검색에서와 마찬가지로 2000년대 초반까지는 전통적인 수집기를 그대로 이용하였으나 점차 새로운 요구사항들이 출현하게 되었다.

  • 신문/게시판/자료실과 같이 일정한 규격(제목,작성자,작성일,본문,첨부파일)이 있는 데이타를 내 RBMS에 필드별로 저장하고 싶다.
  • copyright문구/광고문구/logo 같이 같은 사이트에서는 모든 문서에 항상 똑같이 나오는 text는 제거하고 수집하고 싶다.
  • 인증이 필요한 페이지의 내용도 수집하고 싶다.
  • 전통적인 로봇에서는 불가능한 javascript형태의 링크(예를들면 <A href="javascript:go_nextpage(1)">)로 따라가면서 수집하고 싶다.

위와같은 요구사항들은 전통적인 수집기에서는 불가능한 기능들이며 그로 인해 완전히 새로운 형태의 수집기들을 시장에 출현하게 되었다.
업체들은 이런류의 수집기를 가지고 주로 "해당 기업과 관련된 인터넷상의 풍문수집"을 하거나 "DB공유가 힘든 유관기관 자료수집"을 하게 되었다.
(참고로 이런류의 수집기는 한국에서만 활발하게 개발이 진행되고 있는 것으로 보이며 해외에서는 이런 제품들을 찾아 보기 힘들다.)

하지만, 웹이라는 것이 계속적인 기술적 발전을 하고 또 HTML은 선천적으로 제작자에게 많은 자유도를 부여하면서 수집기 또한 이러한 상황에 맞추어 발전을 이루어지게 되었으며 현재는 많은 기술적인 발전이 이루어져서 고객의 다양한 요구사항을 충족 시켜주는 형태로 발전하게 되었다.

  • 사용자들이 wizard형태로 쉽게 수집할 페이지의 등록할 수 있는 기능
  • 실제로 정확하게 수집하는지를 미리 체킹할 수 있는 기능
  • 수집이 잘 되지 않은 페이지를 관리자에게 알려주는 기능
  • 각종 수집관련 통계기능
  • 특정 키워드가 속한(혹은 속하지 않은) 페이지만 수집하는 기능

특히 최근의 출시되는 수집기들은 사용자 스크립트를 지원하여 수집되는 형태를 조정하거나 템플릿으로 수집이 불가능한 페이지를 수집할 수 있도록 기능을 제공하고 있으며, 그 외에도 "ajax페이지 수집", "수집페이지의 덤프이미지 캡쳐"등의 기능을 제공하기에 이르렀다.

by 슈퍼맨 | 2008/09/10 09:10 | 기업검색 | 트랙백 | 덧글(0)

트랙백 주소 : http://esconsult.egloos.com/tb/811305
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]

:         :

:

비공개 덧글

◀ 이전 페이지다음 페이지 ▶