태그 : 아울림

차세대 검색기술 키워드 '시맨틱'!?

출처 : http://www.newsprime.co.kr/news/articleView.html?idxno=72402

지난 STS2008행사에서 설문조사한 내용이 설문조사를 통해 '의미기반(시맨틱) 검색'이 앞으로 가장 주목 받는 검색기술로 꼽혔다고 보도했다.

현재 '의미기반 검색'이라는 buzz word를 장악하고 있는 회사는 큐로보라는 검색사이트를 운영하고 있는 시맨틱스라는 회사이다.
이 회사에서 말하는 '의미기반 검색'은 (시맨틱하게 만들어진 웹이 아닌 일반)웹으로부터 의미 정보를 추출하고 이를 (온톨로지가 아닌) 나름의 개념DB를 생성한 후 이용한 검색시스템을 말한다고 한다.
사람의 수작업율은 1%정도라고 한다.

기업검색 쪽에서 이와 비슷한 시도는 예전 쓰리소프트의 엠피드 서비스와 솔트룩스의 아울림 서비스정도라고 할 수 있겠다.

현재의 '의미기반 검색'은 어느정도에 와 있을까? 어느정도 활용이 가능할까?
다음의 '의미기반 검색' 사이트를 이용하여 보자
* RISS 온톨로지기반 의미검색
* 국가기록원 나라기록 의미검색
뭔가 느끼는 것이 있는가?
위 동영상의 시맨틱스의 이영진 부장은 현재는 10단계중 2단계 정도라고 말한다. 앞으로 "갈길이 멀다"라는 얘기이다.

분명한것은 '의미기반 검색'이 차세대 트랜드인것은 확실하지만 이는 학계의 이야기이며 업계에서는 이보다 구체적이고 피부로 느낄 수 있는 것들을 보여주기를 기대한다.

by 슈퍼맨 | 2008/12/23 14:36 | 기업검색 | 트랙백 | 덧글(0)

솔트룩스 아울림 공식 오픈

지난 5일날 솔트룩스아울림을 공식 베타오픈 하였다.
그에 관한 포스팅을 바로 하려다가 몇몇 서비스가 불안정한 것 같아 몇일이 지난 오늘 다시 한번 들어가 보고 내용을 파헤쳐 보기로 하였다.

일단, 전체적인 느낌은 공을 상당히 많이 들였다는 생각이 든다.
이 서비스를 통해 큰돈을 벌려고 한다면 많이 모자라지만 회사의 능력을 보여주려는 서비스로는 괜찮은 출발이라고 할 수 있겠다.

가장 눈에 띄는 것이 역시 "토글"이라고 하는 원반형태의 단어띠를 볼 수 있다.

 
이는 검색시에도 나타나게되며 그날의 메인 이슈 키워드를 보여주거나, 검색어와 관련된 다른 단어를 보여주는 용도로 사용될 수 있겠다.
단어 옆의 아이콘을 클릭하게 되면 관련된 문서, 이미지, 위키사전, 인명사전 등을 볼 수 있다.
 


검색은 "블로그", "뉴스", 잡지"의 내용을 색인하여 이용하고 있는 것으로 보이며, 아마도 RSS Feed를 이용하여 수집을 하고 있을 것으로 판단된다.


검색창의 자동완성 기능은 개체명사전을 연동시켜 놓은다.


검색결과화면에서는 "토글" 이외에 클러스터링 결과를 그래픽하게 보여준다.


또한, "통계"기능으로 해당 검색어의 빈도를 날짜별로 볼 수 있도록 구성하였다.

검색 및 분석의 모든 기능은 8개의 분류로 구분되었으며, 해당 분류에 따라 다른 결과를 보여준다.

느낀점

  1. 추출된 단어가 아닌 "구" 형태로 나름 의미있는 분석을 해 낸 것으로 판단된다. - 내부적으로 구형태에 높은 가중치를 주는 것으로 판단된다.
  2. 자동완성은 개체명사전을 이용것으로 판단되나, 현재의 트랜드 단어가 추가되거나 하지 않는 것으로 보아 어디서 도입한 사전으로 걍~ 이용하고 있는 것으로 보인다.
  3. 검색엔진의 색인주기가 실시간이 아님
  4. 검색되는 단어가 많아질수록 토글의 속도가 현저하게 느려짐 - 때로는 검색불가
  5. 부가적인 비쥬얼("토글", "통계", "이미지", "클러스터링")에 비해 검색결과가 눈에 들어오지 않는다. 이는 향후 계속적인 고민이 필요할 것으로 판단됨.
  6. 뉴스 및 잡지 데이터의 저작권은 해결했는지 궁금...
  7. ‘토글’이라는 단어의 탄생배경이 무엇인지?
  8. '시맨틱'이라는 단어를 전면에 내세웠는데....(이름도 '아울'림 아니던가?) 어떤 부분에서 시맨틱 기술을 이용했는지....???
  9. 아직은 시스템이 불충분하여 그런것인지는 알 수 없으나, 검색속도가 전반적으로 충분하지 않다.
  10. 알려주기 싫은 것인지는 알 수 없으나, 색인된 건수를 알 수가 없다. 따라서 시스템의 성능을 대략적으로 측정할 수 있는 기준이 없는 것이다.
  11. 엠피드, 큐로보와 차별성이 떨어진다. 비슷한 서비스를 만들려고 한것이라면 어느정도 성공했지만, 좀더 좋은 서비스를 구상한 것이라면 아직은 할일이 더 많아 보인다.

by 슈퍼맨 | 2008/11/10 13:47 | 기업검색 | 트랙백 | 덧글(0)

◀ 이전 페이지다음 페이지 ▶