A Language detector

출처 : NLP in Java : A language detector

해당 문서의 언어를 판별하는 것은 언어처리하는 사람입장에서는 굉장히 중요한 일이 될 것이다.
왜냐하면, 점점 많은 문서들이 유니코드를 사용하게 되면서 charset만으로는 언어를 알아낼 수 없고, 문서의 언어를 판별을 해야 적당한 파싱방법을(형태소 분석 등)를 선택할 수 있지 않겠는가?

다국적 검색엔진들은 이런 기능을 이미 갖추고 있지만, 국내 검색엔진에서는 어떤지 잘 모르겠다.

위에 소개한 Blog에서는 Java로 언어 Detect하는 방법을 소스와 같이 소개하고 있다.
물론 항상 정확하다고 볼 수는 없겠고, CJK(Chinese, Janpanese, Korean)을 아직 처리하고 있지는 못하지만 하나의 방법론으로는 눈여겨 볼 만한 가치가 있을 것으로 생각된다.

by 슈퍼맨 | 2009/02/04 17:44 | 기술 | 트랙백 | 덧글(2)

트랙백 주소 : http://esconsult.egloos.com/tb/1347213
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by 최종욱 at 2009/02/05 02:28
브라우저 쪽에서 쓰는 엔진들이 괜찮은게 많은 것 같더라구요.
Commented by 슈퍼맨 at 2009/02/05 09:08
네... 그렇죠...
어디든 문서를 다뤄야 하는 곳이라면 이 문제는 풀어야할 숙제인 것 같습니다.

:         :

:

비공개 덧글

◀ 이전 페이지다음 페이지 ▶