태그 : Language
출처 : NLP in Java : A language detector
해당 문서의 언어를 판별하는 것은 언어처리하는 사람입장에서는 굉장히 중요한 일이 될 것이다.
왜냐하면, 점점 많은 문서들이 유니코드를 사용하게 되면서 charset만으로는 언어를 알아낼 수 없고, 문서의 언어를 판별을 해야 적당한 파싱방법을(형태소 분석 등)를 선택할 수 있지 않겠는가?
다국적 검색엔진들은 이런 기능을 이미 갖추고 있지만, 국내 검색엔진에서는 어떤지 잘 모르겠다.
위에 소개한 Blog에서는 Java로 언어 Detect하는 방법을 소스와 같이 소개하고 있다.
물론 항상 정확하다고 볼 수는 없겠고, CJK(Chinese, Janpanese, Korean)을 아직 처리하고 있지는 못하지만 하나의 방법론으로는 눈여겨 볼 만한 가치가 있을 것으로 생각된다.
# by | 2009/02/04 17:44 | 기술 | 트랙백 | 덧글(2)
◀ 이전 페이지다음 페이지 ▶