구글의 번역, state tax bedspread ??
구글의 번역성능이 상당히 좋아진것같다는 얘기를 들어, 월드컵 결승전을 앞두고 차분한 마음으로 http://www.google.co.kr/language_tools?hl=ko 에서 구글의 번역성능을 테스트해보다가, 네이버 지식인 페이지들은 어떻게 번역될까.. 궁금.

테스트를 하는데, 결과는 뭐 형편없다. 일단 워낙 구어체가 많고, 언어파괴가 많이 되어 있어서. 다만, 뜬금없이 "state tax bedspread" 라는 번역글귀가 자주 나와, 무언고 했더니...

---주세요. 를 state tax bedspread 로 번역했다는....  ( 주:state, 세:tax, 요:bedspread ) ㅠㅠ

역시, 아직 도전할 곳은 많다.

Ps. 참고로 나는 일한번역의 경우는 http://www.excite.co.jp/world/korean 를 애용한다. 인터페이스도 깔끔하고 번역성능도 훌륭. 일본어로 된 메일 중 해석이 잘 안되면 쓰는데 제법이다. 바야흐로 한일-일한 번역의 경우는 거의 90% 정확도라 보아도 과언이 아닐 듯.
by bewise | 2006/07/10 01:42 | 언어처리 | 트랙백 | 덧글(0)
네이버야. 구(phrase) 태그는 안되겠니?
이미 정보검색관련 여러 컨퍼런스나 워크샵에서 태그를 통한 온톨로지 구축관련 아이디어가 봇물처럼 쏟아져나오고 있는 찰라, 대한민국 제1의 마음까지 찾아주는 블로그 서비스인 네이버 블로그가 태그를 지원하기 시작했다는 소식은, 3년간 개인적으로 네이버에 둥지를 틀고 블로깅을 해 왔고, 지금도 하고 있는 나에게는 무척 반가운 소식.

사용자들이 적극적으로 달아준 태그는, 사실 온톨로지 뿐 아니라, 한국어에 있어서 맞춤법과 띄어쓰기에 관한 좋은 리소스를 구축할 수 있게 해준다고 생각한다. 사용자들이 자주 틀리는 맞춤법도 비교적 자동으로 찾아낼 수 있을 것 같고, 띄어쓰기에 일관성이 없는 주요 질의 후보들에 대한 수집도 매우 손쉽게 가능하다고 생각하고 있었다.

그런데, 네이버 태그. 띄어쓰기를 해서 태그를 만들려면, 태그입력창에서 알아서 확 붙는다. "이라크 전쟁" 이라고 태그 넣으려 하면 입력창에서 자동으로 "이라크전쟁"으로 붙여 써진다. 내부적으로 그렇게 처리하고 관리하면 될 일 아닐까?

태그는 기본적으로 한 단어를 사용하는 것으로 규정하고 있는 듯. 그런데, 결국 나중엔 확장하지 않을까? 태그라는 것이 과거 키워드 라던가, 혹은 카테고리의 새로운 형태임을 감안하면, 결국 장기적으로는 구(phrase) 태그를 허용하게 될 것 같은데.

복잡한 여러가지 언어현상을 학습시키는데도 자유롭게 띄어쓰기를 허용해주며 구 태그를 허용하는 것이 좋을 것 같은데... 그렇게 하면, 태그 구름 보여주는게 어수선해져서 그런걸까? 분명한건, 띄어쓰기 허용한 태그가 가능해야 더욱 풍부한 온톨로지를 생성할 수 있다는 것. 개선되었으면 좋겠다.
by bewise | 2006/07/09 00:31 | 정보검색 | 트랙백 | 덧글(4)
< 이전페이지 다음페이지 >