문득 이 것도 눌러보고 싶어졌습니다.
누르면서 '장난하냐?'나 그 밖의 장난스러운 내용들이 써 있을거라 생각했는데...
다음과 같이 나름 설득력있는 내용들이 일목요연하게 정리되어 있더군요.
저정도 쎈쑤를 발휘하려면 일 할 시간도 없을 듯합니다만. 쿨럭 ㅎ.ㅎ
일단 아무 허락도 받지 않고 푹 퍼왔습니다. =_=;
작성자: 이충식 (구글 코리아 소프트웨어 엔지니어)
날짜: 2008년 4월 1일
핵심기술에 대해 간단히 설명해 주시겠습니까?
기계번역에 관한 연구는 컴퓨터 개발 초창기부터 진행이 되어 왔습니다. 많은 시도가 있었지만 너무 많은 계산량이 필요했기 때문에 당시 기술로는 실제 시스템으로 구현하는데 어려움이 많았습니다. 그러나 구글의 거대한 네트웍 컴퓨팅 파워를 이용할 수 있게 되면서 희망이 생기기 시작했지요. 수없이 많은 컴퓨터를 서로 네트웍으로 연결하여 하나의 가상 컴퓨터처럼 사용할 수 있게 되면서 예전에는 상상할 수 없는 수준의 계산을 처리할 수 있게 되었습니다.
구글의 번역 기술은 이러한 강력한 하드웨어 및 네트워킹 기술을 기반으로 그 위에 통계 기반 인공지능 기술을 접목해서 구현이 되고 있습니다. 수십억 단어 수준의 상호 번역 데이터로부터 다양한 기법을 사용하여 문장, 구문, 단어간 번역 후보를 생성합니다. 사용하는 상호 번역 데이터가 많으면 많을수록, 그 품질이 좋으면 좋을수록 더욱 좋은 품질의 번역 후보들이 생성됩니다. 이렇게 생성된 번역 후보들을 결합하여 최종적으로 사용자가 입력한 문장을 가장 자연스러운 형태로 생성합니다. 이번에 개발한 사투리 번역 기술도 동일한 기술을 사용하고 있습니다.
사투리 번역 구현시 기술적으로 가장 어려웠던 점은 무엇입니까?
데이터를 모으는 작업이 가장 어려웠습니다. 두 언어 간의 번역기를 만들기 위해서는 방대한 양의 병렬 데이터 - 두 사투리 간의 번역 데이터 - 가 필요하기 때문에 사투리 번역 서비스를 개발하기로 결정한 후, 곧바로 대규모 병렬 데이터 수집에 착수했습니다. 현존하는 사투리 병렬 데이터가 많지 않을 것으로 보고 직접 인력을 투입하여 데이터를 생성하기로 결정했습니다. 각 지역별로 사투리에 능숙한 인력을 고용하여 수개월간의 작업 끝에 20억 단어 규모의 표준어, 전라도, 경상도, 충청도, 제주도, 강원도 사투리 데이터베이스를 구축했습니다.
형태소 분석 작업 역시 어려웠습니다. 오랜 세월을 거쳐서 변형을 거듭해 온 사투리는 표준어에 비하여 규칙을 따르지 않는 경우가 많았고, 다양한 형태소가 축약되어 말하기 편한 형태로 변화하는 경우가 많기 때문에 기존의 한국어 형태소 분석기로는 사투리 문장들을 정확하게 분석할 수 없는 어려움이 있었습니다. 그러나 수많은 시행착오 끝에 자동 규칙 생성기를 만들어 데이터로부터 규칙을 생성할 수 있게 되어, 이제는 어떤 사투리라도 데이터만 주어진다면 자동으로 해당 사투리에 대한 형태소 분석기를 만들 수 있게 되었습니다.
또한 사투리 지역 검출이 쉽지 않은 문제가 있었습니다. 번역할 임의의 문장이 주어졌을 때, 해당 문장이 어느 지역 사투리인지 자동으로 검출하는 기술이 필요한데 서로 다른 인코딩을 사용하는 언어였다면 인코딩 방식의 통계를 기초로 언어를 판별할 수 있는데 반하여, 사투리 번역에 있어서는 동일한 인코딩을 사용하기 때문에 좀 더 고차원의 특징을 관찰해야 하는 어려움이 있었습니다.
이 외에도 사투리 문장에서는 표준어보다 단어의 모호성이 심한 문제가 있었습니다. 단적인 예로 전라도와 충청도에서 자주 발생하는 사투리 단어인 "거시기"가 있습니다. 이러한 단어에 대한 모호성 해소를 위해 문맥 전체를 파악하는 기술 역시 쉽지 않았습니다.
번역 품질을 높이기 위해 계획하고 있는 기술은 무엇입니까?
앞서 말씀드렸듯이, 데이터를 쉽게 구할 수 없는 지역의 사투리 번역기를 만드는 일입니다. 소수 만이 사용하고 있는 사투리는 현실적으로 많은 데이터를 구할 수 없는 문제가 있습니다. 이를 해결하기 위해서 타 사투리를 통해서 번역하는 간접 번역 기술을 구현할 생각입니다. 예를 들어, 연변 사투리를 제주 사투리로 번역하려 하는 경우, 연변과 제주도는 지역적으로 멀리 떨어져 있어서 상호 번역물이 많이 존재하지 않습니다. 이런 경우 데이터가 많은 연변-서울, 서울-제주 사투리 데이터를 이용하여 간접 번역기를 구현할 수 있을 것으로 예상됩니다.
사투리 번역 기술의 미래를 어떻게 보십니까?
Google은 세상 모든 사람들이 언어장벽 없이 의사소통 하는 세계를 만들기 위해 계속 노력하고 있습니다. 이러한 꿈을 실현시키기 위해서 앞으로 얼마나 더 많은 시간과 노력이 필요할 지는 모르겠지만, 단기적으로는 사투리 번역기와 음성 인식을 결합하는 연구를 계속하여 궁극적으로 사투리 통역기를 만들 구상을 하고 있습니다.
'개발 이야기' 카테고리의 다른 글
자바지기 박재성 님이 이번 주말에 세미나를 하네요. (4) | 2008.04.22 |
---|---|
한국에서 개발자로 살아간다는 것 & 기자로 산다는 것 (10) | 2008.04.14 |
실버라이트와 WPF의 새로운 무기들 (0) | 2008.03.28 |
팝콘 동영상 이렇게 만들어지더군요! (5) | 2008.03.26 |
마대리와 한대리의 비주얼스튜디오 2008 스토리 동영상-2 (8) | 2008.03.21 |