구글, 실제 목소리·억양 적용한 ‘번역기 모델’ 공개
이에 구글이 화자의 음성 그대로 번역이 되는 새로운 통역기 모델을 처음으로 공개했다.
이번에 공개된 ‘트랜슬레이토트론(Translatotron)’은 화자의 목소리와 억양을 반영해 번역 음성을 들려준다.
이 번역 솔루션은 화자의 음성을 텍스트로 번역한 다음 다시 음성으로 변환하는 과정에서 일어나는 오류를 개선하지는 못했다. 대신 변환돼 나온 음성이 화자의 목소리와 동일하도록 만들었다.
구글에 의하면 트랜슬레이토트론은 ‘시퀀스 투 시퀀스 네트워크 모델’을 사용해 번역이 이루어진다. 화자의 목소리를 입력하면 이를 시각적으로 표현하는 스펙트로그램 처리가 이뤄지고, 이를 번역 언어로 된 새로운 스펙트로그램으로 구현하는 것이다.
이러한 방식은 단계 과정이 많지 않아 중간에 소실되거나 오류가 나는 것을 최소화하면서도 빠르게 번역할 수 있다.
번역된 음성은 아직 로봇 기계 장치 같은 느낌을 줄 수 있다. 하지만 화자 음성의 기본적인 요소들은 효과적으로 유지했다.
구글은 최근 몇 달간 통역 기능이 보다 섬세하고 실제와 유사하도록 조정하는 작업에 집중하고 있다. 지난해에는 거주 지역의 억양과 강세를 고려해 언어들을 음성화할 수 있는 구글 번역기를 소개했다. 영어는 물론 프랑스어, 스페인어, 벵골어에 이 서비스를 적용했다. 가령 영어를 인도인의 억양과 강세로 들을 수 있는 것이다. 올해 초에는 구글 어시스턴트를 통해 “통역 모드를 켜라”라고 명령하면 26가지 언어에 대한 통역이 가능해지도록 서비스를 확대하기도 했다.
문세영 기자 pomy80@kormedi.com
저작권ⓒ '건강을 위한 정직한 지식' 코메디닷컴(https://kormedi.com) / 무단전재-재배포 금지