30분 만에 목소리를 완벽히 복제하는 바이두 인공지능 ‘딥 보이스2’

황승환 | 기사입력 2017/05/26 [00:35]

30분 만에 목소리를 완벽히 복제하는 바이두 인공지능 ‘딥 보이스2’

황승환 | 입력 : 2017/05/26 [00:35]

중국의 구글로 불리는 바이두가 30분 만에 수백 명의 목소리를 억양, 음조, 발음 습관까지 완벽하게 복제하는 인공지능 음성 기술 ‘딥 보이스 2(Deep Voice 2)’를 25일(현지시각) 발표했다.

지난 2월 바이두 실리콘밸리 인공지능 연구소는 신경망 네트워크를 통해 인간의 목소리를 복제하는 딥 보이스 1을 공개했다. 글을 인간의 목소리로 변환하는 TTS(text-to-speech)을 더 자연스러운 인간의 목소리처럼 들리게 하기 위한 인공 지능 기술이다.

딥 보이스 1은 하나의 목소리를 복제하기 위해 한 명이 말하는 20시간의 스피치 데이터가 필요했다. 딥 보이스2는 3개월 남짓한 시간 동안 비약적으로 진화했다. 수백 명의 목소리를 동시에 분석하고 30분의 스피치 데이터만 있으면 완벽하게 목소리를 복제한다.

바이두가 공개한 샘플 오디오를 들어 보면 실제 사람 목소리와 거의 구분이 힘들 정도로 느껴진다. 실제 목소리 주인공이 놀랄 정도로 완벽하게 복제했다고 한다. 이 기술이 상용화되면 이북, 내비게이션의 딱딱한 음성을 좋아하는 연예인, 연인 등의 목소리 샘플을 이용해 자연스러운 목소리로 듣는 것이 가능한 매우 흥미로운 기술이다.

더 많은 음성 샘플은 아래 링크에서 들어 볼 수 있다. 

- Deep Voice 2: Multi-Speaker Neural Text-to-Speech - baidu research


  • 도배방지 이미지