반응형
ML/음성합성
-
TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS 논문 리뷰ML/음성합성 2020. 9. 25. 12:24
Abstract TTS 시스템은 전형적으로 text analysis frontend, acoustic model, audio 합성 모듈과 같은 multiple stage의 시스템이다. 이러한 컴포넌트들을 구성하는 것은 특정 도메인의 전문지식이 요구되고 불안정한 디자인 선택이 포함된다. 이 논문에서 character로부터 직접 음성을 합성하는 end-to-end TTS 모델인 Tacotron을 제안한다. pair가 주어지면, 이 모델은 랜덤 초기화후 처음부터 완벽하게 학습될 수 있다. Sequence-to-sequence 프레임워크가 이 어려운 태스크를 위해 잘 동작하기 위한 몇가지 중요한 테크닉들을 제안한다. Tacotron은 미국 영어를 타겟으로 5점 만점의 mean opinion score에서 3.8..