What is TTS?

text-to-speech, 또는 음성 생성은 텍스트 입력에 대한 오디오를 생성하는 작업입니다.

일반적으로 TTS 방법은 연결 또는 매개 변수 방법으로 나뉩니다.

연결 방법은 미리 녹음 된 작은 오디오 세그먼트 (예 : 전화)를 연결하는 데 의존합니다.

파라메트릭 메소드는 텍스트를 기능 집합으로 변환합니다. 이 기능은 Vocoder를 통해 오디오로 렌더링되거나 Griffin-Lim**과 같은 알고리즘을 통해 3단계 프로세스로 렌더링됩니다. 먼저 텍스트를 전화 시퀀스로 렌더링한 다음 전화 시퀀스를 Vocoder 입력 기능으로 변환합니다(스펙트럼, cepstep).ra, 기본 주파수, 피치 정보 등이 있습니다.

최근의 신경 접근은 특징 생성 (텍스트 → 특징들, 즉 "TTS"와 오디오 생성 (vocoder)을 위한 신경 네트워크를 활용함으로써 parametric framework를 기반으로 합니다.

see: https://medium.com/sciforce/text-to-speech-synthesis-an-overview-641c18fc

Last updated

Was this helpful?