Introduction
Zeroth-TTS 서비스는 음성 합성 또는 TTS (텍스트 음성 변환)를위한 API를 제공합니다.
현재 다중 합성 음성으로 한국어 입력을 지원합니다. 훈련 데이터가 제공되면 새로운 음성을 지원할 수 있습니다.
TTS 엔진은 두 가지 구성 요소로 구성됩니다.
encoder 는 TTS 모델을 실행하는 기본 서비스입니다.
workers는 encoder와 Zeroth Master 간의 연결을 관리하고 후처리를 수행합니다.
TTS 모델은 딥러닝에 의해 구동되며 다음 두 요소로 구성됩니다.
text-to-audio 텍스트 입력을 오디오의 중간 표시(melspectrogram)로 변환합니다. 우리는 이것을 위해 수정된 타코트론-2를 사용합니다.
vocoder는 melspectrogram을 오디오 신호로 변환합니다. 우리는 주로 멀티 밴드 melGAN 및 Parallel waveGAN과 같은 다양한 GAN 모델을 지원합니다.
Last updated
Was this helpful?