Introduction

Zeroth-TTS 서비스는 음성 합성 또는 TTS (텍스트 음성 변환)를위한 API를 제공합니다.

현재 다중 합성 음성으로 한국어 입력을 지원합니다. 훈련 데이터가 제공되면 새로운 음성을 지원할 수 있습니다.

TTS 엔진은 두 가지 구성 요소로 구성됩니다.

  • encoder 는 TTS 모델을 실행하는 기본 서비스입니다.

  • workers는 encoder와 Zeroth Master 간의 연결을 관리하고 후처리를 수행합니다.

TTS 모델은 딥러닝에 의해 구동되며 다음 두 요소로 구성됩니다.

  • text-to-audio 텍스트 입력을 오디오의 중간 표시(melspectrogram)로 변환합니다. 우리는 이것을 위해 수정된 타코트론-2를 사용합니다.

  • vocoder는 melspectrogram을 오디오 신호로 변환합니다. 우리는 주로 멀티 밴드 melGAN 및 Parallel waveGAN과 같은 다양한 GAN 모델을 지원합니다.

Last updated

Was this helpful?