μ€νμμ€ μμ±μΈμ μμ§μ€ μ Kaldiλ₯Ό μ¨μΌ νλμ§?
Kaldiλ‘ μμ± μΈμμ κΈ°μ λ€μ΄ λ§μ΄ ν΅ν©λμμΌλ©°, μμ±μΈμκΈ°μ μ΅μ νλ TensorFlowκ°μ νλ μμν¬λ‘ λ³Ό μ μμ΅λλ€. μ§μμ μΈ μ½λ μ
λ°μ΄νΈλ₯Ό νκΈ° λλ¬Έμ μ΅μ κΈ°μ λ follow-up κ°λ₯ν©λλ€. λΉμ©μ μΌλ‘λ Open Sourceμ΄κΈ° λλ¬Έμ λΉμ©μ μ°μλ₯Ό λ
Όν μ μμ΅λλ€.
νμ¬ λ§μ μμ§λμ΄λ€μ΄ μ¬μ©νκ³ μ±κ³΅μ μΈ recipeλ€μ΄ μλ€λ κ²μΌλ‘ κΈ°μ μ μΌλ‘ μ¦λͺ
λμμ΅λλ€. (μ΅κ·Ό Kaldi κΉνλΈ κ³΅μ μ½λμ Zerothκ° νκ΅μ΄ 곡μ recipeλ‘ λ±λ‘λ¨)
κ΄λ ¨κΈ°μ¬ : https://biz.chosun.com/site/data/html_dir/2017/03/06/2017030601112.html
kaldi μ€νμμ€ μμ±μΈμμ νμ§μ λν΄ κ°κ΄μ μΌλ‘ νκ° ν μ μλ λ°μ΄ν°κ° μλμ§? μμ©μ ν(ETRI, λ§μΈμ¦λ©, μ
λ°μ€AI, λμμ€λ±)λ±κ³Ό λΉκ΅λ λ΄μ©μ΄λ νκ° λ°μ΄ν°κ° μλμ§?
κ° νμ¬μ μμ±μΈμκΈ°λ€μ(ETRI, λ§μΈμ¦λ©, μ
λ°μ€AI, λμμ€ λ±) κ°μκ° κ°μ§ λ°μ΄ν°λ‘ μ΅μ ν νμ΅μ΄ λμ΄μμΌλ νΉμ μν©μμ μ€λΉλ λ°μ΄ν°μ
μΌλ‘ λΉκ΅νλ κ² λ§κ³ λ κ°κ΄μ μΈ λΉκ΅λΌλ κ²μ΄ μ±λ¦½μ΄ λμ§ μμ΅λλ€.
CERμ λΉκ΅νλ€κ³ μλ₯Ό λ€λ©΄ Aμ¬κ° 10%, Bμ¬κ° 15%κ° λμλ€κ³ ν΄μ Aμ¬κ° Bμ¬ λ³΄λ€ μμ±μΈμκΈ° μ±λ₯μ΄ μ’λ€κ³ λ§ν μ μμ΅λλ€. λμΌν 쑰건μμ μΆ©λΆν μκ°μ λ°μ΄ν°λ₯Ό λΉκ΅νλ€κ³ νλ©΄ Aμ¬κ° μ±λ₯μ΄ λ μ’λ€κ³ μΆμ ν μλ μκ² μ§λ§ λ³΄ν΅ PoC λ° μ
μ°° μΈμλ μ΄λ° 쑰건 μ±λ¦½μ΄ λμ§ μκΈ° λλ¬Έμ λΉκ΅λ₯Ό ν μκ° μμ΅λλ€.
μμ±μΈμκΈ°κ° μ λλ‘λ μ±λ₯μ 보μ΄κ³ κ°λ° ν νμ
μ μ μ©ν μ μλ μμ€μ΄ λλλμ μ¬λΆλ ν΄λΉ λλ©μΈ λ°μ΄ν°λ₯Ό μΌλ§λ ν¨κ³Όμ μΌλ‘ λ°μνμ¬ μμ±μΈμκΈ° μ 체λ₯Ό νμ΅ν μ μλλμ λ¬Έμ μ
λλ€. μ΄λ° λ°©μμΌλ‘ λ¬Έμ λ₯Ό ν΄κ²°νλ μ€νμμ€λ kaldi μΈ μλ μμ΅λλ€.
ν΅μ¬ ν¬μΈνΈλ ꡬκΈμ΄λ μ ν λ§μ΄ν¬λ‘μννΈμ²λΌ μΌλ°μ μΈ μΌμ μνμμ μ°λ μμ±μΈμκΈ°λ₯Ό λͺ©νλ‘ νλ κ²μ΄ μλλΌλ©΄ μμ±μΈμλ₯ λΉκ΅λ νμ¬ μλ―Έκ° μμ΅λλ€. μλνλ©΄ μμ±μΈμκΈ°λ₯Ό μμ©νν΄μ μ°λ €λ©΄ νΉμ λλ©μΈ(ν¬μ€μ½ ICTμ κ²½μ° λΉμ¦λμ€ νμ, μ°μ
νμ₯ λ±)μμ μ μλν μ μλλ‘ λ²μλ₯Ό μ ννκ³ μΆ©λΆν ν΄λΉ λλ©μΈ λ°μ΄ν°λ₯Ό μ΄μ©ν Customizationμ΄ νμμ΄κΈ° λλ¬Έμ
λλ€.
μνλΌμ€λ©μ€μ λ°μ΄ν°μ μμ§ νκ²½μ΄ μ΄λ»κ² λλμ§ κΆκΈν©λλ€?
λ§€μ° λ€μν λ°©μμΌλ‘ μμ§λ λ°μ΄ν°λ€μ
λλ€. λ¬Όλ‘ λͺ¨μ΄μ½μΈμ΄λΌλ μ ν¬κ° μ§μ ꡬμΆν ν¬λΌμ°λμμ± λ°©μ λͺ¨λ°μΌμ±μΌλ‘ μμ§λ λ°μ΄ν°λ€μ λ€μν μ¬λλ€μ νΈλν° λ§μ΄ν¬λ‘λΆν° λ§€μ° λ€μν λ
Έμ΄μ¦ νκ²½μμ μμ§λμμ§λ§, κ·Έ μΈμλ μ λ¬Έμ μΈ λ
Ήμ νκ²½μΈ κ²½μ°λ μμΌλ©° μ€μ νκ²½λ€μμ λ
Ήμλ ν μ μ¬λ λ°μ΄ν°λ€λ μμ΅λλ€. μ νλΈ ν¬λ‘€λ§ λ°μ΄ν°λ ν¬ν¨λμ΄ μμ΅λλ€.
μ체 κ°λ°νμ Long Audio Segmentation(aligning reference to hypothesis)μ΄ μΈκΈλλλ°, μΆκ°μ μΈ μ€λͺ
μ΄ μμ΄μ, νΉμ μ΄λ ν hypothesis μ μν΄μ μ μ©λκ±΄μ§ κΆκΈν©λλ€.
Long audio segmentation μ μννκΈ° μν΄μ μΌλ°μ μΌλ‘λ μμ±μΈμκΈ°μ μν΄ λμ½λ©λ κ²°κ³Ό(hypothesis )λ₯Ό μλ³Έ λ¬Έμ₯μ λ§μΆμ΄(align) λΉμ·ν μμΉλ₯Ό μ°Ύλ λ°©λ²μ μ¬μ©ν©λλ€. μ΄λ κ² νλ κ²½μ° λμ½λ© κ²°κ³Ό μ€, μΆ©λΆν λ―Ώμ λ§νμ§ μλ κ³³μ νμ΅λ°μ΄ν°μμ λ°°μ νκΈ° λλ¬Έμ λ°μ΄ν°μ μμ€μ κ°μν΄μΌ ν©λλ€.
μνλΌμ€λ©μ€μμλ μκΈ° λ°©λ²μ λν΄μ λ°λλ‘ μλ³Έ λ¬Έμ₯μ λμ½λ© κ²°κ³Όμ λ§μΆμ΄ μΈκ·Έλ¨ΌνΈλ₯Ό μ§ννλ λ°©μλ μ¬μ©ν©λλ€. νμμ κ²½μ° μ μ¬ κ²°κ³Όκ° μΆ©λΆν λ―Ώμλ§νλ€κ³ μ¬κ²¨μ§λ κ²½μ° νμ΅ λ°μ΄ν°μ μμ€μ μ€μ΄κ³ , λ³Όλ₯¨μ΄ μμ μ μ¬λ₯Ό μνν μ¬λμκ²λ λ€λ¦¬μ§λ§ κΈ°μ‘΄ μΈμκΈ°κ° λ°μμ νμ§ μλ κ²½μ°μλ μ±λ₯μ λμ΄μ¬λ¦¬λ λ°©μμΌλ‘ μ μ©ν μ μμ΅λλ€.
Telephone-environment tandem filteringμ΄ λμ€λλ° μ΄λ€ κΈ°μ μΈμ§ κΆκΈν©λλ€.
νμ΅μ μν μλ³Έ μ€λμ€κ° μ νμ λ°μ΄ν°κ° μλ κ²½μ° μ νμ μ μ¬μ©λλ μ½λ± (G.711, G.729, AMR-NB λ±)μ μ¬μ©ν΄μ Encoding&Decoding κ³Όμ μ κ±°μ³ μ΅λν μ νμ λ°μ΄ν°μ λΉμ·ν λ°©μμΌλ‘ λ°κΎΈλ κ³Όμ μ
λλ€.
Lexicon designμΌλ‘ λ°μ λ€μμ±μ 컀λ²νλ€κ³ λμ΄μλλ°, μ΄λ ν κΈ°μ μΈμ§ μμ μλμ§ κΆκΈν©λλ€.
Zeroth μ€νμμ€μμλΆν° μ¬μ©λ κ°λ
μΌλ‘, νκ΅μ΄λ νΉμ±μ κΈμκ° μ ν΄μ§λ©΄ λ°μμ΄ μ ν΄μ§λ μΈμ΄μ΄λ©°, λ€λ₯Έ λ°©μμΌλ‘ μ½μ μ μμ΅λλ€. λν νκ΅μ΄λ λμ΄μ°κΈ° λ¨μμ μ΄μ μ΄ μλ ννμκ° κΈ°λ³Έ λ¨μμ
λλ€. μμ±μΈμ μμ μ΄ ννμ λ¨μλ‘ ν λ μ’μ μ±λ₯μ 보μ
λλ€.
μ΄μ λ¨μμμ λ°μμ μμ±νκ³ ννμ λ¨μμμ λ€μ μ΅μ’
μ μΈ ννμμ λ°μμ νμΈνλ κ³Όμ μ κ±°μΉλ©΄, ννμ λ¨μμμ λ°μμ λ€μμ±μ data-driven λ°© μμΌλ‘ μ°ΎμλΌ μ μμ΅λλ€.
μνλΌμ€λ©μ€μ Base Modelμ λν νμ΅ λ°μ΄ν°κ° λλ΅ μ΄λ μ λμΈμ§ κΆκΈν©λλ€
λ΄λΆμ μΌλ‘ μ¬μ©λλ Base model μ λν νμ΅ λ°μ΄ν°μ ν¬κΈ°λ μ€λμ€ 3000 μκ° κ·Έλ¦¬κ³ ν
μ€νΈ λ°μ΄ν° 50GB μ
λλ€. (2021. 1)
μμ± μΈμλ₯ μ΄ μ΄λμ λ λλμ?
νμ¬ λλ©μΈμ μ΅μ ννμ§ μμ general modelμ κΈ°μ€μΌλ‘ JTBC, KBS, SBS κ°μ λ°©μ‘μμ μ΅μ»€λ€μ΄ μ ννκ² λ°μνλ 1μΈ λλ
νμμ μ€λμ€μ κ²½μ° 97% μ λλ‘ ν리λ λΆλΆμ΄ κ±°μ μμ΅λλ€.
νμ§λ§ κ³ κ°μͺ½μμ μ§λ¬Ένλ€κ³ ν΄μ£Όμ
¨κΈ° λλ¬Έμ λΉμ°ν μ½μΌν°μͺ½ 8kHz μν₯λͺ¨λΈ μΈμλ₯ μ λν μ§λ¬ΈμΌ κ²μΌλ‘ μκ°λλ©° μ νμ μ½λ±μ κ±°μ³ μμ§μ΄ λ¨μ΄μ§κΈ° λλ¬Έμ, μ΄ κ²½μ° μνλΌμ€λ©μ€λΏλ§ μλλΌ μ‘΄μ¬νλ λͺ¨λ νκ΅μ΄ μμ±μΈμκΈ° μΈμλ₯ μ΄ 16kHz λͺ¨λΈλ³΄λ€ λ¨μ΄μ§λλ€.
νμ¬ μ½μΌν° μμ₯ νκ· μ 보면 λλ΅ transfer learning μ§ννκΈ° μ 85% μ λ λμ¬ μ μμΌλ©° μ΅μ ν μμ
μ§ννμλ 87~ 89% κΉμ§ λμ¨λ€κ³ μκ°νμλ©΄ λ©λλ€. μ΄λ κ³ κ°μͺ½κ³Ό μλ΄μμ λΆλ¦¬νμ§ μκ³ κ·Έλ₯ νκ· μ λΈ κ²μ΄λ©° λΆλ¦¬ν κ²½μ°, μλ΄μμ μ νν λ°μμΌλ‘ μ€ν¬λ¦½νΈλ₯Ό λ³΄κ³ μ½λ μ¦ λλ
ννκ° λ§κΈ° λλ¬Έμ μ΅λ 94% κΉμ§λ μ¬λΌκ°λλ€. λ°λλ‘ κ³ κ°μͺ½μ μμ±μΈμλ₯ μ λ€μν μ νκ±°λ κ³³μμ λμ€λ λ°°κ²½ λ
Έμ΄μ¦(μ§νμ² , 길거리 λ±), λ
ΈμΈ, μ¬ν¬λ¦¬, κΈλ°ν μν©μ΄λ 격ν΄μ§ κ°μ μΌλ‘ μΈν΄ λκ°μ§λ λ°μ λ±μ κ³ λ €νλ©΄ νκ· 80%λ₯Ό λκΈ° νλλλ€.
μνλΌμ€λ©μ€λ κ³ κ°μͺ½ λ°μ΄ν° 90% μΈμλ₯ λ¬μ±μ λͺ©νλ‘ νκ³ μμ΅λλ€.
μ§μνλ μ€λμ€ ν¬λ§· μ νμ΄ λ°λ‘ μλμ§μ?(flac, wav, mp3, μ½λ±μ μνλ§μ 24bitλ μλκ³ 16bitλ§ μΈμ λ±λ± κ°μ΄λκ° μλμ§μ?)
κΈ°λ³Έμ μΌλ‘ Kaldiλ 16bit wav ν¬λ§· νμλ§μ μ§μν©λλ€. μΈμ½λ©λ μ
λ ₯λ€μ μ²λ¦¬νκ³ μΆμΌμλ€λ©΄ pre-processing μ΄ νμν©λλ€.