์
๋ ฅ : ์์ฑ ์ ํธ ์ํ์ค ( speech signal sequence )
ํด๋น ์
๋ ฅ ์ ํธ ์ํ์ค์ ๋ํด ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ๋ฌธ์์ด์ ์ฐพ๋ ๊ฒ
AM(Acoustic Model)
์ปดํจํฐ์๊ฒ ์๋ฆฌ๋ฅผ ์ตํ๋๋ก ํ๋ ๋ถ๋ถ์
๋๋ค. '๊ฐ๋ค'๋ผ๋ ์๋ฆฌ๋ฅผ ์์(phoneme)๋จ์ 'ใฑ+ใ
+ใท+ใ
'๋ก ๋ถ๋ฆฌํด์ ๊ฐ๊ฐ์ ์์๋ ์ค์ ๋ก ์ด๋ค ์๋ฆฌ๋ค๋ผ๊ณ ๋งค์นญํด์ ์๋ ค์ฃผ๋ ๊ฒ์ด์ฃ . ์ด๊ฒ์ ํตํด ํน์ ์๋ฆฌ๊ฐ ์ด๋ค ์์์ธ์ง ์ปดํจํฐ๊ฐ ๊ตฌ๋ถํ ์ ์๊ฒ ๋ฉ๋๋ค. ์ฌ๋์ด ์ธ์ด๋ฅผ ๋ฐฐ์ธ ๋, ์๋ก์ด ์ธ์ด๋ฅผ ๋ง์ด ๋ฃ๋ค๋ณด๋ฉด ๊ทธ ์๋ฆฌ์ ์ต์ํด์ง๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
Acoustic Model (์ํฅ ๋ชจ๋ธ)
์์ฑ์ธ์๊ธฐ ์
๋ ฅ์ ๋ํด ์ด๋ค ๋จ์ด ์ํ์ค๊ฐ ๊ฐ์ฅ ํ๋ฅ ์ด ๋์์ง ์ฐพ๋ ๋ชจ๋ธ
๊ฐ ์
๋ ฅ ์ ํธ์ ๋ํด ์์( ๋ฐ์ ๋จ์ )์ ๋ถํฌ๋ฅผ ํ์ตํ ๋ชจ๋ธ
LM(Language Model)
๋จ์ด๋ค๋ก ์ด๋ฃจ์ด์ง ์ค์ ์ธ์ด, ์ฆ ์ค์ ์ฌ๋๋ค์ด ์ฌ์ฉํ๋ ๋ง์ ์ธ์ ํ ์ ์๊ฒ ํด์ฃผ๋ ๊ฒ์
๋๋ค. ์ฌ๊ธฐ์ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ N-gram ํ๋ฅ ์ธ์ด๋ชจ๋ธ(statistical language model)์ด๋ผ๊ณ ํ๋๋ฐ, ์ฌ๋๋ค์ด ๋ง์ด ์ฌ์ฉํ๋ ์ ๋ง์ ๋ฌธ์ฅ๋ค์ ๋ถ์ํด์ ์ด๋ค ๋จ์ด๊ฐ ๋ง์ด ์ฐ์ด๋์ง, ์ด๋ค ๋จ์ด ๋ค์, ํน์ ์์๋ ์ด๋ค ๋จ์ด๋ค์ด ์ฌ์ฉ๋๋์ง๋ฅผ ํ๋ฅ ์ ์ผ๋ก ๋ถ์ํด์ ๊ธฐ๋กํด ๋์ต๋๋ค. ์ ๋ค ์๊ด๊ด๊ณ๋ฅผ ์ต๋ n๊ฐ ๊น์ง ํ์ธํ๊ธฐ ๋๋ฌธ์ n-gram ์ด๋ผ ๋ถ๋ฆฝ๋๋ค. ์ด๋ฐ ํ๋ฅ ๋ชจ๋ธ๊น์ง ์ค๋น๊ฐ ๋๋ฉด ์ด๋ก ์ ์ผ๋ก, ์๋ฆฌ๋ฅผ ์์๋ก, ์์๋ฅผ ๋ชจ์ ๋จ์ด๋ก, ๋จ์ด๋ฅผ ๋ชจ์ ๋ฌธ์ฅ์ผ๋ก ํํํ ์ ์๊ณ , ์ค์ ์ฌ๋์ด ๋งํ ์๋ฆฌ์ ํ๋ฅ ์ ์ผ๋ก ๊ฐ์ฅ ๋น์ทํ ๋ฌธ์ฅ์ ์ฐพ์๋ผ ์ ์์ต๋๋ค.
Language Model (์ธ์ด ๋ชจ๋ธ)
์ํฅ ๋ชจ๋ธ์ ๋ณด์ํ์ฌ ์ด๋ ํ ๋จ์ด ์ํ์ค๊ฐ ๋ฌธ๋งฅ์ ์ผ๋ก ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ ์ง ์ฐพ๋ ๋ชจ๋ธ
# ์๋ score๋ ์์๋ฅผ ์ํ ๊ฐ์
๋๋ค.
์ค์ ๋ฐํ ๋ด์ฉ)
์ด๋๋ผ ์ ๋๋ผ ํ์ง๋ง
์ํฅ ๋ชจ๋ธ ๊ฒฐ๊ณผ)
์ด๋๋ผ ์ ๋๋ผ ํ์ง๋ง - 0.7 score
์ผํด๋ผ ์ ํด๋ผ ํ์ง๋ง - 0.8 score ( ์์์ ๋ถํฌ๋ง ๊ณ ๋ คํ๋ฉด ์ํฅ ๋ชจ๋ธ์์ ๋์ ํ๋ฅ ์ ๊ฐ์ง ์ ์์ )
...
์ธ์ด ๋ชจ๋ธ ๊ฒฐ๊ณผ)
์ด๋๋ผ ์ ๋๋ผ ํ์ง๋ง - 0.9 score
์ผํด๋ผ ์ ํด๋ผ ํ์ง๋ง - 0.2 score ( '์ผํด๋ผ' '์ ํด๋ผ' ์ฌ์ด์ ๋ฌธ๋งฅ์ ๊ด๋ จ์ฑ์ด ๋จ์ด์ง๋ฏ๋ก ๋ฎ์ ํ๋ฅ )
...
์ค์ ์์ฑ์ธ์๊ธฐ ๊ฒฐ๊ณผ )
์ด๋๋ผ ์ ๋๋ผ ํ์ง๋ง - AM score X LM score = 0.7 x 0.9 = 0.63 ( ๋ ํ๋ฅ ์ด ๋์ผ๋ฏ๋ก ์ต์ข
์ธ์๊ฒฐ๊ณผ )
์ผํด๋ผ ์ ํด๋ผ ํ์ง๋ง - AM score X LM score = 0.8 x 0.2 = 0.16
Top Graph (ํ๊ทธ๋ํ)
generalํ ์ธ์ด ๋ชจ๋ธ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ๊ทธ๋ํ (์ถ๊ฐ ์ค๋ช
ํ์)
Sub Graph (์ํ๊ทธ๋ํ)
ํน์ ์ฌ์ฉ ๋๋ฉ์ธ (๊ธ์ต, ๋ฐฉ์ก, ์คํฌ์ธ ๋ฑ)์ ์ธ์ด ๋ชจ๋ธ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ๊ทธ๋ํ
Top graph ์ ์ถ๊ฐํ์ฌ ์ฌ์ฉ๊ฐ๋ฅํจ
Transfer Learning (์ ์ดํ์ต)
ํ์ต๋ ์ํฅ ๋ชจ๋ธ์ Final layer ๋ฅผ Target ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ก ์ฌํ์ตํ๋ ๋ฐฉ๋ฒ
Active Learning (์ ์ฒดํ์ต)
์ง์์ ์ผ๋ก ์ถ๊ฐ๋๋ ๋ฐ์ดํฐ์ ๋ํด์ scoring ํ์ฌ decoding ์ฑ๋ฅ์ด ์ข์ง์์ ( ํ์ต์ด ๋ถ์กฑํ ) sample ์ ์ถ์ถํ์ฌ ์ํฅ๋ชจ๋ธ์ ์ฌํ์ตํ๋ ๋ฐฉ๋ฒ
Threshold (Low risk, High risk)
์๊ณ์ , ๊ฒฝ๊ณ์ , ๊ธฐ์ค์
Active Learning ์์ ํ์ต์ด ํ์ํ sample ์ ์ถ์ถํ๋ ๊ธฐ์ค์ด ๋๋ ๊ฐ
CER (Character Error Rate)
์์ฑ ์ธ์์ ๋ฐํ์ ์๋ณธ ์ง๋ฌธ(๋ญ๋
์ ํ ์๋ณธ ์ง๋ฌธ ๋๋ ์ฌ๋์ด ๋ฃ๊ณ ๋ฐ์์ฐ๊ธฐํ ํ
์คํธ) ๋๋ ์ฌ๋์ด ๋ฃ๊ณ ๋ฐ์์ฐ๊ธฐํ ํ
์คํธ๊ณผ ์ธ์ ๊ฒฐ๊ณผ์ ๋น๊ต๋ฅผ ํตํด์๋ง์ด ์ฑ๋ฅ์ ํ๊ฐํ ์ ์์ต๋๋ค.
์์ด๋ ๋จ์ด(word) ๋จ์๋ก ๋์ด์ฐ๊ธฐ๋ฅผ ํ๊ณ , ์ ์๊ฐ ๋ช
ํํ๊ธฐ ๋๋ฌธ์ ๋จ์ด์ค๋ฅ์จ WER(Word Error Rate)์ ์ฌ์ฉํฉ๋๋ค. ํ์ง๋ง ํ๊ตญ์ด์ ๋์ด์ฐ๊ธฐ ๋จ์๋ ์ด์ ์ด๊ณ ๋จ์ด์ ๋จ์๋ ์ด์ ๋ณด๋ค ์๊ธฐ ๋๋ฌธ์ ํ๊ตญ์ด ์์ฑ ์ธ์ ์์ง์ ์ธ์๋ฅ ํ๊ฐ๋ฅผ ์ํด์๋ ๊ธ์์ค๋ฅ์จ, ์ฆ CER(Character Error Rate)์ ํ๊ฐ ์งํ๋ก ์ฌ์ฉํฉ๋๋ค.
์ธ์๋ฅ ๊ณ์ฐ ๋ฐฉ๋ฒ
CER(%) = 100 [(ํ์ ๊ฐ์ + ์ค์ ๊ฐ์ + ์ฒจ์ ๊ฐ์)/์๋ณธ ๊ธ์์]
Accuracy(%) = 100 [1 - (ํ์ ๊ฐ์ + ์ค์ ๊ฐ์ + ์ฒจ์ ๊ฐ์)/์๋ณธ ๊ธ์์]
Edit Distance(Levenshtein Distance) ์๊ณ ๋ฆฌ์ฆ ์ฌ์ฉ
See the script steps/scoring/score_kaldi_cer.sh in case you need to evalutate CER
Reference & Hypothesis
Reference๋ ์๋ณธ ๋ฌธ์ฅ์ด๋ ์ ์ฌ๋ ์ ๋ต์ง๋ฅผ ์๋ฏธํ๋ฉฐ Hypothesis๋ ์์ฑ์ธ์๊ธฐ์ ์ํด ๋์ฝ๋ฉ๋ ๊ฒฐ๊ณผ ๋ฌธ์ฅ์ ์๋ฏธํฉ๋๋ค.
๋ ์ด๋ธ๋ง์ด ์๋์ด ์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ ๋ํด ํ์ต์ ์ํค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
๋ ์ด๋ธ๋ง์ด ๋ ์๊ท๋ชจ ๋ฐ์ดํฐ ์
์ ๋ง๊ฒ ๋ค์ ํ์ต์ํค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.