Glossary

음성인식

입력 : 음성 신호 시퀀스 ( speech signal sequence )
출력 : 문자열
해당 입력 신호 시퀀스에 대해 가장 확률이 높은 문자열을 찾는 것

AM(Acoustic Model)

컴퓨터에게 소리를 익히도록 하는 부분입니다. '가다'라는 소리를 음소(phoneme)단위 'ㄱ+ㅏ+ㄷ+ㅏ'로 분리해서 각각의 음소는 실제로 어떤 소리다라고 매칭해서 알려주는 것이죠. 이것을 통해 특정 소리가 어떤 음소인지 컴퓨터가 구분할 수 있게 됩니다. 사람이 언어를 배울 때, 새로운 언어를 많이 듣다보면 그 소리에 익숙해지는 것과 같습니다.

Acoustic Model (음향 모델)
음성인식기 입력에 대해 어떤 단어 시퀀스가 가장 확률이 높은지 찾는 모델
각 입력 신호에 대해 음소( 발음 단위 )의 분포를 학습한 모델

LM(Language Model)

단어들로 이루어진 실제 언어, 즉 실제 사람들이 사용하는 말을 인식 할 수 있게 해주는 것입니다. 여기에 사용되는 방법을 N-gram 확률언어모델(statistical language model)이라고 하는데, 사람들이 많이 사용하는 수 많은 문장들을 분석해서 어떤 단어가 많이 쓰이는지, 어떤 단어 뒤에, 혹은 앞에는 어떤 단어들이 사용되는지를 확률적으로 분석해서 기록해 놓습니다. 앞 뒤 상관관계를 최대 n개 까지 확인하기 때문에 n-gram 이라 불립니다. 이런 확률모델까지 준비가 되면 이론적으로, 소리를 음소로, 음소를 모아 단어로, 단어를 모아 문장으로 표현할 수 있고, 실제 사람이 말한 소리와 확률적으로 가장 비슷한 문장을 찾아낼 수 있습니다.

Language Model (언어 모델)
음향 모델을 보완하여 어떠한 단어 시퀀스가 문맥적으로 가장 그럴듯한 지 찾는 모델

# 아래 score는 예시를 위한 값입니다.

실제 발화 내용)
이래라 저래라 하지마

음향 모델 결과)
이래라 저래라 하지마 - 0.7 score
일해라 절해라 하지마 - 0.8 score ( 음소의 분포만 고려하면 음향 모델에서 높은 확률을 가질 수 있음 )
...

언어 모델 결과)
이래라 저래라 하지마 - 0.9 score
일해라 절해라 하지마 - 0.2 score ( '일해라' '절해라' 사이에 문맥상 관련성이 떨어지므로 낮은 확률 )
...

실제 음성인식기 결과 )
이래라 저래라 하지마 - AM score X LM score = 0.7 x 0.9 = 0.63 ( 더 확률이 높으므로 최종 인식결과 )
일해라 절해라 하지마 - AM score X LM score = 0.8 x 0.2 = 0.16

Top Graph (탑그래프)

general한 언어 모델 정보를 담고 있는 그래프 (추가 설명 필요)

Sub Graph (서프그래프)

특정 사용 도메인 (금융, 방송, 스포츠 등)의 언어 모델 정보를 담고있는 그래프
Top graph 에 추가하여 사용가능함

Transfer Learning (전이학습)

학습된 음향 모델의 Final layer 를 Target 도메인 데이터로 재학습하는 방법

Active Learning (전체학습)

지속적으로 추가되는 데이터에 대해서 scoring 하여 decoding 성능이 좋지않은 ( 학습이 부족한 ) sample 을 추출하여 음향모델을 재학습하는 방법

Threshold (Low risk, High risk)

임계점, 경계점, 기준점
Active Learning 에서 학습이 필요한 sample 을 추출하는 기준이 되는 값

CER (Character Error Rate)

음성 인식은 발화의 원본 지문(낭독을 한 원본 지문 또는 사람이 듣고 받아쓰기한 텍스트) 또는 사람이 듣고 받아쓰기한 텍스트과 인식 결과의 비교를 통해서만이 성능을 평가할 수 있습니다.

영어는 단어(word) 단위로 띄어쓰기를 하고, 정의가 명확하기 때문에 단어오류율 WER(Word Error Rate)을 사용합니다. 하지만 한국어의 띄어쓰기 단위는 어절이고 단어의 단위는 어절보다 작기 때문에 한국어 음성 인식 엔진의 인식률 평가를 위해서는 글자오류율, 즉 CER(Character Error Rate)을 평가 지표로 사용합니다.

인식률 계산 방법

CER(%) = 100 [(탈자 개수 + 오자 개수 + 첨자 개수)/원본 글자수]
Accuracy(%) = 100 [1 - (탈자 개수 + 오자 개수 + 첨자 개수)/원본 글자수]
Edit Distance(Levenshtein Distance) 알고리즘 사용

See the script steps/scoring/score_kaldi_cer.sh in case you need to evalutate CER

Reference & Hypothesis

Reference는 원본 문장이나 전사된 정답지를 의미하며 Hypothesis는 음성인식기에 의해 디코딩된 결과 문장을 의미합니다.

Pre-training

레이블링이 안되어 있는 대규모 데이터셋에 대해 학습을 시키는 것을 의미합니다.

Fine-tuning

레이블링이 된 소규모 데이터 셋에 맞게 다시 학습시키는 것을 의미합니다.

NextSTT(Speech-to-Text)

Last updated 4 years ago

hashtag음성인식

hashtagAM(Acoustic Model)

hashtagLM(Language Model)

hashtagTop Graph (탑그래프)

hashtagSub Graph (서프그래프)

hashtagTransfer Learning (전이학습)

hashtagActive Learning (전체학습)

hashtagThreshold (Low risk, High risk)

hashtagCER (Character Error Rate)

hashtag인식률 계산 방법

hashtagReference & Hypothesis

hashtagPre-training

hashtagFine-tuning