ML/음성인식
-
Listen, Attend and Spell 논문 리뷰ML/음성인식 2020. 4. 8. 16:19
3. Model LAS 모델은 acoustic features를 입력으로 사용하고, 영문자가 출력으로 나온다. X = (x1, ..., xT)는 필터 뱅크 기반 features sequence고, Y = (, y1, ... , yS, )는 {a, b, c, ... z, 0, ... , 9, , , , , }로 이루어진 문자들의 sequence다. sos는 start-of-sentence token, eos는 end-of-sentence token을 뜻한다. 모델의 출력 yi는 각 문자가 나올 확률을 나타낸다. 이 확률은 이전 문자의 확률을 다 고려했을때 현재 어떠한 문자가 나올 확률이 가장 큰지를 표현한다. 이전에 나온 문자들의 확률을 chain rule을 이용해 곱한 형태로 구해진다. LAS 모델은 l..
-
Kaldi 예제 Voxforge 데이터ML/음성인식 2020. 1. 21. 16:53
지난번에 했던 예제는 나에게 불필요한 기능이 너무 많아서 다른 포스트를 보고 다시 시도한다. 1. kaldi projects 다운로드 git clone https://github.com/kaldi-asr/kaldi.git 본인이 설치하고 싶은 곳에 kaldi 프로젝트를 clone하자. cd kaldi ls output: CMakeLists.txt COPYING INSTALL README.md cmake docker egs misc scripts src tools windows 프로젝트 안에는 이러한 디렉토리와 파일들이 있다. 2. path 설정 나는 voxforge 예제를 실행할 것이기 때문에 voxforge의 디렉토리로 이동해야한다. cd egs/voxforge/s5 ls output: cmd.sh c..
-
Kaldi, Kaldi gstreamer 설치 및 예제 실행ML/음성인식 2020. 1. 21. 16:43
0. 개요 이 글은 개인적인 시행착오가 다 있는 글이므로 참고만 부탁드립니다! 그리고 마지막에 성공하지 못해서 아래 글을 참고하시는 것도 좋을 것 같네요! https://hanseokhyeon.tistory.com/entry/Kaldi-예제-Voxforge-데이터 Kaldi 예제 Voxforge 데이터 지난번에 했던 예제는 나에게 불필요한 기능이 너무 많아서 다른 포스트를 보고 다시 시도한다. 1. kaldi projects 다운로드 git clone https://github.com/kaldi-asr/kaldi.git 본인이 설치하고 싶은 곳에 kaldi.. hanseokhyeon.tistory.com 많은 기업들이 음성인식을 개발할 때 Kaldi를 이용한다고 한다. Kaldi에 대해 공부하기 위해 먼..
-
Phoneme recognition (Spikegram, MFCC, Spectrogram, Melspectrogram)ML/음성인식 2020. 1. 21. 16:41
Phoneme recognition을 위해 다양한 feature를 사용하여 실험해보았다. https://github.com/HanSeokhyeon/Deep_learning_for_Phoneme_recognition 1. Spikegram Obstruent - Stops : 0.5738 Obstruent - Affricate : 0.4219 Obstruent - Fricative : 0.7066 Sonorant - Glides : 0.5514 Sonorant - Nasals : 0.5915 Sonorant - Vowels : 0.5305 Others : 0.9224 Obstruent : 0.6576 Sonorant : 0.5412 Others : 0.9224 Non-mute : 0.5749 Mute : 0..
-
Speech Emotion Recognition 연구 기록ML/음성인식 2020. 1. 21. 16:36
맨날 공책에 연구기록 정리해놔도 다 없어진다. 그래서 이제 웹에 저장해볼까 한다. 1. CRNN, layer = [2, 2, 3], filters = [64, 128, 256] epoch 19 loss 0.6085 acc 0.8649 epoch 41 loss 0.6767 acc 0.8198 epoch 15 loss 0.5758 acc 0.8378 epoch 37 loss 0.6570 acc 0.8108 2. CRNN, layer = [2, 3, 3], filters = [64, 128, 256] epoch 10 loss 0.8609 acc 0.7297 epoch 7 loss 0.6213 acc 0.7838 epoch 41 loss 0.8283 acc 0.8378 epoch 35 loss 0.6847 ac..