ML
-
Chapter 9 Unsupervised Learning TechniquesML/딥러닝 2020. 5. 7. 15:17
대부분의 머신 러닝 기술들이 supervised learning에 기반하여 발달하고 있지만, 사실 대부분의 데이터는 라벨링이 되어 있지 않다. Input feature X가 존재하지만 라벨 y는 존재하지 않는다. 세상 대부분의 문제들이 unsupervised인 경우가 많으므로 unsupervised learning은 큰 잠재력을 내포하고 있다. 생산 라인에서 제품의 사진을 가져와서 제품의 결함을 발견하는 시스템을 만든다고 하자. 자동으로 사진을 찍는 시스템을 만들면 하루에 수천장의 사진을 얻을 수 있을 것이다. 몇 주 동안 사진을 계속 찍는다면 매우 큰 데이터셋을 만들 수 있을 것이다. 그러나 라벨이 없다. 만약 결함이 있는지 없는지 판단하는 binary classifier를 만든다면, 'defectiv..
-
Chapter 7 Ensemble Learning and Random ForestsML/딥러닝 2020. 4. 13. 19:19
실생활 한 명의 전문가의 의견 < 다수의 일반인의 의견 일 때도 있다. 딥러닝 하나의 best predicter < 다수의 적당한 predicter 인 경우가 존재. Ensemble - predicter들의 그룹 Ensemble learning - 여러 개의 predicter를 사용하는 방법 Ensemble method - ensemble learning에 사용되는 알고리즘 예시 Random Forests training set에서 서로 다른 subset을 만들어 decision tree classifier를 학습시키는 경우 다양하게 학습된 dicision tree classifier로 투표를 해 최종 predict Machine Learning competition 최종 성능을 끌어 올리기 위해 여러가..
-
Listen, Attend and Spell 논문 리뷰ML/음성인식 2020. 4. 8. 16:19
3. Model LAS 모델은 acoustic features를 입력으로 사용하고, 영문자가 출력으로 나온다. X = (x1, ..., xT)는 필터 뱅크 기반 features sequence고, Y = (, y1, ... , yS, )는 {a, b, c, ... z, 0, ... , 9, , , , , }로 이루어진 문자들의 sequence다. sos는 start-of-sentence token, eos는 end-of-sentence token을 뜻한다. 모델의 출력 yi는 각 문자가 나올 확률을 나타낸다. 이 확률은 이전 문자의 확률을 다 고려했을때 현재 어떠한 문자가 나올 확률이 가장 큰지를 표현한다. 이전에 나온 문자들의 확률을 chain rule을 이용해 곱한 형태로 구해진다. LAS 모델은 l..
-
Kaldi 예제 Voxforge 데이터ML/음성인식 2020. 1. 21. 16:53
지난번에 했던 예제는 나에게 불필요한 기능이 너무 많아서 다른 포스트를 보고 다시 시도한다. 1. kaldi projects 다운로드 git clone https://github.com/kaldi-asr/kaldi.git 본인이 설치하고 싶은 곳에 kaldi 프로젝트를 clone하자. cd kaldi ls output: CMakeLists.txt COPYING INSTALL README.md cmake docker egs misc scripts src tools windows 프로젝트 안에는 이러한 디렉토리와 파일들이 있다. 2. path 설정 나는 voxforge 예제를 실행할 것이기 때문에 voxforge의 디렉토리로 이동해야한다. cd egs/voxforge/s5 ls output: cmd.sh c..
-
Kaldi, Kaldi gstreamer 설치 및 예제 실행ML/음성인식 2020. 1. 21. 16:43
0. 개요 이 글은 개인적인 시행착오가 다 있는 글이므로 참고만 부탁드립니다! 그리고 마지막에 성공하지 못해서 아래 글을 참고하시는 것도 좋을 것 같네요! https://hanseokhyeon.tistory.com/entry/Kaldi-예제-Voxforge-데이터 Kaldi 예제 Voxforge 데이터 지난번에 했던 예제는 나에게 불필요한 기능이 너무 많아서 다른 포스트를 보고 다시 시도한다. 1. kaldi projects 다운로드 git clone https://github.com/kaldi-asr/kaldi.git 본인이 설치하고 싶은 곳에 kaldi.. hanseokhyeon.tistory.com 많은 기업들이 음성인식을 개발할 때 Kaldi를 이용한다고 한다. Kaldi에 대해 공부하기 위해 먼..
-
Phoneme recognition (Spikegram, MFCC, Spectrogram, Melspectrogram)ML/음성인식 2020. 1. 21. 16:41
Phoneme recognition을 위해 다양한 feature를 사용하여 실험해보았다. https://github.com/HanSeokhyeon/Deep_learning_for_Phoneme_recognition 1. Spikegram Obstruent - Stops : 0.5738 Obstruent - Affricate : 0.4219 Obstruent - Fricative : 0.7066 Sonorant - Glides : 0.5514 Sonorant - Nasals : 0.5915 Sonorant - Vowels : 0.5305 Others : 0.9224 Obstruent : 0.6576 Sonorant : 0.5412 Others : 0.9224 Non-mute : 0.5749 Mute : 0..
-
Speech Emotion Recognition 연구 기록ML/음성인식 2020. 1. 21. 16:36
맨날 공책에 연구기록 정리해놔도 다 없어진다. 그래서 이제 웹에 저장해볼까 한다. 1. CRNN, layer = [2, 2, 3], filters = [64, 128, 256] epoch 19 loss 0.6085 acc 0.8649 epoch 41 loss 0.6767 acc 0.8198 epoch 15 loss 0.5758 acc 0.8378 epoch 37 loss 0.6570 acc 0.8108 2. CRNN, layer = [2, 3, 3], filters = [64, 128, 256] epoch 10 loss 0.8609 acc 0.7297 epoch 7 loss 0.6213 acc 0.7838 epoch 41 loss 0.8283 acc 0.8378 epoch 35 loss 0.6847 ac..
-
Python과 Scipy 이용해서 FIR filter 만들기ML/Audio Signal Processing 2020. 1. 21. 16:19
Filtered-X LMS 알고리즘을 검증하는 과정에서 추정한 secondary path 대신 내가 임의로 만든 FIR filter를 넣으려고 한다. 그래서 FIR filter를 구현해야할 필요가 있었고 python과 scipy를 이용해 구현하였다. 사실 코드는 전부 참고하고 스펙만 변경하였다. 1. 함수 선언 from pylab import * import scipy.signal as signal #Plot frequency and phase response def mfreqz(b,a=1): w,h = signal.freqz(b,a) h_dB = 20 * log10 (abs(h)) subplot(211) plot(w/max(w),h_dB) ylim(-150, 5) ylabel('Magnitude..