2023년 2학기/AI음성인식 4

[과제] End-to-End 음성인식 시스템에 대한 심화이해

(작성일: 2023. 12. 3.) 서론 본고에서는 End-to-End 음성인식 시스템과 관련한 〈Listen, Attend and Spell〉 논문 및 후행 연구를 조사하였다. 또한 트랜스포머와 CNN을 결합한 컨포머(Conformer)에 관해서도 조사하였다. Listen, Attend and Spell 모델 Chan, W. 등은 음성 발화를 문자로 전사하는 뉴럴 네트워크 모델인 LAS(Listen, Attend and Spell)를 제시했다. 이 모델은 기존의 DNN-HMM 모델과 달리 음성 인식기의 모든 구성 요소를 함께 학습한다. LAS 모델은 크게 리스너(listener)와 스펠러(speller)로 구성된다. 리스너는 필터 뱅크 스펙트럼을 입력으로 처리하는 피라미드 구조의 순환 네트워크 인코더로..

AI음성인식 과제, 기말 시험

엊그제 시험을 쳤다는 사실조차 벌써 기억에서 희미해졌다. 출판사에서 일하면서 접한 책 중에 음성인식에 관한 것은 없어서 일부 생소한 내용도 있었지만 대부분은 낯설지 않은 주제였다. 하지만 그걸 이해했느냐 하면, 수업 때 들은 내용의 5% 정도 소화한 것 같다. 과제로 LAS(Listen, Attend and Spell) 논문을 요약하고 의견을 쓰라고 해서, 하는 김에 그 이후에 나온 것도 조사하다 보니 컨포머(Conformer)라는 것도 있었다. 그런데 컨포머로 독순술을 구현하는 연구도 있었다. 세상에 별 희한한 생각을 하는 사람이 다 있구나 싶다가, 이제는 멀티 모달이 되니 입술 모양을 보면서 음성 인식을 하는 쪽으로 발전하지 않을까 하는 생각이 들어서 그런 얘기를 적어서 냈다.

AI음성인식 중간고사

엊저녁에 AI음성인식 중간고사를 쳤다. 이번 학기에 수강한 과목 중 가장 어려운 것이 AI음성인식이다. 4학년 과목이라 1학년인 나는 나중에 들어도 되지만, 인공지능 관련 도서를 다루는 업무에 즉시 도움 될 만한 주제를 많이 다루므로 이번 학기에 수강하고 있다. 선수 지식도 어느 정도 갖추고 있고 이미 한 번쯤 들어본 용어가 많지만, 강의 내용 중 내가 흡수한 것은 극히 일부다. 중간고사는 교안을 뒤적이며 풀었는데 서술형이 좀 애매해서, 교안에 기재된 참조 URL을 따라 가서 읽어 보기도 했다. 오픈북 시험을 볼때는 시험을 치면서 처음 읽거나 비로소 깨닫는 경우도 많은데, 이번 시험은 이론이 어려운 데다 풀이 시간이 40분밖에 주어지지 않아서 힘들었다.예상 문제와 답안을 미리 준비했더라면 수월했겠지만 그..