(작성일: 2023. 12. 3.) 서론 본고에서는 End-to-End 음성인식 시스템과 관련한 〈Listen, Attend and Spell〉 논문 및 후행 연구를 조사하였다. 또한 트랜스포머와 CNN을 결합한 컨포머(Conformer)에 관해서도 조사하였다. Listen, Attend and Spell 모델 Chan, W. 등은 음성 발화를 문자로 전사하는 뉴럴 네트워크 모델인 LAS(Listen, Attend and Spell)를 제시했다. 이 모델은 기존의 DNN-HMM 모델과 달리 음성 인식기의 모든 구성 요소를 함께 학습한다. LAS 모델은 크게 리스너(listener)와 스펠러(speller)로 구성된다. 리스너는 필터 뱅크 스펙트럼을 입력으로 처리하는 피라미드 구조의 순환 네트워크 인코더로..