2023년 2학기/AI음성인식

[과제] End-to-End 음성인식 시스템에 대한 심화이해

서사대생 2024. 4. 12. 13:09

(작성일: 2023. 12. 3.)

서론

본고에서는 End-to-End 음성인식 시스템과 관련한 〈Listen, Attend and Spell〉 논문 및 후행 연구를 조사하였다. 또한 트랜스포머와 CNN을 결합한 컨포머(Conformer)에 관해서도 조사하였다.

Listen, Attend and Spell 모델

Chan, W. 등은 음성 발화를 문자로 전사하는 뉴럴 네트워크 모델인 LAS(Listen, Attend and Spell)를 제시했다. 이 모델은 기존의 DNN-HMM 모델과 달리 음성 인식기의 모든 구성 요소를 함께 학습한다.
LAS 모델은 크게 리스너(listener)와 스펠러(speller)로 구성된다. 리스너는 필터 뱅크 스펙트럼을 입력으로 처리하는 피라미드 구조의 순환 네트워크 인코더로서, 피라미드 구조를 사용하여 길고 복잡한 음성 입력의 길이를 효과적으로 줄인다. 스펠러는 문자를 출력하는 주의 기반(attention-based) 순환 네트워크 디코더로서, 주의 메커니즘을 통해 문자 간의 독립성 가정 없이 문자 시퀀스를 생성한다.
LAS 모델은 HMM(Hidden Markov Model) 또는 레이블 시퀀스의 독립 가정에 의존하지 않고 음성 인식을 종단간(end-to-end)으로 수행하는데, 이는 기존의 CTC(Connectionist Temporal Classification) 모델에 비해 중요한 발전이다. LAS는 구글 음성 검색 작업의 일부분에서 사전이나 언어 모델 없이 14.1%의 단어 오류율(WER)을, 언어 모델 재처리로 10.3%의 WER를 달성했으며, 이는 최첨단 CLDNN-HMM 모델이 8.0% WER를 달성한 것과 비교된다.
LAS의 구조는 희귀 단어와 사전에 없는 단어를 자동으로 처리하고 다양한 철자 변형을 생성할 수 있게 한다. 실험을 통해 과적합을 줄이고 일반화를 개선하기 위한 새로운 샘플링 기법의 효과가 입증되었다.

LAS 모델을 활용한 온라인 음성 인식

Roger H. 등은 LAS 모델을 사용하여 실시간 음성 인식에 적용하는 방법을 탐구하였으며, LAS 모델과 기타 주의 기반 음성 인식 모델이 온라인 모드에서 작동할 때의 알려진 한계를 극복하는 데 중점을 두었다. 주된 문제점은 모델이 입력을 소비하는 동안 출력을 동기화하지 않는다는 것이다. 연구팀은 침묵 영역을 모델링하고 버퍼링 체계를 도입하여 이 문제를 해결하는 새로운 접근 방법을 제안한다. 이 방법은 만다린어 음성 지원 및 문서 작업을 위한 음성 인식 시스템에 적용되었으며, 실험을 통해 온라인 모드에서도 높은 인식 정확도와 낮은 지연시간을 달성할 수 있음을 보여준다.

트랜스포머와 CNN 기반 모델을 통합한 Conformer

논문 "Conformer: Convolution-augmented Transformer for Speech Recognition"은 자동 음성 인식(ASR)에서 Transformer와 Convolution Neural Network(CNN) 기반 모델의 통합을 탐구한다. 이 연구는 Transformer 모델이 글로벌 상호작용을 효과적으로 포착하는 반면, CNN이 지역적 특징을 효율적으로 활용한다는 점에 주목한다. 저자들은 이 두 접근 방식을 효율적으로 결합하여 음성 시퀀스의 지역 및 글로벌 의존성을 모델링하는 'Conformer' 모델을 제안했다.
Conformer 모델은 이전 Transformer 및 CNN 기반 모델을 상당히 능가하여 LibriSpeech 벤치마크에서 최고의 정확도를 달성한다. 언어 모델 없이는 2.1%/4.3%, 외부 언어 모델 사용 시 1.9%/3.9%의 단어 오류율(WER)을 보인다. 또한, 10M 파라미터로만 구성된 소형 모델에서도 2.7%/6.3%의 경쟁력 있는 성능을 나타낸다.
이 연구에서는 Conformer 모델이 ASR에서 전례 없는 성능을 보여줌으로써, Transformer와 convolution을 단일 신경망에서 결합하는 효과를 입증한다. 이러한 결합은 전체 모델의 성능에 중요한 역할을 하며, 특히 convolution 모듈의 포함이 Conformer 모델의 성능에 결정적인 요소임을 밝힌다. Conformer는 이전 연구에 비해 적은 파라미터로 더 나은 정확도를 달성하며, LibriSpeech 데이터셋에서 새로운 최고 성능을 기록했다.

결론

기존에 각 단계가 분리된 음성 인식 방법에 비해 LAS와 같은 end-to-end 방법은 더 높은 인식률을 보이며, 트랜스포머와 CNN을 결합한 Conformer 또한 뛰어난 성능을 보인다. 한편 Conformer 모델이 Visual Speech Recognition에도 사용되고 있어, 시각 정보를 통해 음성 인식을 보완하는 방향으로의 발전이 기대된다.

참고 문헌

William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals, 〈Listen, Attend and Spell〉, 2015
Roger Hsiao, Dogan Can, Tim Ng, Ruchir Travadi, Arnab Ghoshal, 〈Online Automatic Speech Recognition with Listen, Attend and Spell Model〉, 2020
Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang, 〈Conformer: Convolution-augmented Transformer for Speech Recognition〉, 2020
Oscar Chang, Hank Liao, Dmitriy Serdyuk, Ankit Shah, Olivier Siohan, 〈Conformers are All You Need for Visual Speech Recogntion〉, 2023

'2023년 2학기 > AI음성인식' 카테고리의 다른 글

AI음성인식 과제, 기말 시험  (0) 2023.12.14
AI음성인식 중간고사  (0) 2023.10.25
AI음성인식 1주차  (0) 2023.09.07