딥러닝 3

CNN으로 CIFAR-10 이미지 분류 개선 (2)

지난 글에서 CIFAR-10 이미지를 분류하는 CNN 모델의 정확도를 개선하기 위해 코드를 어떻게 수정했는지 설명했다. 수정한 코드와 실행 결과는 다음 주소에 있다.https://colab.research.google.com/drive/1XLw8fH57q8cm7mivzMVrxcprjU0lRw_b?usp=sharing 이번 글에서는 수정 전후 성능을 비교하고 변경 사항이 어떻게 성능 향상에 기여했는지 분석하겠다.1. 성능 비교수정 전 모델 (conv2):최종 검증 정확도: 약 63%학습 에포크 수: 20모델 구조:합성곱 레이어 1개 (필터 수: 10)MaxPooling2D 1개Flatten 레이어Dropout 레이어 (비율: 0.5)Dense 레이어 2개 (뉴런 수: 100, 10)수정된 모델:최종 검증 ..

카테고리 없음 2024.11.09

CNN으로 CIFAR-10 이미지 분류 개선 (1)

딥러닝 과목 9주차 주제가 CNN이었고 Fashion-MNIST 데이터셋을 분류하는 예제가 나왔다.자유게시판을 훑다 보니 한 학생이 이걸 CIFAR-10으로 바꿔 테스트한 것이 있다.노트북에 출력된 정확도는 다음과 같다.첫 번째 모델 평가 시 정확도: 0.6032 (약 60.32%)두 번째 모델 평가 시 정확도: 0.6301 (약 63.01%)이러한 값들은 검증 데이터에 대한 정확도를 나타낸다.정확도 60~63%는 CIFAR-10 데이터셋의 기준으로 보면 기본적인 성능 수준이다. CIFAR-10은 10개의 서로 다른 클래스(예: 비행기, 자동차, 새 등)를 가진 비교적 난이도 있는 데이터셋으로, 기본적인 합성곱 신경망(ConvNet) 구조에서는 60~70%의 정확도는 흔하다.성능을 높이기 위해 다음과 같..

[과제] End-to-End 음성인식 시스템에 대한 심화이해

(작성일: 2023. 12. 3.) 서론 본고에서는 End-to-End 음성인식 시스템과 관련한 〈Listen, Attend and Spell〉 논문 및 후행 연구를 조사하였다. 또한 트랜스포머와 CNN을 결합한 컨포머(Conformer)에 관해서도 조사하였다. Listen, Attend and Spell 모델 Chan, W. 등은 음성 발화를 문자로 전사하는 뉴럴 네트워크 모델인 LAS(Listen, Attend and Spell)를 제시했다. 이 모델은 기존의 DNN-HMM 모델과 달리 음성 인식기의 모든 구성 요소를 함께 학습한다. LAS 모델은 크게 리스너(listener)와 스펠러(speller)로 구성된다. 리스너는 필터 뱅크 스펙트럼을 입력으로 처리하는 피라미드 구조의 순환 네트워크 인코더로..