소개

완료됨

우리가 매일 사용하는 음성 도우미가 어떻게 작동하는지 궁금한 적이 있나요? 우리가 말하는 단어를 어떻게 이해할까요?

도우미는 음성을 텍스트로 변환한 다음 해당 텍스트를 숫자(단어 포함이라고 함)로 변환해야 합니다. 그런 다음 도우미는 발화를 분류하고 의도(화자가 음성 도우미가 원하는 작업)와 상관 관계를 지정합니다. 이 프로세스에 대한 자세한 내용은 이 PyTorch 학습 경로의 “자연어 처리 소개” 모듈을 참조하세요.

그러나 개가 짖거나 고양이가 울 때는 어떨까요? 이러한 소리는 텍스트로 변환할 수 없습니다.

Image that shows how sounds can come from a variety of sources.

이 모듈에서는 음성 단어의 오디오 녹음에서 음파 패턴을 추출하는 방법을 살펴보겠습니다. 오디오 분류는 음성 도우미뿐만 아니라 여러 가지 작업에 사용할 수 있습니다. 애플리케이션에서 인식해야 하는 다양한 음원이 있습니다. 예를 들어, 음악 장르를 분류하거나 누군가의 목소리 톤으로 질병을 감지할 수 있습니다. 아직 생각하지 않은 애플리케이션이 더 많이 있습니다.

인기 있는 Python 기계 학습 프레임워크인 PyTorch를 사용하여 오디오 분류를 수행하는 방법을 알아보겠습니다. 오디오 분류 모델을 빌드하는 방법에는 여러 가지가 있습니다. 파형, wav 파일의 태그 섹션을 사용하거나 스펙트로그램 이미지에서 컴퓨터 비전을 사용할 수도 있습니다.

이 모듈에서는 먼저 오디오 데이터를 이해하고 스펙트로그램을 사용하여 소리 신호를 이미지 표현으로 변환하는 방법을 알아봅니다. 그런 다음, 예 또는 아니요 음성 명령을 이해할 수 있는 컴퓨터 비전을 사용하여 하나의 모델을 빌드합니다.

맞습니다! 오디오를 이미지 표현으로 변환한 다음, Computer Vision을 사용하여 음성 단어를 분류할 수 있습니다.

학습 목표

이 모듈에서 학습할 내용은 다음과 같습니다.

  • 오디오 데이터의 기본 기능 알아보기
  • 스펙트로그램을 사용하여 소리 신호를 시각적 이미지 형식으로 변환하는 방법을 알아봅니다.
  • CNN(나선형 신경망)을 사용하여 소리나 음성 단어를 인식할 수 있는 음성 분류 모델을 구축합니다.

사전 요구 사항

  • 기본 Python 지식
  • Jupyter Notebook 사용 방법에 대한 기본 지식
  • CNN에 대한 기본적인 이해입니다. 이 학습 경로의 “PyTorch를 사용한 Computer Vision 소개” 모듈을 시작하는 것이 좋습니다.