Whisper 모델이란?

Whisper 모델은 오디오 파일의 음성을 텍스트로 기록하는 데 사용할 수 있는 OpenAI의 음성 텍스트 변환 모델입니다. 이 모델은 대규모 영어 오디오 및 텍스트 데이터 세트를 기반으로 학습됩니다. 이 모델은 영어 음성을 포함하는 오디오 파일의 내용을 텍스트로 기록하는 데 최적화되어 있습니다. 다른 언어 음성을 포함하는 오디오 파일을 기록하는 데도 이 모델을 사용할 수 있습니다. 모델의 출력은 영어 텍스트입니다.

Whisper 모델은 Azure OpenAI Service 또는 Azure AI 음성을 통해 사용할 수 있습니다. 해당 제품에 따라 기능이 다릅니다. Azure AI 음성에서 Whisper는 사용할 수 있는 여러 음성 텍스트 변환 모델 중 하나일 뿐입니다.

다음과 같이 질문할 수도 있습니다.

  • 내 시나리오에는 Whisper 모델이 적합한가, 아니면 Azure AI 음성 모델이 더 나은가? 두 모델 유형 간에 API를 비교한 결과는 어떠한가?

  • Whisper 모델을 사용하려면 Azure OpenAI Service를 통해서 사용해야 하는가, 아니면 Azure AI 음성을 통해 사용해야 하는가? 어느 쪽이 어떤 시나리오에서 사용하기 적절한가?

Whisper 모델 또는 Azure AI 음성 모델

Whisper 모델 또는 Azure AI 음성 모델 중 무엇이 적절한지는 시나리오에 따라 다릅니다. Azure AI 음성을 사용하기로 결정한 경우 Whisper 모델을 포함한 여러 모델 중에서 선택할 수 있습니다. 다음 표에서 어디서 시작하면 좋을지에 대한 옵션 비교 사항을 권장 사항과 함께 확인할 수 있습니다.

시나리오 Whisper 모델 Azure AI 음성 모델
오디오 및 비디오의 실시간 음성 텍스트 기록, 캡션, 자막 사용할 수 없음 권장
사전 녹음된 오디오 및 비디오의 음성 텍스트 기록, 캡션, 자막 Azure OpenAI를 통한 Whisper 모델은 개별 오디오 파일의 빠른 처리에 권장됩니다. Azure AI 음성을 통한 Whisper 모델은 대용량 파일의 일괄 처리에 권장됩니다. 자세한 내용은 Azure AI 음성 또는 Azure OpenAI Service를 통한 Whisper 모델을 참조하세요. 대용량 파일, 화자 분리, 단어 수준 타임스탬프의 일괄 처리에 권장됩니다.
전화 통화 녹음본의 음성 텍스트 기록 및 통화 요약, 감정, 핵심 주제, 사용자 지정 인사이트와 같은 분석 사용 가능 권장
고객 질문과 관련해 콜 센터 에이전트를 지원하기 위한 실시간 음성 텍스트 기록 및 분석 사용할 수 없음 권장
모임 녹음/녹화본의 음성 텍스트 기록 및 모임 요약, 모임 항목, 작업 항목 추출과 같은 분석 사용 가능 권장
음성 받아쓰기를 통한 실시간 텍스트 입력 및 문서 생성 사용할 수 없음 권장
콜 센터 음성 에이전트: 콜 센터의 통화 라우팅 및 대화형 음성 응답 사용 가능 권장
음성 도우미: 셋톱박스, 모바일 앱, 차량 내 및 기타 시나리오에서의 애플리케이션 특화 음성 도우미 사용 가능 권장
발음 평가: 화자의 음성 발음 평가 사용할 수 없음 권장
라이브 오디오를 한 언어에서 다른 언어로 번역 사용할 수 없음 음성 번역 API를 통한 이용 권장
다른 언어에서 영어로 미리 녹음된 오디오 번역 권장 음성 번역 API를 통해 가능
미리 녹음된 오디오를 영어 이외의 언어로 번역 사용할 수 없음 음성 번역 API를 통한 이용 권장

Azure AI 음성 또는 Azure OpenAI Service를 통한 Whisper 모델

Whisper 모델을 사용하기로 결정한 경우 두 가지 옵션이 있습니다. Whisper 모델을 Azure OpenAI를 통해 사용할지 Azure AI 음성을 통해 사용할지 선택할 수 있습니다. 두 경우 모두 기록된 텍스트의 가독성은 동일합니다. 혼합 언어 오디오를 입력할 수 있으며 출력은 영어로 제공됩니다.

Azure OpenAI Service를 통한 Whisper 모델 사용은 다음의 경우 가장 적합할 수 있습니다.

  • 오디오 파일을 한 번에 하나씩 빠르게 텍스트로 기록
  • 다른 언어에서 영어로 오디오 번역
  • 출력을 조정하기 위해 프롬프트를 모델에 제공
  • 지원되는 파일 형식: mp3, mp4, mpweg, mpga, m4a, wav, webm

Azure AI 음성을 통한 Whisper 모델 사용은 다음의 경우 가장 적합할 수 있습니다.

  • 25MB보다 큰 파일(최대 1GB)을 텍스트로 기록. Azure OpenAI Whisper 모델의 파일 크기 제한은 25MB입니다.
  • 대량의 오디오 파일을 텍스트로 기록
  • 대화에 참여하는 서로 다른 화자를 구별하기 위한 화자 분리. Speech Services는 어떤 화자가 기록된 음성의 특정 부분을 말하고 있는지에 대한 정보를 제공합니다. Azure OpenAI를 통한 Whisper 모델은 화자 분리를 지원하지 않습니다.
  • 단어 수준 타임스탬프
  • 지원되는 파일 형식: mp3, wav, ogg
  • Whisper 기본 모델을 사용자 지정하여 시나리오의 정확도 높이기(제공 예정)

지역별 지원도 고려해야 할 사항입니다.

  • Azure OpenAI Service를 통한 Whisper 모델은 미국 동부 2, 인도 남부, 중북부, 노르웨이 동부, 스웨덴 중부 및 서유럽 지역에서 사용할 수 있습니다.
  • Azure AI 음성을 통한 Whisper 모델은 오스트레일리아 동부, 미국 동부, 미국 중북부, 미국 중남부, 동남 아시아, 영국 남부 및 서유럽 지역에서 사용할 수 있습니다.

다음 단계