요약
Tip
자세한 내용은 텍스트 및 이미지 탭을 참조하세요.
이 모듈에서는 음성 인식(음성 텍스트 변환)을 음성 지원 애플리케이션 및 에이전트의 기초로 소개합니다. 학습자는 음성 오디오가 마이크 또는 오디오 파일에서 캡처되고 Azure Speech를 사용하여 쓰기 텍스트로 변환되는 방법을 살펴봅니다. 이 모듈에서는 클라이언트 앱 또는 백 엔드 서비스에서 음성 텍스트 변환이 애플리케이션에 적합한 위치를 설명하고 라이브 전사, 캡션, 음성 메일 처리 및 AI 에이전트에 텍스트 입력 제공과 같은 일반적인 시나리오를 강조 표시합니다.
그런 다음, 이 모듈은 음성 합성(텍스트 음성 변환)을 다루며, 이를 통해 애플리케이션은 텍스트에서 자연스러운 음성 오디오를 생성할 수 있습니다. 학습자는 Azure Speech에서 신경망 음성을 사용하여 발음, 톤, 속도 및 피치를 제어하는 방법과 합성된 오디오를 즉시 재생하거나 나중에 사용할 수 있도록 저장하는 방법을 알아봅니다. 이 섹션에서는 텍스트 음성 변환을 통해 애플리케이션과 에이전트가 청각적으로 응답하여 접근성, 핸즈프리 상호 작용 및 전반적인 사용자 환경을 개선하는 방법을 강조합니다.
마지막으로, 모듈은 Voice Live를 사용하여 음성 변환과 이러한 기능을 통합하여 제공합니다. 학습자는 Voice Live가 음성 텍스트 변환, AI 추론 및 텍스트 음성 변환을 실시간 대화를 위한 완전 관리형 단일 서비스로 결합하는 방법을 알아봅니다. 개발자는 여러 구성 요소를 연결하는 대신 Voice Live를 사용하여 수신 대기, 생각 및 말할 수 있는 응답성이 뛰어난 자연스러운 음성 에이전트를 빌드하여 Azure Speech 및 Microsoft Foundry를 사용하여 프로덕션 준비 대화 환경을 더 쉽게 만들 수 있습니다.
자세한 내용은 아래 링크를 참조하세요.
- 서비스 설명서의 Azure Speech
- Azure Speech의 SDK(소프트웨어 개발 키트)에 대해 자세히 알아보기
- 설명서에서 Azure Speech - Voice Live에 대해 자세히 알아보기