Azure AI 음성의 새로운 기능은 무엇인가요?

2025-04-28

Azure AI 음성은 지속적으로 업데이트됩니다. 최신 개발 정보를 항상 파악할 수 있게 이 문서에서는 새 릴리스 및 기능 관련 정보를 제공합니다.

최근 강조 표시

오디오 파일에서 다국어 콘텐츠를 지속적으로 정확하게 전사하려면 이제 빠른 전사 API를 통해 로캘 코드를 지정하지 않고도 최신 다국어 모델을 사용할 수 있습니다. 자세한 내용은 빠른 대화기록을 통한 다국어 대화 내용 기록을 참조하세요.
빠른 대화기록 서비스가 이제 일반적으로 제공됩니다. 실제 오디오 기간보다 훨씬 빠르게 오디오를 전사할 수 있습니다. 자세한 내용은 빠른 대화기록 API 가이드를 참조하세요.
이제 Visual Studio Code 사용자가 Azure AI Speech Toolkit 확장을 사용할 수 있습니다. 간단한 클릭으로 쉽게 빌드하고 실행할 수 있는 음성 빠른 시작 및 시나리오 샘플 목록이 포함되어 있습니다. 자세한 내용은 Visual Studio Code Marketplace의 Azure AI Speech Toolkit을 참조 하세요.
Azure AI 음성 HD(고화질) 음성은 공개 미리 보기에서 사용할 수 있습니다. HD 음성은 콘텐츠를 이해하고, 입력 텍스트에서 감정을 자동으로 감지하고, 감정에 맞게 실시간으로 말하기 톤을 조정할 수 있습니다. 자세한 내용은 Azure AI Speech HD(고화질) 음성이란?을 참조하세요.
이제 Azure AI 음성 서비스에서 비디오 번역을 사용할 수 있습니다. 자세한 내용은 비디오 번역이란 무엇인가요?를 참조하세요.

릴리스 정보

서비스 또는 리소스 선택

중요한

Speech SDK를 통한 콘텐츠 평가(미리 보기)는 2025년 7월에 사용 중지됩니다. 대신 Azure OpenAI 모델을 사용하여 콘텐츠 평가 설명서에 설명된 대로 콘텐츠 평가 결과를 가져올 수 있습니다.

Speech SDK 1.44.1: 패치 릴리스

SDK 버전 1.44.1은 4개의 버그 수정을 통해서만 JavaScript용으로 릴리스됩니다.

버그 수정

세분화 컨트롤 매개 변수가 하나만 제공된 경우 범위를 벗어난 예외가 수정되었습니다.
enableDictation이 Speech Service에 올바르게 전달되지 않았습니다.
ConversationTranscriber는 fromEndpoint 메서드를 사용하여 만들 때 올바른 URL 경로를 사용하지 않았습니다.
데이터가 분리된 후 입력 스트림으로 푸시될 때 발생하는 오류를 수정했습니다.

Speech SDK 1.44: 2025-5월 릴리스

중요한

대상 플랫폼에 대한 지원이 변경되고 있습니다.

지원되는 최소 Android 버전은 이제 Android 8.0(API 수준 26)입니다.
Speech SDK Unity 패키지의 게시는 이 릴리스 후에 일시 중단됩니다.

새로운 기능:

Android 16KB 메모리 페이지 크기에 대한 지원이 추가되었습니다.
포함된 음성 인식에서 SpeechStartDetected 이벤트의 대기 시간을 줄입니다.
[C++, Python] AudioDataStream의 사용 가능한 크기를 가져오는 메서드가 추가되었습니다.
[C++, Python] 음성 합성 요청에서 사용자 지정 어휘 URL 및 기본 로캘에 대한 지원이 추가되었습니다.
[Java, Python] 자동 토큰 새로 고침을 사용하여 Microsoft Entra 토큰 기반 인증에 대한 지원이 추가되었습니다.
[이동] 대화 내용 기록에 대한 지원이 추가되었습니다.

버그 수정

원본 언어 검색을 사용할 때 번역 음성 합성이 작동하지 않는 것을 수정했습니다.
ASCII가 아닌 문자를 포함한 파일 경로가 포함된 음성 모델, KWS 모델 및 로그 파일(https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288)에 대해 작동하지 않는 문제를 수정했습니다.
특정 조건에서 포함된 음성 인식에서 NoMatch 루프가 수정되었습니다.
이벤트가 연결 끊기될 때 인식이 중지됨으로 표시되지 않아 네이티브 개체의 소멸자가 차단되는 문제를 해결했습니다.
IntentRecognizer의 패턴 매칭이 특정 조건에서 멀티바이트 문자를 제대로 처리하지 못하는 문제가 수정되었습니다.
Connection 개체에 대한 호출 Close() 이 동기적이지 않았습니다.
연결 해제 시 크래시로 이어질 수 있는 경합 상태가 수정되었습니다.
[macOS] 콘솔(https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610)에 표시되는 "정보:" 메시지가 수정되었습니다.

샘플

[Python] Microsoft Entra 토큰 자격 증명을 사용하기 위한 recognizer 샘플 코드가 추가되었습니다.

JavaScript용 Speech SDK

새로운 기능:

업데이트된 개발 종속성: TypeScript 3.5.3 → 4.5
기본적으로 V2 엔드포인트를 사용하도록 TranslationRecognizer가 업데이트되었습니다.
V2 엔드포인트를 사용하도록 SpeechRecongizer가 업데이트되었습니다.
- 이로 인해 NoMatch 결과가 더 이상 수신되지 않습니다.
음성 인식 및 번역에 대한 Microsoft Entra 토큰 기반 인증에 대한 지원이 추가되었습니다.
대부분의 시나리오에서 SpeechConfig를 생성하는 데 권장되는 방법으로 FromEndpoint API가 업데이트되었습니다.
- 사용할 때 적용됨:
  - 음성인식기
  - TranslationRecognizer(SpeechTranslationConfig를 통해)
  - 대화 기록기
  - 음성 합성기
- 이제 Speech 및 Azure AI Foundry 리소스용 Azure Portal의 엔드포인트를 사용하여 SpeechConfig 개체를 생성할 수 있습니다.
- SpeechConfig를 생성하는 다른 모든 메서드는 계속 작동하며 지원됩니다.

버그 수정

지원되지 않는 연결 닫는 코드(https://github.com/microsoft/cognitive-services-speech-sdk-js/issues/896)에서 무한 연결 다시 시도 루프가 수정되었습니다.

음성 CLI(SPX)

새로운 기능

Microsoft Entra 토큰 자격 증명으로 인증에 대한 지원이 추가되었습니다.
빠른 대화기록 API에 대한 지원이 추가되었습니다.

버그 수정

파일에서 작동하지 않는 세미콜론으로 구분된 입력 URL 및 입력 파일/URL 목록을 수정했습니다.

Speech SDK 1.43: 2025-3월 릴리스

참고

Ubuntu 20.04 "표준 보안 유지 관리"는 2025년 4월에 만료 되며 더 이상 ADO 빌드 에이전트로 사용할 수 없습니다. 향후 Speech SDK 릴리스에는 지원되는 최소 버전으로 Ubuntu 22.04 LTS(Ubuntu 20.04 대신)가 필요합니다.

새로운 기능:

대부분의 시나리오에서 SpeechConfig를 생성하는 데 권장되는 방법으로 FromEndpoint API가 업데이트되었습니다.
- 사용할 때 적용됨:
  - 음성인식기
  - TranslationRecognizer(SpeechTranslationConfig를 통해)
  - 대화 기록기
  - 모든 프로그래밍 언어에서 SpeechSynthesizer를 사용할 수 있으며, JavaScript는 예외입니다.
- 이제 Azure Portal for Speech 및 Cognitive Services 리소스의 엔드포인트를 사용하여 SpeechConfig 개체를 생성할 수 있습니다.
- SpeechConfig를 생성하는 다른 모든 메서드는 계속 작동하며 지원됩니다.
기본적으로 V2 엔드포인트를 사용하도록 TranslationRecognizer가 업데이트되었습니다.
- 이렇게 하면 V2 엔드포인트를 사용할 때 URL에서 채널 내 메시지로 컨트롤 매개 변수가 이동합니다.
- 동작 변경: "zh"에 대해 반환되는 기본 언어는 이제 "zh-hans" 대신 "zh-CN"입니다.
SpeechSynthesis_FrameTimeoutInterval 및 SpeechSynthesis_RtfTimeoutThreshold 대한 속성 ID가 추가되었습니다.
SDK가 장기 실행 인식에 다시 연결하는 횟수를 최적화했습니다.
[C++, Python] 텍스트 스트리밍 요청에서 스타일 및 온도를 지정하기 위한 지원이 추가되었습니다.
[C#] FromEndpoint를 사용하여 구성 개체를 생성할 때 자동 AAD 토큰 새로 고침에 대한 지원이 추가되었습니다.
- 그러면 Speech SDK에서 Azure.Core nuget 패키지에 종속성이 추가되었습니다.
- 이제 Speech SDK는 다음을 사용할 때 인증을 위해 TokenCredential 파생 개체를 수락할 수 있습니다.
  - 음성인식기
  - 번역 인식기
  - 대화 기록기
[Objective-C] 오픈 범위에서 원본 언어 자동 검색을 지원하도록 SPXTranslationRecognizer가 업데이트되었습니다.
[Objective-C , Python] 진단 API EventLogger, FileLogger 및 MemoryLogger가 추가되었습니다.
[Go]: TranslationRecognizer 지원 추가됨

버그 수정

Linux arm32(https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2736)에서 OpenSSL 3 지원이 수정되었습니다.
음성 합성 음성 목록(https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2771)에서 누락된 상태 필드를 수정했습니다.
IntentRecognizer 패턴 일치 일본어 파서가 정수 문자를 올바르게 식별하지 못하는 문제가 수정되었습니다.
포함된 음성 인식의 중복 결과와 관련된 잠재적인 문제를 해결했습니다.
[Java] Android 12 이상(https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2687)의 ConversationParticipantsChangedEventArgs에서 빈 참가자를 수정했습니다.

샘플

[C++] 패턴 일치를 사용하여 독립 실행형 의도 인식에 대한 샘플이 추가되었습니다.
- 2025년 10월 LUIS 서비스가 사용 중지되면 Speech SDK도 IntentRecognizer 개체 패밀리를 사용 중지합니다.
- 그 전에는 패턴 일치를 위한 구현을 공유하려고 했습니다.
[C++, C#, Java, Python] FromSubscription 대신 FromEndpoint API를 사용하도록 대부분의 샘플을 업데이트했습니다.
[C#] 다중 계층 음성 인식 애플리케이션에 대한 시나리오 샘플이 추가되었습니다.
- 에지 디바이스에서 중간 계층 서비스로 오디오 재생 및 다시 연결하여 음성 SDK를 통해 음성 서비스에 오디오를 전달하는 방법을 보여 줍니다.
[C#] 자동 AAD 토큰 새로 고침을 사용하도록 샘플을 업데이트했습니다.
[Python] 새 진단 API에 대한 샘플이 추가되었습니다.
[Unity] 새 Azure.Core 종속성을 설치하기 위한 지침이 추가되었습니다.

Speech SDK 1.42.0: 2024-12월 릴리스

새로운 기능

Java: FileLogger, MemoryLogger, EventLogger 및 SpxTrace 클래스를 사용하여 진단 로깅 API를 추가했습니다.
모임 참가자의 JSON 속성 "세부 정보"를 서비스에 보내는 지원
Go: 프록시가 사용되지 않는 호스트를 지정하는 SpeechServiceConnection_ProxyHostBypass 공용 속성 ID가 추가되었습니다.
JavaScript, Go: 공용 속성 ID Speech_SegmentationStrategy를 추가하여 음성 구가 종료되고 최종 인식 결과를 생성해야 하는 경우(의미 체계 구분 포함) 결정할 수 있습니다.
JavaScript, Go: Java, Python, C#, C++에서 시간을 기준으로 음성 구의 끝을 결정하는 Speech_SegmentationMaximumTimeMs 공용 속성 ID가 추가되었습니다.

버그 수정

음성 이름이 설정되지 않은 경우 모든 합성에 대해 포함된 TTS 음성이 (다시) 로드되는 문제가 수정되었습니다.
일부 시나리오에서 MeetingTranscriber를 사용할 때 오프셋 계산 문제가 해결되었습니다.
여러 진단 이벤트 수신기를 병렬로 등록할 때 발생할 수 있는 교착 상태를 수정했습니다.
(JavaScript) 오디오가 끝날 때 NoMatch 결과가 손실될 수 있는 문제가 수정되었습니다. 또한 이 수정은 음성 끝의 동작을 다른 SDK 언어와 정렬하며 일부 빈 이벤트가 더 이상 발생하지 않을 수 있습니다.
(JavaScript) 결과 JSON의 오프셋을 수정하여 결과 개체의 오프셋과 맞춥니다. 이전에는 결과 개체의 오프셋 속성만 서비스 다시 연결을 고려하여 수정되었습니다.
Go 언어: 컴파일 오류 수정 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
서비스에 다시 연결될 때 모임 대화 내용 기록에서 결과 오프셋이 수정되었습니다.
로깅에서 교착 상태가 수정되었습니다.

샘플

.NET 8.0을 사용하도록 C# 샘플을 업데이트했습니다.
Java 샘플에서는 새 진단 로깅 클래스의 사용을 보여 주는 진단 로깅 API를 사용합니다.

2024년 11월 릴리스

Visual Studio Code용 Azure AI Speech Toolkit 확장

이제 Visual Studio Code 사용자가 Azure AI Speech Toolkit 확장을 사용할 수 있습니다. 간단한 클릭으로 쉽게 빌드하고 실행할 수 있는 음성 빠른 시작 및 시나리오 샘플 목록이 포함되어 있습니다. 자세한 내용은 Visual Studio Code Marketplace의 Azure AI Speech Toolkit을 참조 하세요.

텍스트 음성 변환 아바타 코드 샘플

Android 및 iOS용 음성 아바타 코드 샘플에 텍스트를 추가했습니다. 이러한 샘플에서는 실시간 텍스트를 사용하여 모바일 애플리케이션에서 아바타를 음성으로 변환하는 방법을 보여 줍니다.

Speech SDK 1.41.1: 2024-10월 릴리스

새로운 기능

Amazon Linux 2023 및 Azure Linux 3.0에 대한 지원이 추가되었습니다.
프록시가 사용되지 않는 호스트를 지정하는 공용 속성 ID SpeechServiceConnection_ProxyHostBypass 추가되었습니다.
새 구 세분화 전략을 제어하는 속성이 추가되었습니다.

버그 수정

2024년 8월 이후에 생성된 키워드 인식 고급 모델에 대한 불완전한 지원이 수정되었습니다.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- iOS의 Swift를 사용하면 프로젝트에서 MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip(원본 https://aka.ms/csspeech/iosbinaryembedded) 또는 고급 모델 지원을 포함하는 MicrosoftCognitiveServicesSpeechEmbedded-iOS Pod를 사용해야 합니다.
문자열 사용과 관련된 C#의 메모리 누수 수정
Objective-C 및 Swift의 SPXConversationTranscriptionResult에서 SPXAutoDetectSourceLanguageResult를 가져올 수 없음을 수정했습니다.
인식에서 Microsoft Audio Stack을 사용할 때 가끔 발생하는 충돌을 해결했습니다.
Python에서 형식 힌트가 수정되었습니다. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
사용자 지정 엔드포인트를 사용할 때 TTS 음성 목록을 가져올 수 없음을 수정했습니다.
음성이 짧은 이름으로 지정될 때 모든 음성 요청에 대해 포함된 TTS 다시 초기화가 수정되었습니다.
RecognizeOnce 오디오의 최대 기간에 대한 API 참조 설명서를 수정했습니다.
JavaScript에서 임의 샘플링 속도를 처리하는 동안 오류가 수정됨
- 이 기여에 대해 rseanhall 님께 감사드립니다.
JavaScript에서 오디오 오프셋을 계산하는 동안 오류가 해결됨
- 이 기여에 대해 motamed에게 감사드립니다.

주요 변경 내용

이 플랫폼에 사용할 수 없는 필수 ONNX 런타임으로 인해 Windows ARM 32비트에서 키워드 인식 지원이 제거되었습니다.

Speech SDK 1.40: 2024년 8월 릴리스

참고

Speech SDK 버전 1.39.0은 내부적으로 릴리스되었고, 누락되지 않았습니다.

새로운 기능

음성 인식에서 G.722 압축 오디오 스트리밍에 대한 지원이 추가되었습니다.
음성 합성에서 입력 텍스트 스트리밍의 피치, 속도, 볼륨 설정에 대한 지원이 추가되었습니다.
음성 합성에 PersonalVoiceSynthesisRequest를 도입하여 개인 음성 입력 텍스트 스트리밍에 대한 지원이 추가되었습니다. 이 API는 미리 보기 상태이며, 이후 버전에서 변경될 수 있습니다.
ConversationTranscriber를 사용할 때 중간 결과의 다이어리화에 대한 지원이 추가되었습니다.
CentOS 7 EOL 및 RHEL 7 유지 관리 지원 2의 종료로 인해 CentOS/RHEL 7 지원이 제거되었습니다.
포함된 음성 모델을 사용하려면 이제 모델 키 대신 모델 라이선스가 필요합니다. 사용자가 기존의 포함된 음성 고객이고 업그레이드하려는 경우 Microsoft의 지원 담당자에게 모델 업데이트에 대한 자세한 내용을 문의하세요.

버그 수정

Visual C++ 런타임 문제 VS 2022 버전 17.10.0 - 개발자 커뮤니티(visualstudio.com)로 업그레이드한 후 나타나는 std::mutex::lock을 사용한 액세스 위반을 완화하기 위해 _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR 플래그를 사용하여 Windows용 Speech SDK 이진 파일을 빌드했습니다. Speech SDK를 사용하는 Windows C++ 애플리케이션은 코드에서 std::mutex를 사용하는 경우 동일한 빌드 구성 플래그를 적용해야 할 수 있습니다(연결된 문제의 세부 정보 참조).
Linux arm64(https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420)에서 OpenSSL 3.x 검색이 작동하지 않는 문제가 해결되었습니다.
UWP 앱을 배포할 때 MAS NuGet 패키지의 라이브러리 및 모델이 배포 위치에 복사되지 않는 문제가 해결되었습니다.
Android 패키지(https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463)의 콘텐츠 공급자 충돌이 해결되었습니다.
후처리 옵션이 중간 음성 인식 결과에 적용되지 않는 문제가 수정되었습니다.
배포별 런타임 식별자(https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244)에 대한 .NET 8 경고를 수정했습니다.

샘플

포함된 음성 샘플이 키 대신 모델 라이선스를 사용하도록 업데이트되었습니다.

Speech SDK 1.38.0: 2024년 6월 릴리스

새로운 기능

Speech SDK Linux 플랫폼 업그레이드 요구 사항:
- 새 최소 기준은 Ubuntu 20.04 LTS이거나 glibc 2.31 이상과 호환됩니다.
- Linux x86용 이진 파일은 Ubuntu 20.04 플랫폼 지원에 따라 제거됩니다.
- RHEL/CentOS 7은 6월 30일까지 계속 지원됩니다(CentOS 7 종료 및 RHEL 7 유지 관리 지원 2 종료). 이진 파일은 Speech SDK 1.39.0 릴리스에서 제거될 예정입니다.
Linux에서 OpenSSL 3에 대한 지원을 추가합니다.
음성 신시사이저를 사용하여 g722-16khz-64kbps 오디오 출력 형식에 대한 지원을 추가합니다.
음성 신시사이저를 사용하여 연결 개체를 통해 메시지를 보내는 지원을 추가합니다.
Objective-C 및 Swift에서 Start/StopKeywordRecognition API를 추가합니다.
사용자 지정 변환 모델 범주를 선택하기 위한 API를 추가합니다.
음성 신시사이저를 사용하여 GStreamer 사용을 업데이트합니다.

버그 수정

Start/StopKeywordRecognition 중에 "Websocket 메시지 크기가 65,536바이트를 초과할 수 없음" 오류를 수정합니다.
음성 합성 중에 Python 구분 오류를 수정합니다.

샘플

기본적으로 .NET 6.0을 사용하도록 C# 샘플을 업데이트합니다.

Speech SDK 1.37.0: 2024년 4월 릴리스

새로운 기능

음성 합성에서 입력 텍스트 스트리밍에 대한 지원을 추가합니다.
기본 음성 합성 음성을 en-US-AvaMultilingualNeural로 변경합니다.
OpenSSL 3.x를 사용하도록 Android 빌드를 업데이트합니다.

버그 수정

MAS를 사용할 때 SpeechRecognizer 처리 중에 간헐적으로 발생하는 JVM 크래시를 수정합니다. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Linux에서 기본 오디오 디바이스 검색 기능을 개선합니다. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

샘플

새로운 기능을 위해 업데이트되었습니다.

Speech SDK 1.36.0: 2024-3월 릴리스

새로운 기능

AutoDetectSourceLanguageConfig::FromOpenRange()를 사용하여 v2 엔드포인트에서 다국어 번역에서 언어 식별에 대한 지원을 추가합니다.

버그 수정

SynthesisStarted 이벤트 중에 중지가 호출되면 SynthesisCanceled 이벤트가 발생하지 않는 문제를 해결합니다.
포함된 음성 합성에서 노이즈 문제를 해결합니다.
여러 인식기를 병렬로 실행할 때 포함된 음성 인식의 충돌을 수정합니다.
v1/v2 엔드포인트에서 구문 감지 모드 설정을 수정합니다.
Microsoft Audio Stack의 다양한 문제를 해결합니다.

샘플

새 기능에 대한 업데이트입니다.

Speech SDK 1.35.0: 2024년 2월 릴리스

새로운 기능

기본 텍스트 음성 변환을 en-US-JennyMultilingualNeural에서 en-US-AvaNeural 목소리로 변경합니다.
자세한 출력 형식을 사용하여 포함된 음성 번역 결과에서 단어 수준의 세부 정보를 지원합니다.

버그 수정

Python에서 AudioDataStream position getter API가 수정되었습니다.
언어 감지 없이 v2 엔드포인트를 사용하여 음성 번역이 수정되었습니다.
내장된 텍스트 음성 변환 시스템에서 임의의 크래시 및 중복 단어 경계 이벤트를 수정합니다.
WebSocket 연결의 내부 서버 오류에 대한 올바른 취소 오류 코드를 반환합니다.
MAS가 C#과 함께 사용될 때 FPIEProcessor.dll 라이브러리를 로드하지 못하는 문제가 수정되었습니다.

샘플

포함된 인식 샘플 서식이 사소하게 업데이트되었습니다.

Speech SDK 1.34.1: 2024년 1월 릴리스

주요 변경 내용

버그 수정만

새로운 기능

버그 수정만

버그 수정

1.34.0에 도입된 회귀 문제(몇몇 중국 지역의 사용자에 대해 잘못된 로캘 정보로 서비스 엔드포인트 URL이 생성됨)가 수정되었습니다.

Speech SDK 1.34.0: 2023년 11월 릴리스

주요 변경 내용

SpeechRecognizer가 대부분의 속성에 대해 쿼리 문자열 매개 변수를 더 이상 지원하지 않는 새 엔드포인트(즉, URL을 명시적으로 지정하지 않은 경우)를 사용하도록 업데이트되었습니다. ServicePropertyChannel.UriQueryParameter를 사용하여 쿼리 문자열 매개 변수를 직접 설정하는 대신 해당 API 함수를 사용하세요.

새로운 기능

.NET 8과의 호환성(centos7-x64에 대한 경고를 제외하고 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 수정)
포함된 음성을 실행하는 디바이스의 기능을 평가하는 데 사용할 수 있는 포함된 음성 성능 메트릭을 지원합니다.
포함된 다국어 번역에서 원본 언어 식별을 지원합니다.
미리 보기로 릴리스된 iOS 및 Swift/Objective-C에 대한 포함된 음성 텍스트 변환, 텍스트 음성 변환 및 번역을 지원합니다.
포함된 지원은 MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod에서 제공됩니다.

버그 수정

iOS SDK의 바이너리 크기가 두 배로 증가한 문제 수정 · 문제 #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Azure 음성 텍스트 변환 API에서 단어 수준 타임스탬프를 가져올 수 없는 문제 수정 · 문제 #2156 · Azure-Samples/cognitive-services-speech-sdk(github.com)
이벤트를 올바르게 분리하도록 DialogServiceConnector 소멸 단계가 수정되었습니다. 이로 인해 때때로 크래시가 발생했었습니다.
MAS 사용 시 인식기를 만드는 동안 발생하는 예외가 수정되었습니다.
Windows UWP x64 및 Arm64용 Microsoft.CognitiveServices.Speech.Extension.MAS NuGet 패키지의 FPIEProcessor.dll에 네이티브 C++용 VC 런타임 라이브러리에 대한 종속성이 있었습니다. VC 런타임 라이브러리(UWP용)를 수정하도록 종속성을 업데이트하여 이 문제가 수정되었습니다.
MAS 사용 시 recognizeOnceAsync에 대해 [MAS] 되풀이 호출을 하면 SPXERR_ALREADY_INITIALIZED가 발생하는 문제 수정 · 문제 #2124 · Azure-Samples/cognitive-services-speech-sdk(github.com)
구문 목록을 사용할 때 발생하는 포함된 음성 인식 오류를 수정합니다.

샘플

음성 인식을 위한 iOS 내장 샘플, 텍스트 음성 변환 및 번역.

Speech CLI 1.34.0: 2023년 11월 릴리스

새로운 기능

음성을 합성할 때 단어 경계 이벤트 출력을 지원합니다.

버그 수정

JMESPath 종속성이 최신 릴리스로 업데이트되었으며, 문자열 평가가 개선되었습니다.

Speech SDK 1.33.0: 2023년 10월 릴리스

호환성이 손상되는 변경 알림

이제 MAS(Microsoft Audio Stack)용으로 추가된 새 NuGet 패키지가 패키지 구성 파일에서 MAS를 사용하는 애플리케이션에 포함되어야 합니다.

새로운 기능

Microsoft Audio Stack을 사용할 때 향상된 반향 제거 성능을 제공하는 새 NuGet 패키지 Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg가 추가되었습니다.
발음 평가: 운율, 어휘, 문법 및 토픽 측면에서 음성을 평가할 수 있는 운율 및 콘텐츠 평가에 대한 지원이 추가되었습니다.

버그 수정

키워드 인식 결과 오프셋이 수정되어 시작부터 입력 오디오 스트림과 올바르게 일치하게 되었습니다. 이 수정 사항은 독립 실행형 키워드 인식과 키워드 트리거 음성 인식 모두에 적용됩니다.
신시사이저 stopSpeaking이 즉시 반환되지 않는 문제를 수정했습니다. SPXSpeechSynthesizer stopSpeaking() 메서드가 iOS 17에서 즉시 반환할 수 없음 - 문제 #2081
Apple Silicon을 사용하는 Mac Catalyst에 대한 Swift 모듈 지원에서 Mac Catalyst 가져오기 문제가 수정되었습니다. 문제 #1948
JS: AudioWorkletNode 모듈 로드는 이제 신뢰할 수 있는 URL을 사용하며, DN 브라우저에 대한 대체가 포함됩니다.
JS: 압축된 lib 파일은 이제 ES6 JS를 대상으로 하며, ES5 JS에 대한 지원이 제거되었습니다.
JS: v2 엔드포인트를 대상으로 하는 번역 시나리오에 대한 중간 이벤트가 올바르게 처리됩니다.
JS: TranslationRecognitionEventArgs의 언어 속성이 이제 translation.hypothesis 이벤트에 대해 설정됩니다.
Speech Synthesis: SynthesisCompleted 이벤트는 모든 메타데이터 이벤트 후에 내보내도록 보장되므로 이벤트 종료를 나타내는 데 사용할 수 있습니다. 비셈이 완전하게 수신되었음을 어떻게 감지할 수 있을까? 문제 #2093 Azure-Samples/cognitive-services-speech-sdk

샘플

Python을 사용하여 MULAW 스트리밍을 보여주는 샘플이 추가되었습니다.
음성 텍스트 변환 NAudio 샘플이 수정되었습니다.

Speech CLI 1.33.0: 2023년 10월 릴리스

새로운 기능

음성을 합성할 때 단어 경계 이벤트 출력을 지원합니다.

버그 수정

없음

Speech SDK 1.32.1: 2023년 9월 릴리스

버그 수정

OpenSSL1.1.1v의 최신 보안 수정 사항으로 Android 패키지 업데이트
JS – 시간 제한 작업자에 대한 데이터 URL 로드 무시를 허용하기 위해 WebWorkerLoadType 속성이 추가되었습니다.
JS – 10분 후 대화 번역 연결 끊김 수정
JS – 이제 Conversation의 대화 번역 인증 토큰이 번역 서비스 연결로 전파됩니다.

샘플

Swift API를 사용한 대화 기록

Speech SDK 1.31.0: 2023년 8월 릴리스

새로운 기능

실시간 분할 지원은 Speech SDK 1.31.0의 공개 미리 보기에서 사용할 수 있습니다. 이 기능은 C#, C++, Java, JavaScript, Python 및 Objective-C/Swift SDK에서 사용할 수 있습니다.
오디오 재생과 동기화된 음성 합성 단어 경계 및 viseme 이벤트

주요 변경 내용

이전의 "대화 기록" 시나리오는 "모임 대화 내용 기록"으로 이름이 변경되었습니다. 예를 들어, MeetingTranscriber 대신 ConversationTranscriber를 사용하고, CreateMeetingAsync 대신 CreateConversationAsync를 사용합니다. SDK 개체 및 메서드의 이름이 변경되었더라도 기능 자체는 변경되지 않았습니다. 사용자 프로필 및 음성 서명이 포함된 모임 대화 내용을 기록하려면 모임 대화 내용 기록 개체를 사용합니다. "대화 번역" 개체 및 메서드는 이러한 변경 내용의 영향을 받지 않습니다. 번역 시나리오를 충족하기 위해 ConversationTranslator 개체와 해당 메서드를 계속 사용할 수 있습니다.
실시간 분할을 위해 새로운 ConversationTranscriber 개체가 도입되었습니다. 새로운 "대화 기록" 개체 모델 및 통화 패턴은 SpeechRecognizer 개체를 사용한 연속 인식과 유사합니다. 주요 차이점은 ConversationTranscriber 개체가 여러 화자를 구별(분할)하려는 대화 시나리오에서 사용되도록 설계되었다는 것입니다. 사용자 프로필 및 음성 서명은 적용되지 않습니다. 자세한 내용은 실시간 분리 빠른 시작을 참조하세요.

이 표에는 실시간 분할 및 모임 대화 내용 기록을 위한 이전 및 새 개체 이름이 표시됩니다. 시나리오 이름은 첫 번째 열에 있고, 이전 개체 이름은 두 번째 열에 있으며, 새 개체 이름은 세 번째 열에 있습니다.

시나리오 이름	이전 개체 이름	새 개체 이름
실시간 분리	해당 없음	`ConversationTranscriber`
모임 대화 내용 기록	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹Participant, ParticipantChangedReason 및 User 개체는 모임 대화 내용 기록 및 모임 번역 시나리오 모두에 적용 가능합니다.

²Meeting 개체는 새로운 개체이며 MeetingTranscriber 개체와 함께 사용됩니다.

버그 수정

macOS 최소 지원 버전 수정 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
발음 평가 버그 수정:
- 음소 정확도 점수 문제를 해결하여 이제 잘못 발음된 특정 음소만 정확하게 반영하도록 했습니다. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- 특히 단어에 여러 개의 유효한 발음이 있을 수 있는 상황에서 발음 평가 기능이 완전히 정확한 발음을 잘못된 발음으로 부정확하게 식별하는 문제가 해결되었습니다. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

샘플

Speech SDK 1.30.0: 2023년 7월 릴리스

새로운 기능

C++, C#, Java - 포함된 음성 인식의 세부 결과에 DisplayWords에 대한 지원이 추가되었습니다.
Objective-C/Swift - Objective-C/Swift에 ConnectionMessageReceived 이벤트에 대한 지원이 추가되었습니다.
Objective-C/Swift - iOS용 키워드 발견 모델이 개선되었습니다. 이 변경으로 인해 iOS 이진 파일(예: NuGet, XCFramework)이 포함된 특정 패키지의 크기가 늘어났습니다. 향후 릴리스에서는 크기를 줄이기 위해 노력하고 있습니다.

버그 수정

고객이 보고한 대로 PhraseListGrammar와 함께 음성 인식기를 사용할 때 메모리 누수가 해결되었습니다(GitHub 문제).
텍스트 음성 변환 열린 연결 API의 교착 상태가 수정되었습니다.

추가 참고 사항

Java - 내부적으로 사용되는 일부 public Java API 메서드가 internal, protected 또는 private 패키지로 변경되었습니다. 애플리케이션에서 이러한 변경 내용을 사용할 것으로 예상하지 않으므로 이 변경 내용은 개발자에게 영향을 미치지 않습니다. 투명성을 위해 여기에 표시됩니다.

샘플

고유의 애플리케이션에서 학습 언어를 지정하는 방법에 대한 새로운 발음 평가 샘플
- C#: 샘플 코드를 참조하세요.
- C++: 샘플 코드를 참조하세요.
- JavaScript: 샘플 코드를 참조하세요.
- Objective-C: 샘플 코드를 참조하세요.
- Python: 샘플 코드를 참조하세요.
- Swift: 샘플 코드를 참조하세요.

Speech SDK 1.29.0: 2023년 6월 릴리스

새로운 기능

C++, C#, Java - 포함된 Speech Translation API 미리 보기. 이제 클라우드 연결 없이 음성 번역을 할 수 있습니다!
JavaScript - 이제 음성 번역에 LID(지속적인 언어 식별)가 사용하도록 설정되었습니다.
JavaScript - LocaleName 클래스에 VoiceInfo 속성을 추가하기 위한 커뮤니티 기여입니다. 끌어오기 요청을 보내주신 GitHub 사용자 shivsarthak에게 감사드립니다.
C++, C#, Java - 임베디드 텍스트 음성 변환 출력을 16kHz에서 48kHz 샘플레이트로 다시 샘플링하기 위한 지원이 추가되었습니다.
단순 패턴 일치를 사용하여 의도 인식기에 hi-IN 로캘에 대한 지원이 추가되었습니다.

버그 수정

일부 Android 테스트에서 볼 수 있듯이 개체 제거 중 음성 인식기의 경쟁 조건으로 인해 발생하는 크래시를 수정했습니다.
단순 패턴 검사기를 사용하여 의도 인식기에서 발생할 수 있는 교착 상태를 수정했습니다.

샘플

새로운 음성 번역 내장 샘플

Speech SDK 1.28.0: 2023년 5월 릴리스

호환성이 손상되는 변경

JavaScript SDK: OCSP(온라인 인증서 상태 프로토콜)가 제거되었습니다. 이를 통해 클라이언트는 인증서 처리를 위한 브라우저 및 노드 표준을 더 잘 준수할 수 있습니다. 버전 1.28 이상에는 더 이상 사용자 지정 OCSP 모듈이 포함되지 않습니다.

새로운 기능

이제 발화가 끝날 때 무음 시간 제한이 발생하면 포함된 음성 인식이 NoMatchReason::EndSilenceTimeout을 반환합니다. 이는 실시간 음성 서비스를 사용하여 인식을 수행할 때의 동작과 일치합니다.
JavaScript SDK: SpeechTranslationConfig 열거형 값을 사용하여 PropertyId의 속성을 설정합니다.

버그 수정

Windows의 C# - Windows 오디오 확장의 잠재적인 경합 상태/교착 상태를 수정합니다. 오디오 렌더러를 빠르게 삭제하고 Synthesizer 메서드를 사용하여 말하기를 중지하는 시나리오에서 기본 이벤트는 중지로 초기화되지 않았으며 렌더러 개체가 삭제되지 않을 수 있지만 삭제를 위해 전역 잠금을 유지하여 dotnet GC 스레드를 동결할 수 있습니다.

샘플

MAUI용 포함된 음성 샘플을 추가했습니다.
텍스트 음성 변환을 포함하도록 Android Java용 포함된 음성 샘플을 업데이트했습니다.

Speech SDK 1.27.0: 2023년 4월 릴리스

예정된 변경 내용에 대한 알림

다음 JavaScript SDK 릴리스에서는 OCSP(온라인 인증서 상태 프로토콜)를 제거할 계획입니다. 이를 통해 클라이언트는 인증서 처리를 위한 브라우저 및 노드 표준을 더 잘 준수할 수 있습니다. 버전 1.27은 사용자 지정 OCSP 모듈을 포함하는 마지막 릴리스입니다.

새로운 기능

JavaScript – 화자 식별 및 검증 기능을 통해 브라우저에서 마이크 입력 지원이 추가되었습니다.
포함된 음성 인식 - PropertyId::Speech_SegmentationSilenceTimeoutMs 설정에 대한 지원을 업데이트합니다.

버그 수정

일반 - 서비스 재연결 논리의 안정성 업데이트(JavaScript를 제외한 모든 프로그래밍 언어)
일반 - Windows(JavaScript를 제외한 모든 관련 프로그래밍 언어)에서 문자열 변환 메모리 누수를 수정합니다.
포함된 음성 인식 - 특정 문법 목록 항목을 사용할 때 프랑스어 음성 인식의 크래시를 수정합니다.
소스 코드 설명서 - 서비스의 오디오 로깅과 관련된 SDK 참조 설명서 주석이 수정되었습니다.
의도 인식 - 목록 항목과 관련된 패턴 검사기 우선 순위를 수정합니다.

샘플

C# CTS(대화 기록) 샘플에서 인증 실패를 적절하게 처리합니다.
Python, JavaScript, Objective-C 및 Swift에 대한 스트리밍 발음 평가의 예가 추가되었습니다.

Speech SDK 1.26.0: 2023년 3월 릴리스

주요 변경 내용

xcframework가 포함된 Cocoapod, NuGet(Xamarin 및 MAUI용) 및 Unity 패키지의 모든 iOS 대상에서 비트코드가 사용하지 않도록 설정되었습니다. 이러한 변화는 Apple이 Xcode 14부터 비트코드 지원을 중단했기 때문입니다. 이 변경 내용은 또한 Xcode 13 버전을 사용 중이거나 Speech SDK를 사용하여 애플리케이션에서 비트코드를 명시적으로 활성화한 경우 "프레임워크에 비트코드가 없으므로 다시 빌드해야 합니다"라는 오류가 발생할 수 있음을 의미합니다. 이 문제를 해결하려면 대상에 비트코드가 사용하지 않도록 설정되어 있는지 확인합니다.
이 릴리스에서는 최소 iOS 배포 대상이 11.0으로 업그레이드되며, 이는 armv7 HW가 더 이상 지원되지 않음을 의미합니다.

새로운 기능

포함된(디바이스 내) 음성 인식은 이제 8kHz 및 16kHz 샘플링 속도 입력 오디오(샘플당 16비트, 모노 PCM)를 모두 지원합니다.
음성 합성은 이제 연결, 네트워크 및 서비스 대기 시간을 결과에 보고하여 엔드투엔드 대기 시간을 최적화하도록 돕습니다.
간단한 패턴 일치를 통한 의도 인식을 위한 새로운 동점 분리 규칙. 일치하는 문자 바이트가 많을수록 문자 바이트 수가 적은 패턴 일치보다 우선합니다. 예: "오른쪽 상단에서 {항목} 선택" 패턴이 "{항목} 선택"보다 우선합니다.

버그 수정

음성 합성: 단어 경계 이벤트에서 이모티콘이 올바르지 않은 버그를 수정합니다.
CLU(대화 언어 이해)를 통한 의도 인식:
- 이제 CLU Orchestrator 워크플로의 의도가 올바르게 나타납니다.
- JSON 결과는 이제 속성 ID LanguageUnderstandingServiceResponse_JsonResult를 통해 사용할 수 있습니다.
키워드 활성화로 음성 인식: 키워드 인식 후 ~150ms 오디오 누락을 수정합니다.
고객이 보고한 Speech SDK NuGet iOS MAUI 릴리스 빌드 수정(GitHub 문제)

샘플

고객이 보고한 Swift iOS 샘플 수정(GitHub 문제)

Speech SDK 1.25.0: 2023년 1월 릴리스

주요 변경 내용

언어 식별(미리 보기) API가 간소화되었습니다. Speech SDK 1.25로 업데이트하고 빌드가 중단되는 경우 언어 식별 페이지를 방문하여 새 속성 SpeechServiceConnection_LanguageIdMode에 대해 알아봅니다. 이 단일 속성은 이전의 두 속성인 SpeechServiceConnection_SingleLanguageIdPriority 및 SpeechServiceConnection_ContinuousLanguageIdPriority를 바꿉니다. 짧은 대기 시간과 높은 정확도 사이의 우선 순위는 최근 모델 개선에 따라 더 이상 필요하지 않습니다. 이제 연속 음성 인식 또는 번역을 수행할 때 시작 시 또는 연속 언어 식별을 실행할지 여부만 선택하면 됩니다.

새로운 기능

C#/C++/Java: 포함된 Speech SDK가 현재 제한 공개 미리 보기로 릴리스되었습니다. 포함된 음성(미리 보기) 설명서를 참조하세요. 이제 클라우드 연결이 일시적이거나 사용할 수 없는 경우 디바이스 내 음성을 텍스트로 변환 및 텍스트를 음성으로 변환할 수 있습니다. Android, Linux, macOS 및 Windows 플랫폼에서 지원됨
C# MAUI: Speech SDK NuGet에서 iOS 및 Mac Catalyst 대상에 대한 지원 추가(고객 문제)
Unity: Unity 패키지에 Android x86_64 아키텍처 추가(고객 문제)
이동:
- 음성 인식을 위해 추가된 ALAW/MULAW 직접 스트리밍 지원(고객 문제)
- PhraseListGrammar에 대한 지원이 추가되었습니다. 커뮤니티 기여에 대해 GitHub 사용자 czkoko에게 감사드립니다!
C#/C++: 의도 인식기가 이제 Microsoft 서비스의 오케스트레이션을 통해 C++ 및 C#에서 대화 언어 이해 모델을 지원합니다.

버그 수정

KeywordRecognizer를 중지하려고 할 때 간헐적으로 멈추는 문제 수정
Python:
- PronunciationAssessmentGranularity.FullText가 설정된 경우 발음 평가 결과를 받는 문제 수정(고객 문제)
- 음성 합성 음성을 가져올 때 검색되지 않는 남성 음성의 성별 속성 수정
JavaScript
- iOS 디바이스에서 녹음된 일부 WAV 파일을 구문 분석하기 위한 수정(고객 문제)
- JS SDK는 이제 npm-force-resolutions를 사용하지 않고 빌드합니다(고객 문제).
- Conversation Translator는 이제 SpeechConfig.fromEndpoint()를 사용하여 만들어진 speechConfig 인스턴스를 사용할 때 서비스 엔드포인트를 올바르게 설정합니다.

샘플

포함된 음성 사용 방법을 보여 주는 샘플을 추가했습니다.
MAUI용 음성 텍스트 변환 샘플 추가

Speech SDK 샘플 리포지토리를 참조하세요.

Speech SDK 1.24.2: 2022년 11월 릴리스

새로운 기능

새 기능이 없으며 새 모델 파일을 지원하기 위한 포함된 엔진 수정만 있습니다.

버그 수정

모든 프로그래밍 언어
- 포함된 음성 인식 모델의 암호화 문제가 해결되었습니다.

Speech SDK 1.24.1: 2022년 11월 릴리스

새로운 기능

Embedded Speech 미리 보기용 패키지가 게시되었습니다. 자세한 내용은 https://aka.ms/embedded-speech 을 참조하세요.

버그 수정

모든 프로그래밍 언어
- 음성 글꼴이 지원되지 않을 때 임베디드 TTS 오류 수정
- stopSpeaking()이 Linux에서 재생을 중지할 수 없는 문제 수정(#1686)
JavaScript SDK
- Conversation Transcriber의 오디오 게이트 방식에 대한 회귀 버그가 수정되었습니다.
java
- Docs 파이프라인이 온라인 참조 문서를 업데이트할 수 있도록 업데이트된 POM 및 Javadocs 파일이 Maven Central에 일시적으로 게시되었습니다.
파이썬
- Python speak_text(ssml)가 void를 반환하는 경우 회귀를 수정합니다.

Speech SDK 1.24.0: 2022년 10월 릴리스

새로운 기능

모든 프로그래밍 언어: AMR-WB(16khz)가 지원되는 텍스트 음성 변환 오디오 출력 형식 목록에 추가됨
Python: 지원되는 Linux 배포판에 대해 Linux Arm64용 패키지가 추가되었습니다.
C#/C++/Java/Python: AudioStreamWaveFormat을 사용하여 ALAW MULAW 직접 스트리밍에 대한 지원이 Speech Service(기존 PCM 스트림 외에도)에 추가되었습니다.
C# MAUI: .NET MAUI 개발자를 위해 Android 대상을 지원하도록 NuGet 패키지가 업데이트되었습니다(고객 문제).
Mac: iOS 이진 파일을 포함하지 않는 별도의 Mac용 XCframework를 추가했습니다. 이 항목은 더 작은 XCframework 패키지를 사용하는 Mac 이진 파일만 필요한 개발자를 위한 옵션을 제공합니다.
MAS(Microsoft Audio Stack):
- 빔 형성 각도를 지정하면 지정된 범위를 벗어나서 생성되는 소리가 더 잘 억제됩니다.
- Linux ARM32 및 Linux Arm64의 libMicrosoft.CognitiveServices.Speech.extension.mas.so 크기를 약 70% 줄입니다.
패턴 일치를 사용하는 의도 인식:
- 언어 fr, de, es, jp에 대한 맞춤법 지원을 추가합니다.
- 언어 es에 대해 미리 빌드된 정수 지원을 추가했습니다.

버그 수정

iOS: 압축된 오디오 디코딩 실패로 인한 iOS 16의 음성 합성 오류를 수정합니다(고객 문제).
JavaScript:
- 음성 합성 음성 목록을 가져올 때 인증 토큰이 작동하지 않는 문제를 수정합니다(고객 문제).
- 작업자 로드에 대한 데이터 URL을 사용합니다(고객 문제).
- AudioWorklet이 브라우저에서 지원되는 경우에만 오디오 프로세서 워크렛을 만듭니다(고객 문제). 이것은 William Wong의 커뮤니티 기여였습니다. William, 감사합니다!
- LUIS 응답 connectionMessage가 비어 있을 때 인식된 콜백을 수정합니다(고객 문제).
- 음성 구분 시간 제한을 올바르게 설정합니다.
패턴 일치를 사용하는 의도 인식:
- 이제 모델 내의 비 json 문자가 제대로 로드됩니다.
- 연속 인식 중에 recognizeOnceAsync(text)가 호출되었을 때 발생하는 중단 문제를 수정합니다.

Speech SDK 1.23.0: 2022년 7월 릴리스

새로운 기능

C#, C++, Java: 패턴 일치를 사용하여 의도 인식에서 zh-cn 및 zh-hk 언어에 대한 지원이 추가됨
C#: AnyCPU .NET Framework 빌드에 대한 지원이 추가됨

버그 수정

Android: OpenSSL을 1.1.1q로 업데이트하여 OpenSSL 취약성 CVE-2022-2068이 수정됨
Python: PushAudioInputStream 사용 시 발생하는 크래시가 수정됨
iOS: iOS에서 보고된 "EXC_BAD_ACCESS: Null 포인터 역참조 시도"가 수정됨(GitHub 문제)

Speech SDK 1.22.0: 2022년 6월 릴리스

새로운 기능

Java: getEntities(), applyLanguageModels(), recognizeOnceAsync(text)에 대한 IntentRecognitionResult API가 추가되어 "간단한 패턴 일치" 엔진을 지원합니다.
Unity: Unity 패키지용 Mac M1(Apple 실리콘)에 대한 지원 추가(GitHub 문제)
C#: Xamarin Android에 대한 x86_64에 대한 지원 추가(GitHub 문제)
C#: .NET 프레임워크 최소 버전은 v4.6.1이 만료됨에 따라 SDK C# 패키지용 v4.6.2로 업데이트되었습니다(Microsoft .NET Framework 구성 요소 수명 주기 정책 참조).
Linux: Debian 11 및 Ubuntu 22.04 LTS 지원이 추가되었습니다. Ubuntu 22.04 LTS를 사용하려면 여기에서 이진 패키지(예: x64의 경우 libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb 이상)로 또는 원본에서 컴파일하여 libssl1.1을 수동으로 설치해야 합니다.

버그 수정

UWP: OpenSSL 종속성이 UWP 라이브러리에서 제거되고 보안 규정 준수 및 더 작은 이진 공간을 충족하기 위해 WinRT websocket 및 HTTP API로 대체되었습니다.
Mac: macOS 플랫폼을 대상으로 하는 Swift 프로젝트를 사용할 때 “MicrosoftCognitiveServicesSpeech 모듈을 찾을 수 없음” 문제가 해결됨
Windows, Mac: 실시간 속도로 스트리밍하기 위해 속성을 통해 구성된 오디오 원본이 때때로 뒤쳐지고 결국 용량을 초과하는 플랫폼별 문제가 해결됨

샘플(GitHub)

C#: v4.6.2를 사용하도록 업데이트된 .NET 프레임워크 샘플
Unity: Android 및 UWP용으로 고정된 가상 도우미 샘플
Unity: Unity 2020 LTS 버전용으로 업데이트된 Unity 샘플

Speech SDK 1.21.0: 2022년 4월 릴리스

새로운 기능

Java 및 JavaScript: SpeechRecognizer 개체를 사용할 때 지속적인 언어 식별에 대한 지원이 추가되었습니다.
JavaScript: Microsoft에서 고객이 보고한 문제를 해결하는 데 도움이 되도록 콘솔 로깅 수준 및 (노드 전용) 파일 로깅을 사용하도록 진단 API가 추가되었습니다.
Python: 대화 기록 지원이 추가되었습니다.
Go: Speaker Recognition 지원이 추가되었습니다.
C++ & C#: 의도 인식기(단순 패턴 일치)에 필요한 단어 그룹에 대한 지원이 추가되었습니다. 예: "(set|start|begin) a timer" - 의도를 인식하려면 "set", "start" 또는 "begin"이 있어야 합니다.
모든 프로그래밍 언어, Speech Synthesis: 단어 경계 이벤트에 기간 속성이 추가되었습니다. 문장 부호와 문장 경계에 대한 지원이 추가되었습니다.
Objective-C/Swift/Java: 발음 평가 결과 개체(C#과 유사)에 단어 수준 결과가 추가되었습니다. 애플리케이션에서 더 이상 JSON 결과 문자열을 구문 분석하여 단어 수준 정보를 가져올 필요가 없습니다(GitHub 문제).
iOS 플랫폼: ARMv7 아키텍처에 대한 실험적 지원이 추가되었습니다.

버그 수정

iOS 플랫폼: CocoaPod를 사용하는 경우 대상 "iOS 디바이스"에 대한 빌드를 허용(GitHub 문제)하도록 수정합니다.
Android 플랫폼: 보안 취약성 CVE-2022-0778을 수정하기 위해 OpenSSL 버전이 1.1.1n으로 업데이트되었습니다.
JavaScript: wav 헤더가 파일 크기로 업데이트되지 않는 문제 수정(GitHub 문제)
JavaScript: 요청 ID 비동기 문제 호환성이 손상되는 번역 시나리오(GitHub 문제)를 수정합니다.
JavaScript: 스트림 없이 SpeakerAudioDestination을 인스턴스화할 때 발생하는 문제(GitHub 문제)를 해결합니다.
C++: C++17 이상용으로 컴파일할 때 경고를 제거하도록 C++ 헤더를 수정합니다.

샘플 GitHub

언어 식별을 사용하는 음성 인식에 대한 새로운 Java 샘플
대화 기록을 위한 새 Python 및 Java 샘플
음성 인식을 위한 새로운 Go 샘플
디바이스 ID를 찾기 위해 모든 오디오 캡처 및 렌더링 디바이스를 열거하는 Windows용 새로운 C++ 및 C# 도구입니다. 이 ID는 기본 디바이스가 아닌 디바이스에서 오디오를 캡처하거나 기본 디바이스가 아닌 디바이스로 오디오를 렌더링하려는 경우에 Speech SDK에서 필요합니다.

Speech SDK 1.20.0: 2022년 1월 릴리스

새로운 기능

Objective-C, Swift 및 Python: 음성 도우미 시나리오에 사용되는 DialogServiceConnector에 대한 지원이 추가되었습니다.
Python: Python 3.10에 대한 지원이 추가되었습니다. Python 3.6에 대한 지원은 Python의 3.6에 대한 수명 종료에 따라 제거되었습니다.
Unity: 이제 Linux의 Unity 애플리케이션에서 Speech SDK가 지원됩니다.
C++, C#: 패턴 일치를 사용하는 IntentRecognizer는 이제 C#에서 지원됩니다. 또한 사용자 지정 엔터티, 선택적 그룹 및 엔터티 역할을 사용하는 시나리오가 이제 C++ 및 C#에서 지원됩니다.
C++, C#: 새 FileLogger, MemoryLogger 및 EventLogger 클래스를 사용하여 진단 추적 로깅을 개선했습니다. SDK 로그는 Microsoft가 고객이 보고한 문제를 진단하는 데 필요한 중요 도구입니다. 이러한 새 클래스를 사용하면 고객이 Speech SDK 로그를 자체 로깅 시스템에 쉽게 통합할 수 있습니다.
모든 프로그래밍 언어: PronunciationAssessmentConfig에는 이제 원하는 음소 알파벳(IPA 또는 SAPI) 및 N-최적 음소 수를 설정하는 속성이 있습니다(GitHub 이슈 1284에 따라 구성 JSON을 작성할 필요가 없음). 또한 이제 음절 수준 출력이 지원됩니다.
Android, iOS 및 macOS(모든 프로그래밍 언어): 제한된 대역폭 네트워크를 지원하기 위한 GStreamer가 더 이상 필요하지 않습니다. 이제 SpeechSynthesizer는 운영 체제의 오디오 디코딩 기능을 사용하여 텍스트 음성 변환 서비스에서 스트리밍된 압축 오디오를 디코딩합니다.
모든 프로그래밍 언어: SpeechSynthesizer는 이제 라이브 스트리밍 시나리오에서 널리 사용되는 세 가지 새로운 원시 출력 Opus 형식(컨테이너 제외)을 지원합니다.
JavaScript: 지원되는 합성 음성 목록을 검색할 수 있도록 SpeechSynthesizer에 getVoicesAsync() API가 추가되었습니다(GitHub 이슈 1350).
JavaScript: PCM이 아닌 웨이브 형식을 지원하기 위해 AudioStreamFormat에 getWaveFormat() API가 추가되었습니다(GitHub 이슈 452).
JavaScript: SpeakerAudioDestination에 볼륨 getter/setter 및 mute()/unmute() API가 추가되었습니다(GitHub 이슈 463).

버그 수정

C++, C#, Java, JavaScript, Objective-C 및 Swift: PushAudioInputStream을 사용하는 음성 인식기를 중지하는 동안 10초 지연을 제거하도록 수정합니다. StopContinuousRecognition이 호출된 후 새 오디오가 푸시되지 않는 경우가 이에 해당합니다(GitHub 이슈 1318, 331).
Android 및 UWP의 Unity: UWP, Android Arm64 및 WSA(Android용 Windows 하위 시스템) Arm64에 대한 Unity 메타 파일이 수정되었습니다(GitHub 이슈 1360).
iOS: CocoaPods를 사용할 때 iOS 디바이스에서 Speech SDK 애플리케이션을 컴파일하는 문제가 해결되었습니다(GitHub 이슈 1320).
iOS: SpeechSynthesizer가 오디오를 스피커에 직접 출력하도록 구성된 경우 아주 가끔 처음부터 재생이 중지되었습니다. 이 문제가 해결되었습니다.
JavaScript: 오디오 워크렛이 없는 경우 마이크 입력에 스크립트 프로세서를 대신 사용합니다(GitHub 이슈 455).
JavaScript: 에이전트에 프로토콜을 추가하여 Sentry 통합에서 발견된 버그를 완화합니다(GitHub 이슈 465).

샘플 GitHub

자세한 인식 결과를 가져오는 방법을 보여주는 C++, C#, Python 및 Java 샘플. 세부 정보에는 대체 인식 결과, 신뢰도 점수, 어휘 양식, 정규화된 양식, 마스킹된 정규화된 양식, 각각에 대한 단어 수준 타이밍이 포함됩니다.
외부 오디오 원본으로 AVFoundation을 사용하여 추가된 iOS 샘플.
WordBoundary 이벤트를 사용하여 SRT(SubRip 텍스트) 형식을 가져오는 방법을 보여주기 위해 추가된 Java 샘플.
발음 평가를 위한 안드로이드 샘플.
새 진단 로깅 클래스의 사용법을 보여주는 C++, C#.

Speech SDK 1.19.0: 2021년 11월 릴리스

중요 사항

Speaker Recognition 서비스는 현재 GA(일반 공급)입니다. Speech SDK API는 C++, C#, Java 및 JavaScript에서 사용할 수 있습니다. Speaker Recognition을 사용하면 고유한 음성 특성으로 화자를 정확하게 확인하고 식별할 수 있습니다. 이 항목에 대한 자세한 내용은 설명서를 참조하세요.
Azure DevOps 및 GitHub와 함께 Ubuntu 16.04에 대한 지원이 중단되었습니다. Ubuntu 16.04는 2021년 4월에 수명이 종료되었습니다. Ubuntu 16.04 워크플로를 Ubuntu 18.04 이상으로 마이그레이션합니다.
Linux 바이너리에서 OpenSSL 연결 방식이 동적으로 변경되었습니다. Linux 이진 크기가 약 50% 감소했습니다.
Mac M1 ARM 기반 실리콘 지원이 추가되었습니다.

새로운 기능

C++/C#/Java: Microsoft Audio Stack을 사용하여 음성 입력에 대한 오디오 처리 지원을 사용할 수 있도록 새 API가 추가되었습니다. 여기서 설명함
C++: 고급 패턴 일치를 용이하게 하는 의도 인식을 위한 새로운 API입니다. 여기에는 목록 및 미리 작성된 정수 엔터티뿐만 아니라 의도 및 엔터티를 모델로 그룹화하기 위한 지원이 포함됩니다(설명서, 업데이트, 샘플은 개발 중이며, 조만간 게시될 예정임).
Mac: GitHub 문제 1244와 관련된 CocoaPod, Python, Java, NuGet 패키지용 Arm64(M1) 기반 실리콘 지원입니다.
iOS/Mac: iOS 및 macOS 이진이 이제 GitHub 이슈 919와 관련된 xcframework로 패키지되었습니다.
iOS/Mac: GitHub 이슈 1171과 관련된 Mac Catalyst에 대한 지원입니다.
Linux: CentOS7 Speech SDK 정보를 위한 새 tar 패키지가 추가되었습니다. Linux .tar 패키지에는 이제 lib/centos7-x64의 RHEL/CentOS 7에 대한 특정 라이브러리가 포함됩니다. lib/x64의 Speech SDK 라이브러리는 지원되는 다른 모든 Linux x64 배포판(RHEL/CentOS 8 포함)에 계속 적용되며 RHEL/CentOS 7에서는 작동하지 않습니다.
JavaScript: VoiceProfile API와 SpeakerRecognizer API를 비동기/대기 가능으로 만들었습니다.
JavaScript: 미국 정부 Azure 지역에 대한 지원이 추가되었습니다.
Windows: UWP(유니버설 Windows 플랫폼)에서 재생에 대한 지원이 추가되었습니다.

버그 수정

Android: Android 패키지용 OpenSSL 보안 업데이트(버전 1.1.1l로 업데이트됨).
Python: Python에서 화자 디바이스 선택이 실패하는 버그가 해결되었습니다.
Core: 연결 시도가 실패하면 자동으로 다시 연결합니다.
iOS: GStreamer를 사용할 때 불안정성 및 비트코드 빌드 문제로 인해 iOS 패키지에서 오디오 압축을 사용할 수 없습니다. 세부 정보는 GitHub 이슈 1209를 통해 제공됩니다.

샘플 GitHub

Mac/iOS: xcframework 패키지를 사용하도록 샘플 및 빠른 시작이 업데이트되었습니다.
.NET: .NET core 3.1 버전을 사용하도록 샘플이 업데이트되었습니다.
JavaScript: 음성 도우미용 샘플이 추가되었습니다.

Speech SDK 1.18.0: 2021년 7월 릴리스

참고. Speech SDK 여기에서 시작을 해보십시오.

하이라이트 요약

Ubuntu 16.04는 2021년 4월의 수명 끝에 도달했습니다. Azure DevOps 및 GitHub를 통해 2021년 9월에 16.04에 대한 지원을 중단합니다. 그 전에 ubuntu-16.04 워크플로를 ubuntu-18.04 이상으로 마이그레이션합니다.

새로운 기능

C++는 의도 인식기를 사용하여 간단한 언어 패턴 일치를 통해 간단한 의도 인식 시나리오를 보다 쉽게 구현할 수 있습니다.
C++/C#/Java에서는 독립적인 인식 시나리오에 대한 발표자 인식 등록 단계에서 유효한 활성화 문구 목록을 수신하기 위해 GetActivationPhrasesAsync()를 VoiceProfileClient 클래스에 새 API를 추가했습니다.
- 중요. 발표자 인식 기능은 미리보기 상태입니다. 미리보기로 만든 모든 음성 프로필은 화자 인식 기능이 미리 보기에서 일반 공급으로 전환된 후 90 일 후에 중단됩니다. 이 시점에서 미리보기 음성 프로필의 작동이 중지됩니다.
Python에는 기존의 와SpeechRecognizer개체들에 대한 TranslationRecognizer이 추가되었습니다.
Python: 한번 또는 연속 LID(인식 또는 번역없음)을 수행하는라는SourceLanguageRecognizer를 추가했습니다.
JavaScript에는 독립적인 인식 시나리오에 대한 발표자 인식 등록 단계에서 유효한 활성화 문구 목록을 받기 위한 getActivationPhrasesAsync API가 VoiceProfileClient 클래스에 추가되었습니다.
JavaScriptVoiceProfileClient의 enrollProfileAsync API는 이제 비동기 대기 가능입니다. 사용 예제는 독립 식별 코드를 참조하세요.

개선

Java: 많은 Java 개체에 AutoCloseable 지원이 추가되었습니다. 이제 리소스를 사용하여 리소스를 해제할 수 있습니다. ‘리소스로 시도’를 사용하는 이 샘플을참조하세요. 또한 이 패턴에 대해 알아보려면 ‘리소스로 시도’ 설명문대한 Oracle Java 자습서를 참조하십시오.
많은 플랫폼과 아키텍처에서 디스크 공간이 크게 줄었습니다. Microsoft.CognitiveServices.Speech.core 이진 파일에 대한 예시: X64 Linux는 475KB 더 작고(8.0% 감소), Arm64 Windows UWP는 464KB 더 작고(11.5% 감소), x86 Windows는 343KB 더 작고(17.5% 감소), x64 Windows는 451KB 더 작습니다(19.4% 감소).

버그 수정

Java는 합성 텍스트가 서로게이트 문자를 포함하는 경우의 합성 오류를 해결했습니다. 자세한 내용은 여기를 참조하세요.
JavaScript에서 브라우저 마이크 오디오 처리는 이제 AudioWorkletNode를 사용하지 않는 대신 ScriptProcessorNode를 사용합니다. 자세한 내용은 여기를 참조하세요.
JavaScript는 장시간 진행되는 대화 번역 시나리오에서 대화를 올바르게 유지합니다. 자세한 내용은 여기를 참조하세요.
JavaScript: 연속 인식 중 mediastream에 대한 인식기의 재연결 문제를 해결했습니다. 자세한 내용은 여기를 참조하세요.
JavaScript: 연속 인식할 때 pushStream에 대한 인식기 재연결 문제를 해결했습니다. 자세한 내용은 여기를 참조하세요.
JavaScript: 자세한 인식 결과에서 단어 수준 오프셋 계산을 수정했습니다. 자세한 내용은 여기를 참조하세요.

샘플

Java 빠른 시작 샘플은 여기에 업데이트 되었습니다.
JavaScript Speaker Recognition 샘플은 enrollProfileAsync()의 새로운 사용을 표시하도록 업데이트되었습니다. 여기에서 샘플을 참조합니다.

Speech SDK 1.17.0: 2021년 5월 릴리스

참고

여기에서 Speech SDK 시작

하이라이트 요약

사용 공간 축소 - Speech SDK 및 해당 구성 요소에 사용되는 메모리와 디스크 공간을 계속해서 줄이고 있습니다.
새로운 독립 실행형 언어 식별 API를 사용하면 사용 중인 언어를 인식할 수 있습니다.
macOS에서 Unity를 사용하여 음성 지원 혼합 현실 및 게임 애플리케이션을 개발합니다.
이제 Go 프로그래밍 언어의 음성 인식 외에도 텍스트 음성 변환을 사용할 수 있습니다.
소중한 고객의 문제를 해결하기 위한 여러 버그 수정이 GitHub에 플래깅되었습니다. 감사합니다. 앞으로도 피드백을 계속 보내주세요.

새로운 기능

C++/C#: SourceLanguageRecognizer API를 통한 새로운 독립 실행형 시작 시 언어 감지 및 지속적인 언어 감지. 오디오 콘텐츠에서 사용 중인 언어만 감지하려는 경우 이를 수행하는 API입니다. C++ 및 C#에 대한 세부 정보를 참조하세요.
C++/C#: 이제 음성 인식 및 번역 인식은 시작 시 및 지속적인 언어 식별을 모두 지원하므로 텍스트를 전사하거나 번역하기 전에 사용 중인 언어를 프로그래밍 방식으로 확인할 수 있습니다. 음성 인식 및 음성 번역 문서를 참조하세요.
C#: macOS(x64)에 Unity 지원이 추가되었습니다. 이를 통해 혼합 현실 및 게임에서 음성 인식 및 음성 합성을 사용할 수 있습니다.
Go: 더 많은 사용 사례에서 음성 합성을 사용할 수 있도록 Go 프로그래밍 언어에 음성 합성/텍스트 음성 변환 지원을 추가했습니다. 빠른 시작 또는 참조 문서를 참조하세요.
C++/C#/Java/Python/Objective-C/Go: 이제 음성 합성기가 connection 개체를 지원합니다. 이를 통해 Speech Service에 대한 연결을 관리하고 모니터링할 수 있으며 특히 사전 연결을 통해 대기 시간을 줄일 수 있습니다. 여기 설명서를 참조하세요.
C++/C#/Java/Python/Objective-C/Go: 이제 SpeechSynthesisResult에서 지연 시간과 언더런 시간을 공개하여 음성 합성 지연 문제를 모니터링하고 진단할 수 있습니다. C++, C#, Java, Python, Objective-C 및 Go에 대한 세부 정보를 참조하세요.
C++/C#/Java/Python/Objective-C: 이제 텍스트 음성 변환은 사용할 음성을 지정하지 않는 경우 기본적으로 신경망 음성을 사용합니다. 이렇게 하면 기본적으로 더 높은 품질의 출력이 제공되지만 기본 가격도 증가합니다.
C++/C#/Java/Python/Objective-C/Go: 성별에 따라 음성을 더 쉽게 선택할 수 있도록 합성 음성 정보에 성별 속성을 추가했습니다. 따라서 GitHub #1055 문제도 해결됩니다.
C++, C#, Java, JavaScript: 이제 Speaker Recognition에서 retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync 및 getAllProfilesAsync()를 지원하므로 지정된 계정에 대한 모든 음성 프로필의 사용자 관리가 용이합니다. C++, C#, Java, JavaScript에 대한 문서를 참조하세요. 따라서 GitHub #338 문제도 해결됩니다.
JavaScript: JavaScript 기반 음성 애플리케이션을 더욱 강력하게 만드는 연결 실패에 대한 재시도를 추가했습니다.

개선

Linux 및 Android Speech SDK 이진 파일이 최신 버전의 OpenSSL(1.1.1k)을 사용하도록 업데이트되었습니다.
코드 크기 개선:
- 이제 언어 이해는 별도의 "lu" 라이브러리로 분할됩니다.
- Windows x64 코어 바이너리 크기가 14.4% 감소했습니다.
- Android Arm64 코어 바이너리 크기가 13.7% 감소했습니다.
- 다른 구성 요소도 크기가 감소했습니다.

버그 수정

모두: ServiceTimeout에 대한 GitHub 문제 #842가 수정되었습니다. 이제 이 오류로 종료되는 서비스에 대한 연결 없이 Speech SDK를 사용하여 긴 오디오 파일을 전사할 수 있습니다. 하지만 긴 파일에는 일괄 전사를 사용하는 것을 여전히 권장합니다.
C#: 음성 입력이 없으면 앱이 잘못된 상태가 될 수 있는 GitHub 문제 #947이 수정되었습니다.
Java: 네트워크 연결이나 잘못된 구독 키 없이 DialogServiceConnector를 사용할 때 Java 1.16용 Speech SDK이 충돌하는 GitHub 문제 #997이 수정되었습니다.
음성 인식을 갑자기 중지(예: 콘솔 앱에서 CTRL+C 사용)할 때 발생하는 충돌을 수정했습니다.
Java: Java용 Speech SDK를 사용할 때 Windows에서 임시 파일을 삭제하는 수정 사항이 추가되었습니다.
Java: 를 호출하면 오류가 발생할 수 있는 DialogServiceConnector.stopListeningAsync가 수정되었습니다.
Java: 가상 도우미 빠른 시작에서 고객 문제가 수정되었습니다.
JavaScript: 에서 'this.cancelSpeech가 함수가 아님' 오류를 throw한 ConversationTranslator이 수정되었습니다.
JavaScript: '메모리 내 스트림으로 결과 가져오기' 샘플이 소리내어 재생되는 GitHub 문제 #298가 수정되었습니다.
JavaScript: 를 호출하면 'ReferenceError: MediaStream이 정의되지 않음'이 발생할 수 있는 AudioConfig이 수정되었습니다.
JavaScript: 장기 실행 세션에 대한 Node.js의 UnhandledPromiseRejection 경고가 수정되었습니다.

샘플

여기에서 macOS용 Unity 샘플 문서가 업데이트되었습니다.
이제 Azure AI 음성 인식 서비스에 대한 React Native 샘플을 여기에서 사용할 수 있습니다.

Speech SDK 1.16.0: 2021년 3월 릴리스

참고

Windows의 Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지를 사용합니다.

새로운 기능

C++/C#/Java/Python: Windows, Linux 및 Android에서 모든 미디어 형식을 지원하도록 최신 버전의 GStreamer(1.18.3)로 이동되었습니다. 여기 설명서를 참조하세요.
C++/C#/Java/Objective-C/Python: 압축된 TTS/합성된 오디오를 SDK로 디코딩하는 지원이 추가되었습니다. 출력 오디오 형식을 PCM으로 설정하고 시스템에서 GStreamer를 사용할 수 있으면 SDK는 서비스에서 압축된 오디오를 자동으로 요청하여 대역폭을 절약하고 클라이언트에서 오디오를 디코딩합니다. 이 기능을 사용하지 않으려면 SpeechServiceConnection_SynthEnableCompressedAudioTransmission을 false로 설정합니다. C++, C#, Java, Objective-C, Python에 대한 세부 정보를 제공합니다.
JavaScript: 이제 Node.js 사용자는 AudioConfig.fromWavFileInput API를 사용할 수 있습니다. 따라서 GitHub #252 문제도 해결됩니다.
C++/C#/Java/Objective-C/Python: 사용 가능한 모든 합성 음성을 반환하는 TTS에 대한 GetVoicesAsync() 메서드가 추가되었습니다. C++, C#, Java, Objective-C 및 Python에 대한 세부 정보를 제공합니다.
C++/C#/Java/JavaScript/Objective-C/Python: 동기 viseme 애니메이션을 반환하는 TTS/음성 합성에 대한 VisemeReceived 이벤트가 추가되었습니다. 여기 설명서를 참조하세요.
C++/C#/Java/JavaScript/Objective-C/Python: TTS에 대한 BookmarkReached 이벤트가 추가되었습니다. 입력 SSML에서 책갈피를 설정하고 각 책갈피에 대한 오디오 오프셋을 가져올 수 있습니다. 여기 설명서를 참조하세요.
Java: Speaker Recognition API에 대한 지원이 추가되었습니다. 자세한 내용은 여기를 참조하세요.
C++/C#/Java/JavaScript/Objective-C/Python: TTS용 WebM 컨테이너(Webm16Khz16BitMonoOpus 및 Webm24Khz16BitMonoOpus)가 포함된 두 가지 새로운 출력 오디오 형식이 추가되었습니다. 추가된 형식은 Opus 코덱으로 오디오를 스트리밍하는 데 보다 적합합니다. C++, C#, Java, JavaScript, Objective-C, Python에 대한 세부 정보를 제공합니다.
C++/C#/Java: Speaker Recognition 시나리오를 위한 음성 프로필 검색 지원이 추가되었습니다. C++, C# 및 Java에 대한 세부 정보를 제공합니다.
C++/C#/Java/Objective-C/Python: 오디오 마이크 및 스피커 제어를 위한 별도의 공유 라이브러리 지원이 추가되었습니다. 이제 개발자는 필수 오디오 라이브러리 종속성이 없는 환경에서 SDK를 사용할 수 있습니다.
Objective-C/Swift: 엄브렐라 헤더가 포함된 모듈 프레임워크 지원이 추가되었습니다. 이제 개발자는 iOS/Mac Objective-C/Swift 앱에서 음성 SDK를 모듈로 가져올 수 있습니다. 따라서 GitHub #452 문제도 해결됩니다.
Python: Python 3.9에 대한 지원이 추가되었으며 Python의 3.5 수명 종료에 따라 Python 3.5 지원이 삭제되었습니다.

알려진 문제

C++/C#/Java: DialogServiceConnector는 CustomCommandsConfig를 사용하여 사용자 지정 명령 애플리케이션에 액세스할 수 없으며 대신 연결 오류가 발생합니다. 이 문제는 config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)를 사용하여 애플리케이션 ID를 요청에 수동으로 추가하여 해결할 수 있습니다. CustomCommandsConfig의 예상 동작은 다음 릴리스에서 복원됩니다.

개선

Speech SDK의 메모리 사용량 및 디스크 공간을 줄이기 위한 다중 릴리스 노력의 일환으로 Android 바이너리가 3%~5% 작아졌습니다.
여기서 C# 참조 설명서의 향상된 정확도, 가독성 및 참조 섹션을 확인하세요.

버그 수정

JavaScript: 이제 큰 WAV 파일 헤더가 올바르게 구문 분석됩니다(헤더 조각을 512바이트로 확장). 따라서 GitHub #962 문제도 해결됩니다.
JavaScript: 인식 중지 전에 마이크 스트림이 종료되는 마이크 타이밍 문제가 수정되었으며, 음성 인식이 Firefox에서 작동하지 않는 문제가 해결되었습니다.
JavaScript: 이제 turnOn이 완료되기 전에 브라우저가 마이크를 강제로 끄더라도 초기화 프라미스가 올바르게 처리됩니다.
JavaScript: URL 종속성을 url 구문 분석으로 대체했습니다. 따라서 GitHub #264 문제도 해결됩니다.
Android: minifyEnabled를 true로 설정하면 콜백이 작동하지 않는 문제를 수정했습니다.
C++/C#/Java/Objective-C/Python: 대기 시간을 줄이기 위해 TCP_NODELAY가 TTS의 기본 소켓 IO로 올바르게 설정됩니다.
C++/C#/Java/Python/Objective-C/Go: 인식을 시작한 직후 인식기가 삭제되었을 때 발생하는 간헐적 충돌을 수정했습니다.
C++/C#/Java: 화자 인식기가 삭제될 때 발생하는 간헐적 충돌을 수정했습니다.

샘플

JavaScript: 이제 브라우저 샘플을 사용하기 위해 별도의 JavaScript 라이브러리 파일을 다운로드할 필요가 없습니다.

Speech SDK 1.15.0: 2021년 1월 릴리스

참고

Windows의 Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지를 사용합니다.

하이라이트 요약

메모리 및 디스크 공간을 줄여서 SDK 효율을 높입니다.
사용자 지정 신경망 음성 프라이빗 미리 보기에 사용할 수 있는 충실도 높은 출력 형식이 제공됩니다.
이제 의도 인식기가 상위 의도보다 더 많은 반환값을 얻을 수 있으므로 고객의 의도에 대한 별도의 평가를 수행할 수 있습니다.
이제 음성 도우미와 봇을 더 쉽게 설정할 수 있으며, 즉시 수신 대기를 중지하고 오류에 대응하는 방법을 보다 효과적으로 제어할 수 있습니다.
압축을 선택 사항으로 만들어서 디바이스 성능을 향상했습니다.
Windows ARM/Arm64에서 Speech SDK를 사용합니다.
낮은 수준의 디버깅이 향상되었습니다.
이제 발음 평가 기능을 보다 폭넓게 사용할 수 있습니다.
소중한 고객의 문제를 해결하기 위한 여러 버그 수정이 GitHub에 플래깅되었습니다. 감사합니다. 앞으로도 피드백을 계속 보내주세요.

개선

이제 Speech SDK는 더 효율적이고 가볍습니다. Speech SDK의 메모리 사용량 및 디스크 공간을 줄이기 위한 다중 릴리스 작업이 시작되었습니다. 첫 번째 단계로 대부분의 플랫폼에서 공유 라이브러리의 파일 크기를 대폭 줄였습니다. 1.14 릴리스와 비교할 때 다음과 같은 차이가 있습니다.
- 64비트 UWP 호환 Windows 라이브러리가 약 30% 작아졌습니다.
- 32비트 Windows 라이브러리는 아직 크기가 개선되지 않았습니다.
- Linux 라이브러리는 20-25% 작아졌습니다.
- Android 라이브러리는 3-5% 작아졌습니다.

새로운 기능

모두: TTS 음성 합성 API를 통해 사용자 지정 신경망 음성의 프라이빗 미리 보기에 사용할 수 있는 새로운 48KHz 출력 형식으로 Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm이 제공됩니다.
모두: 사용자 지정 음성을 더 쉽게 사용할 수 있습니다. EndpointId(C++, C#, Java, JavaScript, Objective-C, Python)를 통해 사용자 지정 음성을 설정하는 지원이 추가되었습니다. 이 변경 전에는 사용자 지정 음성 사용자가 FromEndpoint 메서드를 통해 엔드포인트 URL을 설정해야 했습니다. 이제 고객은 표준 음성과 마찬가지로 FromSubscription 메서드를 사용하고, 그 다음 EndpointId을 설정하여 배포 ID를 제공할 수 있습니다. 사용자 지정 음성을 더 간단하게 설정할 수 있게 되었습니다.
C++/C#/Java/Objective-C/Python: IntentRecognizer에서 상위 의도보다 더 많은 결과를 가져옵니다. 이제 LanguageUnderstandingModel FromEndpoint 메서드를 통해 verbose=true uri 매개 변수를 사용하여 상위 채점 의도뿐 아니라 모든 의도를 포함하는 JSON 결과 구성을 지원합니다. 따라서 GitHub #880 문제도 해결됩니다. 여기서 업데이트된 설명서를 참조하세요.
C++/C#/Java: 음성 도우미 또는 봇이 즉시 수신을 중지합니다. 이제 DialogServiceConnector(C++, C#, Java)에는 StopListeningAsync()와 동반하는 ListenOnceAsync() 메서드가 있습니다. 따라서 오디오 캡처를 즉시 중지하고 결과를 정상적으로 대기하므로 "지금 중지" 단추 누르기 시나리오에 사용하기에 적합합니다.
C++/C#/Java/JavaScript: 음성 도우미 또는 봇이 기본 시스템 오류에 보다 효과적으로 대응합니다. 이제 DialogServiceConnector(C++, C#, Java, JavaScript)에는 새로운 TurnStatusReceived 이벤트 처리기가 있습니다. 이러한 선택적 이벤트는 봇의 모든 ITurnContext 해상도에 해당하며, 예를 들어 Direct Line Speech와 봇 간의 처리되지 않은 예외, 시간 초과 또는 네트워크 드롭 때문에 발생할 수 있는 턴 수행 실패를 보고하게 됩니다. TurnStatusReceived를 사용하면 실패 조건에 보다 쉽게 대응할 수 있습니다. 예를 들어 봇에서 백 엔드 데이터베이스 쿼리(예: 제품 조회)가 너무 오래 걸리는 경우 TurnStatusReceived를 통해 "죄송합니다만 이 제품은 잘 모르겠습니다. 다시 시도해 주세요" 또는 이와 비슷한 메시지로 사용자에게 다시 입력을 요청하도록 클라이언트에 알릴 수 있습니다.
C++/C#: 더 많은 플랫폼에서 음성 SDK를 사용합니다. 이제 Speech SDK NuGet 패키지는 Windows ARM/Arm64 데스크톱 네이티브 이진 파일을 지원하므로(UWP는 이미 지원됨) 더 많은 종류의 컴퓨터에서 Speech SDK를 더 유용하게 사용할 수 있습니다.
Java: 이제 DialogServiceConnector에는 이전에 의도치 않게 언어에서 제외된 setSpeechActivityTemplate() 메서드가 있습니다. 이 메서드는 Conversation_Speech_Activity_Template 속성을 설정하는 것과 동일하며, Direct Line Speech 서비스에서 발생하는 모든 향후 Bot Framework 활동을 제공된 콘텐츠를 해당 JSON 페이로드에 병합하도록 요청합니다.
Java: 낮은 수준의 디버깅이 향상되었습니다. 이제 Connection 클래스에는 다른 프로그래밍 언어(C++, C#)와 비슷하게 MessageReceived 이벤트가 있습니다. 이 이벤트는 서비스에서 들어오는 데이터에 대한 하위 수준 액세스를 제공하며 진단 및 디버깅에 유용할 수 있습니다.
JavaScript: BotFrameworkConfig를 통해 음성 도우미와 봇에 맞게 쉽게 설정할 수 있으며, 이제 속성을 수동으로 설정하지 않고 사용자 지정 서비스 위치를 편리하게 사용할 수 있는 fromHost() 및 fromEndpoint() 팩터리 메서드를 제공합니다. 또한 구성 팩터리에서 기본이 아닌 봇을 사용하도록 선택적 botId 사양을 표준화했습니다.
JavaScript: websocket 압축을 위한 문자열 제어 속성을 추가하여 디바이스 성능을 개선했습니다. 성능상의 이유로 websocket 압축은 기본적으로 사용되지 않습니다. 낮은 대역폭 시나리오에서는 다시 사용하도록 설정할 수 있습니다. 자세한 내용은 여기를 참조하세요. 따라서 GitHub #242 문제도 해결됩니다.
JavaScript: 음성 발음을 평가할 수 있도록 발음 평가에 대한 지원이 추가되었습니다. 여기서 빠른 시작을 참조하세요.

버그 수정

모두(JavaScript 제외): 인식기가 너무 많은 메모리를 할당하는 1.14 버전의 회귀를 수정했습니다.
C++: DialogServiceConnector의 가비지 수집 문제를 해결했으며, 따라서 GitHub #794 문제도 해결됩니다.
C#: 삭제 시 개체가 약 1초간 차단되는 스레드 종료 관련 문제를 해결했습니다.
C++/C#/Java: 애플리케이션이 DialogServiceConnector에서 음성 권한 부여 토큰 또는 활동 템플릿을 두 번 이상 설정할 수 없게 만드는 예외를 수정했습니다.
C++/C#/Java: 해제의 경합 상태로 인한 인식기 충돌이 수정되었습니다.
JavaScript: DialogServiceConnector가 이전에는 botId의 팩터리에 지정된 선택적 BotFrameworkConfig 매개 변수를 적용하지 않았습니다. 이로 인해 기본이 아닌 봇을 사용하도록 botId 쿼리 문자열 매개 변수를 수동으로 설정해야 했습니다. 이 버그가 수정되었으며 새로 추가된 botId 및 BotFrameworkConfig를 포함하여 fromHost()의 팩터리에 제공된 fromEndpoint() 값이 적용되고 사용됩니다. 이는 applicationId에 대한 CustomCommandsConfig 매개 변수에도 적용됩니다.
JavaScript: GitHub #881 문제를 수정했습니다. 이제 인식기 개체를 다시 사용할 수 있습니다.
JavaScript: SKD가 한 TTS 세션에서 speech.config를 여러 차례 전송하여 대역폭을 낭비하는 문제를 해결했습니다.
JavaScript: 마이크 권한 부여에 대한 오류 처리를 간소화하여 사용자가 브라우저에서 마이크 입력을 허용하지 않을 때 더 많은 설명 메시지를 표시할 수 있게 했습니다.
JavaScript: 및 ConversationTranslator의 입력 오류가 TypeScript 사용자의 컴파일 오류로 이어지는 ConversationTranscriber를 수정했습니다.
Objective-C: GStreamer 빌드가 Xcode 11.4의 iOS에서 실패하는 문제를 수정했습니다. 따라서 GitHub #911 문제도 해결됩니다.
Python: GitHub #870 문제를 수정하고 "DeprecationWarning: imp 모듈이 사용되지 않는 대신 importlib가 사용됩니다" 메시지를 제거했습니다.

샘플

JavaScript 브라우저의 파일 기반 샘플은 이제 파일을 음성 인식에 사용합니다. 따라서 GitHub #884 문제도 해결됩니다.

Speech SDK 1.14.0: 2020년 10월 릴리스

참고

Windows의 Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지를 사용합니다.

새로운 기능

Linux: Debian 10 및 Ubuntu 20.04 LTS 지원이 추가되었습니다.
Python/Objective-C: KeywordRecognizer API 지원이 추가되었습니다. 설명서는 여기에 있습니다.
C++/Java/C#: HttpHeader를 통해 ServicePropertyChannel::HttpHeader 키/값을 설정하는 지원이 추가되었습니다.
JavaScript: ConversationTranscriber API 지원이 추가되었습니다. 여기 설명서를 참조하세요.
C++/C#: .WAV 파일을 읽을 수 있도록 새 AudioDataStream FromWavFileInput 메서드를 추가했습니다. 여기(C++) 및 여기(C#)를 참조하세요.
C++/C#/Java/Python/Objective-C/Swift: 텍스트 음성 변환 합성을 중지하는 stopSpeakingAsync() 메서드를 추가했습니다. 여기(C++), 여기(C#), 여기(Java), 여기(Python) 및 여기(Objective-C/Swift)서 참조 설명서를 확인하세요.
C#, C++, Java: FromDialogServiceConnector()에 대한 연결 및 연결 끊기 이벤트를 모니터링하는 데 사용할 수 있는 Connection 함수를 DialogServiceConnector 클래스에 추가했습니다. 여기(C#), 여기(C++) 및 여기(Java)서 참조 설명서를 확인하세요.
C++/C#/Java/Python/Objective-C/Swift: 음성 발음을 평가하고 음성 오디오의 정확도와 능숙도에 대한 화자 피드백을 제공하는 발음 평가 지원이 추가되었습니다. 여기에서 설명서를 확인하세요.

호환성이 손상되는 변경

JavaScript: PullAudioOutputStream.read()의 반환 형식이 내부 프라미스에서 네이티브 JavaScript 프라미스로 변경되었습니다.

버그 수정

모두: SetServiceProperty에서 특정 특수 문자가 포함된 값을 무시하는 1.13 회귀를 수정했습니다.
C#: Visual Studio 2019에서 네이티브 DLL을 찾지 못하는 Windows 콘솔 샘플을 수정했습니다.
C#: 스트림을 KeywordRecognizer 입력으로 사용하는 경우 메모리 관리와 충돌하는 문제를 수정했습니다.
ObjectiveC/Swift: 스트림이 인식기 입력으로 사용되는 경우 메모리 관리와 충돌하는 문제를 수정했습니다.
Windows: UWP에서 BT HFP/A2DP가 동시에 존재하는 문제를 수정했습니다.
JavaScript: 로깅을 개선하고 내부 디버그/서비스 상관 관계를 도와주도록 세션 ID 매핑을 수정했습니다.
JavaScript: 첫 번째 호출을 수행한 후 DialogServiceConnector 호출을 사용하지 않도록 설정하는 ListenOnce에 대한 픽스를 추가했습니다.
JavaScript: "단순" 결과만 출력되는 문제를 수정했습니다.
JavaScript: macOS의 Safari에서 발생하는 지속적인 인식 문제를 수정했습니다.
JavaScript: 요청 처리량이 높은 시나리오의 CPU 부하를 완화했습니다.
JavaScript: 음성 프로필 등록 결과의 세부 정보에 대한 액세스를 허용합니다.
JavaScript: IntentRecognizer에서 지속적인 인식을 위한 픽스가 추가되었습니다.
C++/C#/Java/Python/Swift/ObjectiveC: IntentRecognizer에서 australiaeast 및 brazilsouth에 대한 잘못된 url을 수정했습니다.
C++/C#: VoiceProfileType 개체를 만들 때 VoiceProfile을 인수로 추가했습니다.
C++/C#/Java/Python/Swift/ObjectiveC: 지정된 위치에서 SPX_INVALID_ARG을 읽으려고 할 때 발생할 수 있는 AudioDataStream를 수정했습니다.
IOS: Unity에서 음성 인식과 충돌하는 문제를 수정했습니다.

샘플

ObjectiveC: 여기에 키워드 인식 샘플이 추가되었습니다.
C#/JavaScript: 여기(C#) 및 여기(JavaScript)에 대화 기록에 대한 빠른 시작이 추가되었습니다.
C++/C#/Java/Python/Swift/ObjectiveC: 여기에 발음 평가 샘플이 추가되었습니다.

알려진 이슈

DigiCert Global Root G2 인증서는 기본적으로 HoloLens 2 및 Android 4.4(KitKat)에서 지원되지 않으며, 시스템에 추가해야만 Speech SDK가 작동합니다. 이 인증서는 곧 HoloLens 2 OS 이미지에 추가됩니다. Android 4.4 고객은 업데이트된 인증서를 시스템에 추가해야 합니다.

COVID-19 간이 검사

지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 저희가 놓친 부분이 있다면GitHub에서 알려주세요.
건강에 유의하세요!

Speech SDK 1.13.0: 2020년 7월 릴리스

참고

Windows의 Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지를 사용합니다.

새로운 기능

C#: 비동기 대화 기록을 위한 지원이 추가되었습니다. 여기 설명서를 참조하세요.
JavaScript: 브라우저 및 Node.js에 대한 Speaker Recognition 지원이 추가되었습니다.
JavaScript: 자동 언어 식별/언어 ID에 대한 지원이 추가되었습니다. 여기 설명서를 참조하세요.
Objective-C: 다중 디바이스 대화 및 대화 기록에 대한 지원이 추가되었습니다.
Python: Windows 및 Linux의 Python에 대한 압축 오디오 지원이 추가되었습니다. 여기 설명서를 참조하세요.

버그 수정

모두: 인식 후 KeywordRecognizer가 스트림을 앞으로 이동하지 않는 문제를 수정했습니다.
모두: KeywordRecognitionResult에서 얻은 스트림에 키워드가 포함되지 않는 문제를 수정했습니다.
모두: 사용자가 대기를 완료한 후 SendMessageAsync가 네트워크를 통해 메시지를 실제로 전송하지 않는 문제를 수정했습니다.
모두: 사용자가 VoiceProfileClient::SpeakerRecEnrollProfileAsync 메서드를 여러 번 호출하고 호출이 완료될 때까지 기다리지 않을 때 Speaker Recognition API에서 발생하는 충돌을 수정했습니다.
모두: VoiceProfileClient 및 SpeakerRecognizer 클래스에서 파일 로깅 사용을 활성화했습니다.
JavaScript: 브라우저가 최소화되었을 때 발생하는 속도 제한 문제를 수정했습니다.
JavaScript: 스트림에서 발생하는 메모리 누수 문제를 수정했습니다.
JavaScript: NodeJS의 OCSP 응답에 대한 캐싱을 추가했습니다.
Java: BigInteger 필드에서 항상 0을 반환하는 문제를 수정했습니다.
iOS: iOS App Store에서 Speech SDK 기반 앱을 게시할 때 발생하는 문제를 수정했습니다.

샘플

C++: 여기에 Speaker Recognition 샘플 코드를 추가했습니다.

COVID-19 간이 검사

Speech SDK 1.12.1: 2020년 6월 릴리스

새로운 기능

C#, C++: Speaker Recognition 미리 보기: 이 기능을 사용하면 화자 식별(누가 말하고 있나요?) 및 화자 검증(화자가 주장하는 사람이 맞나요?)이 가능합니다. 개요 설명서를 참조하세요.

버그 수정

C#, C++: 1.12의 Speaker Recognition에서 마이크 녹음이 작동하지 않던 문제를 수정했습니다.
JavaScript: Firefox와 macOS 및 iOS의 Safari에서 텍스트 음성 변환을 수정했습니다.
8채널 스트림을 사용할 때 대화 기록에서 발생하는 Windows 애플리케이션 검증 도구 액세스 위반 충돌을 수정했습니다.
다중 디바이스 대화 번역 중 발생하는 Windows 애플리케이션 검증 도구의 액세스 위반 충돌을 수정했습니다.

샘플

C#: Speaker Recognition에 대한 코드 샘플입니다.
C++: Speaker Recognition에 대한 코드 샘플입니다.
Java: Android에서 의도 인식을 위한 코드 샘플입니다.

COVID-19 간이 검사

Speech SDK 1.12.0: 2020년 5월 릴리스

새로운 기능

Go: 음성 인식 및 사용자 지정 음성 도우미에 대한 새로운 Go 언어 지원. 여기서 개발 환경을 설정하세요. 샘플 코드는 아래의 샘플 섹션을 참조하세요.
JavaScript: 텍스트 음성 변환에 대한 브라우저 지원이 추가되었습니다. 여기 설명서를 참조하세요.
C++, C#, Java: Windows, Android, Linux 및 iOS 플랫폼에서 새로운 KeywordRecognizer 개체와 API가 지원됩니다. 여기에서 설명서를 확인하세요. 샘플 코드는 아래의 샘플 섹션을 참조하세요.
Java: 번역을 지원하는 다중 디바이스 대화를 추가했습니다. 여기서 참조 문서를 확인하세요.

개선 및 최적화

JavaScript: 브라우저 마이크 구현을 최적화하여 음성 인식 정확도를 높였습니다.
Java: SWIG 없이 다이렉트 JNI 구현을 사용하여 바인딩을 리팩터링했습니다. 이번 변화로 Windows, Android, Linux 및 Mac에 사용되는 모든 Java 패키지의 바인딩 크기가 10분의 1로 축소되었으며 Speech SDK Java 구현을 더 쉽게 개발할 수 있게 되었습니다.
Linux: 지원 설명서에 최신 RHEL 7 관련 정보가 업데이트되었습니다.
서비스 및 네트워크 오류가 발생할 때 연결을 여러 번 시도하도록 연결 논리가 개선되었습니다.
개발자가 Azure AI 음성 여정의 다음 단계를 수행하는 데 도움이 되도록 portal.azure.com 음성 빠른 시작 페이지가 업데이트되었습니다.

버그 수정

C#, Java: Linux ARM(32비트 및 64비트 모두)에 SDK 라이브러리를 로드할 때 발생하는 문제를 수정했습니다.
C#: TranslationRecognizer, IntentRecognizer 및 Connection 개체에 대한 네이티브 핸들의 명시적 삭제를 수정했습니다.
C#: ConversationTranscriber 개체의 오디오 입력 수명 관리를 수정했습니다.
간단한 구의 의도를 인식할 때 IntentRecognizer 결과 이유가 올바르게 설정되지 않은 문제를 수정했습니다.
SpeechRecognitionEventArgs 결과 오프셋이 올바르게 설정되지 않은 문제가 해결되었습니다.
websocket 연결을 열기 전에 SDK가 네트워크 메시지를 보내려고 시도하는 경합 상태가 수정되었습니다. 참가자를 추가하는 동안 TranslationRecognizer에 대해 재현할 수 있습니다.
키워드 인식기 엔진의 메모리 누수 문제를 수정했습니다.

샘플

Go: 음성 인식 및 사용자 지정 음성 도우미에 대한 빠른 시작이 추가되었습니다. 샘플 코드는 여기서 찾을 수 있습니다.
JavaScript: 텍스트 음성 변환, 번역 및 의도 인식에 대한 빠른 시작을 추가했습니다.
C# 및 Java(Android)에 대한 키워드 인식 샘플이 추가되었습니다.

COVID-19 간이 검사

지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 저희가 놓친 부분이 있다면 GitHub에서 알려주세요.
건강에 유의하세요!

Speech SDK 1.11.0: 2020년 3월 릴리스

새로운 기능

Linux: RHEL(Red Hat Enterprise Linux)/CentOS 7 x64에 대한 지원이 추가되었습니다.
Linux: Linux ARM32 및 Arm64에서 .NET Core C#에 대한 지원이 추가되었습니다. 자세한 내용은 여기를 읽어보세요.
C#, C++: 모든 중간 및 최종 음성 인식 결과에서 일관적인 ID인 UtteranceId를 ConversationTranscriptionResult에 추가했습니다. C# 및 C++에 대한 세부 정보를 제공합니다.
Python: Language ID에 대한 지원이 추가되었습니다. GitHub 리포지토리의 speech_sample.py를 참조하세요.
Windows: 모든 win32 콘솔 애플리케이션에 사용되는 Windows 플랫폼에서 압축된 오디오 입력 형식 지원을 추가했습니다. 자세한 내용은 여기를 참조하세요.
JavaScript: NodeJS에서 음성 합성(텍스트 음성 변환)을 지원합니다. 여기서 자세히 알아봅니다.
JavaScript: 모든 송신 및 수신 메시지를 검사할 수 있도록 새 API를 추가합니다. 여기서 자세히 알아봅니다.

버그 수정

C#, C++: 이제 SendMessageAsync에서 이진 메시지를 이진 형식으로 보내도록 문제를 수정했습니다. C# 및 C++에 대한 세부 정보를 제공합니다.
C#, C++: Connection MessageReceived 개체보다 Recognizer 개체가 먼저 삭제된 경우 Connection 이벤트를 사용하면 충돌이 발생할 수 있는 문제를 수정했습니다. C# 및 C++에 대한 세부 정보를 제공합니다.
Android: 대기 시간을 개선하기 위해 마이크의 오디오 버퍼 크기를 800ms에서 100ms로 줄였습니다.
Android: Android Studio의 x86 Android 에뮬레이터 관련 문제를 수정했습니다.
JavaScript: fromSubscription API를 통해 중국 내 Azure 지역에 대한 지원을 추가했습니다. 자세한 내용은 여기를 참조하세요.
JavaScript: NodeJS의 연결 실패에 대한 오류 정보를 추가했습니다.

샘플

Unity: LUIS json 가져오기가 실패하는 의도 인식 공개 샘플을 수정했습니다. 자세한 내용은 여기를 참조하세요.
Python: Language ID 샘플이 추가되었습니다. 자세한 내용은 여기를 참조하세요.

코로나19로 테스트 축소: 지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 디바이스 확인 테스트를 많이 수행할 수 없었습니다. 예를 들어 Linux, iOS 및 macOS에서 마이크 입력과 스피커 출력을 테스트할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 혹시라도 놓친 것이 있으면 GitHub에 알려 주세요.
여러분의 지속적인 지원에 감사드립니다. 언제든지 GitHub 또는 Stack Overflow에 질문이나 피드백을 게시해 주세요.
건강에 유의하세요!

Speech SDK 1.10.0: 2020년 2월 릴리스

새로운 기능

Python의 새로운 3.8 릴리스를 지원하는 Python 패키지를 추가했습니다.
RHEL(Red Hat Enterprise Linux)/CentOS 8 x64 지원(C++, C#, Java, Python)이 추가되었습니다.

참고

고객은 이러한 지침에 따라 OpenSSL을 구성해야 합니다.
Debian 및 Ubuntu에 대해 Linux ARM32를 지원합니다.
DialogServiceConnector는 이제 BotFrameworkConfig에서 선택적 "bot ID" 매개 변수를 지원합니다. 이 매개 변수를 사용하면 음성 리소스 하나로 여러 Direct Line Speech 봇을 사용할 수 있습니다. 이 매개 변수를 지정하지 않으면 기본 봇(Direct Line Speech 채널 구성 페이지에서 결정)이 사용됩니다.
DialogServiceConnector에는 이제 SpeechActivityTemplate 속성이 있습니다. 이 JSON 문자열의 내용은 Direct Line Speech 봇에 도달하는 모든 활동에서 지원되는 다양한 지원 필드를 미리 채우기 위해 Direct Line Speech에서 사용하며, 여기에는 음성 인식과 같은 이벤트에 대응하여 자동으로 생성되는 활동이 포함됩니다.
이제 TTS는 인증에 구독 키를 사용하여 신시사이저를 만든 후 첫 번째 합성 결과의 첫 번째 바이트 대기 시간을 줄입니다.
19개 로캘(es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR)의 음성 인식 모델을 업데이트하여 단어 오류율을 평균 18.6% 줄였습니다. 새 모델은 받아쓰기, 콜센터 대화 내용 기록 및 비디오 인덱싱 시나리오를 비롯하여 여러 도메인을 대폭 개선합니다.

버그 수정

JAVA API에서 Conversation Transcriber가 제대로 기다리지 않는 버그가 수정되었습니다.
AudioConfig에 누락된 GetProperty 및 SetProperty 메서드를 추가합니다.
연결이 실패할 때 audioDataStream을 중지할 수 없는 TTS 버그를 수정합니다.
지역 없이 엔드포인트를 사용하면 대화 번역기에서 USP 오류가 발생합니다.
이제 유니버설 Windows 애플리케이션에서 ID를 생성할 때 적절한 고유 GUID 알고리즘이 사용됩니다. 이전에는 의도치 않게 대규모 상호 작용에서 자주 충돌을 일으키는 스텁 구현을 기본적으로 사용했습니다.

샘플

Unity 마이크 및 푸시 모드 스트리밍에 Speech SDK를 사용하는 방법에 대한 Unity 샘플

기타 변경 내용

Linux용 OpenSSL 구성 설명서 업데이트

Speech SDK 1.9.0: 2020년 1월 릴리스

새로운 기능

다중 디바이스 대화: 동일한 음성 또는 텍스트 기반 대화에 여러 디바이스를 연결하고, 필요에 따라 디바이스 간에 전송되는 메시지를 번역합니다. 이 문서에서 자세히 알아보세요.
Android .aar 패키지에 대한 키워드 인식 지원이 추가되었으며 x86 및 x64 기능에 대한 지원이 추가되었습니다.
Objective-C: SendMessage 및 SetMessageProperty 메서드가 Connection 개체에 추가되었습니다. 여기 설명서를 참조하세요.
TTS C++ API는 이제 std::wstring을 합성 텍스트 입력으로 지원하므로 wstring을 SDK로 전달하기 전에 문자열로 변환할 필요가 없습니다. 자세한 내용은 여기를 참조하세요.
C#: 이제 언어 ID 및 소스 언어 구성을 사용할 수 있습니다.
JavaScript: Speech Service의 사용자 지정 메시지를 Connection 콜백으로 전달하는 기능을 receivedServiceMessage 개체에 추가했습니다.
JavaScript: 온-프레미스 컨테이너 및 소버린 클라우드에서 쉽게 사용할 수 있도록 FromHost API에 대한 지원이 추가되었습니다. 여기 설명서를 참조하세요.
JavaScript: NODE_TLS_REJECT_UNAUTHORIZED의 기여로 이제 를 적용하게 되었습니다. 자세한 내용은 여기를 참조하세요.

주요 변경 내용

OpenSSL은 1.1.1b 버전으로 업데이트되었으며 Linux용 Speech SDK 핵심 라이브러리에 정적으로 연결됩니다. 이로 인해 시스템의 OpenSSL 디렉터리에 수신함 /usr/lib/ssl이 설치되지 않으면 중단이 발생할 수 있습니다. Speech SDK 문서의 설명서에서 문제 해결 방법을 확인하세요.
C# WordLevelTimingResult.Offset에 대해 반환되는 데이터 형식을 int에서 long으로 변경했으므로 이제 음성 데이터가 2분보다 긴 경우 WordLevelTimingResults에 액세스할 수 있습니다.
이제 PushAudioInputStream 및 PullAudioInputStream은 AudioStreamFormat(만들 때 필요에 따라 설정)을 기반으로 wav 헤더 정보를 Speech Service에 보냅니다. 이제 고객은 지원되는 오디오 입력 형식을 사용해야 합니다. 그 외의 형식을 사용하면 최적이 아닌 인식 결과를 얻거나 다른 문제를 일으킬 수 있습니다.

버그 수정

위의 주요 변경 내용에서 OpenSSL 업데이트를 참조하세요. Linux 및 Java의 간헐적인 충돌 및 성능 문제(높은 부하 상태에서 잠금 경합)가 모두 수정되었습니다.
Java: 높은 동시성 시나리오에서 객체 폐쇄를 개선했습니다.
NuGet 패키지를 재구성했습니다. lib 폴더에서 Microsoft.CognitiveServices.Speech.core.dll 및 Microsoft.CognitiveServices.Speech.extension.kws.dll의 복사본 3개를 제거하여 NuGet 패키지를 더 작고 더 빠르게 다운로드할 수 있게 만들었으며, 일부 C++ 네이티브 앱을 컴파일하는 데 필요한 헤더를 추가했습니다.
여기 빠른 시작 샘플을 수정했습니다. 이전에는 Linux, macOS, Windows에서 "마이크를 찾을 수 없음" 예외를 표시하지 않고 종료되었습니다.
이 샘플처럼 특정 코드 경로에서 긴 음성 인식 결과와 함께 SDK가 충돌하는 문제를 수정했습니다.
이 고객 문제를 해결하기 위해 Azure 웹앱 환경의 SDK 배포 오류를 수정했습니다.
여러 <voice> 태그 또는 <audio> 태그를 사용할 때 발생하는 TTS 오류를 수정하여 이 고객 문제를 해결했습니다.
SDK가 일시 중단에서 복구될 때 발생하는 TTS 401 오류를 수정했습니다.
JavaScript: euirim의 기여 덕분에 오디오 데이터의 순환 가져오기를 수정했습니다.
JavaScript: 1.7에 추가된 대로 서비스 속성을 설정하기 위한 지원이 추가되었습니다.
JavaScript: 연결 오류가 발생하면 실패한 websocket 다시 연결 시도가 연속적으로 발생하는 문제를 수정했습니다.

샘플

Android 키워드 인식 샘플이 여기에 추가되었습니다.
서버 시나리오에 대한 TTS 샘플이 여기에 추가되었습니다.
C# 및 C++에 대한 다중 디바이스 대화 빠른 시작이 여기에 추가되었습니다.

기타 변경 내용

Android의 SDK 핵심 라이브러리 크기를 최적화했습니다.
1.9.0 이상의 SDK는 Conversation Transcriber의 음성 서명 버전 필드에서 int 및 string 형식을 모두 지원합니다.

Speech SDK 1.8.0: 2019년 11월 릴리스

새로운 기능

온-프레미스 컨테이너 및 소버린 클라우드에서 쉽게 사용할 수 있도록 FromHost() API를 추가했습니다.
Java 및 C++에서 음성 인식을 위한 소스 언어 식별을 추가했습니다.
Java 및 C++에서 필요한 소스 언어를 지정하는 데 사용되는 음성 인식용 SourceLanguageConfig 개체를 추가했습니다.
NuGet 및 Unity 패키지를 통해 Windows(UWP), Android 및 iOS에 대한 KeywordRecognizer 지원을 추가했습니다.
비동기 일괄 처리에서 대화 기록을 수행할 수 있도록 Remote Conversation Java API를 추가했습니다.

주요 변경 내용

Conversation Transcriber 기능이 Microsoft.CognitiveServices.Speech.Transcription 네임스페이스에서 이동되었습니다.
Conversation Transcriber 메서드의 일부는 새 Conversation 클래스로 이동되었습니다.
32비트(ARMv7 및 x86) iOS에 대한 지원 삭제

버그 수정

유효한 Speech Service 구독 키 없이 로컬 KeywordRecognizer를 사용하는 경우 발생하는 충돌 해결

샘플

KeywordRecognizer에 대한 Xamarin 샘플
KeywordRecognizer에 대한 Unity 샘플
자동 소스 언어 식별을 위한 C++ 및 Java 샘플.

Speech SDK 1.7.0: 2019년 9월 릴리스

새로운 기능

UWP(유니버설 Windows 플랫폼), Android 및 iOS에서 Xamarin에 대한 베타 지원이 추가되었습니다.
Unity에 대한 iOS 지원이 추가되었습니다.
Android, iOS 및 Linux에서 ALaw, Mulaw, FLAC에 대한 Compressed 입력 지원이 추가되었습니다.
서비스에 메시지를 보낼 수 있도록 SendMessageAsync 클래스에 Connection이 추가되었습니다.
메시지의 속성을 설정할 수 있도록 SetMessageProperty 클래스에 Connection이 추가되었습니다.
Java(JRE 및 Android), Python, Swift 및 Objective-C에 대한 바인딩이 TTS에 추가되었습니다.
macOS, iOS 및 Android에 대한 재생 지원이 TTS에 추가되었습니다.
TTS에 대한 "단어 경계" 정보가 추가되었습니다.

버그 수정

Android용 Unity 2019에서 IL2CPP 빌드 문제가 수정되었습니다.
wav 파일 입력의 잘못된 헤더가 올바르지 않게 처리되는 문제를 수정했습니다.
UUID가 일부 연결 속성에서 고유하지 않은 문제를 수정했습니다.
Swift 바인딩에서 Null 허용 여부 지정자에 대한 몇 가지 경고를 수정 했습니다(코드를 약간 변경해야 할 수 있음).
네트워크 부하 시 websocket 연결이 비정상적으로 종료되는 버그를 수정했습니다.
Android에서 가끔 중복된 광고 노출 ID가 DialogServiceConnector에 사용되는 문제를 수정했습니다.
다중 턴 상호 작용의 연결 안정성 및 Canceled에서 오류 발생 시 오류 보고(DialogServiceConnector 이벤트를 통해) 기능이 향상되었습니다.
이제 DialogServiceConnector 세션 시작은 활성 ListenOnceAsync() 상태에서 StartKeywordRecognitionAsync()를 호출하는 경우를 포함하여 이벤트를 올바르게 제공합니다.
DialogServiceConnector 활동 수신 중에 발생하는 충돌을 해결했습니다.

샘플

Xamarin에 대한 빠른 시작
Linux Arm64 정보와 함께 CPP 빠른 시작이 업데이트됨
Unity 빠른 시작의 iOS 정보 업데이트

Speech SDK 1.6.0: 2019년 6월 릴리스

샘플

UWP 및 Unity의 텍스트 음성 변환 빠른 시작 샘플
iOS의 Swift에 대한 빠른 시작 샘플
음성 및 의도 인식과 번역에 대한 Unity 샘플
DialogServiceConnector에 대한 빠른 시작 샘플 업데이트

향상된 기능/변경 사항

대화 상자 네임스페이스:
- SpeechBotConnector는 DialogServiceConnector로 이름이 변경되었습니다.
- BotConfig는 DialogServiceConfig로 이름이 변경되었습니다.
- BotConfig::FromChannelSecret()이 DialogServiceConfig::FromBotSecret()으로 다시 매핑되었습니다.
- 기존의 모든 Direct Line Speech 클라이언트는 이름 바꾸기 후에도 계속 지원됩니다.
프록시, 영구 연결을 지원하도록 TTS REST 어댑터 업데이트
잘못된 지역이 전달될 때 오류 메시지 개선
Swift/Objective-C:
- 오류 보고 개선: 오류를 발생시킬 수 있는 메서드는 이제 두 가지 버전으로 제공됩니다. 하나는 오류 처리를 위해 NSError 개체를 노출하는 버전이고, 다른 하나는 예외를 발생시키는 버전입니다. Swift에는 전자가 노출됩니다. 이렇게 변경하려면 기존 Swift 코드를 조정해야 합니다.
- 이벤트 처리 개선

버그 수정

오디오 렌더링이 완료될 때까지 기다리지 않고 SpeakTextAsync가 미래값(future)을 반환하는 TTS 문제 수정
전체 언어 지원을 가능하게 하는 C#의 문자열 마샬링 수정
샘플에서 net461 대상 프레임워크를 사용하여 핵심 라이브러리를 로드하는 .NET Core 앱 문제 수정
샘플에서 출력 폴더에 네이티브 라이브러리를 배포하는 간헐적 문제 수정
안정적으로 웹 소켓을 닫도록 수정
Linux에서 부하가 높은 상태에서 연결을 여는 동안 발생할 수 있는 충돌 수정
macOS용 프레임워크 번들에서 누락된 메타데이터 수정
Windows에서 pip install --user 문제 수정

Speech SDK 1.5.1

버그 수정 릴리스이며 네이티브/관리형 SDK에만 적용됩니다. SDK의 JavaScript 버전에는 영향을 주지 않습니다.

버그 수정

대화 기록에 사용되는 FromSubscription을 수정했습니다.
음성 도우미의 키워드 검출 버그를 수정했습니다.

Speech SDK 1.5.0: 2019년 5월 릴리스

새로운 기능

이제 Windows 및 Linux에서 KWS(키워드 검출)를 사용할 수 있습니다. KWS 기능은 모든 마이크 종류에 사용할 수 있지만 공식 KWS 지원은 현재 Azure Kinect DK 하드웨어 또는 Speech Devices SDK에 있는 마이크 배열로 제한됩니다.
구문 힌트 기능은 SDK를 통해 사용할 수 있습니다. 자세한 내용은 여기를 참조하세요.
대화 기록 기능은 SDK를 통해 사용할 수 있습니다.
Direct Line Speech 채널을 사용하는 음성 도우미 지원이 추가되었습니다.

샘플

SDK에서 지원하는 새 기능 또는 새로운 서비스에 대한 샘플이 추가되었습니다.

향상된 기능/변경 사항

서비스 동작 또는 서비스 결과(예: 욕설 및 기타 비속어 마스킹)를 조정하는 다양한 인식기 속성이 추가되었습니다.
이제 FromEndpoint 인식기를 만들었더라도 표준 구성 속성을 통해 인식기를 구성할 수 있습니다.
Objective-C: OutputFormat 속성이 SPXSpeechConfiguration에 추가되었습니다.
이제 SDK는 Linux 배포판으로 Debian 9를 지원합니다.

버그 수정

화자 리소스가 텍스트 음성 변환에서 너무 일찍 소멸하는 문제를 수정했습니다.

Speech SDK 1.4.2

버그 수정 릴리스이며 네이티브/관리형 SDK에만 적용됩니다. SDK의 JavaScript 버전에는 영향을 주지 않습니다.

Speech SDK 1.4.1

JavaScript 전용 릴리스입니다. 추가한 기능은 없습니다. 다음과 같이 수정했습니다.

웹팩이 https-proxy-agent를 로드하지 않도록 방지하세요.

Speech SDK 1.4.0: 2019년 4월 릴리스

새로운 기능

이제 SDK는 텍스트 음성 변환 서비스를 베타 버전으로 지원합니다. C++ 및 C#의 Windows 및 Linux 데스크톱에서 지원됩니다. 자세한 내용은 텍스트 음성 변환 개요를 참조하세요.
이제 SDK는 MP3 및 Opus/OGG 오디오 파일을 스트림 입력 파일로 지원합니다. 이 기능은 C++ 및 C#의 Linux에서만 사용할 수 있으며 현재 베타 버전입니다(자세한 내용은 여기 참조).
Java, .NET Core, C++ 및 Objective-C에 대한 Speech SDK에서 macOS를 지원합니다. Objective-C의 macOS 지원은 현제 베타 버전입니다.
iOS: iOS용 Speech SDK(Objective-C) 역시 현재 CocoaPod로 게시됩니다.
JavaScript: 기본이 아닌 마이크를 입력 디바이스로 지원합니다.
JavaScript: Node.js에 대한 프록시를 지원합니다.

샘플

macOS 기반의 C++ 및 Objective-C에서 Speech SDK를 사용하는 샘플이 추가되었습니다.
텍스트 음성 변환 서비스 사용법을 보여주는 샘플이 추가되었습니다.

향상된 기능/변경 사항

Python: 이제 인식 결과의 추가 속성이 properties 속성을 통해 노출됩니다.
추가 개발 및 디버그 지원이 필요한 경우 SDK 로깅 및 진단 정보를 로그 파일로 리디렉션할 수 있습니다(자세한 내용은 여기 참조).
JavaScript: 오디오 처리 성능이 향상되었습니다.

버그 수정

Mac/iOS: Speech Service에 대한 연결을 설정할 수 없을 때 오래 기다려야 하는 버그를 수정했습니다.
Python: Python 콜백의 인수에 대한 오류 처리가 향상되었습니다.
JavaScript: RequestSession에서 음성이 종료된 경우의 잘못된 상태 보고를 수정했습니다.

Speech SDK 1.3.1: 2019년 2월 새로 고침

버그 수정 릴리스이며 네이티브/관리형 SDK에만 적용됩니다. SDK의 JavaScript 버전에는 영향을 주지 않습니다.

버그 수정

마이크 입력을 사용할 때 메모리 누수가 수정되었습니다. 스트림 기반 또는 파일 입력에는 영향을 주지 않습니다.

Speech SDK 1.3.0: 2019 2월 릴리스

새로운 기능

Speech SDK는 AudioConfig 클래스를 통해 입력 마이크를 선택할 수 있도록 지원합니다. 따라서 기본이 아닌 마이크에서 Speech Service로 오디오 데이터를 스트리밍할 수 있습니다. 자세한 내용은 오디오 입력 디바이스 선택에 대한 설명서를 참조하세요. JavaScript에서는 아직 이 기능을 사용할 수 없습니다.
이제 Speech SDK는 베타 버전의 Unity를 지원합니다. GitHub 샘플 리포지토리의 문제 섹션을 통해 피드백을 제공하세요. 이 릴리스에서는 Windows x86 및 x64(데스크톱 또는 유니버설 Windows 플랫폼 애플리케이션)와 Android(ARM32/64, x86)의 Unity를 지원합니다. 자세한 내용은 Unity 빠른 시작을 참조하세요.
이전 릴리스에서 제공하던 Microsoft.CognitiveServices.Speech.csharp.bindings.dll 파일은 더 이상 필요 없습니다. 이제 이 기능이 핵심 SDK에 통합되었습니다.

샘플

다음 새 콘텐츠는 샘플 리포지토리에서 사용할 수 있습니다.

AudioConfig.FromMicrophoneInput에 대한 추가 샘플
의도 인식 및 변환에 대한 추가 Python 샘플
iOS에서 Connection 개체를 사용하는 방법에 대한 추가 샘플
오디오 출력을 사용한 변환에 대한 추가 Java 예제
일괄 대화 내용 기록 REST API

향상된 기능/변경 사항

파이썬
- SpeechConfig의 매개 변수 확인 및 오류 메시지를 개선했습니다.
- Connection 개체 지원을 추가했습니다.
- Windows에서 32비트 Python(x86)을 지원합니다.
- Python용 Speech SDK가 베타를 벗어났습니다.
iOS
- SDK는 이제 iOS SDK 버전 12.1용으로 빌드되었습니다.
- SDK는 이제 iOS 버전 9.2 이상을 지원합니다.
- 참조 설명서를 개선하고 몇 가지 속성 이름을 수정합니다.
JavaScript
- Connection 개체 지원을 추가했습니다.
- 번들로 묶은 JavaScript의 형식 정의 파일을 추가했습니다.
- 구문 힌트의 초기 지원 및 구현이 제공됩니다.
- 인식을 위해 서비스 JSON을 사용하는 속성 컬렉션을 반환합니다.
이제 Windows DLL이 버전 리소스를 포함합니다.
FromEndpoint 인식기를 만드는 경우 엔드포인트 URL에 매개 변수를 직접 추가할 수 있습니다. FromEndpoint를 사용하면 표준 구성 속성을 통해 인식기를 구성할 수 없습니다.

버그 수정

빈 프록시 이름과 프록시 암호가 올바르게 처리되지 않았습니다. 이 릴리스에서는 프록시 이름과 프록시 암호를 빈 문자열로 설정하면 프록시에 연결될 때 제출되지 않습니다.
SDK에서 만든 SessionId가 항상 일부 언어/환경에서 무작위인 것은 아니었습니다. 이 문제를 수정하기 위해 난수 생성기 초기화를 추가했습니다.
권한 부여 토큰 처리를 개선했습니다. 권한 부여 토큰을 SpeechConfig에 지정하고, API 키는 비워 둡니다. 그런 다음, 평소처럼 인식기를 만듭니다.
경우에 따라 Connection 개체가 올바르게 해제되지 않았습니다. 이 문제는 해결되었습니다.
Safari에서도 오디오 출력의 변환 합성을 지원하도록 JavaScript 샘플을 수정했습니다.

Speech SDK 1.2.1

JavaScript 전용 릴리스입니다. 추가한 기능은 없습니다. 다음과 같이 수정했습니다.

speech.end가 아닌 turn.end에서 스트림 끝을 실행합니다.
현재 전송이 실패한 경우 다음 전송을 예약하지 않는 오디오 펌프의 버그를 수정했습니다.
인증 토큰을 사용한 연속 인식을 수정했습니다.
다른 인식기/엔드포인트의 버그를 수정했습니다.
설명서 개선

Speech SDK 1.2.0: 2018년 12월 릴리스

새로운 기능

파이썬
- 이 릴리스에서는 베타 버전의 Python(3.5 이상)이 지원됩니다. 자세한 내용은 [여기](../../quickstart-python.md)를 참조하세요.
JavaScript
- JavaScript용 Speech SDK가 오픈 소스로 제공됩니다. 소스 코드는 GitHub에서 사용할 수 있습니다.
- 이제 Node.js를 지원합니다. 자세한 정보는 여기에서 확인할 수 있습니다.
- 오디오 세션에 대한 길이 제한이 제거되었으므로 백그라운드에서 자동으로 다시 연결됩니다.
Connection 개체
- Recognizer에서 Connection 개체에 액세스할 수 있습니다. 이 개체를 사용하면 명시적으로 서비스 연결을 시작하고 연결 및 연결 끊기 이벤트를 구독할 수 있습니다. (아직 JavaScript 및 Python에서는 이 기능을 사용할 수 없습니다.)
Ubuntu 18.04 지원
Android
- APK 생성 중에 ProGuard 지원이 설정되었습니다.

개선

스레드, 잠금, 뮤텍스 수를 줄이면서 내부 스레드 사용이 개선되었습니다.
오류 보고/정보가 개선되었습니다. 여러 경우에 오류 메시지가 끝까지 전파되지 않았습니다.
최신 모듈을 사용하도록 JavaScript의 개발 종속성을 업데이트했습니다.

버그 수정

RecognizeAsync의 형식 불일치로 인한 메모리 누수가 수정되었습니다.
어떤 경우에는 예외가 유출되었습니다.
번역 이벤트 인수에서 메모리 누수가 수정되었습니다.
장기 실행 세션에서 다시 연결 시 잠금 문제가 해결되었습니다.
번역 실패로 인해 최종 결과가 누락될 수 있는 문제가 해결되었습니다.
C#: 주 스레드에서 async 작업을 기다리지 않는 경우 비동기 작업이 완료되기 전에 인식기가 삭제될 수 있었습니다.
Java: Java VM 충돌 문제가 해결되었습니다.
Objective-C: 고정 열거형 매핑: RecognizingIntent 대신 RecognizedIntent가 반환되었습니다.
JavaScript: SpeechConfig에서 기본 출력 형식을 'simple'로 설정합니다.
JavaScript: JavaScript 및 다른 언어에서 구성 개체 속성 간 불일치를 제거합니다.

샘플

여러 샘플을 업데이트하고 수정했습니다(예: 번역을 위한 출력 음성 등).
Node.js 샘플을 샘플 리포지토리에 추가했습니다.

Speech SDK 1.1.0

새로운 기능

Android x86/x64를 지원합니다.
프록시 지원: 이제 SpeechConfig 개체에서 함수를 호출하여 프록시 정보(호스트 이름, 포트, 사용자 이름 및 암호)를 설정할 수 있습니다. iOS에서는 아직 이 기능을 사용할 수 없습니다.
향상된 오류 코드 및 메시지입니다. 인식이 오류를 반환한 경우 이미 Reason(취소된 이벤트의) 또는 CancellationDetails(인식 결과의) Error로 설정되어 있습니다. 취소 이벤트에는 이제 두 개의 추가 멤버 ErrorCode 및 ErrorDetails가 포함됩니다. 서버에서 보고된 오류와 함께 추가 오류 정보가 반환된 경우, 새 멤버에서 이 정보를 사용할 수 있습니다.

개선

인식기 구성에서 추가 확인을 추가하고, 추가 오류 메시지를 추가했습니다.
오디오 파일 중간의 오랜 시간의 무음 처리가 개선되었습니다.
NuGet 패키지: .NET Framework 프로젝트에서는 AnyCPU 구성으로 빌드하는 것을 방지합니다.

버그 수정

인식기에서 발견된 몇 가지 예외를 수정했습니다. 또한 예외가 포착되어 Canceled 이벤트로 변환됩니다.
속성 관리에서 메모리 누수를 해결합니다.
오디오 입력 파일이 인식기 작동을 중지할 수 있는 버그가 수정되었습니다.
세션 중지 이벤트 후 이벤트를 수신할 수 있는 버그가 수정되었습니다.
스레딩에서 일부 경합 상태가 수정되었습니다.
결국 충돌을 일으킬 수 있는 iOS 호환성 문제가 해결되었습니다.
Android 마이크 지원의 안정성 향상.
JavaScript의 인식기가 인식 언어를 무시하는 버그가 수정되었습니다.
JavaScript에서 EndpointId(일부 경우) 설정을 방해하는 버그가 수정되었습니다.
JavaScript의 AddIntent에서 매개 변수 순서를 변경하고, 누락된 AddIntent JavaScript 서명을 추가했습니다.

샘플

샘플 리포지토리에 끌어오기 및 밀어넣기 스트리밍 사용에 대한 C++ 및 C# 샘플을 추가했습니다.

Speech SDK 1.0.1

안정성 향상 및 버그 수정:

삭제 중인 인식기의 경합으로 인한 잠재적인 심각한 오류가 수정되었습니다.
속성이 설정되지 않은 경우 발생할 수 있는 심각한 오류가 수정되었습니다.
추가 오류 및 매개 변수 검사가 추가되었습니다.
Objective-C: NSString에서 이름 재정의로 인한 잠재적인 심각한 오류가 수정되었습니다.
Objective-C: API의 가시성이 조정되었습니다.
JavaScript: 관련 이벤트 및 해당 페이로드가 수정되었습니다.
설명서 개선

샘플 리포지토리에서 JavaScript에 대한 새로운 샘플이 추가되었습니다.

Azure AI 음성 SDK 1.0.0: 2018년 9월 릴리스

새로운 기능

iOS에서 Objective-C를 지원합니다. iOS용 Objective-C 빠른 시작을 확인하세요.
브라우저에서 JavaScript를 지원합니다. JavaScript 빠른 시작을 확인하세요.

주요 변경 내용

이 릴리스에는 몇 가지 주요한 변경 내용이 도입되었습니다. 자세한 내용은 이 페이지를 확인하세요.

Azure AI 음성 SDK 0.6.0: 2018년 8월 릴리스

새로운 기능

Speech SDK를 사용하여 빌드된 UWP 앱은 이제 WACK(Windows 앱 인증 키트)를 전달할 수 있습니다. UWP 빠른 시작을 확인하세요.
Linux(Ubuntu 16.04 x64)에서 .NET 표준 2.0을 지원합니다.
실험: Windows(64비트) 및 Linux(Ubuntu 16.04 x64)에서 Java 8을 지원합니다. Java Runtime Environment 빠른 시작을 확인하세요.

기능 변경

연결 오류에 대한 추가 오류 세부 정보를 표시합니다.

주요 변경 내용

Java(Android)에서, SpeechFactory.configureNativePlatformBindingWithDefaultCertificate 함수는 더 이상 경로 매개 변수를 요구하지 않습니다. 이제 지원되는 모든 플랫폼에서 경로가 자동으로 검색됩니다.
Java 및 C#에서 EndpointUrl 속성의 get-accessor가 제거되었습니다.

버그 수정

Java에서, 번역 인식기의 오디오 합성 결과가 구현되었습니다.
비활성 스레드 및 사용되지 않는 열린 소켓 수가 증가하는 버그가 수정되었습니다.
오래 실행되는 인식이 전송 중에 종료될 수 있는 문제가 해결되었습니다.
인식기 종료에서 발생하는 경합 조건이 수정되었습니다.

Azure AI 음성 SDK 0.5.0: 2018년 7월 릴리스

새로운 기능

Android 플랫폼(API 23: Android 6.0 Marshmallow 이상)을 지원합니다. Android 빠른 시작을 확인하세요.
Windows에서 .NET Standard 2.0을 지원합니다. .NET Core 빠른 시작을 확인하세요.
실험: Windows(버전 1709 이상)에서 UWP를 지원합니다.
- UWP 빠른 시작을 확인하세요.
- Speech SDK를 사용하여 빌드된 UWP 앱은 아직 WACK(Windows 앱 인증 키트)를 제공하지 않습니다.
자동 재연결을 통해 긴 시간 인식을 지원합니다.

기능 변경 내용

StartContinuousRecognitionAsync()에서 장기 실행 인식을 지원합니다.
인식 결과에 더 많은 필드가 포함됩니다. 인식된 텍스트의 오디오 시작 및 지속 시간의 오프셋(두 가지 모두 틱 단위) 및 인식 상태를 나타내는 추가 값(예: InitialSilenceTimeout, InitialBabbleTimeout)입니다.
팩터리 인스턴스를 만들기 위한 AuthorizationToken을 지원합니다.

주요 변경 내용

인식 이벤트: NoMatch 이벤트 유형이 Error 이벤트에 병합되었습니다.
C#의 SpeechOutputFormat이 C++에 맞게 OutputFormat으로 이름이 바뀌었습니다.
AudioInputStream 인터페이스의 일부 메서드 반환 형식이 다음과 같이 약간 변경되었습니다.
- Java에서 read 메서드는 이제 long 대신 int을 반환합니다.
- C#에서 Read 메서드는 이제 uint 대신 int을 반환합니다.
- C++에서 Read 및 GetFormat 메서드는 이제 size_t 대신 int를 반환합니다.
C++: 오디오 입력 스트림의 인스턴스가 이제 shared_ptr로만 전달될 수 있습니다.

버그 수정

RecognizeAsync() 시간이 초과될 때 결과의 잘못된 반환 값이 수정되었습니다.
Windows에서 미디어 파운데이션 라이브러리에 대한 종속성이 제거되었습니다. SDK에 이제 Core Audio API가 사용됩니다.
설명서 수정 사항: 지원되는 지역을 설명하는 지역 페이지가 추가되었습니다.

알려진 이슈

Android용 Speech SDK에서는 번역에 대한 음성 합성 결과를 보고하지 않습니다. 이 문제는 다음 릴리스에서 해결될 예정입니다.

Azure AI 음성 SDK 0.4.0: 2018년 6월 릴리스

기능 변경 내용

오디오인풋스트림

이제 인식기가 스트림을 오디오 원본으로 사용할 수 있습니다. 자세한 내용은 관련 방법 가이드를 참조하세요.
자세한 출력 형식

SpeechRecognizer를 만들 때 Detailed 또는 Simple 출력 형식을 요청할 수 있습니다. DetailedSpeechRecognitionResult에는 신뢰도 점수, 인식된 텍스트, 원시 어휘 형식, 정규화된 형식 및 마스킹된 욕설이 포함된 정규화된 형식이 포함됩니다.

호환성이 손상되는 변경

C#의 SpeechRecognitionResult.Text가 SpeechRecognitionResult.RecognizedText로 변경되었습니다.

버그 수정

종료하는 동안 USP 계층에서 발생할 수 있는 콜백 문제가 해결되었습니다.
인식기가 오디오 입력 파일을 사용한 경우, 필요한 것보다 더 긴 파일 핸들을 사용하고 있었습니다.
메시지 펌프와 인식기 간에 여러 가지 교착 상태가 제거되었습니다.
서비스 응답 시간이 초과되면 NoMatch 결과를 실행합니다.
Windows의 미디어 파운데이션 라이브러리는 지연 로드됩니다. 이 라이브러리는 마이크 입력에만 필요합니다.
오디오 데이터의 업로드 속도는 원본 오디오 속도의 두 배 정도로 제한됩니다.
Windows에서 C# .NET 어셈블리에 이제 강력한 이름이 지정됩니다.
설명서 수정: Region은 인식기를 만드는 데 필요한 정보입니다.

추가 샘플이 추가되었고 지속적으로 업데이트되고 있습니다. 최신 샘플 집합은 Speech SDK 샘플 GitHub 리포지토리를 참조하세요.

Azure AI 음성 SDK 0.2.12733: 2018년 5월 릴리스

이 릴리스는 Azure AI 음성 SDK의 첫 번째 공개 미리 보기 릴리스입니다.

Speech CLI 1.43: 2025-3월 릴리스

새로운 기능

.NET 8을 사용하도록 SPX가 업데이트되었습니다.

버그 수정

온-프레미스 일괄 처리 시나리오에서 작동하지 않는 SPX Docker 컨테이너가 수정되었습니다.

음성 CLI 1.40.0: 2024년 8월 릴리스

Speech SDK 1.40.0을 사용하도록 업데이트되었습니다.

새로운 기능

없음

버그 수정

없음

Speech CLI 1.38.0: 2024년 6월 릴리스

Speech SDK 1.38.0을 사용하도록 업데이트되었습니다.

새로운 기능

없음

버그 수정

없음

Speech CLI 1.37.0: 2024년 4월 릴리스

Speech SDK 1.37.0을 사용하도록 업데이트되었습니다.

새로운 기능

없음

버그 수정

없음

음성 CLI 1.36.0: 2024년 3월 릴리스

Speech SDK 1.36.0을 사용하도록 업데이트되었습니다.

새로운 기능

없음

버그 수정

없음

Speech CLI 1.35.0: 2024년 2월 릴리스

Speech SDK 1.35.0을 사용하도록 업데이트되었습니다.

새로운 기능

없음

버그 수정

JMESPath 종속성을 최신으로 업데이트

Speech CLI 1.34.0: 2023년 11월 릴리스

Speech SDK 1.34.0을 사용하도록 업데이트되었습니다.

Speech CLI 1.33.0: 2023년 10월 릴리스

Speech SDK 1.33.0을 사용하도록 업데이트되었습니다.

음성 CLI 1.31.0: 2023년 8월 릴리스

Speech SDK 1.31.0을 사용하도록 업데이트되었습니다.

음성 CLI 1.30.0: 2023년 7월 릴리스

Speech SDK 1.30.0을 사용하도록 업데이트되었습니다.

Speech CLI 1.29.0: 2023년 6월 릴리스

Speech SDK 1.29.0을 사용하도록 업데이트되었습니다.

음성 CLI 1.28.0: 2023년 5월 릴리스

Speech SDK 1.28.0을 사용하도록 업데이트되었습니다.

Speech CLI 1.27.0: 2023년 4월 릴리스

업데이트

Speech SDK 1.27.0을 사용하도록 업데이트되었습니다.
사용자 지정 음성 인식 및 Batch 음성 인식에 v3.1 REST API를 사용하도록 기본 엔드포인트를 업데이트합니다.

버그 수정

쿼리 매개 변수 구문 분석/구성 방법과 관련된 수정 사항입니다.

음성 CLI 1.26.0: 2023년 3월 릴리스

Speech SDK 1.26.0을 사용하도록 업데이트되었습니다.

Speech CLI 1.25.0: 2023년 1월 릴리스

Speech SDK 1.25.0을 사용하도록 업데이트되었습니다.

Speech CLI 1.24.0: 2022년 10월 릴리스

Speech SDK 1.24.0을 사용합니다.

새로운 기능

모든 spx 이벤트에 대해 JMESPath 쿼리를 지원하도록 “spx 검사”가 확장되었습니다.

버그 수정

JMESPath 쿼리 평가에 대한 견고성의 다양한 개선 사항이 있습니다.
리소스가 제한된 컴퓨터에서 발생할 수 있는 파일 쓰기에 대한 잘림을 수정합니다.

음성 CLI 1.23.0: 2022년 7월 릴리스

Speech SDK 1.23.0을 사용합니다.

새로운 기능

더 나은 캡션(--output vtt 및 --output srt) 큰 결과 분할(최대 37자, 3줄)
spx synthesize--format 옵션이 문서화됨(spx help synthesize format 참조)
대부분의 spx csr 명령/옵션이 문서화됨(spx help csr 참조)
spx csr model copy 명령이 추가됨(spx help csr model copy 참조)
JMES 쿼리를 사용하는 --check result 옵션이 추가됨(spx help check result 참조)
잘못된 명령 옵션을 지정할 때 발생하는 오류 메시지가 개선됨
.NET Core 3.1에서 .NET 6.0으로 이동됨 Speech CLI를 실행하려면 .NET 6.0 런타임 (이상)을 설치해야 합니다.

버그 수정

언어를 제거하기 위해 모든 URL이 업데이트됨(예: "en-US")
모든 경우에 올바르게 보고하도록 버전 정보가 수정됨(이전에는 경우에 따라 공백으로 표시됨)

Speech CLI 1.22.0: 2022년 6월 릴리스

Speech SDK 1.22.0을 사용합니다.

새로운 기능

Azure Web Portal로 가지 않고 Speech 리소스 키 만들기를 통해 사용자를 안내하는 spx init 명령이 추가되었습니다.
이제 음성 Docker 컨테이너에는 Azure CLI가 포함되어 있으므로 spx init 명령이 즉시 작동합니다.
대기 시간을 계산할 때 SPX를 더 유용하게 만들기 위해 이벤트 출력 옵션으로 타임스탬프를 추가했습니다.

Speech CLI 1.21.0: 2022년 4월 릴리스

Speech SDK 1.21.0을 사용합니다.

새로운 기능

WEBVTT 캡션 생성
- --output vtt에 spx translate 지원이 추가됨
- 기본 VTT FILENAME을 재정의하는 --output vtt file FILENAME 지원
- --output vtt file -은 표준 출력에 쓰기 위한 지원을 제공합니다.
- 각 대상 언어에 대해 개별 VTT 파일이 만들어집니다(예: --target en;de;fr).
SRT 캡션 생성
- --output srt, spx recognize 및 spx intent에 spx translate 지원 추가
- 기본 SRT 파일 이름을 재정의하는 --output srt file FILENAME 지원
- --output srt file -은 표준 출력에 쓰기 위한 지원을 제공합니다.
- spx translate의 경우 각 대상 언어에 대해 개별 SRT 파일이 만들어집니다(예: --target en;de;fr).

버그 수정

hh:mm:ss.fff 형식을 올바르게 사용하도록 WEBVTT 시간 범위 출력 수정

Speech CLI 1.20.0: 2022년 1월 릴리스

새로운 기능

화자 인식
- spx profile enroll 및 spx speaker [identify/verify]는 마이크 입력을 지원합니다.
의도 인식(spx intent)
- --keyword FILE.table
- --pattern 및 --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+--continuous(continuous가 이제 기본값)
- --output all/each connection EVENT
- --output all/each connection message(예: text, path)
CLI 콘솔 출력 예상 검사/작성:
- 모든 명령에서 --expect PATTERN 및 --not expect PATTERN 지원
- 필요한 패턴 작성을 도와주는 --auto expect
SDK 로깅 출력 예상 확인/작성
- 모든 명령에서 --log expect PATTERN 및 --not log expect PATTERN 지원
- 모든 명령에 대한 --log auto expect [FILTER] 지원
- --log FILE 및 spx profile에서 spx speaker 지원
오디오 파일 입력
- 모든 명령에 대한 --format ANY 지원
- --file - 지원(표준 입력에서 읽기 및 파이프 사용 시나리오 활성화)
오디오 파일 출력
- --audio output - 표준 출력에 쓰기, 파이프 시나리오 사용
출력 파일
- --output all/each file - 표준 출력에 쓰기
- --output batch file - 표준 출력에 쓰기
- --output vtt file - 표준 출력에 쓰기
- --output json file - 표준 출력에 쓰기, spx csr 및 spx batch 명령의 경우
출력 속성
- --output […] result XXX property(PropertyId 또는 문자열)
- --output […] connection message received XXX property(PropertyId 또는 문자열)
- --output […] recognizer XXX property(PropertyId 또는 문자열)
Azure WebJob 통합
- spx webjob은 이제 하위 명령 패턴을 따릅니다.
- 하위 명령 패턴을 반영하도록 WebJob 도움말 업데이트(spx help webjob 참조)

버그 수정

--output vtt FILE 및 --output batch FILE이 동시에 사용될 때 발생하는 버그 수정
spx [...] --zip ZIPFILENAME에는 이제 모든 시나리오에 필요한 모든 이진 파일이 포함됩니다(있는 경우).
spx profile 및 spx speaker 명령은 이제 취소에 대한 자세한 오류 정보를 반환합니다.

2021년 5월 릴리스

새로운 기능

프로필, 스피커 ID 및 화자 검증을 위한 지원이 추가되었습니다. 명령줄에서 spx profile 및 spx speaker를 실행해 보세요.
대화 상자 지원도 추가되었습니다. 명령줄에서 spx dialog를 실행해 보세요.
spx 도움말이 향상되었습니다. GitHub 문제를 열어 이 작업이 어떻게 작동하는지에 대한 피드백을 제공해 주세요.
.NET 도구 설치의 크기를 줄입니다.

COVID-19 간이 검사

진행 중인 전염병으로 인해 엔지니어가 집에서 작업하도록 계속 요구함에 따라, 더 적은 구성으로 더 적은 수의 디바이스에서 테스트하기 위해 전염병 전 수동 확인 스크립트가 줄어들고 환경별 버그가 미끄러질 가능성이 높아질 수 있습니다. 저희는 수많은 자동화를 통해 여전히 엄격한 유효성 검사를 수행하고 있습니다. 드물게 누락된 경우 GitHub에서 알려주세요.
건강에 유의하세요!

2021년 3월 릴리스

새로운 기능

의도 인식을 위한 spx intent 명령이 추가되었으며, 이 명령은 spx recognize intent를 대체합니다.
이제 인식 및 의도에서 Azure 함수를 사용하여 spx recognize --wer url <URL>을 통해 단어 오류율을 계산할 수 있습니다.
이제 인식에서 spx recognize --output vtt file <FILENAME>을 사용하여 결과를 VTT 파일로 출력할 수 있습니다.
이제 중요한 키 정보는 디버그/자세한 정보 출력에서 잘 보이지 않게 표시됩니다.
일괄 처리 대화 내용 기록 만들기의 콘텐츠 필드에 대한 URL 검사 및 오류 메시지가 추가되었습니다.

COVID-19 간이 검사

2021년 1월 릴리스

새로운 기능

이제 Speech CLI는 NuGet 패키지로 제공되며 .NET CLI를 통해 셸/명령줄에서 호출할 수 있는 .NET 전역 도구로 설치할 수 있습니다.
사용자 지정 음성 DevOps 템플릿 리포지토리는 사용자 지정 음성 워크플로에 음성 CLI를 사용하도록 업데이트되었습니다.

COVID-19 간이 검사

2020년 10월 릴리스

SPX는 코드를 작성하지 않고 음성 서비스를 사용하기 위한 명령줄 인터페이스입니다. 여기서 최신 버전을 다운로드하세요.

새로운 기능

spx csr dataset upload --kind audio|language|acoustic – URL뿐만 아니라 로컬 데이터에서 데이터 세트를 만듭니다.
spx csr evaluation create|status|list|update|delete – 새 모델을 기준 진위/기타 모델과 비교합니다.
spx * list – 페이지가 아닌 환경을 지원합니다(--top X --skip X가 필요 없음).
spx * --http header A=B – 사용자 지정 헤더(사용자 지정 인증을 위해 Office에 추가됨)를 지원합니다.
spx help – 텍스트 및 역따옴표 텍스트 색상 구분(파란색)이 향상되었습니다.

2020년 6월 릴리스

CLI 내 도움말 검색 기능이 추가되었습니다.
- spx help find --text TEXT
- spx help find --topic NAME
새로 배포된 v3.0 Batch 및 사용자 지정 음성 API와 함께 작동하도록 업데이트되었습니다.
- spx help batch examples
- spx help csr examples

COVID-19 간이 검사

지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 드물게 누락된 경우 GitHub에서 알려주세요.
건강에 유의하세요!

Speech CLI(SPX라고도 함): 2020년 5월 릴리스

SPX는 명령줄에서 인식, 합성, 번역, 일괄 처리 대화 내용 기록 및 사용자 지정 음성 관리를 수행할 수 있는 새로운 명령줄 도구입니다. 이 도구를 사용하여 Speech Service를 테스트하거나 수행해야 하는 Speech Service 작업을 스크립팅할 수 있습니다. 이 도구를 다운로드하고 여기서 설명서를 읽어보세요.

2025년 4월 릴리스

새로운 HD 음성 공개 미리 보기

이제 다음 HD 음성을 미리 볼 수 있습니다.

로캘(BCP-47)	음성 이름
`en-US`	`en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural`(중립)
`en-US`	`en-US-Bree:DragonHDLatestNeural`(여성)
`en-US`	`en-US-AshTurboMultilingualNeural`(남성)

2025년 3월 릴리스

일부 HD 음성의 일반 공급

이제 다음 HD 음성이 일반 공급됩니다.

로캘(BCP-47)	음성 이름
`de-DE`	`de-DE-Florian:DragonHDLatestNeural`(남성)
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural`(여성)
`en-US`	`en-US-Adam:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Andrew:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Ava:DragonHDLatestNeural`(여성)
`en-US`	`en-US-Brian:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Davis:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Emma:DragonHDLatestNeural`(여성)
`en-US`	`en-US-Emma2:DragonHDLatestNeural`(여성)
`en-US`	`en-US-Steffan:DragonHDLatestNeural`(남성)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural`(남성)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural`(여성)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural`(남성)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural`(여성)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural`(남성)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural`(여성)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural`(여성)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural`(남성)

팟캐스트 시나리오에 대한 다중 토커 음성(미리 보기)

로캘(BCP-47)	음성 이름
`en-US`	`en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural`(중립)

새 HD 음성(미리 보기)

로캘(BCP-47)	음성 이름
`en-US`	`en-US-Ava3:DragonHDLatestNeural` (여성) - 팟캐스트에 최적화
`en-US`	`en-US-Andrew3:DragonHDLatestNeural` (남성) - 팟캐스트에 최적화

Dragon HD Flash 모델(미리 보기)

로캘(BCP-47)	음성 이름
`zh-CN`	`zh-CN-Xiaochen:DragonHDFlashLatestNeural`(여성)
`zh-CN`	`zh-CN-Xiaoxiao:DragonHDFlashLatestNeural`(여성)
`zh-CN`	`zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural` (여성, 무료 대화에 최적화됨)
`zh-CN`	`zh-CN-Yunxiao:DragonHDFlashLatestNeural`(남성)
`zh-CN`	`zh-CN-Yunyi:DragonHDFlashLatestNeural`(남성)

2025년 2월 릴리스

HD 음성 업데이트(미리 보기)

다국어 음성을 지원하도록 업데이트된 13개의 현재 HD 음성이 업데이트되었습니다.

로캘(BCP-47)	음성 이름
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural`(여성)
`en-US`	`en-US-Brian:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Davis:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Ava:DragonHDLatestNeural`(여성)
`en-US`	`en-US-Andrew:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (남성) - 무료 대화에 최적화
`en-US`	`en-US-Emma:DragonHDLatestNeural`(여성)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (여성) - 무료 대화에 최적화
`en-US`	`en-US-Steffan:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Aria:DragonHDLatestNeural`(여성)
`en-US`	`en-US-Jenny:DragonHDLatestNeural`(여성)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural`(남성)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural`(여성)

새 HD 음성(미리 보기)

HD 음성 14개 추가

로캘(BCP-47)	음성 이름
`de-DE`	`de-DE-Florian:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Adam:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Brian:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Davis:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Phoebe:DragonHDLatestNeural`(여성)
`en-US`	`en-US-Serena:DragonHDLatestNeural`(여성)
`en-US`	`en-US-Alloy:DragonHDLatestNeural`(남성)
`en-US`	`en-US-Nova:DragonHDLatestNeural`(여성)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural`(여성)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural`(남성)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural`(여성)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural`(남성)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural`(여성)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural`(남성)

새로운 다국어 음성 소개(미리 보기)

en-US에 감정 지원이 포함된 4개의 다국어 음성이 추가되었습니다.

로캘(BCP-47)	음성 이름	스타일
`en-US`	`DerekMultilingualNeural`(남성)	`empathetic`, `excited`, `relievedshy`
`en-US`	`PhoebeMultilingualNeural`(여성)	`empathetic`, `sad`, `serious`
`en-US`	`DavisMultilingualNeural`(남성)	`empathetic`, `funny`, `relieved`
`en-US`	`NancyMultilingualNeural`(여성)	`excited`, `friendly`, `funny`, `relievedshy`

Azure AI 파운드리의 Azure OpenAI 모델 터보 음성(일반 공급)

이제 다음 6개의 터보 음성이 일반적으로 제공됩니다.

로캘(BCP-47)	음성 이름
`en-US`	`en-US-AlloyTurboMultilingualNeural`(남성)
`en-US`	`en-US-EchoTurboMultilingualNeural`(남성)
`en-US`	`en-US-FableTurboMultilingualNeural`(중립)
`en-US`	`en-US-NovaTurboMultilingualNeural`(여성)
`en-US`	`en-US-OnyxTurboMultilingualNeural`(남성)
`en-US`	`en-US-ShimmerTurboMultilingualNeural`(여성)

음성 품질 개선(일반 공급)

16개 음성의 품질이 향상되었습니다.

로캘(BCP-47)	음성 이름
`ar-EG`	`ar-EG-ShakirNeural`(남성)
`ca-ES`	`ca-ES-EnricNeural`(남성)
`en-IE`	`en-IE-EmilyNeural`(여성)
`fi-FI`	`fi-FI-HarriNeural`(남성)
`fi-FI`	`fi-FI-SelmaNeural`(여성)
`fr-CH`	`fr-CH-FabriceNeural`(여성)
`hr-HR`	`hr-HR-GabrijelaNeural`(여성)
`nl-NL`	`nl-NL-MaartenNeural`(남성)
`pt-PT`	`pt-PT-RaquelNeural`(여성)
`ro-RO`	`ro-RO-AlinaNeural`(여성)
`sv-SE`	`sv-SE-MattiasNeural`(남성)
`sv-SE`	`sv-SE-SofieNeural`(여성)
`vi-VN`	`vi-VN-HoaiMyNeural`(여성)
`vi-VN`	`vi-VN-NamMinhNeural`(남성)
`zh-HK`	`zh-HK-HiuMaanNeural`(여성)
`zh-HK`	`zh-HK-WanLungNeural`(남성)

다양한 스타일 포함 Jenny(일반 공급)

포함된 음성에 대한 en-US-JennyNeural 스타일 지원이 추가되었습니다. 클라우드에서와 동일한 스타일이 지원됩니다. 지원되는 스타일은 angry, assistant, chat, cheerful, customerservice, excited, friendly, hopeful, newscast, sad, shouting, terrified, unfriendly 및 whispering입니다.

2025년 1월 릴리스

사용자 지정 아바타 학습

이제 Speech Studio에서 사용자 지정 아바타를 학습할 수 있습니다. 이전에는 Microsoft가 사용자 지정 아바타를 학습할 때까지 기다려야 했습니다.

사용자 지정 아바타를 만드는 방법에 대한 자세한 내용은 사용자 지정 텍스트 음성 변환 아바타 만들기를 참조 하세요.

2024년 10월 릴리스

표준 음성

공개 미리 보기에서 Azure OpenAI 음성의 터보 버전 4개 도입: en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeural및 en-US-ShimmerTurboMultilingualNeural. 터보 버전의 Azure OpenAI 음성은 Azure OpenAI 음성과 유사한 음성 가상 사용자를 갖지만 추가 기능을 지원합니다. 터보 음성은 다른 Azure AI Speech 음성과 마찬가지로 SSML 요소의 전체 집합과 단어 경계와 같은 더 많은 기능을 지원합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

이러한 음성은 이제 일반 공급됩니다.

로캘(BCP-47)	음성 이름
`de-DE`	`SeraphinaMultilingualNeural`
`de-DE`	`FlorianMultilingualNeural`
`en-GB`	`AdaMultilingualNeural`
`en-GB`	`OllieMultilingualNeural`
`en-US`	`LunaNeural`
`en-US`	`KaiNeural`
`en-US`	`CoraMultilingualNeural`
`en-US`	`ChristopherMultilingualNeural`
`en-US`	`BrandonMultilingualNeural`
`es-ES`	`IsidoraMultilingualNeural`
`es-ES`	`ArabellaMultilingualNeural`
`es-ES`	`TristanMultilingualNeural`
`es-ES`	`XimenaMultilingualNeural`
`fr-FR`	`LucienMultilingualNeural`
`fr-FR`	`VivienneMultilingualNeural`
`fr-FR`	`RemyMultilingualNeural`
`it-IT`	`IsabellaMultilingualNeural`
`it-IT`	`MarcelloMultilingualNeural`
`it-IT`	`AlessioMultilingualNeural`
`it-IT`	`GiuseppeMultilingualNeural`
`ko-KR`	`HyunsuMultilingualNeural`
`pt-BR`	`ThalitaMultilingualNeural`
`pt-BR`	`MacerioMultilingualNeural`

표준 HD(고화질) 음성

Azure AI 음성 HD(고화질) 음성은 공개 미리 보기에서 사용할 수 있습니다. HD 음성은 콘텐츠를 이해하고, 입력 텍스트에서 감정을 자동으로 감지하고, 감정에 맞게 실시간으로 말하기 톤을 조정할 수 있습니다. HD 음성은 신경망(및 비 HD) 음성과 동일한 음성 가상 사용자를 유지하며 향상된 기능을 통해 더 많은 가치를 제공합니다. 자세한 내용은 Azure AI Speech HD(고화질) 음성이란?을 참조하세요.

사용자 지정 신경망 음성

이전에는 일부 로캘에서는 V3에서만 학습 레시피가 지원되었습니다. 이러한 로캘은 이제 V9도 지원하므로 향상된 학습 품질과 확장된 기능을 사용할 수 있습니다. 이러한 로캘의 경우 다음 표를 참조하세요.

로캘(BCP-47)	언어
`ar-EG`	아랍어(이집트)
`ar-SA`	아랍어(사우디아라비아)
`ca-ES`	카탈로니아어
`cs-CZ`	체코어(체코)
`da-DK`	덴마크어(덴마크)
`de-AT`	독일어(오스트리아)
`de-CH`	독일어(스위스)
`el-GR`	그리스어(그리스)
`en-IN`	영어(인도)
`fi-FI`	핀란드어(핀란드)
`fr-CH`	프랑스어(스위스)
`he-IL`	히브리어(이스라엘)
`hi-IN`	힌디어(인도)
`hu-HU`	헝가리어(헝가리)
`ms-MY`	말레이어(말레이시아)
`nb-NO`	노르웨이어 복말(노르웨이)
`nl-NL`	네덜란드어(네덜란드)
`pl-PL`	폴란드어(폴란드)
`pt-PT`	포르투갈어(포르투갈)
`ro-RO`	루마니아어(루마니아)
`ru-RU`	러시아어(러시아)
`sk-SK`	슬로바키아어(슬로바키아)
`sv-SE`	스웨덴어(스웨덴)
`th-TH`	태국어(태국)
`r-TR`	터키어(튀르키예)
`vi-VN`	베트남어(베트남)
`zh-HK`	중국어(광둥어, 번체)
`zh-TW`	중국어(대만어 북경어, 번체)

이제 사용자 지정 신경망 음성 Pro에서 다음과 같은 새 로캘을 지원합니다.
- en-NZ: 영어(뉴질랜드)
- es-CL: 스페인어(칠레)
- es-US: 스페인어(미국)
- ta-MY: 타밀어(말레이시아)
지원되는 로캘의 전체 목록은 사용자 지정 신경망 음성 의 언어 목록을 참조하세요.

이제 언어 간 기능은 다음과 같은 새 로캘을 원본 로캘로 지원합니다.

로캘(BCP-47)	언어
`da-DK`	덴마크어(덴마크)
`de-AT`	독일어(오스트리아)
`de-CH`	독일어(스위스)
`de-DE`	독일어(독일)
`en-CA`	영어(캐나다)
`fi-FI`	핀란드어(핀란드)
`fr-CH`	프랑스어(스위스)
`hu-HU`	헝가리어(헝가리)
`ms-MY`	말레이어(말레이시아)
`nb-NO`	노르웨이어 복말(노르웨이)
`pt-PT`	포르투갈어(포르투갈)
`sv-SE`	스웨덴어(스웨덴)
`tr-TR`	터키어(튀르키예)
`ta-IN`	타밀어(인도)
`zh-HK`	중국어(광둥어, 번체)

지원되는 로캘의 전체 목록은 사용자 지정 신경망 음성 의 언어 목록을 참조하세요.

이제 다중 스타일 음성 기능이 다음과 같은 새 로캘을 지원합니다.

로캘(BCP-47)	언어
`ar-EG`	아랍어(이집트)
`ar-SA`	아랍어(사우디아라비아)
`ca-ES`	카탈로니아어
`cs-CZ`	체코어(체코)
`da-DK`	덴마크어(덴마크)
`de-AT`	독일어(오스트리아)
`de-CH`	독일어(스위스)
`de-DE`	독일어(독일)
`el-GR`	그리스어(그리스)
`en-AU`	영어(호주)
`en-CA`	영어(캐나다)
`en-GB`	영어(영국)
`en-IN`	영어(인도)
`es-ES`	스페인어(스페인)
`es-MX`	스페인어(멕시코)
`fi-FI`	핀란드어(핀란드)
`fr-CA`	프랑스어(캐나다)
`fr-CH`	프랑스어(스위스)
`fr-FR`	프랑스어(프랑스)
`he-IL`	히브리어(이스라엘)
`hi-IN`	힌디어(인도)
`hu-HU`	헝가리어(헝가리)
`it-IT`	이탈리아어(이탈리아)
`ko-KR`	한국어(대한민국)
`ms-MY`	말레이어(말레이시아)
`nb-NO`	노르웨이어 복말(노르웨이)
`nl-BE`	네덜란드어(벨기에)
`nl-NL`	네덜란드어(네덜란드)
`pl-PL`	폴란드어(폴란드)
`pt-BR`	포르투갈어(브라질)
`pt-PT`	포르투갈어(포르투갈)
`ro-RO`	루마니아어(루마니아)
`ru-RU`	러시아어(러시아)
`sk-SK`	슬로바키아어(슬로바키아)
`sv-SE`	스웨덴어(스웨덴)
`th-TH`	태국어(태국)
`tr-TR`	터키어(튀르키예)
`vi-VN`	베트남어(베트남)
`zh-HK`	중국어(광둥어, 번체)
`zh-TW`	중국어(대만어 북경어, 번체)

지원되는 로캘의 전체 목록은 사용자 지정 신경망 음성 의 언어 목록을 참조하세요.

2024년 9월 릴리스

표준 음성

다음 로캘에서 새 음성에 대한 지원 및 일반 공급이 추가되었습니다.

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`as-IN`	아삼어(인도)	`as-IN-YashicaNeural`(여성) `as-IN-PriyomNeural`(남성)
`or-IN`	오리야어(인도)	`or-IN-SubhasiniNeural`(여성) `or-IN-SukantNeural`(남성)
`pa-IN`	펀잡어(인도)	`pa-IN-OjasNeural`(남성) `pa-IN-VaaniNeural`(여성)

이 테이블의 한 음성은 일반적으로 사용할 수 있으며 'en-IN' 로캘만 지원합니다.

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`en-IN`	영어(인도)	`en-IN-AashiNeural`(여성)

이 테이블의 5개 음성은 일반적으로 사용할 수 있으며 "en-IN" 및 "hi-IN" 로캘을 모두 지원합니다.

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`en-IN`	영어(인도)	`en-IN-AaravNeural`(남성) `en-IN-AnanyaNeural`(여성) `en-IN-KavyaNeural`(여성) `en-IN-KunalNeural`(남성) `en-IN-RehaanNeural`(남성)
`hi-IN`	힌디어(인도)	`hi-IN-AaravNeural`(남성) `hi-IN-AnanyaNeural`(여성) `hi-IN-KavyaNeural`(여성) `hi-IN-KunalNeural`(남성) `hi-IN-RehaanNeural`(남성)

음성 스타일 및 역할

newscast, cheerful, empathetic 스타일 지원이 en-IN-NeerjaNeural 및 hi-IN-SwaraNeural 음성에 추가되었습니다.

다음 음성에 대한 새 스타일이 추가되었습니다.

es-MX-DaliaNeural: whisperingsad, cheerful
fr-FR-DeniseNeural: whisperingsad, excited
it-IT-IsabellaNeural: whispering, sad, excitedcheerful
pt-PT-RaquelNeural: whispering, sad
de-DE-ConradNeural: sad, cheerful
en-GB-RyanNeural: whispering, sad
es-MX-JorgeNeural: whispering, sad, excitedcheerful
fr-FR-HenriNeural: whisperingsad, excited
it-IT-DiegoNeural: sadexcited, cheerful
es-ES-AlvaroNeural: cheerful, sad
ko-KR-InjoonNeural: sad

자세한 내용은 음성 스타일 및 역할을 참조하세요.

2024년 8월 릴리스

표준 음성

공개 미리 보기에 새로운 다국어 음성이 도입되었습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

새로운 다국어 음성

로캘	언어	성별	음성 이름
ko-KR	영어(미국)	남성	en-US-AdamMultilingualNeural
ko-KR	영어(미국)	여성	en-US-AmandaMultilingualNeural
ko-KR	영어(미국)	남성	en-US-DerekMultilingualNeural
ko-KR	영어(미국)	남성	en-US-LewisMultilingualNeural
ko-KR	영어(미국)	여성	en-US-LolaMultilingualNeural
ko-KR	영어(미국)	여성	en-US-PhoebeMultilingualNeural
ko-KR	영어(미국)	남성	en-US-SamuelMultilingualNeural
ko-KR	영어(미국)	여성	en-US-SerenaMultilingualNeural
ko-KR	영어(미국)	남성	en-US-DustinMultilingualNeural
ko-KR	영어(미국)	여성	en-US-EvelynMultilingualNeural
es-ES	스페인어(스페인)	남성	es-ES-TristanMultilingualNeural
fr-FR	프랑스어(프랑스)	남성	fr-FR-LucienMultilingualNeural
pt-BR	포르투갈어(브라질)	남성	pt-BR-MacerioMultilingualNeural
zh-CN	중국어(북경어, 간체)	남성	zh-CN-YunfanMultilingualNeural
zh-CN	중국어(북경어, 간체)	남성	zh-CN-YunxiaoMultilingualNeural
zh-CN	중국어(북경어, 간체)	남성	zh-CN-YunyiMultilingualNeural

자연성이 개선되어 다국어 음성으로 업데이트된 단일어 모델

로캘	언어	성별	음성 이름
ko-KR	영어(미국)	여성	en-US-NancyMultilingualNeural
ko-KR	영어(미국)	남성	en-US-BrandonMultilingualNeural
ko-KR	영어(미국)	남성	en-US-ChristopherMultilingualNeural
ko-KR	영어(미국)	여성	en-US-CoraMultilingualNeural
ko-KR	영어(미국)	남성	en-US-DavisMultilingualNeural
ko-KR	영어(미국)	남성	en-US-SteffanMultilingualNeural
es-ES	스페인어(스페인)	여성	es-ES-XimenaMultilingualNeural
it-IT	이탈리아어(이탈리아)	남성	it-IT-GiuseppeMultilingualNeural
en-US	한국어(대한민국)	남성	ko-KR-HyunsuMultilingualNeural

더 나은 품질로 다음과 같은 현재 다국어 음성을 향상합니다.

로캘 언어 성별 음성 이름

ko-KR 영어(미국) 남성 en-US-AndrewMultilingualNeural

ko-KR 영어(미국) 여성 en-US-AvaMultilingualNeural
이제 세 개의 다국어 음성이 스타일을 지원합니다. 자세한 내용은 음성 스타일 및 역할을 참조하세요.
- en-US-SerenaMultilingualNeural: empathetic, excited, friendly, shy, serious, relieved 및 sad.
- en-US-AndrewMultilingualNeural: empathetic 및 relieved.
- zh-CN-XiaoxiaoMultilingualNeural: affectionate, cheerful, empathetic, excited, poetry-reading, sorry 및 story.

로캘	언어	성별	음성 이름
ko-KR	영어(미국)	남성	en-US-AndrewMultilingualNeural
ko-KR	영어(미국)	여성	en-US-AvaMultilingualNeural

2024년 7월 릴리스

텍스트 음성 변환 아바타(GA)

텍스트 음성 변환 아바타가 이제 일반적으로 이용 가능합니다. 자세한 내용은 텍스트 음성 변환 아바타를 참조하세요.

표준 음성

공개 미리 보기에 2 터보 버전의 Azure OpenAI 음성 en-US-AlloyTurboMultilingualNeural 및 en-US-NovaTurboMultilingualNeural을 도입했습니다. 터보 버전의 Azure OpenAI 음성은 Azure OpenAI 음성과 유사한 음성 가상 사용자를 갖지만 추가 기능을 지원합니다. 터보 음성은 다른 Azure AI Speech 음성과 마찬가지로 SSML 요소의 전체 집합과 단어 경계와 같은 더 많은 기능을 지원합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
공개 미리 보기에 두 가지 새로운 다국어 음성 zh-CN-YunfanMultilingualNeural 및 zh-CN-YunxiaoMultilingualNeural을 도입했습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

포함된 인공신경망 음성

en-US-JennyMultilingual 음성은 프로덕션에서 릴리스되어 디바이스 환경에서 최대 24개의 로캘을 지원합니다. 지원되는 로캘은 아래 표를 참조하세요.

로캘	언어
`da-DK`	덴마크어(덴마크)
`de-DE`	독일어(독일)
`en-AU`	영어(호주)
`en-GB`	영어(영국)
`en-IN`	영어(인도)
`en-US`	영어(미국)
`es-ES`	스페인어(스페인)
`es-MX`	스페인어(멕시코)
`fr-CA`	프랑스어(캐나다)
`fr-FR`	프랑스어(프랑스)
`he-IL`	히브리어(이스라엘)
`it-IT`	이탈리아어(이탈리아)
`ja-JP`	일본어(일본)
`ko-KR`	한국어(대한민국)
`nb-NO`	노르웨이어 복말(노르웨이)
`nl-NL`	네덜란드어(네덜란드)
`pl-PL`	폴란드어(폴란드)
`pt-PT`	포르투갈어(포르투갈)
`sv-SE`	스웨덴어(스웨덴)
`th-TH`	태국어(태국)
`tr-TR`	터키어(튀르키예)
`zh-CN`	중국어(북경어, 간체)
`zh-HK`	중국어(광둥어, 번체)
`zh-TW`	중국어(대만어 북경어, 번체)

2024년 6월 릴리스

표준 음성

특정 지역 동아시아, 동남 아시아, 미국 동부, 미국 서부 및 인도 중부에서 사용할 수 있는 공개 미리 보기의 6가지 새로운 음성 소개

로캘	언어	텍스트 음성 변환 음성
`or-IN`	오리야어(인도)	`or-IN-SubhasiniNeural`(여성)
`or-IN`	오리야어(인도)	`or-IN-SukantNeural`(남성)
`pa-IN`	펀잡어(인도)	`pa-IN-VaaniNeural`(여성)
`pa-IN`	펀잡어(인도)	`pa-IN-OjasNeural`(남성)
`as-IN`	아삼어(인도)	`as-IN-YashicaNeural`(여성)
`as-IN`	아삼어(인도)	`as-IN-PriyomNeural`(남성)

자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

텍스트 음성 변환 아바타

텍스트 음성 변환 아바타는 이제 동남 아시아, 북유럽, 서유럽, 스웨덴 중부, 미국 중남부 및 미국 서부 2 지역을 지원합니다. 자세한 내용은 Speech Service 지역을 참조하세요.

2024년 5월 릴리스

개인 목소리(GA)

이제 개인 보이스가 일반적으로 사용 가능합니다. 개인 보이스를 사용하면 몇 초 안에 AI에서 생성한 음성(또는 애플리케이션 사용자) 복제본을 얻을 수 있습니다. 1분 음성 샘플을 오디오 프롬프트로 제공한 다음, 이를 사용하여 100개 이상의 로캘에서 지원되는 90개 이상의 언어로 음성을 생성합니다. 자세한 내용은 개인 보이스 개요를 참조하세요.

표준 음성

8가지 새로운 다국어 음성을 공개 미리 보기로 소개합니다: en-GB-AdaMultilingualNeural, en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeural, es-ES-IsidoraMultilingualNeural, it-IT-AlessioMultilingualNeural, it-IT-IsabellaMultilingualNeural, it-IT-MarcelloMultilingualNeural 및 pt-BR-ThalitaMultilingualNeural. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
공개 미리 보기의 콜 센터 시나리오에 최적화된 2개의 새로운 en-US 음성 en-US-LunaNeural 및 en-US-KaiNeural 소개 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

2024년 4월 릴리스

텍스트 음성 변환 아바타

이제 아바타의 정적 배경 이미지를 설정할 수 있습니다. 이 기능을 활용하려면 avatarConfig.backgroundImage 속성을 사용하고 원하는 이미지를 가리키는 URL을 지정하기만 하면 됩니다. 자세한 내용은 배경을 편집하는 방법을 참조하세요.

2024년 3월 릴리스

표준 음성

en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural, zh-CN-XiaoxiaoMultilingualNeural등 모든 지역에서 9개의 다국어 음성을 사용할 수 있습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
공개 미리 보기용 새로운 다국어 음성 소개: ja-JP-MasaruMultilingualNeural. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
추가 업데이트:
- en-US-RyanMultilingualNeural(은)는 일반적으로 모든 지역에서 사용할 수 있습니다.
- en-US-JennyMultilingualV2Neural(은)는 일반적으로 모든 지역에서 사용할 수 있으며 en-US-JennyMultilingualNeural(와)과 병합됩니다.
- 미국 동부, 서유럽 및 동남 아시아에서 3가지 새로운 스타일로 업데이트된 en-IN-NeerjaNeural 및 hi-IN-SwaraNeural 미리 보기를 사용할 수 있습니다.
- 인도 중부의 새로운 여성 목소리 미리 보기: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural 및 hi-IN-AnanyaNeural.

텍스트 음성 변환 아바타

실시간 아바타에 대한 Azure Communication Services (ACS) TURN 대한 종속성이 제거되었습니다. 샘플 코드가 이 변경 사항을 반영하도록 적절하게 업데이트되었습니다.
텍스트 음성 변환 아바타 가격 책정 게시됨 자세한 내용은 가격 책정 페이지를 참조하세요. 아바타 가격은 기능을 사용할 수 있는 서비스 지역에만 표시됩니다.

2024년 2월 릴리스

OpenAI 음성

Azure AI Speech Service는 미국 중북부 및 스웨덴 중부 지역에서 OpenAI 텍스트 음성 변환 음성을 지원합니다. Azure AI Speech 음성과 마찬가지로 OpenAI 텍스트 음성 변환 음성은 고품질 음성 합성을 제공하여 작성된 텍스트를 자연스럽게 말하는 오디오로 변환합니다. 이를 통해 몰입형 및 대화형 사용자 환경에 대한 다양한 가능성이 열립니다. 자세한 내용은 OpenAI 텍스트 음성 변환 음성이란?을 참조하세요.

참고

OpenAI 텍스트 음성 변환 음성은 Azure OpenAI에서도 사용할 수 있습니다.
이 업데이트를 통해 Azure AI Speech를 사용하여 표준 음성의 가격 책정을 조정했습니다. 여기에서 업데이트된 가격을 확인합니다.

개인 음성

개인 음성 기능은 이제 DragonLatestNeural 및 PhoenixLatestNeural 모델을 지원합니다. 이러한 새로운 모델은 합성된 음성의 자연스러움을 강화하여 프롬프트에서 음성의 특성이 더 비슷해집니다. 자세한 내용은 애플리케이션에서 개인 음성 통합을 참조하세요.

2023년 12월 릴리스

사용자 지정 음성 API

사용자 지정 음성 API는 전문적이고 개인적인 사용자 지정 인공신경망 음성 모델을 만들고 관리하는 데 사용할 수 있습니다.

사용자 지정 신경망 음성

이제 새로 학습된 음성 모델은 모델 버전에 관계없이 48kHz 샘플 속도를 지원합니다. 이전에 학습된 음성 모델의 경우 샘플 속도를 48kHz로 향상하려면 엔진 버전을 최소 2023.11.13.0 버전으로 업그레이드해야 합니다.

표준 음성

공개 미리 보기를 위한 새로운 다국어 음성 소개:

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`de-DE`	독일어(독일)	`de-DE-FlorianMultilingualNeural`(남성)
`de-DE`	독일어(독일)	`de-DE-SeraphinaMultilingualNeural`(여성)
`en-US`	영어(미국)	`en-US-AvaMultilingualNeural`(여성)
`en-US`	영어(미국)	`en-US-EmmaMultilingualNeural`(여성)
`fr-FR`	프랑스어(프랑스)	`fr-FR-RemyMultilingualNeural`(남성)
`en-US`	영어(미국)	`en-US-BrianMultilingualNeural`(남성)
`en-US`	영어(미국)	`en-US-AndrewMultilingualNeural`(남성)
`fr-FR`	프랑스어(프랑스)	`fr-FR-VivienneMultilingualNeural`(여성)
`zh-CN`	중국어(북경어, 간체)	`zh-CN-XiaoxiaoMultilingualNeural`(여성)
`zh-CN`	중국어(북경어, 간체)	`zh-CN-XiaochenMultilingualNeural`(여성)
`zh-CN`	중국어(북경어, 간체)	`zh-CN-YunyiMultilingualNeural`(남성)

몇 가지 중국어 언어와 악센트를 지원하는 공개 미리 보기에 대한 새로운 zh-CN-XiaoxiaoDialectsNeural 음성 소개:

음성 이름	제2언어	언어/악센트
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	중국어(중위안 만다린 산시성, 간체)
	`zh-CN-sichuan`	중국어(중국어 남경어, 간체)
	`zh-CN-shanxi`	중국어(산시 악센트 북경어, 간체)
	`nan-CN`	중국어(남부 분, 간체)
	`zh-CN-anhui`	중국어(장화이 북경어 안후이, 간체)
	`zh-CN-hunan`	중국어(후난 억양의 표준 중국어, 간체)
	`zh-CN-gansu`	중국어(라니인 북경어 간수, 간플라이)
	`zh-CN-shandong`	중국어(질루 만다린, 간체)
	`zh-CN-henan`	중국어(중위안 만다린 허난성, 간체)
	`zh-CN-liaoning`	중국어(동북방언, 간체)
	`zh-TW`	중국어(대만어 북경어, 번체)

2023년 11월 릴리스

개인 음성

개인 음성은 서유럽, 미국 동부 및 동남 아시아 지역에서 미리 보기로 사용할 수 있습니다. 개인 음성(미리 보기)을 사용하면 몇 초 안에 AI에서 생성한 음성(또는 애플리케이션 사용자) 복제본을 얻을 수 있습니다. 1분 음성 샘플을 오디오 프롬프트로 제공한 다음, 이를 사용하여 100개 이상의 로캘에서 지원되는 90개 이상의 언어로 음성을 생성합니다.

자세한 내용은 개인 음성을 참조하세요.

텍스트 음성 변환 아바타

텍스트 음성 변환 아바타는 미국 서부 2, 서유럽 및 동남 아시아 지역에서 미리 보기로 제공됩니다.

텍스트 음성 변환 아바타는 자연스레 들리는 음성으로 말하는 광실주의적 인간(표준 아바타 또는 사용자 지정 텍스트 음성 아바타)의 디지털 비디오로 텍스트를 변환합니다. 텍스트 음성 변환 아바타 비디오는 비동기적으로 또는 실시간으로 합성할 수 있습니다. 개발자는 API를 통해 텍스트 음성 변환 아바타와 통합된 애플리케이션을 빌드하거나, Speech Studio에서 콘텐츠 만들기 도구를 사용하여 코딩 없이 비디오 콘텐츠를 만들 수 있습니다.

자세한 내용은 텍스트 음성 변환 아바타, 투명성 고지, 그리고 음성 및 아바타 성우에 대한 공개를 참조하세요.

사용자 지정 신경망 음성

언어 간 음성을 위한 24개의 새로운 로캘에 대한 지원이 추가되었습니다. 자세한 내용은 전체 언어 목록을 참조하세요.

표준 음성

공개 미리 보기를 위한 새로운 음성 소개:

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`de-DE`	독일어(독일)	`SeraphinaNeural`(여성)
`es-ES`	스페인어(스페인)	`XimenaNeural`(여성)
`fr-CA`	프랑스어(캐나다)	`ThierryNeural`(남성)
`fr-FR`	프랑스어(프랑스)	`VivienneNeural`(여성)
`it-IT`	이탈리아어(이탈리아)	`GiuseppeNeural`(남성)
`ko-KR`	한국어(대한민국)	`HyunsuNeural`(남성)
`pt-BR`	포르투갈어(브라질)	`ThalitaNeural`(여성)

버그 수정 및 품질 개선으로 업데이트된 모델:

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`es-ES`	스페인어(스페인)	`AlvaroNeural`(남성)
`en-GB`	영어(영국)	`RyanNeural`(남성)
`ko-KR`	한국어(대한민국)	`InjoonNeural`(남성)

자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

2023년 10월 릴리스

사용자 지정 신경망 음성

사용자 지정 인공신경망 음성 Pro를 사용하여 12가지 새로운 로캘에 대한 지원이 추가되었습니다. 자세한 내용은 전체 언어 목록을 참조하세요.

2023년 9월 릴리스

표준 음성

공개 미리 보기를 위한 새로운 음성 소개:

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`en-US`	영어(미국)	`en-US-EmmaNeural`(여성)
`en-US`	영어(미국)	`en-US-AndrewNeural`(남성)
`en-US`	영어(미국)	`en-US-BrianNeural`(남성)

자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

포함된 인공신경망 음성

여기에서 147개의 로캘(fa-IR, 페르시아어(이란) 제외)은 선택한 여성 음성 1가지 및/또는 선택한 남성 음성 1가지를 통해 바로 사용할 수 있습니다.

2023년 8월 릴리스

사용자 지정 신경망 음성

최신 CNV Lite 학습 레시피 버전이 릴리스되었습니다. 이 릴리스에서는 언어 모델의 품질이 여러 가지 향상되었습니다. Speech Studio를 사용해 보세요.

2023년 7월 릴리스

사용자 지정 신경망 음성

다중 스타일 음성이 일반 공급되었습니다.
다중 스타일 음성에 대한 공개 미리 보기에 두 개의 새로운 로캘인 ja-JP 및 zh-CN을 추가했습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요. 다양한 언어에 대한 사전 설정 스타일 목록을 참조하세요.
다국어 음성이 일반 공급되었습니다.
교차 언어 음성을 위한 두 개의 새로운 로캘인 id-ID 및 nl-NL을 추가했습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

표준 음성

공개 미리 보기를 위한 새로운 en-US 성 중립적 음성 소개:

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`en-US`	영어(미국)	`en-US-BlueNeural`(중립)

공개 미리 보기를 위한 새로운 다국어 음성 소개:

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`en-US`	영어(미국)	`en-US-JennyMultilingualV2Neural`(여성)
`en-US`	영어(미국)	`en-US-RyanMultilingualNeural`(남성)

다국어 음성 en-US-JennyMultilingualV2Neural 및 en-US-RyanMultilingualNeural은 입력 텍스트의 언어를 자동 검색합니다. 그러나 여전히 <lang> 요소를 사용하여 이러한 음성에 대한 말하기 언어를 조정할 수 있습니다.

이 새로운 다국어 음성은 41개 언어 및 강조로 말할 수 있습니다. Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).

이러한 다국어 음성은 중단, 강조, 묵음 및 하위와 같은 특정 SSML 요소를 완전히 지원하지 않습니다.

중요한

음성은 en-US-JennyMultilingualV2Neural 평가 목적으로만 공개 미리 보기로 일시적으로 제공됩니다. 앞으로는 제거될 예정입니다.

영어가 아닌 다른 언어로 말하려면 현재 en-US-JennyMultilingualNeural 음성 구현에서는 <lang xml:lang> 요소를 설정해야 합니다. 2023년 4분기 동안 en-US-JennyMultilingualNeural 음성이 <lang xml:lang> 요소 없이 입력 텍스트의 언어로 말하도록 업데이트될 것으로 예상됩니다. 이는 en-US-JennyMultilingualV2Neural 음성과 동일합니다.

아래 음성에 대한 공개 미리 보기의 새로운 기능을 소개합니다.

세르비아어(세르비아) sr-RS 음성: sr-latn-RS-SophieNeural 및 sr-latn-RS-NicholasNeural에 대한 라틴어 입력이 추가되었습니다.
알바니아어(알바니아) sq-AL 음성: sq-AL-AnilaNeural 및 sq-AL-IlirNeural에 대한 영어 발음 지원이 추가되었습니다.

2023년 5월 릴리스

오디오 콘텐츠 만들기

말하기 스타일과 다중 스타일 사용자 지정 음성을 사용하는 모든 표준 음성은 스타일 수준 조정을 지원합니다.
이제 단어를 말하고 녹음하는 방법으로 단어의 발음을 수정할 수 있습니다. 녹음에서 음소를 자동으로 인식할 수 있습니다. 이제 말하여 인식 기능이 공용 미리 보기로 제공됩니다.

2023년 4월 릴리스

표준 음성

이러한 음성의 다음 기능은 공개 미리 보기에서 GA로 이동되었습니다.

스타일	텍스트 음성 변환 음성
스타일="채팅"	`en-GB-RyanNeural`, `es-MX-JorgeNeural` 및 `it-IT-IsabellaNeural`
스타일="명랑한"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural` 및 `it-IT-IsabellaNeural`
스타일="슬픔"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural`및 `fr-FR-HenriNeural`

hi-IN, ta-IN 및 te-IN 음성의 영어 발음을 개선하여 이제 공개 미리 보기 지역에서 비행 중입니다.

자세한 내용은 언어 및 음성 목록을 참조하세요.

2023년 3월 릴리스

새로운 기능

SSML(Speech Synthesis Markup Language)은 디바이스의 특정 시나리오에 대해 합성된 음성 출력의 품질을 최적화하는 오디오 효과 프로세서 요소를 지원하도록 업데이트되었습니다. 음성 합성 표시에 대해 자세히 알아봅니다.

사용자 지정 신경망 음성

nl-BE Pro를 사용하여 로캘에 대한 지원이 추가되었습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

표준 음성

이제 다음 음성이 일반적으로 사용 가능합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`en-AU`	영어(호주)	`en-AU-AnnetteNeural`(여성) `en-AU-CarlyNeural`(여성) `en-AU-DarrenNeural`(남성) `en-AU-DuncanNeural`(남성) `en-AU-ElsieNeural`(여성) `en-AU-FreyaNeural`(여성) `en-AU-JoanneNeural`(여성) `en-AU-KenNeural`(남성) `en-AU-KimNeural`(여성) `en-AU-NeilNeural`(남성) `en-AU-TimNeural`(남성) `en-AU-TinaNeural`(여성) `en-AU-WilliamNeural`(남성)
`en-GB`	영어(영국)	`en-GB-RyanNeural`(남성) `en-GB-SoniaNeural`(여성)
`es-ES`	스페인어(스페인)	`es-ES-AbrilNeural`(여성) `es-ES-ArnauNeural`(남성) `es-ES-DarioNeural`(남성) `es-ES-EliasNeural`(남성) `es-ES-EstrellaNeural`(여성) `es-ES-IreneNeural`(여성) `es-ES-LaiaNeural`(여성) `es-ES-LiaNeural`(여성) `es-ES-NilNeural`(남성) `es-ES-SaulNeural`(남성) `es-ES-TeoNeural`(남성) `es-ES-TrianaNeural`(여성) `es-ES-VeraNeural`(여성)
`es-MX`	스페인어(멕시코)	`es-MX-JorgeNeural`(남성)
`fr-FR`	프랑스어(프랑스)	`fr-FR-HenriNeural`(남성)
`it-IT`	이탈리아어(이탈리아)	`it-IT-IsabellaNeural`(여성)
`ja-JP`	일본어(일본)	`ja-JP-AoiNeural`(여성) `ja-JP-DaichiNeural`(남성) `ja-JP-MayuNeural`(여성) `ja-JP-NaokiNeural`(남성) `ja-JP-ShioriNeural`(여성)

cheerful 음성으로 de-DE-ConradNeural 스타일에 대한 지원을 추가했습니다.

2023년 2월 릴리스

표준 음성

이제 다음 음성이 일반적으로 사용 가능합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`zh-CN`	중국어(북경어, 간체)	`zh-CN-XiaomengNeural`(여성) `zh-CN-XiaoyiNeural`(여성) `zh-CN-XiaozhenNeural`(여성) `zh-CN-YunfengNeural`(남성) `zh-CN-YunhaoNeural`(남성) `zh-CN-YunjianNeural`(남성) `zh-CN-YunxiaNeural`(남성) `zh-CN-YunzeNeural`(남성)
`zh-CN-henan`	중국어(중위안 만다린 허난성, 간체)	`zh-CN-henan-YundengNeural`(남성)

2022년 12월 릴리스

일괄 처리 합성 REST API(미리 보기)

일괄 처리 합성 API는 현재 공개 미리 보기 상태입니다. 일반적으로 사용할 수 있게 되면 Long Audio API는 더 이상 사용되지 않습니다. 자세한 내용은 일괄 처리 합성 API로 마이그레이션을 참조하세요.

2022년 11월 릴리스

표준 음성(GA)

이제 다음 음성이 일반적으로 사용 가능합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`es-MX`	스페인어(멕시코)	`es-MX-BeatrizNeural`(여성) `es-MX-CandelaNeural`(여성) `es-MX-CarlotaNeural`(여성) `es-MX-CecilioNeural`(남성) `es-MX-GerardoNeural`(남성) `es-MX-LarissaNeural`(여성) `es-MX-LibertoNeural`(남성) `es-MX-LucianoNeural`(남성) `es-MX-MarinaNeural`(여성) `es-MX-NuriaNeural`(여성) `es-MX-PelayoNeural`(남성) `es-MX-RenataNeural`(여성) `es-MX-YagoNeural`(남성)
`it-IT`	이탈리아어(이탈리아)	`it-IT-BenignoNeural`(남성) `it-IT-CalimeroNeural`(남성) `it-IT-CataldoNeural`(남성) `it-IT-FabiolaNeural`(여성) `it-IT-FiammaNeural`(여성) `it-IT-GianniNeural`(남성) `it-IT-ImeldaNeural`(여성) `it-IT-IrmaNeural`(여성) `it-IT-LisandroNeural`(남성) `it-IT-PalmiraNeural`(여성) `it-IT-PierinaNeural`(여성) `it-IT-RinaldoNeural`(남성)
`pt-BR`	포르투갈어(브라질)	`pt-BR-BrendaNeural`(여성) `pt-BR-DonatoNeural`(남성) `pt-BR-ElzaNeural`(여성) `pt-BR-FabioNeural`(남성) `pt-BR-GiovannaNeural`(여성) `pt-BR-HumbertoNeural`(남성) `pt-BR-JulioNeural`(남성) `pt-BR-LeilaNeural`(여성) `pt-BR-LeticiaNeural`(여성) `pt-BR-ManuelaNeural`(여성) `pt-BR-NicolauNeural`(남성) `pt-BR-ValerioNeural`(남성) `pt-BR-YaraNeural`(여성)

사용자 지정 신경망 음성

사용자 지정 인공신경망 음성에 대해 다음 로캘 지원이 추가됩니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

사용자 지정 인공신경망 음성 Pro를 사용하여 fr-BE 로캘에 대한 지원이 추가되었습니다.
사용자 지정 인공신경망 음성 Lite를 사용하여 es-ES 로캘에 대한 지원이 추가되었습니다.

2022년 10월 릴리스

표준 음성(GA)

이제 다음 음성이 일반적으로 사용 가능합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`eu-ES`	바스크어	`eu-ES-AinhoaNeural`(여성) `eu-ES-AnderNeural`(남성)
`hy-AM`	아르메니아어(아르메니아)	`hy-AM-AnahitNeural`(여성) `hy-AM-HaykNeural`(남성)

표준 음성(미리 보기)

이제 퍼블릭 미리 보기에서 다음 음성을 사용할 수 있습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.

로캘(BCP-47)	언어	텍스트 음성 변환 음성
`en-AU`	영어(호주)	`en-AU-AnnetteNeural`(여성) `en-AU-CarlyNeural`(여성) `en-AU-DarrenNeural`(남성) `en-AU-DuncanNeural`(남성) `en-AU-ElsieNeural`(여성) `en-AU-FreyaNeural`(여성) `en-AU-JoanneNeural`(여성) `en-AU-KenNeural`(남성) `en-AU-KimNeural`(여성) `en-AU-NeilNeural`(남성) `en-AU-TimNeural`(남성) `en-AU-TinaNeural`(여성)
`es-ES`	스페인어(스페인)	`es-ES-AbrilNeural`(여성) `es-ES-AlvaroNeural`(남성) `es-ES-ArnauNeural`(남성) `es-ES-DarioNeural`(남성) `es-ES-EliasNeural`(남성) `es-ES-EstrellaNeural`(여성) `es-ES-IreneNeural`(여성) `es-ES-LaiaNeural`(여성) `es-ES-LiaNeural`(여성) `es-ES-NilNeural`(남성) `es-ES-SaulNeural`(남성) `es-ES-TeoNeural`(남성) `es-ES-TrianaNeural`(여성) `es-ES-VeraNeural`(여성)
`ja-JP`	일본어(일본)	`ja-JP-AoiNeural`(여성) `ja-JP-DaichiNeural`(남성) `ja-JP-MayuNeural`(여성) `ja-JP-NaokiNeural`(남성) `ja-JP-ShioriNeural`(여성)
`ko-KR`	한국어(대한민국)	`ko-KR-BongJinNeural`(남성) `ko-KR-GookMinNeural`(남성) `ko-KR-JiMinNeural`(여성) `ko-KR-SeoHyeonNeural`(여성) `ko-KR-SoonBokNeural`(여성) `ko-KR-YuJinNeural`(여성)
`wuu-CN`	중국어(우, 간체)	`wuu-CN-XiaotongNeural`(여성) `wuu-CN-YunzheNeural`(남성)
`yue-CN`	중국어(광둥어, 간체)	`yue-CN-XiaoMinNeural`(여성) `yue-CN-YunSongNeural`(남성)

일반 TTS 음성 업데이트

fil-PH-AngeloNeural 및 fil-PH-BlessicaNeural 음성의 품질이 향상되었습니다.
es-CL 스페인어(칠레) 및 uz-UZ 우즈베크어(우즈베키스탄) 로캘 관련 음성에 대한 텍스트 정규화 규칙이 업데이트되었습니다.
sq-AL 알바니아어(알바니아) 및 az-AZ 아제르바이잔어(아제르바이잔) 로케일에 대한 음성에 영어 철자가 추가되었습니다.
zh-HK-WanLungNeural 음성에 대한 영어 발음이 향상되었습니다.
nl-NL-MaartenNeural 및 pt-BR-AntonioNeural 음성에 대한 질문 톤이 향상되었습니다.
<lang ="en-US"> 태그에 대한 지원이 추가되어, 음성 de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural, 및 it-IT-IsabellaNeural의 영어 발음이 향상되었습니다.
음성 style="chat", en-GB-RyanNeural, es-MX-JorgeNeural 관련 it-IT-IsabellaNeural 태그에 대한 지원이 추가되었습니다.
style="cheerful" 태그에 대해 다음 목소리에 대한 지원이 추가되었습니다: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, 및 it-IT-IsabellaNeural.
style="sad" 태그에 대해 다음의 음성들에 대한 지원이 추가되었습니다: en-GB-SoniaNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural.

2022년 9월 릴리스

표준 음성

모든 표준 음성은 48kHz 샘플 속도로 고화질 음성으로 업그레이드되었습니다.

2022년 8월 릴리스

표준 음성

새 음성이 퍼블릭 미리 보기로 릴리스되었습니다.

영어(미국) 음성: en-US-AIGenerate1Neural 및 en-US-AIGenerate2Neural.
중국어 지역 언어용 음성: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeural 및 zh-CN-shandong-YunxiangNeural.

자세한 내용은 언어 및 음성 목록을 참조하세요.

2022년 7월 릴리스

표준 음성

공개 미리 보기에서 zh-CN 중국어(북경어, 간체)의 5개의 새로운 음성과 en-US 영어(미국)의 1개의 새로운 음성이 추가됨 전체 언어 및 음성 목록을 참조하세요.

언어	로캘	성별	음성 이름	스타일 지원
중국어(북경어, 간체)	`zh-CN`	여성	`zh-CN-XiaomengNeural`^{새로 만들기}	SSML을 통해 사용 가능한 일반, 여러 스타일
중국어(북경어, 간체)	`zh-CN`	여성	`zh-CN-XiaoyiNeural`^{새로 만들기}	SSML을 통해 사용 가능한 일반, 여러 스타일
중국어(북경어, 간체)	`zh-CN`	여성	`zh-CN-XiaozhenNeural`^{새로 만들기}	SSML을 통해 사용 가능한 일반, 여러 스타일
중국어(북경어, 간체)	`zh-CN`	남성	`zh-CN-YunxiaNeural`^{새로 만들기}	SSML을 통해 사용 가능한 일반, 여러 스타일
중국어(북경어, 간체)	`zh-CN`	남성	`zh-CN-YunzeNeural`^{새로 만들기}	SSML을 통해 사용 가능한 일반, 여러 스타일
영어(미국)	`en-US`	남성	`en-US-RogerNeural`^{새로 만들기}	일반

추가된 신경망 음성에 대한 스타일 및 역할이 지원됨

음성	스타일	스타일 정도	역할
zh-CN-XiaomengNeural ^{공개 미리 보기}	`chat`	지원됨
zh-CN-XiaoyiNeural ^{공개 미리 보기}	`affectionate`,`angry`, `cheerful`, `disgruntled`, `embarrassed`, `fearfulgentle`, `sadserious`	지원됨
zh-CN-XiaozhenNeural ^{공개 미리 보기}	`angry`, `cheerful`, `disgruntled`, `fearful`, `sadserious`	지원됨
zh-CN-YunxiaNeural ^{공개 미리 보기}	`angry`, `calm`, `cheerful`, `fearfulsad`	지원됨
zh-CN-YunzeNeural ^{공개 미리 보기}	`angry`,`calm`, `cheerful`, `depressed`, `disgruntled`, `documentary-narrationfearful`, `sadserious`	지원됨	지원됨

viseme으로 얼굴 위치 가져오기

설계한 3D 캐릭터의 얼굴 움직임을 구동하기 위해 혼합 모양에 대한 지원이 추가되었습니다. Viseme으로 얼굴 위치를 얻는 방법에서 자세히 알아봅니다.
Viseme 요소를 지원하도록 SSML이 업데이트되었습니다. 음성 합성 태그을 참조하세요.

2022년 6월 릴리스

표준 음성

인공신경망 텍스트 음성 변환을 위한 9개의 새 언어와 변형이 추가되었습니다.

언어	로캘	성별	음성 이름	스타일 지원
아랍어(레바논)	`ar-LB`	여성	`ar-LB-LaylaNeural`^{새로 만들기}	일반
아랍어(레바논)	`ar-LB`	남성	`ar-LB-RamiNeural`^{새로 만들기}	일반
아랍어(오만)	`ar-OM`	여성	`ar-OM-AyshaNeural`^{새로 만들기}	일반
아랍어(오만)	`ar-OM`	남성	`ar-OM-AbdullahNeural`^{새로 만들기}	일반
아제르바이잔어(아제르바이잔)	`az-AZ`	여성	`az-AZ-BabekNeural`^{새로 만들기}	일반
아제르바이잔어(아제르바이잔)	`az-AZ`	남성	`az-AZ-BanuNeural`^{새로 만들기}	일반
보스니아어(보스니아 헤르체고비나)	`bs-BA`	여성	`bs-BA-VesnaNeural`^{새로 만들기}	일반
보스니아어(보스니아 헤르체고비나)	`bs-BA`	남성	`bs-BA-GoranNeural`^{새로 만들기}	일반
조지아어(조지아)	`ka-GE`	여성	`ka-GE-EkaNeural`^{새로 만들기}	일반
조지아어(조지아)	`ka-GE`	남성	`ka-GE-GiorgiNeural`^{새로 만들기}	일반
몽골어(몽골)	`mn-MN`	여성	`mn-MN-YesuiNeural`^{새로 만들기}	일반
몽골어(몽골)	`mn-MN`	남성	`mn-MN-BataaNeural`^{새로 만들기}	일반
네팔어(네팔)	`ne-NP`	여성	`ne-NP-HemkalaNeural`^{새로 만들기}	일반
네팔어(네팔)	`ne-NP`	남성	`ne-NP-SagarNeural`^{새로 만들기}	일반
알바니아어(알바니아)	`sq-AL`	여성	`sq-AL-AnilaNeural`^{새로 만들기}	일반
알바니아어(알바니아)	`sq-AL`	남성	`sq-AL-IlirNeural`^{새로 만들기}	일반
타밀어(말레이시아)	`ta-MY`	여성	`ta-MY-KaniNeural`^{새로 만들기}	일반
타밀어(말레이시아)	`ta-MY`	남성	`ta-MY-SuryaNeural`^{새로 만들기}	일반

en-GB 영어(영국), fr-FR 프랑스어(프랑스) 및 de-DE 독일어(독일)에 대한 공개 미리 보기의 GA 36 음성:

언어	로캘	성별	음성 이름	스타일 지원
영어(영국)	`en-GB`	여성	`en-GB-AbbiNeural`	일반
영어(영국)	`en-GB`	여성	`en-GB-BellaNeural`	일반
영어(영국)	`en-GB`	여성	`en-GB-HollieNeural`	일반
영어(영국)	`en-GB`	여성	`en-GB-MaisieNeural`	일반, 아이 목소리
영어(영국)	`en-GB`	여성	`en-GB-OliviaNeural`	일반
영어(영국)	`en-GB`	여성	`en-GB-SoniaNeural`	일반
영어(영국)	`en-GB`	남성	`en-GB-AlfieNeural`	일반
영어(영국)	`en-GB`	남성	`en-GB-ElliotNeural`	일반
영어(영국)	`en-GB`	남성	`en-GB-EthanNeural`	일반
영어(영국)	`en-GB`	남성	`en-GB-NoahNeural`	일반
영어(영국)	`en-GB`	남성	`en-GB-OliverNeural`	일반
영어(영국)	`en-GB`	남성	`en-GB-ThomasNeural`	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-BrigitteNeural`	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-CelesteNeural`	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-CoralieNeural`	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-EloiseNeural`	일반, 아이 목소리
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-JacquelineNeural`	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-JosephineNeural`	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-YvetteNeural`	일반
프랑스어(프랑스)	`fr-FR`	남성	`fr-FR-AlainNeural`	일반
프랑스어(프랑스)	`fr-FR`	남성	`fr-FR-ClaudeNeural`	일반
프랑스어(프랑스)	`fr-FR`	남성	`fr-FR-JeromeNeural`	일반
프랑스어(프랑스)	`fr-FR`	남성	`fr-FR-MauriceNeural`	일반
프랑스어(프랑스)	`fr-FR`	남성	`fr-FR-YvesNeural`	일반
독일어(독일)	`de-DE`	여성	`de-DE-AmalaNeural`	일반
독일어(독일)	`de-DE`	여성	`de-DE-ElkeNeural`	일반
독일어(독일)	`de-DE`	여성	`de-DE-GiselaNeural`	일반, 아이 목소리
독일어(독일)	`de-DE`	여성	`de-DE-KlarissaNeural`	일반
독일어(독일)	`de-DE`	여성	`de-DE-LouisaNeural`	일반
독일어(독일)	`de-DE`	여성	`de-DE-MajaNeural`	일반
독일어(독일)	`de-DE`	여성	`de-DE-TanjaNeural`	일반
독일어(독일)	`de-DE`	남성	`de-DE-BerndNeural`	일반
독일어(독일)	`de-DE`	남성	`de-DE-ChristophNeural`	일반
독일어(독일)	`de-DE`	남성	`de-DE-KasperNeural`	일반
독일어(독일)	`de-DE`	남성	`de-DE-KillianNeural`	일반
독일어(독일)	`de-DE`	남성	`de-DE-KlausNeural`	일반
독일어(독일)	`de-DE`	남성	`de-DE-RalfNeural`	일반

공개 미리 보기에서 es-MX 스페인어(멕시코), it-IT 이탈리아어(이탈리아), pt-BR 포르투갈어(브라질)의 40가지 새로운 음성 및 zh-CN 중국어(북경어, 간체)에 대한 2개의 악센트 추가:

언어	로캘	성별	음성 이름	스타일 지원
스페인어(멕시코)	`es-MX`	여성	`es-MX-BeatrizNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	여성	`es-MX-CarlotaNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	여성	`es-MX-NuriaNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	여성	`es-MX-RenataNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	여성	`es-MX-LarissaNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	여성	`es-MX-CandelaNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	여성	`es-MX-MarinaNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	여성	`it-IT-FiammaNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	여성	`it-IT-IrmaNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	여성	`it-IT-FabiolaNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	여성	`it-IT-PalmiraNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	여성	`it-IT-ImeldaNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	여성	`it-IT-PierinaNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	여성	`pt-BR-ElzaNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	여성	`pt-BR-ManuelaNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	여성	`pt-BR-BrendaNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	여성	`pt-BR-LeilaNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	여성	`pt-BR-YaraNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	여성	`pt-BR-GiovannaNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	여성	`pt-BR-LeticiaNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	남성	`es-MX-CecilioNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	남성	`es-MX-LibertoNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	남성	`es-MX-LucianoNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	남성	`es-MX-PelayoNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	남성	`es-MX-YagoNeural`^{새로 만들기}	일반
스페인어(멕시코)	`es-MX`	남성	`es-MX-GerardoNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	남성	`it-IT-BenignoNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	남성	`it-IT-CataldoNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	남성	`it-IT-LisandroNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	남성	`it-IT-CalimeroNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	남성	`it-IT-RinaldoNeural`^{새로 만들기}	일반
이탈리아어(이탈리아)	`it-IT`	남성	`it-IT-GianniNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	남성	`pt-BR-DonatoNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	남성	`pt-BR-HumbertoNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	남성	`pt-BR-FabioNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	남성	`pt-BR-JulioNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	남성	`pt-BR-ValerioNeural`^{새로 만들기}	일반
포르투갈어(브라질)	`pt-BR`	남성	`pt-BR-NicolauNeural`^{새로 만들기}	일반
중국어(북경어, 간체)	`zh-CN-sichuan`	남성	`zh-CN-sichuan-YunxiSichuanNeural`^{새로 만들기}	일반, 쓰촨 악센트
중국어(북경어, 간체)	`zh-CN-liaoning`	여성	`zh-CN-liaoning-XiaobeiNeural`^{새로 만들기}	일반, 랴오닝 악센트

en-SG-LunaNeural 및 en-SG-WayneNeural의 품질 개선
en-US-JennyNeural, en-US-AriaNeural 및 zh-CN-XiaoxiaoNeural을 사용한 공개 미리 보기에 대한 48kHz 출력 지원

사용자 지정 신경망 음성

온라인에서 데이터 문제를 해결할 수 있습니다. Speech Studio에서 데이터 문제를 해결하는 방법에 대해 자세히 알아봅니다.
학습 레시피 버전이 추가되었습니다. 음성 모델에 대한 학습 레시피 버전 선택에 대해 자세히 알아봅니다.

오디오 콘텐츠 만들기 도구

지원되는 페이지 매김.
작업 파일 페이지에서 이름, 파일 형식 및 업데이트 시간을 기준으로 전역적으로 정렬할 수 있습니다.

2022년 5월 릴리스

표준 음성

미국 영어의 다양성을 보강하기 위해 여러 스타일로 공개 미리 보기에서 5개의 새로운 음성을 출시했습니다. 전체 언어 및 음성 목록을 참조하세요.
Angry에 대한 공개 미리 보기에서 이러한 새 스타일 Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified, Whispering 및 en-US-AriaNeural을 지원합니다.
Angry, Cheerful에 대한 공개 미리 보기에서 이러한 새 스타일 Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified, Whispering, en-US-GuyNeural 및 en-US-JennyNeural을 지원합니다.
Excited에 대한 공개 미리 보기에서 이러한 새 스타일 Friendly, Hopeful, Shouting, Unfriendly, Terrified, Whispering 및 en-US-SaraNeural을 지원합니다. 음성 스타일 및 역할을 참조하세요.
새 음성 zh-CN-YunjianNeural, zh-CN-YunhaoNeural, zh-CN-YunfengNeural을 공개하고 퍼블릭 미리 보기로 릴리스했습니다. 전체 언어 및 음성 목록을 참조하세요.
sports-commentary에 대한 퍼블릭 미리 보기에서 2 새 스타일 sports-commentary-excited, zh-CN-YunjianNeural를 지원합니다. 음성 스타일 및 역할을 참조하세요.
advertisement-upbeat에 대한 퍼블릭 미리 보기에서 1 새 스타일 zh-CN-YunhaoNeural를 지원합니다. 음성 스타일 및 역할을 참조하세요.
cheerful의 sad 및 fr-FR-DeniseNeural 스타일은 일반적으로 모든 지역에서 사용할 수 있습니다.
SSML은 en-US 및 en-AU 음성에 대한 MathML 요소를 지원하도록 업데이트되었습니다. 음성 합성 표시에 대해 자세히 알아봅니다.

사용자 지정 신경망 음성

음성 모델 학습 중 학습을 취소할 수 있습니다. 학습 취소 방법에 대해 자세히 알아봅니다.
모델을 복제할 수 있습니다(음성 모델 이름 바꾸기). 음성 모델의 이름을 바꾸는 방법에 대해 자세히 알아봅니다.
자체 테스트 스크립트를 추가하여 음성 모델을 테스트할 수 있습니다. 테스트 스크립트를 업로드하는 방법에 대해 자세히 알아봅니다.
음성 모델의 엔진 버전을 업데이트할 수 있습니다. 모델 엔진 버전 업데이트 방법에 대해 자세히 알아봅니다.
더 많은 학습 지역이 지원됩니다. 지역 지원을 참조하세요.
사용자 지정 인공신경망 음성 라이트(미리 보기)에 대해 10개의 로캘이 지원됩니다. 언어 지원을 참조하세요.

오디오 콘텐츠 만들기 도구

로그인하지 않고 오디오 콘텐츠 만들기 도구를 사용해 볼 수 있습니다.
음소 조정을 위한 레이아웃이 향상되었습니다.
향상된 성능: 한 번에 업로드할 최대 파일 수(200)를 지정했습니다.
향상된 성능: 최대 디렉터리 깊이 수준(5개 수준)을 지정했습니다.

2022년 3월 릴리스

표준 음성

Cheerful을 사용하는 Sad 및 fr-FR-DeniseNeural 스타일에 대한 공개 미리 보기에 지원이 추가되었습니다. 음성 스타일 및 역할을 참조하세요.
공개 미리 보기에서 연결이 끊긴 컨테이너 표준 음성이 릴리스되었습니다. 연결이 끊긴 환경에서 Docker 컨테이너 사용을 참조하세요.

사용자 지정 신경망 음성

역할 기반 액세스 제어가 지원됩니다. Speech Studio의 Azure 역할 기반 액세스 제어에 대해 자세히 알아보세요.
프라이빗 엔드포인트 및 가상 네트워크 서비스 엔드포인트가 지원됩니다. Speech Service에서 프라이빗 엔드포인트를 사용하는 방법에 대해 자세히 알아보세요.

오디오 콘텐츠 만들기 도구

Speech SDK 및 API와 일치하는 환경을 만들기 위해 무료 계층(F0) 리소스의 파일 크기 및 동시성 제한을 업데이트했습니다. Speech Service 할당량 및 제한을 참조하세요.

2022년 2월 릴리스

사용자 지정 신경망 음성

공개 미리 보기에서 사용자 지정 인공신경망 음성 라이트가 릴리스되었습니다. 사용자 지정 인공신경망 음성 라이트에 대해 자세히 알아보세요.
언어 지원이 49개 로캘로 확장되었습니다. 언어 지원을 참조하세요.
더 많은 지역/데이터 센터가 지원됩니다. 지역 지원을 참조하세요.

오디오 콘텐츠 만들기 도구

오디오 다운로드의 출력 길이 제한을 제거했습니다.

2022년 1월 릴리스

새 언어 및 음성

인공신경망 텍스트 음성 변환을 위한 10개의 새 언어와 변형이 추가되었습니다.

언어	로캘	성별	음성 이름	스타일 지원
벵골어(인도)	`bn-IN`	여성	`bn-IN-TanishaaNeural`^{새로 만들기}	일반
벵골어(인도)	`bn-IN`	남성	`bn-IN-BashkarNeural`^{새로 만들기}	일반
아이슬란드어(아이슬란드)	`is-IS`	여성	`is-IS-GudrunNeural`^{새로 만들기}	일반
아이슬란드어(아이슬란드)	`is-IS`	남성	`is-IS-GunnarNeural`^{새로 만들기}	일반
칸나다어(인도)	`kn-IN`	여성	`kn-IN-SapnaNeural`^{새로 만들기}	일반
칸나다어(인도)	`kn-IN`	남성	`kn-IN-GaganNeural`^{새로 만들기}	일반
카자흐어(카자흐스탄)	`kk-KZ`	여성	`kk-KZ-AigulNeural`^{새로 만들기}	일반
카자흐어(카자흐스탄)	`kk-KZ`	남성	`kk-KZ-DauletNeural`^{새로 만들기}	일반
라오스어 (라오스)	`lo-LA`	여성	`lo-LA-KeomanyNeural`^{새로 만들기}	일반
라오스어 (라오스)	`lo-LA`	남성	`lo-LA-ChanthavongNeural`^{새로 만들기}	일반
마케도니아어(북마케도니아 공화국)	`mk-MK`	여성	`mk-MK-MarijaNeural`^{새로 만들기}	일반
마케도니아어(북마케도니아 공화국)	`mk-MK`	남성	`mk-MK-AleksandarNeural`^{새로 만들기}	일반
말라얄람어(인도)	`ml-IN`	여성	`ml-IN-SobhanaNeural`^{새로 만들기}	일반
말라얄람어(인도)	`ml-IN`	남성	`ml-IN-MidhunNeural`^{새로 만들기}	일반
파슈토(아프가니스탄어)	`ps-AF`	여성	`ps-AF-LatifaNeural`^{새로 만들기}	일반
파슈토(아프가니스탄어)	`ps-AF`	남성	`ps-AF-GulNawazNeural`^{새로 만들기}	일반
세르비아어(세르비아, 키릴 문자)	`sr-RS`	여성	`sr-RS-SophieNeural`^{새로 만들기}	일반
세르비아어(세르비아, 키릴 문자)	`sr-RS`	남성	`sr-RS-NicholasNeural`^{새로 만들기}	일반
스리랑카어(스리랑카)	`si-LK`	여성	`si-LK-ThiliniNeural`^{새로 만들기}	일반
스리랑카어(스리랑카)	`si-LK`	남성	`si-LK-SameeraNeural`^{새로 만들기}	일반

사용 가능한 음성의 전체 목록은 언어 지원을 참조하세요.

미리 보기의 새 음성

미리 보기에 en-GB, fr-FR 및 de-DE에 대한 새 음성이 추가되었습니다.

언어	로캘	성별	음성 이름	스타일 지원
영어(영국)	`en-GB`	여성	`en-GB-AbbiNeural`^{새로 만들기}	일반
영어(영국)	`en-GB`	여성	`en-GB-BellaNeural`^{새로 만들기}	일반
영어(영국)	`en-GB`	여성	`en-GB-HollieNeural`^{새로 만들기}	일반
영어(영국)	`en-GB`	여성	`en-GB-OliviaNeural`^{새로 만들기}	일반
영어(영국)	`en-GB`	소녀	`en-GB-MaisieNeural`^{새로 만들기}	일반
영어(영국)	`en-GB`	남성	`en-GB-AlfieNeural`^{새로 만들기}	일반
영어(영국)	`en-GB`	남성	`en-GB-ElliotNeural`^{새로 만들기}	일반
영어(영국)	`en-GB`	남성	`en-GB-EthanNeural`^{새로 만들기}	일반
영어(영국)	`en-GB`	남성	`en-GB-NoahNeural`^{새로 만들기}	일반
영어(영국)	`en-GB`	남성	`en-GB-OliverNeural`^{새로 만들기}	일반
영어(영국)	`en-GB`	남성	`en-GB-ThomasNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-BrigitteNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-CelesteNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-CoralieNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-JacquelineNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-JosephineNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	여성	`fr-FR-YvetteNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	소녀	`fr-FR-EloiseNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	남성	`fr-FR-AlainNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	남성	`fr-FR-ClaudeNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	남성	`fr-FR-JeromeNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	남성	`fr-FR-MauriceNeural`^{새로 만들기}	일반
프랑스어(프랑스)	`fr-FR`	남성	`fr-FR-YvesNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	여성	`de-DE-AmalaNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	여성	`de-DE-ElkeNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	여성	`de-DE-KlarissaNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	여성	`de-DE-LouisaNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	여성	`de-DE-MajaNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	여성	`de-DE-TanjaNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	소녀	`de-DE-GiselaNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	남성	`de-DE-BerndNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	남성	`de-DE-ChristophNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	남성	`de-DE-KasperNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	남성	`de-DE-KillianNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	남성	`de-DE-KlausNeural`^{새로 만들기}	일반
독일어(독일)	`de-DE`	남성	`de-DE-RalfNeural`^{새로 만들기}	일반

사용 가능한 음성의 전체 목록은 언어 지원을 참조하세요.

발음 정확도

모든 he-IL 음성의 영어 단어 발음이 향상되었습니다.
cs-CZ 및 da-DK의 단어 수준 발음 정확도가 향상되었습니다.
아랍어 분음 부호 및 히브리어 니쿠드 처리가 향상되었습니다.
ja-JP에 대한 엔터티 읽기 기능이 향상되었습니다.

음성 스튜디오

사용자 지정 인공신경망 음성: 일괄 처리 API(긴 오디오 API)를 사용하는 추가 모델 테스트 지원
오디오 콘텐츠 만들기: 더 많은 출력 형식 사용

2021년10월 릴리스

새 언어 및 음성

인공신경망 텍스트 음성 변환을 위한 다음과 같은 49개의 새 언어와 98개의 변형이 추가되었습니다.

Adri -af-ZA 아프리칸스어(남아프리카 공화국), Willem -af-ZA 아프리칸스어(남아프리카 공화국), Mekdes -am-ET 암하라어(에티오피아), Ameha -am-ET 암하라어(에티오피아), Fatima -ar-AE 아랍어(아랍에미리트 연합), Hamdan -ar-AE 아랍어(아랍에미리트 연합), Laila -ar-BH 아랍어(바레인), Ali -ar-BH 아랍어(바레인), Amina -ar-DZ 아랍어(알제리), Ismael -ar-DZ 아랍어(알제리), Rana -ar-IQ 아랍어(이라크), Bassel -ar-IQ 아랍어(이라크), Sana -ar-JO 아랍어(요르단), Taim -ar-JO 아랍어(요르단), Noura -ar-KW 아랍어(쿠웨이트), Fahed -ar-KW 아랍어(쿠웨이트), Iman -ar-LY 아랍어(리비아), Omar -ar-LY 아랍어(리비아), Mouna -ar-MA 아랍어(모로코), Jamal -ar-MA 아랍어(모로코), Amal -ar-QA 아랍어(카타르), Moaz -ar-QA 아랍어(카타르), Amany -ar-SY 아랍어(시리아), Laith -ar-SY 아랍어(시리아), Reem -ar-TN 아랍어(튀니지), Hedi -ar-TN 아랍어(튀니지), Maryam -ar-YE 아랍어(예멘), Saleh -ar-YE 아랍어(예멘), Nabanita -bn-BD 벵골어(방글라데시), Pradeep -bn-BD 벵골어(방글라데시), Asilia -en-KE 영어(케냐), Chilemba -en-KE 영어(케냐), Ezinne -en-NG 영어(나이지리아), Abeo -en-NG 영어(나이지리아), Imani -en-TZ 영어(탄자니아), Elimu -en-TZ 영어(탄자니아), Sofia -es-BO 스페인어(볼리비아), Marcelo -es-BO 스페인어(볼리비아), Catalina -es-CL 스페인어(칠레), Lorenzo -es-CL 스페인어(칠레), Maria -es-CR 스페인어(코스타리카), Juan -es-CR 스페인어(코스타리카), Belkys -es-CU 스페인어(쿠바), Manuel -es-CU 스페인어(쿠바), Ramona -es-DO 스페인어(도미니카 공화국), Emilio -es-DO 스페인어(도미니카 공화국), Andrea -es-EC 스페인어(에콰도르), Luis -es-EC 스페인어(에콰도르), Teresa -es-GQ 스페인어(적도 기니), Javier -es-GQ 스페인어(적도 기니), Marta -es-GT 스페인어(과테말라), Andres -es-GT 스페인어(과테말라), Karla -es-HN 스페인어(온두라스), Carlos -es-HN 스페인어(온두라스), Yolanda -es-NI 스페인어(니카라과), Federico -es-NI 스페인어(니카라과), Margarita -es-PA 스페인어(파나마), Roberto -es-PA 스페인어(파나마), Camila -es-PE 스페인어(페루), Alex -es-PE 스페인어(페루), Karina -es-PR 스페인어(푸에르토리코), Victor -es-PR 스페인어(푸에르토리코), Tania -es-PY 스페인어(파라과이), Mario -es-PY 스페인어(파라과이), Lorena -es-SV 스페인어(엘살바도르), Rodrigo -es-SV 스페인어(엘살바도르), Valentina -es-UY 스페인어(우루과이), Mateo -es-UY 스페인어(우루과이), Paola -es-VE 스페인어(베네수엘라), Sebastian -es-VE 스페인어(베네수엘라), Dilara -fa-IR 페르시아어(이란), Farid -fa-IR 페르시아어(이란), Blessica -fil-PH 필리핀어(필리핀), Angelo -fil-PH 필리핀어(필리핀), Sabela -gl-ES 갈리시아어, Roi -gl-ES 갈리시아어, Siti -jv-ID 자바어(인도네시아), Dimas -jv-ID 자바어(인도네시아), Sreymom -km-KH 크메르어(캄보디아), Piseth -km-KH 크메르어(캄보디아), Nilar -my-MM 버마어(미얀마), Thiha -my-MM 버마어(미얀마), Ubax -so-SO 소말리어(소말리아), Muuse -so-SO 소말리어(소말리아), Tuti -su-ID 순다어(인도네시아), Jajang -su-ID 순다어(인도네시아), Rehema -sw-TZ 스와힐리어(탄자니아), Daudi -sw-TZ 스와힐리어(탄자니아), Saranya -ta-LK 타밀어(스리랑카), Kumar -ta-LK 타밀어(스리랑카), Venba -ta-SG 타밀어(싱가포르), Anbu -ta-SG 타밀어(싱가포르), Gul -ur-IN 우르두어(인도), Salman -ur-IN 우르두어(인도), Madina -uz-UZ 우즈벡어(우즈베키스탄), Sardor -uz-UZ 우즈벡어(우즈베키스탄), Thando -zu-ZA 줄루어(남아프리카 공화국), Themba -zu-ZA 줄루어(남아프리카 공화국).

2021년 9월 릴리스

en-US의 새로운 챗봇 음성: Sara는 더 캐주얼하게 말하고 챗봇 시나리오에 가장 적합한 젊은 여성 성인을 나타냅니다.
ja-JP 일본어 음성 Nanami에 새 스타일 추가: 채팅, 고객 서비스, 쾌활함 등 세 가지 새 스타일을 이제 Nanami에서 사용할 수 있습니다.
전체적인 발음 개선: id-ID의 Adri, th-TH의 Premwadee, da-DK의 Christel, vi-VN의 HoaiMy 및 NamMinh.
zh-CN 중국어(북경어, 중국)의 새 음성 2개 미리 보기: 자연스러운 말하기 및 고객 서비스 시나리오에 최적화된 Xiaochen 및 Xiaoyan.

2021년 7월 릴리스

인공신경망 텍스트 음성 변환 업데이트

히브리어로 발음 오류가 20%로 줄어듭니다.

Speech Studio 업데이트

사용자 지정 인공신경망 음성: 어쿠스틱 모델을 위한 학습 시간이 50% 감소하는 동안 모델 품질이 향상된 UniTTSv3 학습 파이프라인을 업데이트 했습니다.
오디오 콘텐츠 만들기는 "내보내기" 성능 문제 및 사용자 지정 신경망 음성 선택에 대한 버그를 수정했습니다.

2021년 6월 릴리스

Speech Studio 업데이트

사용자 지정 인공신경망 음성: 동남 아시아를 지원 하도록 확장된 사용자 지정 인공신경망 음성 학습입니다. 데이터 업로드 상태 확인 지원을 위한 새로운 기능이 출시되었습니다.
오디오 콘텐츠 만들기는 사용자 지정 어휘를 지원하는 새 기능을 릴리스했습니다. 이 기능을 사용하면 사용자가 쉽게 어휘집 파일을 만들고 사용자 지정된 음성 출력에 대한 사용자 지정 발음을 정의할 수 있습니다.

2021년 5월 릴리스

인공신경망 TTS에 새 언어 및 음성 추가

10개의 새로운 언어 도입 - 10개의 새로운 로캘에서 20개의 새로운 음성이 인공신경망 TTS 언어 목록에 추가되었습니다. Yan - en-HK 영어(홍콩), Sam - en-HK 영어(홍콩), Molly - en-NZ 영어(뉴질랜드), Mitchell - en-NZ 영어(뉴질랜드), Luna - en-SG 영어(싱가포르), Wayne - en-SG 영어(싱가포르), Leah - en-ZA 영어(남아프리카), Luke - en-ZA 영어(남아프리카), Dhwani - gu-IN 구자라트어(인도), Niranjan - gu-IN 구자라트어(인도), Aarohi - mr-IN 마라티어(인도), Manohar - mr-IN 마라티어(인도), Elena - es-AR 스페인어(아르헨티나), Tomas - es-AR 스페인어(아르헨티나), Salome - es-CO 스페인어(콜롬비아), Gonzalo - es-CO 스페인어(콜롬비아), Paloma - es-US 스페인어(미국), Alonso - es-US 스페인어(미국), Zuri - sw-KE 스와힐리어(케냐), Rafiki - sw-KE 스와힐리어(케냐).
미리 보기에서 11개의 새로운 en-US 음성 - 미리 보기에서 11개의 새로운 en-US 음성이 미국 영어에 추가되었습니다. Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob입니다.
5개의 zh-CN 중국어(북경어, 간체) 음성이 일반 공급됩니다. - 5개의 중국어(북경어, 간체) 음성이 미리 보기에서 일반 공급으로 변경되었습니다. Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui입니다. 이제 이러한 음성은 모든 지역에서 사용할 수 있습니다. Yunxi는 채팅 봇 및 음성 에이전트에 적합한 새로운 '도우미' 스타일로 추가되었습니다. Xiaomo의 음성 스타일은 보다 자연스럽고 기능적으로 개선되었습니다.

2021년 4월 릴리스

21개 지역에서 인공신경망 텍스트 음성 변환 사용 가능

12개의 새 지역 추가 - 이제 새로운 12개 지역 Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2에서 인공신경망 텍스트 음성 변환을 사용할 수 있습니다. 21개 지원 지역의 전체 목록은 여기를 확인하세요.

2021년 3월 릴리스

인공신경망 TTS에 새 언어 및 음성 추가

6개 새 언어 도입 - 다음과 같은 6개 새 로캘의 12개 새 음성이 인공신경망 TTS 언어 목록에 추가되었습니다. cy-GB 웨일스어(영국)를 사용하는 Nia, cy-GB 웨일스어(영국)를 사용하는 Aled, en-PH 영어(필리핀)를 사용하는 Rosa, en-PH 영어(필리핀)를 사용하는 James, fr-BE 프랑스어(벨기에)를 사용하는 Charline, fr-BE 프랑스어(벨기에)를 사용하는 Gerard, nl-BE 네덜란드어(벨기에)를 사용하는 Dena, nl-BE 네덜란드어(벨기에)를 사용하는 Arnaud, uk-UA 우크라이나어(우크라이나)를 사용하는 Polina, uk-UA 우크라이나어(우크라이나)를 사용하는 Ostap, ur-PK 우르두어(파키스탄)를 사용하는 Uzma, ur-PK 우르두어(파키스탄)를 사용하는 Asad.
미리 보기에서 GA로 전환되는 5개 언어 - 11월에 도입된 다음과 같은 5개 로캘의 10개 음성이 이제 GA로 전환됩니다. et-EE 에스토니아어(에스토니아)를 사용하는 Kert, ga-IE 아일랜드어(아일랜드)를 사용하는 Colm, lv-LV 라트비아어(라트비아)를 사용하는 Nils, lt-LT 리투아니아어(리투아니아)를 사용하는 Leonas, mt-MT 몰타어(몰타)를 사용하는 Joseph.
프랑스어(캐나다)에 새로운 남성 음성 추가 - fr-CA 프랑스어(캐나다)에 새 음성 Antoine가 추가되었습니다.
품질 향상 - 발음 오류율이 hu-HU 헝가리어 - 48.17%, nb-NO 노르웨이어 - 52.76%, nl-NL 네덜란드어(네덜란드) - 22.11%로 낮아졌습니다.

이번 릴리스에서는 60개 언어/로캘의 총 142개 인공신경망 음성을 지원합니다. 또한 70개가 넘는 표준 음성이 49개 언어/로캘로 제공됩니다. 전체 목록을 보려면 언어 지원을 방문하세요.

캐릭터를 애니메이션 하기 위한 얼굴 포즈 이벤트 받기

이제 인공신경망 텍스트 음성 변환에 viseme 이벤트가 포함됩니다. Viseme 이벤트를 통해 사용자는 합성된 음성과 함께 일련의 얼굴 포즈를 가져올 수 있습니다. Viseme은 2D 및 3D 아바타 모델의 움직임을 제어하는 데 사용할 수 있으며 입 움직임을 합성된 음성과 일치시킵니다. Viseme 이벤트는 현재 en-US-AriaNeural 음성에만 사용할 수 있습니다.

SSML(Speech Synthesis Markup Language)에 책갈피 요소 추가

책갈피 요소를 사용하면 SSML로 사용자 지정 표식을 삽입하여 오디오 스트림에 있는 각 표식의 오프셋을 얻을 수 있습니다. 텍스트 또는 태그 시퀀스의 특정 위치를 참조하는 데 사용할 수 있습니다.

2021년 2월 릴리스

사용자 지정 인공신경망 음성 GA

사용자 지정 인공신경망 음성은 2월부터 중국어(북경어, 간체), 영어(오스트레일리아), 영어(인도), 영어(영국), 영어(미국), 프랑스어(캐나다), 프랑스어(프랑스), 독일어(독일), 이탈리아어(이탈리아), 일본어(일본), 한국어(대한민국), 포르투갈어(브라질), 스페인어(멕시코), 스페인어(스페인) 총 13개 언어로 일반 공급됩니다. 사용자 지정 인공신경망 음성이란 무엇이며 책임감 있게 사용하는 방법은 무엇인지 자세히 알아보세요. 사용자 지정 인공신경망 음성 기능을 사용하려면 등록이 필요하며 Microsoft 자격 조건에 따라 액세스가 제한될 수 있습니다. 제한된 액세스에 대해 자세히 알아보세요.

2020년 12월 릴리스

GA 및 미리보기에서 제공되는 새로운 인공신경망 음성

51가지 새 음성이 출시되면서 54개 언어/로캘로 총 129가지 인공신경망 음성이 제공됩니다.

GA 로캘의 46가지 새 음성: ar-EG 아랍어(이집트)를 사용하는 Shakir, ar-SA 아랍어(사우디아라비아)를 사용하는 Hamed, bg-BG 불가리아어(불가리아)를 사용하는 Borislav, ca-ES 카탈로니아어를 사용하는 Joana, cs-CZ 체코어(체코 공화국)를 사용하는 Antonin, da-DK 덴마크어(덴마크)를 사용하는 Jeppe, de-AT 독일어(오스트리아)를 사용하는 Jonas, de-CH 독일어(스위스)를 사용하는 Jan, el-GR 그리스어(그리스)를 사용하는 Nestoras, en-CA 영어(캐나다)를 사용하는 Liam, en-IE 영어(아일랜드)를 사용하는 Connor, en-IN 힌디어(인도)를 사용하는 Madhur, en-IN 텔구루어(인도)를 사용하는 Mohan, en-IN 영어(인도)를 사용하는 Prabhat, en-IN 타밀어(인도)를 사용하는 Valluvar, es-ES 카탈로니아어를 사용하는 Enric, et-EE 에스토니아어(에스토니아)를 사용하는 Kert, fi-FI 핀란드어(핀란드)를 사용하는 Harri, fi-FI 핀란드어(핀란드)를 사용하는 Selma, fr-CH 프랑스어(스위스)를 사용하는 Fabrice, ga-IE 아일랜드어(아일랜드)를 사용하는 Colm, he-IL 히브리어(이스라엘)를 사용하는 Avri, hr-HR 크로아티아어(크로아티아어)를 사용하는 Srecko, hu-HU 헝가리어(헝가리)를 사용하는 Tamas, id-ID 인도네시아어(인도네시아)를 사용하는 Gadis, lt-LT 리투아니아어(리투아니아)를 사용하는 Leonas, lv-LV 라트비아어(라트비아)를 사용하는 Nils, ms-MY 말레이어(말레이시아)를 사용하는 Osman, mt-MT 몰타어(몰타)를 사용하는 Joseph, nb-NO 노르웨이어 복말(노르웨이)을 사용하는 Finn, nb-NO 노르웨이어 복말(노르웨이)을 사용하는 Pernille, nl-NL 네덜란드어(네덜란드)를 사용하는 Fenna, nl-NL 네덜란드어(네덜란드)를 사용하는 Maarten, pl-PL 폴란드어(폴란드)를 사용하는 Agnieszka, pl-PL 폴란드어(폴란드어)를 사용하는 Marek, pt-BR 포르투갈어(브라질)를 사용하는 Duarte, pt-PT 포르투갈어(포르투갈)를 사용하는 Raquel, ro-RO 루마니아어(루마니아)를 사용하는 Emil, ru-RU 러시아어(러시아)를 사용하는 Dmitry, ru-RU 러시아어(러시아)를 사용하는 Svetlana, sk-SK 슬로바키아어(슬로바키아)를 사용하는 Lukas, sl-SI 슬로베니아어(슬로베니아)를 사용하는 Rok, sv-SE 스웨덴어(스웨덴)를 사용하는 Mattias, sv-SE 스웨덴어(스웨덴)를 사용하는 Sofie, th-TH 태국어(태국)를 사용하는 Niwat, tr-TR 터키어(튀르키예)를 사용하는 Ahmet, vi-VN 베트남어(베트남)를 사용하는 NamMinh, zh-TW 대만 북경어(대만)를 사용하는 HsiaoChen, zh-TW 대만 북경어(대만)를 사용하는 YunJhe, zh-HK 중국어 광둥어(홍콩 특별행정구)를 사용하는 HiuMaan, zh-HK 중국어 광둥어(홍콩 SAR)를 사용하는 WanLung.
미리 보기 로캘의 5가지 새 음성: et-EE 에스토니아어(에스토니아)를 사용하는 Kert, ga-IE 아일랜드어(아일랜드)를 사용하는 Colm, lv-LV 라트비아어(라트비아)를 사용하는 Nils, lt-LT 리투아니아어(리투아니아)를 사용하는 Leonas, mt-MT 몰타어(몰타)를 사용하는 Joseph.

이번 릴리스에서는 54개 언어/로캘의 총 129개 인공신경망 음성을 지원합니다. 또한 70개가 넘는 표준 음성이 49개 언어/로캘로 제공됩니다. 전체 목록을 보려면 언어 지원을 방문하세요.

오디오 콘텐츠 만들기 업데이트

음성 범주 및 자세한 음성 설명을 추가하여 음성 선택 UI를 개선했습니다.
여러 언어의 모든 인공신경망 음성에 대해 억양 튜닝을 사용하도록 설정했습니다.
브라우저의 언어에 따라 UI 지역화를 자동화했습니다.
모든 StyleDegree 인공신경망 음성에 zh-CN 컨트롤을 사용하도록 설정했습니다. 오디오 콘텐츠 만들기 도구를 방문하여 새로운 기능을 확인하세요.

zh-CN 음성 업데이트

영어 말하기를 지원하도록 모든 zh-CN 인공신경망 음성을 업데이트했습니다.
억양 조정을 지원하기 위해 모든 zh-CN 인공신경망 음성을 사용하도록 설정했습니다. SSML 또는 오디오 콘텐츠 만들기 도구를 사용하여 최적의 억양으로 조정할 수 있습니다.
zh-CN 컨트롤을 지원하도록 모든 StyleDegree 다중 스타일 인공신경망 음성을 업데이트했습니다. 감정 강도(부드럽게 또는 강하게)를 조정할 수 있습니다.
여러 감정을 수행할 수 있는 여러 스타일을 지원하도록 zh-CN-YunyeNeural을 업데이트했습니다.

2020년 11월 릴리스

미리 보기로 제공되는 새 로캘 및 음성

인공신경망 텍스트 음성 변환 포트폴리오에 다음과 같은 5가지 새 음성 및 언어가 도입되었습니다. 몰타어(몰타)를 사용하는 Grace, 리투아니아어(리투아니아)를 사용하는 Ona, 에스토니아어(에스토니아)를 사용하는 Anu, 아일랜드어(아일랜드)를 사용하는 Orla, 라트비아어(라트비아)를 사용하는 Everita.
여러 스타일과 역할이 포함된 5가지 새 zh-CN 음성 지원: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan 및 Yunxi를 지원합니다.

이러한 음성은 Azure 지역 EastUS, SouthEastAsia 및 WestEurope에서 공개 미리 보기로 제공됩니다.

인공신경망 텍스트 음성 변환 컨테이너 GA

인공신경망 텍스트 음성 변환 컨테이너를 사용하면 개발자는 보안 및 데이터 거버넌스 요구 사항에 맞게 자신의 환경에서 가장 자연스러운 디지털 음성이 포함된 음성 합성을 실행할 수 있습니다. 음성 컨테이너를 설치하는 방법을 확인하세요.

새로운 기능

사용자 지정 음성: 사용자가 한 지역에서 다른 지역으로 음성 모델을 복사할 수 있으며, 엔드포인트 일시 중단 및 다시 시작을 지원합니다. 여기에서 Azure Portal로 이동합니다.
SSML 묵음 태그를 지원합니다.
일반 TTS 음성 품질 향상: nb-NO의 단어 수준 발음 정확도가 향상되었습니다. 발음 오류가 53% 감소했습니다.

이 기술 블로그에서 자세히 알아보세요.

2020년 10월 릴리스

새로운 기능

Jenny가 새로운 newscast 스타일을 지원합니다. SSML에서 말하기 스타일을 사용하는 방법을 참조하세요.
인공신경망 음성을 더 높은 오디오 충실도 및 합성 속도를 제공하는 HiFiNet 보코더로 업그레이드. 비디오 번역, 오디오 서적 또는 온라인 교육 자료를 포함하여 하이파이 오디오 또는 긴 상호 작용을 사용하는 고객에게 도움이 됩니다. 기술 커뮤니티 블로그에서 자세한 스토리를 읽고 음성 샘플을 들어보세요.
17개 로캘로 지역화된 사용자 지정 음성 및 오디오 콘텐츠 만들기 스튜디오. 사용자는 UI를 현지 언어로 쉽게 전환하여 보다 친숙한 환경을 사용할 수 있습니다.
오디오 콘텐츠 만들기: XiaoxiaoNeural에 대한 스타일 수준 제어를 추가했습니다. 50ms 단위 중단을 포함하도록 사용자 지정된 중단 기능을 구체화했습니다.

일반 TTS 음성 품질 향상

pl-PL(오류 발생률 51% 감소) 및 fi-FI(오류 발생률 58% 감소)의 단어 수준 발음 정확도를 개선했습니다.
사전 시나리오에 대한 ja-JP 단일 단어 읽기 기능이 향상되었습니다. 발음 오류가 80% 감소했습니다.
zh-CN-XiaoxiaoNeural: 감정/CustomerService/뉴스/쾌활한/화난 스타일의 음성 품질이 향상되었습니다.
zh-CN: Erhua 발음 및 가벼운 톤을 개선하고 공백 운율을 구체화하여 명확성을 크게 향상했습니다.

2020년 9월 릴리스

새로운 기능

인공신경망 텍스트 음성 변환
- 18가지 새 언어/로캘을 지원하도록 확장되었습니다. 18가지 언어는 불가리아어, 체코어, 독일어(오스트리아), 독일어(스위스), 그리스어, 영어(아일랜드), 프랑스어(스위스), 히브리어, 크로아티아어, 헝가리어, 인도네시아어, 말레이어, 루마니아어, 슬로바키아어, 슬로베니아어, 타밀어, 텔루구어 및 베트남어입니다.
- 기존 언어를 더욱 풍성하게 만드는 14가지 새 음성이 출시되었습니다. 전체 언어 및 음성 목록을 참조하세요.
- en-US 및 zh-CN 음성에 대한 새로운 말하기 스타일이 추가되었습니다. 영어(미국)를 사용하는 새 음성 Jenny는 챗봇, 고객 서비스 및 보조자 스타일을 지원합니다. 저희의 zh-CN 음성 XiaoXiao는 10가지 새로운 감정 표현 스타일을 제공합니다. 또한 XiaoXiao 신경망 음성은 StyleDegree 튜닝을 지원합니다. SSML에서 말하기 스타일을 사용하는 방법을 참조하세요.
컨테이너: 인공신경망 텍스트 음성 변환 컨테이너가 공개 미리 보기로 출시되었으며 16개 음성을 14개 언어로 제공합니다. 인공신경망 텍스트 음성 변환용 음성 컨테이너를 배포하는 방법에 대해 자세히 알아보세요.

Ignite 2020에 대한 TTS 업데이트 전체 공지를 읽어보세요.

2020년 8월 릴리스

새로운 기능

인공신경망 텍스트 음성 변환: en-US Aria 음성의 새로운 말하기 스타일. AriaNeural은 뉴스를 읽을 때 뉴스 캐스터처럼 들릴 수 있습니다. '뉴스캐스트-포멀' 스타일은 더 진지하고, '뉴스캐스트-캐주얼' 스타일은 보다 편안하고 비공식적입니다. SSML에서 말하기 스타일을 사용하는 방법을 참조하세요.
사용자 지정 음성: 학습 데이터 품질을 자동으로 확인하는 새 기능이 출시되었습니다. 데이터를 업로드하면 시스템에서는 오디오 및 음성 텍스트 데이터의 다양한 측면을 검사하고, 자동으로 문제를 수정하거나 필터링하여 음성 모델의 품질을 향상합니다. 여기에는 오디오 및 스크립트 형식 외에도 오디오 볼륨, 노이즈 수준, 음성의 발음 정확도, 표준화된 텍스트와 음성 맞춤, 오디오의 무음 등이 포함됩니다.
오디오 콘텐츠 만들기: 보다 강력한 음성 튜닝 및 오디오 관리 기능을 제공하는 새 기능 세트입니다.
- 발음: 발음 튜닝 기능이 최신 음소 세트로 업데이트되었습니다. 라이브러리에서 올바른 음소 요소를 선택하고, 선택한 단어의 발음을 구체화할 수 있습니다.
- 다운로드: 단락에서 오디오 생성을 지원하도록 오디오 "다운로드"/"내보내기" 기능이 향상되었습니다. 여러 오디오 출력을 생성하는 동안 동일한 파일/SSML에서 콘텐츠를 편집할 수 있습니다. "다운로드"의 파일 구조도 구체화되었습니다. 이제 한 폴더의 모든 오디오 파일을 쉽게 가져올 수 있습니다.
- 작업 상태: 다중 파일 내보내기 환경이 개선되었습니다. 이전에는 여러 파일을 내보낼 때 파일 중 하나가 실패하면 전체 작업이 실패했습니다. 하지만 이제는 나머지 파일이 성공적으로 내보내집니다. 작업 보고서가 보다 상세하고 체계적인 정보로 보강되었습니다. 이제 실패한 모든 파일과 문장의 로그를 보고서에서 확인할 수 있습니다.
- SSML 설명서: 모든 튜닝 기능을 사용하는 방법에 대한 규칙을 확인할 수 있는 SSML 문서에 연결되었습니다.
사용자에게 친숙한 표시 이름과 인공신경망 음성을 지원하는 말하는 스타일을 포함하도록 Voice List API가 업데이트되었습니다.

일반 TTS 음성 품질 향상

ru-RU(오류 56% 감소) 및 sv-SE(오류 49% 감소)의 단어 수준 발음 오류가 감소했습니다.
en-US 인공신경망 음성의 다성음악 단어 읽기가 40% 향상되었습니다. 다성음악 단어의 예로는 "read", "live", "content", "record", "object" 등이 있습니다.
fr-FR의 질문 톤이 더 자연스럽게 향상되었습니다. MOS(Mean Opinion Score) +0.28을 획득했습니다.
다음 음성의 보코더가 업데이트되었습니다. 충실도가 향상되고 전반적인 성능 속도가 40% 빨라졌습니다.

로캘 음성

en-GB 미아

es-MX 달리아

fr-CA Sylvie

fr-FR 데니스

ja-JP 나나미 주

ko-KR 선희

로캘	음성
`en-GB`	미아
`es-MX`	달리아
`fr-CA`	Sylvie
`fr-FR`	데니스
`ja-JP`	나나미 주
`ko-KR`	선희

버그 수정

오디오 콘텐츠 만들기 도구의 여러 버그 수정
- 자동 새로 고침 문제를 수정했습니다.
- 동남 아시아 지역 zh-CN의 음성 스타일 문제를 수정했습니다.
- '중단' 태그가 있는 내보내기 오류와 구두점 오류를 포함하여 안정성 문제를 수정했습니다.

2025년 6월 릴리스

향상된 발음 평가 모델

발음 평가 모델에 대한 ta-IN 및 ms-MY에 중요한 업그레이드를 적용했습니다. 더 정확하고 신뢰할 수 있는 평가를 의미하는 Pearson PCC(상관 관계 계수)에서 눈에 띄는 점프가 표시됩니다.

이러한 업데이트된 모델은 이전과 마찬가지로 API 및 Azure AI Foundry 플레이그라운드를 통해 사용할 준비가 된 것입니다.

향상된 음성 텍스트 변환 모델

, de-DE, en-US, en-GB, es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR 및 pt-BR 로캘에 대한 zh-CN에서 음성 텍스트 변환 모델의 정확도는 각각 10%-25% 개선되었으며, 특히 엔터티에 대한 가독성과 인식이 개선되었습니다.

2025년 5월 릴리스

향상된 음성 텍스트 변환 모델

ta-IN, te-IN, en-IN, 및 hu-HU 로캘의 음성 텍스트 변환 모델의 정확도가 각각 5~10% 향상되었습니다. 또한 ta-IN 및 te-IN 모델에 대해 고스트 단어가 약 20배 감소한 것으로 추정됩니다.

빠른 전사 API - 다국어 음성 전사

오디오 파일에서 다국어 콘텐츠를 지속적으로 정확하게 전사하려면 이제 빠른 전사 API를 통해 로캘 코드를 지정하지 않고도 최신 다국어 모델을 사용할 수 있습니다. 자세한 내용은 빠른 대화기록을 통한 다국어 대화 내용 기록을 참조하세요.

Fast Transcription에서 지원되는 새 로캘

빠른 변환은 이제 fi-FI, he-IL, id-ID, pl-PL, pt-PT, sv-SE등의 추가 로캘을 지원합니다. 자세한 내용은 음성 텍스트 변환 지원 언어를 참고하시기 바랍니다.

2025년 4월 릴리스

발음 평가

이러한 로캘에 대한 발음 평가 모델에 대한 상당한 개선 사항을 발표하게 되어 기쁩니다. de-DEes-MXit-ITja-JPko-KRpt-BR 이러한 향상된 기능으로 Pearson PCC(상관 관계 계수)가 크게 향상되어 보다 정확하고 신뢰할 수 있는 평가를 보장합니다.

이전과 마찬가지로 모델은 API 및 Azure AI Foundry 플레이그라운드를 통해 사용할 수 있습니다.

2025년 3월 릴리스

대화 기록 다중 채널 분리(사용 중지)

대화 기록 다중 채널 분리 기능은 2025년 3월 28일에 사용 중지됩니다.

음성을 텍스트로 변환할 때 화자 분리 기능을 계속 사용하려면, 대신 다음 기능을 사용하십시오.

이러한 음성 텍스트 변환 기능은 단일 채널 오디오에 대한 다이어리화만 지원합니다. 대화 기록 다중 채널 분할과 함께 사용한 다중 채널 오디오는 지원되지 않습니다.

2025년 1월 릴리스

새 기능 - 의미 체계 구분

새 기능의 릴리스 발표: 의미 체계 세분화. 이 기능은 의미 체계 정보를 기반으로 오디오를 분할하는 디코더 내부의 문장 부호 모듈을 통합하여 보다 논리적이고 정확한 구분 경계를 만듭니다. 주요 이점:

향상된 세그먼트 정확도: 의미 체계 정보를 사용하여 이 기능은 입력 오디오에 일시 중지가 없으므로 긴 세그먼트의 인스턴스를 크게 줄입니다.
세분화 부족으로 인한 대기 시간 감소: 음성 인식에 대한 전체 대기 시간이 감소하고 세그먼트의 가장 긴 5%의 길이가 40%-60% 감소합니다.
과잉 구분 완화: 이 기능은 더 나은 문장을 구성할 수 있을 때 분할을 지연시켜 과분화를 방지하는 데도 도움이 됩니다.

지원되는 지역 설정:

영어(en-US, en-GB)
중국어(zh-CN, zh-HK)
일본어(ja-JP)
한국어(ko-KR)
독일어(de-DE)
프랑스어(fr-FR)
이탈리아어(it-IT)
스페인어(es-ES, es-MX)
힌디어(hi-IN)
포르투갈어(pt-BR, pt-PT)
터키어(tr-TR)
러시아어(ru-RU)
태국어 (th-TH)
인도네시아어(id-ID)

구현 세부 정보는 "의미 체계 구분" 섹션에서 음성을 인식하는 방법 설명서를 참조하세요.

실시간 음성 텍스트 변환 - 새로운 영어 모델 릴리스

다양한 성능 메트릭에서 상당한 개선을 제공하는 최신 영어 음성 모델(en-US, en-CA)의 릴리스를 발표합니다. 다음은 이 릴리스의 주요 하이라이트입니다.

접근성 향상: Microsoft 내부 접근성 테스트 집합에서 WER(Word 오류율)이 36% 감소하여 음성 인식이 음성 장애가 있는 개인의 음성을 인식할 때 보다 정확하고 안정적입니다.
유령 단어 감소: 유령 단어 개발 세트에서 유령 단어가 90% 감소하였으며, 다른 유령 단어 데이터 세트에서는 63%에서 100%까지 감소하여 전사의 명확성과 정확도가 크게 향상되었습니다.

새 모델은 엔터티 인식과 철자가 나열된 문자 인식을 포함하여 전반적인 성능을 개선했습니다.

이러한 발전은 모든 사용자에게 보다 정확하고 효율적이며 만족스러운 환경을 제공할 것으로 예상됩니다. 새 모델은 API 및 Azure AI Foundry 플레이그라운드를 통해 사용할 수 있습니다. 피드백을 통해 기능을 더욱 발전시키도록 권장합니다.

2024년 11월 릴리스

Speech to text REST API 버전 2024-11-15

음성 텍스트 변환 REST API 버전 2024-11-15는 일반 공급용으로 릴리스됩니다. 자세한 내용은 Speech to text REST API 참조 설명서 및 Speech to text REST API 가이드를 참조하세요.

참고

음성 텍스트 변환 REST API 버전 2024-05-15-preview는 더 이상 사용되지 않습니다.

빠른 대화기록(GA)

빠른 대화기록은 이제 음성 텍스트 변환 REST API 버전 2024-11-15를 통해 일반적으로 사용할 수 있습니다. 빠른 대화기록을 사용하면 고속 인수를 사용하여 오디오 파일을 텍스트로 정확하고 동기식으로 기록할 수 있습니다. 실제 오디오 기간보다 더 빠르게 오디오를 전사할 수 있습니다. 자세한 내용은 빠른 대화기록 API 가이드를 참조하세요.

2024년 10월 릴리스

실시간 음성 텍스트 변환(이중 언어)

이중 언어 모델을 통해 짧은 스페인어 용어의 인식 품질이 es-US 크게 향상되었습니다. 모델은 이중 언어이며 영어를 지원합니다. 영어 인식의 품질도 향상되었습니다.

비디오 번역(미리 보기)

이제 비디오 번역 API를 공개 미리 보기로 사용할 수 있습니다. 자세한 내용은 비디오 번역을 사용하는 방법을 참조하세요.

2024년 9월 릴리스

실시간 음성 텍스트 변환

실시간 음성을 텍스트로 변환 기술을 제공하는 새로운 모델이 다음 언어에서 더 나은 품질로 출시되었습니다.

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ

빠른 대화기록(미리 보기)

빠른 대화기록은 이제 모노 채널 오디오 파일에서 여러 스피커를 인식하고 구분하는 분할 기능을 지원합니다. 자세한 내용은 빠른 대화기록 API 가이드를 참조하세요.

2024년 8월 릴리스

언어 학습(미리 보기)

이제 언어 학습이 공개 미리 보기로 제공됩니다. 대화형 언어 학습을 활용하면 보다 몰입도 있게 효과적으로 학습할 수 있습니다. 자세한 내용은 발음 평가를 사용한 대화형 언어 학습을 참조하세요.

발음 평가

이제 음성 발음 평가는 일반 공급 버전에서 33개 언어를 지원하며, 각 언어는 모든 음성 텍스트 변환 지역에서 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.

언어	로캘(BCP-47)
아랍어(이집트)	`ar-EG`
아랍어(사우디아라비아)	`ar-SA`
카탈로니아어	`ca-ES`
중국어(광둥어, 번체)	`zh-HK`
중국어(북경어, 간체)	`zh-CN`
중국어(대만어 북경어, 번체)	`zh-TW`
덴마크어(덴마크)	`da-DK`
네덜란드어(네덜란드)	`nl-NL`
영어(호주)	`en-AU`
영어(캐나다)	`en-CA`
영어(인도)	`en-IN`
영어(영국)	`en-GB`
영어(미국)	`en-US`
핀란드어(핀란드)	`fi-FI`
프랑스어(캐나다)	`fr-CA`
프랑스어(프랑스)	`fr-FR`
독일어(독일)	`de-DE`
힌디어(인도)	`hi-IN`
이탈리아어(이탈리아)	`it-IT`
일본어(일본)	`ja-JP`
한국어(대한민국)	`ko-KR`
말레이어(말레이시아)	`ms-MY`
노르웨이어 복말(노르웨이)	`nb-NO`
폴란드어(폴란드)	`pl-PL`
포르투갈어(브라질)	`pt-BR`
포르투갈어(포르투갈)	`pt-PT`
러시아어(러시아)	`ru-RU`
스페인어(멕시코)	`es-MX`
스페인어(스페인)	`es-ES`
스웨덴어(스웨덴)	`sv-SE`
타밀어(인도)	`ta-IN`
태국어(태국)	`th-TH`
베트남어(베트남)	`vi-VN`

2024년 7월 릴리스

빠른 대화기록 API(미리 보기)

빠른 대화기록은 이제 공개 미리 보기에서 사용할 수 있습니다. 빠른 대화기록을 사용하면 고속 인수를 사용하여 오디오 파일을 텍스트로 정확하고 동기식으로 기록할 수 있습니다. 실제 오디오 기간보다 더 빠르게 오디오를 전사할 수 있습니다. 자세한 내용은 빠른 대화기록 API 가이드를 참조하세요.

팁

Azure AI 파운드리 포털에서 빠른 대화기록을 사용해 보세요.

2024년 6월 릴리스

음성 텍스트 변환 REST API v3.2 일반 공급

음성 텍스트 변환 REST API 버전 3.2가 일반 공급됩니다. 음성 텍스트 변환 REST API v3.2에 대한 자세한 내용은 음성 텍스트 변환 REST API v3.2 참조 설명서 및 음성 텍스트 변환 REST API 가이드를 참조하세요.

참고

미리 보기 버전 3.2-preview.1 및 3.2-preview.2는 2024 년 9월부터 사용 중지됩니다.

음성 텍스트 변환 REST API 버전 3.1은 발표되는 날부터 사용 중지됩니다. Speech to text REST API v3.0은 2026년 3월 31일에 사용 중지됩니다. 업그레이드에 대한 자세한 내용은 음성 텍스트 변환 REST API v3.0에서 v3.1 및v3.1에서 v3.2 마이그레이션 가이드를 참조하세요.

2024년 5월 릴리스

비디오 번역(미리 보기)

비디오 번역은 이제 공개 미리 보기에서 사용할 수 있습니다. 비디오 번역은 자동으로 여러 언어로 비디오를 원활하게 번역하고 생성할 수 있는 Azure AI 음성의 기능입니다. 이 기능은 전 세계 다양한 시청자에게 맞게 비디오 콘텐츠를 지역화하는 데 도움을 주기 위해 설계되었습니다. 브이로그, 교육, 뉴스, 기업 교육, 광고, 영화, TV 프로그램 등과 같은 다양한 사용 사례에서 몰입할 수 있는 지역화된 비디오를 효율적으로 만들 수 있습니다. 자세한 내용은 비디오 번역 개요를 참조하세요.

발음 평가

음성 발음 평가는 이제 24개 언어(1개의 새 언어가 추가됨)를 지원하며, 공개 미리 보기에서 7개 언어를 더 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.

2024년 4월 릴리스

자동 다국어 음성 번역(미리 보기)

자동 다국어 음성 번역은 공개 미리 보기에서 사용할 수 있습니다. 이 혁신적인 기능을 통해 언어 장벽을 극복하여 다양한 언어 환경에서 원활한 의사소통을 위한 탁월한 기능을 활용할 수 있습니다.

주요 사항

지정되지 않은 입력 언어: 다국어 음성 번역은 다양한 언어의 오디오를 수신할 수 있으며 예상되는 입력 언어가 무엇인지 지정할 필요가 없습니다. 사전 설정 없이도 글로벌 상황을 이해하고 협업할 수 있는 귀중한 기능입니다.
언어 전환: 다국어 음성 번역을 통해 동일한 세션 중에 여러 언어를 말하고 모두 동일한 대상 언어로 번역할 수 있습니다. 입력 언어가 변경되거나 기타 작업을 수행할 때 세션을 다시 시작할 필요가 없습니다.

작동 방식

여행 인터프리터: 다국어 음성 번역은 외국 여행지를 방문하는 관광객에게 기본 설정 언어로 정보와 지원을 제공함으로써 여행 환경을 향상시킬 수 있습니다. 호텔 컨시어지 서비스, 단계별 투어 및 방문객 센터는 이 기술을 활용하여 다양한 언어적 요구를 충족할 수 있습니다.
국가별 컨퍼런스: 다국어 음성 번역은 실시간 번역 캡션을 사용하여 다양한 언어를 구사할 수 있는 다양한 지역의 참가자 간의 의사소통을 지원할 수 있습니다. 참석자는 특정 언어를 지정할 필요 없이 네이티브 언어로 말할 수 있으므로 원활한 이해와 협업이 보장됩니다.
교육 모임: 다문화 클래스룸이나 온라인 학습 환경에서 다국어 음성 번역은 학생과 교사 간의 언어 다양성을 지원할 수 있습니다. 각 학생이나 강사의 언어를 지정할 필요 없이 원활한 의사소통과 참여가 가능합니다.

액세스 방법

자세한 소개를 보려면 음성 번역 개요를 참조하세요. 또한 음성을 번역하는 방법에서 코드 샘플을 참조할 수 있습니다. 이 새로운 기능은 1.37.0 이후의 모든 SDK 버전에서 완벽하게 지원됩니다.

GA(분할)를 사용한 실시간 음성 텍스트 변환

이제 분할을 사용한 실시간 음성 텍스트 변환을 일반적으로 사용할 수 있습니다.

분할을 사용하여 대화에 참여하는 여러 화자를 구분하는 음성 텍스트 변환 애플리케이션을 만들 수 있습니다. 실시간 분할에 대한 자세한 내용은 실시간 분할 빠른 시작을 확인합니다.

음성 텍스트 변환 모델 업데이트

실시간 음성 텍스트 변환은 이중 언어 기능을 갖춘 새로운 모델을 릴리스했습니다. 이제 en-IN 모델은 영어와 힌디어 이중 언어 시나리오를 모두 지원하고 개선된 정확도를 제공합니다. 아랍어 로캘(ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA , ar-SA, ar-SY, ar-TN, ar-YE)은 이제 영어에 대한 이중 언어 지원, 향상된 정확도 및 콜 센터 지원을 갖추고 있습니다.

일괄 대화 내용 기록은 es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR 및 zh-CN 언어에 대한 새로운 아키텍처를 갖춘 모델을 제공합니다. 이러한 모델은 가독성과 개체 인식을 크게 향상시킵니다.

2024년 3월 릴리스

위스퍼 GA(일반 공급)

이제 위스퍼 음성 텍스트 변환 모델이 Azure AI Speech를 통해 일반적으로 출시되었습니다.

Azure AI Foundry 모델에서 Azure AI Speech와 Azure OpenAI를 사용하는 시기에 대해 자세히 알아보려면 위스퍼 모델이란?

2024년 2월 릴리스

발음 평가

음성 발음 평가는 이제 23개 언어(5개의 새 언어가 추가됨)를 지원하며, 공개 미리 보기에서 3개 언어를 더 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.

구문 목록

다음 로캘에 대한 구문 목록 지원이 추가되었습니다: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

2023년 11월 릴리스

이중 언어 음성 모델링 소개!

실시간 음성 모델링인 이중 언어 음성 모델링에 획기적인 추가 기능을 공개하게 되어 기쁩니다. 이러한 향상된 기능을 통해 음성 모델은 영어와 스페인어뿐 아니라, 영어와 프랑스어 등 이중 언어 쌍을 원활하게 지원할 수 있습니다. 이 기능을 사용하면 사용자가 실시간 상호 작용 중에 언어 간에 손쉽게 전환할 수 있으므로 커뮤니케이션 환경을 개선하기 위한 노력의 중요한 전환점이 될 것입니다.

주요 사항:

이중 언어 지원: 최신 릴리스를 통해 사용자는 실시간 음성 상호 작용 중에 영어와 스페인어 또는 영어와 프랑스어 간에 원활하게 전환할 수 있습니다. 이 기능은 이러한 두 언어 간에 자주 전환하는 이중 언어 화자에 맞게 조정됩니다.
향상된 사용자 환경: 회사, 가정 또는 다양한 커뮤니티 설정에서 이중 언어 화자는 이 기능이 매우 유용하다는 것을 알게 됩니다. 영어와 스페인어를 실시간으로 이해하고 응답하는 모델의 기능은 효과적이고 원활한 의사 소통의 새로운 가능성을 열어줍니다.

사용 방법:

Speech Service API를 호출하거나 Speech Studio에서 사용해 볼 때 es-US(스페인어와 영어) 또는 fr-CA(프랑스어와 영어)를 선택합니다. 어떤 언어로든 자유롭게 말하거나 섞어 사용할 수 있습니다. 모델은 동적으로 적응하도록 설계되어 두 언어 모두에서 정확하고 맥락을 인식한 응답을 제공합니다.

이제 최신 기능 릴리스인 원활한 다국어 통신을 손쉽게 사용하여 통신 게임의 수준을 높일 때가 되었습니다!

음성 텍스트 변환 모델 업데이트

음성 모델에 향상된 정확도, 향상된 가독성 및 향상된 엔터티 인식을 약속하는 중요한 업데이트를 도입하게 되어 기쁩니다. 이 업그레이드에는 확장된 학습 데이터 세트로 강화된 강력한 새 구조가 함께 제공되어 전반적인 성능이 현저히 향상되었습니다. 여기에는 en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE 및 he-IL용으로 새로 릴리스된 모델이 포함되어 있습니다.

강조 표시:

새 모델 구조의 정확도 향상: 보다 풍부한 학습 데이터 세트와 결합된 다시 정의된 모델 구조는 정확도 수준을 높여 보다 정확한 음성 출력을 약속합니다.
가독성 향상: 최신 모델은 가독성을 크게 향상시켜 음성 콘텐츠의 일관성과 명확성을 향상시킵니다.
고급 엔터티 인식: 엔터티 인식은 상당한 업그레이드를 받아 보다 정확하고 미묘한 차이가 있는 결과를 가져옵니다.

잠재적 영향: 이러한 발전에도 불구하고 잠재적 영향을 염두에 두는 것이 중요합니다.

사용자 지정 무음 제한 시간 기능: 사용자 지정 무음 시간 제한(특히 낮은 설정)을 사용하는 사용자는 한 단어 구가 과도하게 분할되고 누락될 수 있습니다.
새 모델은 키워드 접두사 기능과 호환성 문제를 나타낼 수 있으므로 사용자는 특정 애플리케이션에서 성능을 평가하는 것이 좋습니다.
언어 비유창성이 줄어듦: 사용자는 음성 출력에서 "음" 또는 "에"와 같은 비유창성 단어나 구가 줄어드는 것을 알 수 있습니다.
단어 타임스탬프 기간의 부정확성: 말더듬 단어는 타임스탬프 기간에 부정확성을 표시할 수 있으므로 정확한 타이밍에 따라 애플리케이션에서 주의를 기울여야 합니다.
신뢰도 점수 분포 분산: 신뢰도 점수 및 관련 임계값에 의존하는 사용자는 분포에서 잠재적 분산을 알고 있어야 하며 최적의 성능을 위해 조정이 필요합니다.
구 목록 기능의 정확도 향상은 특정 구의 잘못된 인식으로 인해 영향을 받을 수 있습니다.

이러한 개선 사항을 탐색하고 원활한 전환을 위한 잠재적인 문제를 고려하는 것이 좋습니다. 언제나처럼 피드백은 서비스를 개선하고 발전시키는 데 중요한 역할을 합니다.

발음 평가

이제 음성 발음 평가는 일반적으로 18개 언어를 지원하며, 공개 미리 보기에서 6개의 언어를 더 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.
2023년 11월 1일부터 발음 평가에서 운율, 문법, 어휘 및 토픽이라는 새로운 기능을 도입하게 되어 기쁩니다. 이러한 향상된 기능은 읽기 및 말하기 평가 모두에 더욱 포괄적인 언어 학습 환경을 제공하는 것이 목표입니다. SDK 버전 1.35.0 이상으로 업그레이드하여 발음 평가를 사용하는 방법 및 Speech Studio에서 발음 평가에 대한 자세한 내용을 알아보세요.

2023년 9월 릴리스

Whisper 공개 미리 보기

이제 Azure AI 음성은 일괄 처리 대화 내용 기록 API를 통해 OpenAI의 Whisper 모델을 지원합니다. 자세한 내용은 일괄 처리 대화 내용 기록 만들기 가이드를 확인해 보세요.

참고

Azure OpenAI는 동기 REST API를 사용하여 음성 텍스트 변환을 위한 OpenAI의 위스퍼 모델도 지원합니다. 자세히 알아보려면 빠른 시작을 확인하세요.

Azure AI Speech와 Azure OpenAI를 사용하는 시기에 대해 자세히 알아보려면 위스퍼 모델이란? 을 확인하세요.

음성 텍스트 변환 REST API v3.2 공개 미리 보기

음성 텍스트 변환 REST API v3.2는 미리 보기로 사용 가능합니다. 음성 텍스트 변환 REST API v3.1이 일반적으로 사용 가능합니다. Speech to text REST API v3.0은 2026년 3월 31일에 사용 중지됩니다. 자세한 내용은 음성 텍스트 변환 REST API v3.0에서 v3.1 마이그레이션 가이드와 v3.1에서 v3.2 마이그레이션 가이드를 참조하세요.

2023년 8월 릴리스

새로운 음성 텍스트 변환 로캘:

음성 텍스트 변환은 다음 표에 표시된 것처럼 두 가지 새로운 로캘을 지원합니다. 전체 언어 목록은 여기를 참조하세요.

로캘	언어
`pa-IN`	펀잡어(인도)
`ur-IN`	우르두어(인도)

발음 평가

음성 발음 평가는 이제 일반적으로 영어(캐나다), 영어(인도) 및 프랑스어(캐나다)에서 사용할 수 있는 3개 추가 언어를 지원하며, 미리 보기에서 3개 추가 언어를 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.

2023년 5월 릴리스

발음 평가

음성 발음 평가는 이제 일반적으로 독일어(독일), 일본어(일본), 스페인어(멕시코)에서 사용할 수 있는 3개 추가 언어를 지원하며, 미리 보기에서 4개 추가 언어를 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.
이제 모든 공용 지역에서 발음 평가를 위해 표준 음성 텍스트 변환 약정 계층을 사용할 수 있습니다. 표준 음성 텍스트 변환에 대한 약정 계층을 구매하는 경우 발음 평가 비용은 약정을 충족하는 데 사용됩니다. 약정 계층 가격 책정을 참조하세요.

2023년 2월 릴리스

발음 평가

음성 발음 평가는 현재 영어(영국), 영어(오스트레일리아), 프랑스어(프랑스), 스페인어(스페인), 중국어(북경어, 간체)에서 일반적으로 사용할 수 있는 5개 추가 언어를 지원하며 다른 언어는 미리 보기로 제공됩니다.
고유의 애플리케이션에서 스트리밍 모드로 발음 평가를 사용하는 방법을 보여 주는 샘플 코드를 추가했습니다.
- C#: 샘플 코드를 참조하세요.
- C++: 샘플 코드를 참조하세요.
- java: 샘플 코드를 참조하세요.
- JavaScript: 샘플 코드를 참조하세요.
- Objective-C: 샘플 코드를 참조하세요.
- Python: 샘플 코드를 참조하세요.
- Swift: 샘플 코드를 참조하세요.

사용자 지정 음성

de-AT 로캘에 대해 오디오 + 인간 레이블이 지정된 대화록에 대한 지원이 추가되었습니다.

2023년 1월 릴리스

사용자 지정 음성

추가 로캘(ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE 및 ja-JP)에 대해 오디오 + 인간이 레이블을 지정한 대화 기록에 대한 지원이 추가되었습니다.

구조화된 텍스트 적응에 대한 지원이 로캘 de-AT에 추가되었습니다.

2022년 12월 릴리스

음성 텍스트 변환 REST API

음성 텍스트 변환 REST API 버전 3.1이 일반적으로 사용 가능합니다. 음성 텍스트 변환 REST API 버전 3.0은 사용 중지됩니다. 마이그레이션 방법에 대한 자세한 내용은 가이드를 참조하세요.

2022년 10월 릴리스

새 음성 텍스트 변환 로캘

ml-IN 로캘 관련 말라얄람어(인도)에 대한 지원이 추가되었습니다. 전체 언어 목록은 여기서 확인하세요.

2022년 7월 릴리스

새로운 음성 텍스트 변환 로캘:

다음 표와 같이 7개의 새로운 로캘을 추가했습니다. 전체 언어 목록은 여기서 확인하세요.

로캘	언어
`bs-BA`	보스니아어(보스니아 헤르체고비나)
`yue-CN`	중국어(광둥어, 간체)
`zh-CN-sichuan`	중국어(중국어 남경어, 간체)
`wuu-CN`	중국어(우, 간체)
`ps-AF`	파슈토(아프가니스탄어)
`so-SO`	소말리아어(소말리아)
`cy-GB`	웨일스어(영국)

2022년 6월 릴리스

새로운 음성 텍스트 변환 로캘:

다음 표와 같이 10개의 새로운 로캘을 추가했습니다. 전체 언어 목록은 여기서 확인하세요.

로캘	언어
`sq-AL`	알바니아어(알바니아)
`hy-AM`	아르메니아어(아르메니아)
`az-AZ`	아제르바이잔어(아제르바이잔)
`eu-ES`	바스크어
`gl-ES`	갈리시아어
`ka-GE`	조지아어(조지아)
`it-CH`	이탈리아어(스위스)
`kk-KZ`	카자흐어(카자흐스탄)
`mn-MN`	몽골어(몽골)
`ne-NP`	네팔어(네팔)

2022년 4월 릴리스

새로운 음성 텍스트 변환 로캘:

아래는 새 로캘의 목록입니다. 전체 언어 목록은 여기서 확인하세요.

로캘	언어
`bn-IN`	벵골어(인도)

2022년 1월 릴리스

새로운 음성 텍스트 변환 로캘:

아래는 새 로캘의 목록입니다. 전체 언어 목록은 여기서 확인하세요.

로캘	언어
`af-ZA`	아프리칸스어(남아프리카 공화국)
`am-ET`	암하라어(에티오피아)
`de-CH`	독일어(스위스)
`fr-BE`	프랑스어(벨기에)
`is-IS`	아이슬란드어(아이슬란드)
`jv-ID`	자바어(인도네시아)
`km-KH`	크메르어(캄보디아)
`kn-IN`	칸나다어(인도)
`lo-LA`	라오스어 (라오스)
`mk-MK`	마케도니아어(북마케도니아)
`my-MM`	버마어(미얀마)
`nl-BE`	네덜란드어(벨기에)
`si-LK`	스리랑카어(스리랑카)
`sr-RS`	세르비아어(세르비아)
`sw-TZ`	스와힐리어(탄자니아)
`uk-UA`	우크라이나어(우크라이나)
`uz-UZ`	우즈베크어(우즈베키스탄)
`zu-ZA`	줄루어(남아프리카 공화국)

2021년 7월 릴리스

새로운 음성 텍스트 변환 로캘:

아래는 새 로캘의 목록입니다. 전체 언어 목록은 여기서 확인하세요.

로캘	언어
`ar-DZ`	아랍어(알제리아)
`ar-LY`	아랍어(리비아)
`ar-MA`	아랍어(모로코)
`ar-TN`	아랍어(튀니지)
`ar-YE`	아랍어(예멘)
`bg-BG`	불가리아어(불가리아)
`el-GR`	그리스어(그리스)
`et-EE`	에스토니아어(에스토니아)
`fa-IR`	페르시아어(이란)
`ga-IE`	아일랜드어(아일랜드)
`hr-HR`	크로아티아어(크로아티아)
`lt-LT`	리투아니아어(리투아니아)
`lv-LV`	라트비아어(라트비아)
`mt-MT`	몰타어(몰타)
`ro-RO`	루마니아어(루마니아)
`sk-SK`	슬로바키아어(슬로바키아)
`sl-SI`	슬로베니아어(슬로베니아)
`sw-KE`	스와힐리어(케냐)

2021년 1월 릴리스

새로운 음성 텍스트 변환 로캘:

아래는 새 로캘의 목록입니다. 전체 언어 목록은 여기서 확인하세요.

로캘	언어
`ar-AE`	아랍어(아랍에미리트)
`ar-IL`	아랍어(이스라엘)
`ar-IQ`	아랍어(이라크)
`ar-OM`	아랍어(오만)
`ar-PS`	아랍어(팔레스타인 자치 정부)
`de-AT`	독일어(오스트리아)
`en-GH`	영어(가나)
`en-KE`	영어 (케냐)
`en-NG`	영어(나이지리아)
`en-TZ`	영어(탄자니아)
`es-GQ`	스페인어(적도 기니)
`fil-PH`	필리핀어(필리핀)
`fr-CH`	프랑스어(스위스)
`he-IL`	히브리어(이스라엘)
`id-ID`	인도네시아어(인도네시아)
`ms-MY`	말레이어(말레이시아)
`vi-VN`	베트남어(베트남)

2020년 8월 릴리스

새로운 음성 텍스트 변환 로캘:

8월에 새로운 음성 텍스트 변환 로캘 26개가 출시되었습니다. 2개는 유럽 언어 cs-CZ 및 hu-HU, 5개는 영어 로캘, 19개는 대부분의 남아메리카 국가/지역을 포함하는 스페인어 로캘입니다. 아래는 새 로캘의 목록입니다. 전체 언어 목록은 여기서 확인하세요.

로캘	언어
`cs-CZ`	체코어(체코 공화국)
`en-HK`	영어(홍콩 특별행정구)
`en-IE`	영어(아일랜드)
`en-PH`	영어(필리핀)
`en-SG`	영어(싱가포르)
`en-ZA`	영어(남아프리카 공화국)
`es-AR`	스페인어(아르헨티나)
`es-BO`	스페인어(볼리비아)
`es-CL`	스페인어(칠레)
`es-CO`	스페인어(콜롬비아)
`es-CR`	스페인어(코스타리카)
`es-CU`	스페인어(쿠바)
`es-DO`	스페인어(도미니카 공화국)
`es-EC`	스페인어(에콰도르)
`es-GT`	스페인어(과테말라)
`es-HN`	스페인어(온두라스)
`es-NI`	스페인어(니카라과)
`es-PA`	스페인어(파나마)
`es-PE`	스페인어(페루)
`es-PR`	스페인어(푸에르토리코)
`es-PY`	스페인어(파라과이)
`es-SV`	스페인어(엘살바도르)
`es-US`	스페인어(미국)
`es-UY`	스페인어(우루과이)
`es-VE`	스페인어(베네수엘라)
`hu-HU`	헝가리어(헝가리)

2025년 6월 릴리스

인공신경망 텍스트 음성 변환 3.11.0

뉴럴 텍스트 음성 변환 버전 3.11.0을 릴리스했습니다.

새 신경망 음성에 대한 지원 추가: de-DE-SeraphinaMultilingualNeural, es-ES-XimenaMultilingualNeural, fi-FI-SelmaNeuralnb-NO-FinnNeural.
다국어 사용자 지정 어휘에 대한 지원이 추가되었습니다.

2025년 5월 릴리스

최신 모델 버전에 대한 지원 추가:

인공신경망 텍스트 음성 변환 3.10.0

텍스트 음성 변환의 경우:

텍스트를 음성 백 엔드로 업데이트하고 프런트 엔드 엔진을 최신 버전으로 업데이트했습니다.
다국어 사용자 지정 어휘에 대한 지원이 추가되었습니다.
상태 검사 기능이 향상되었습니다. 이제 상태 검사 엔드포인트는 /synthesize/health입니다. 서비스가 정상이면 이 엔드포인트는 HTTP 상태 200을 반환합니다. 서비스가 비정상이면 HTTP 상태 503을 반환합니다.
2025년 3월/4월 Microsoft ASP.NET 핵심 보안 업데이트의 보안 취약성을 해결하기 위해 기본 이미지를 AspNet 8.0.16으로 업데이트했습니다.

2025년 3월 릴리스

최신 모델 버전에 대한 지원 추가:

인공신경망 텍스트 음성 변환 3.9.0
음성 텍스트 변환 5.0.1(미리 보기)
사용자 지정 음성 텍스트 변환 5.0.1(미리 보기)

음성 텍스트 변환 및 사용자 지정 음성 텍스트 변환의 경우 다음 기능이 포함됩니다.

새 음성 텍스트 변환 모델 지원
Azure Linux 3.0으로 운영 체제 변경
새 로캘 지원: ar-dz, as-in, es-gq or-in, pa-in 및 ur-in
디코더 업데이트
컨테이너에서 최신 사용자 지정 모델(2023 이상)을 사용하는 기능

텍스트 음성 변환의 경우 새 신경망 음성에 대한 지원을 추가했습니다. en-GB-OliviaNeuralen-US-ChristopherNeuralnl-NL-FennaNeural

2025년 2월 릴리스

최신 모델 버전에 대한 지원 추가:

음성 언어 식별 1.18.0
인공신경망 텍스트 음성 변환 3.7.0
음성 텍스트 변환 4.12.0
사용자 지정 음성 텍스트 변환 4.12.0

릴리스의 주요 내용은 다음과 같습니다.

기능 업데이트	음성 텍스트 변환	사용자 지정 음성 텍스트 변환	인공신경망 텍스트 음성 변환	음성 언어 식별
취약성 수정	✅	✅	✅	✅
Ubuntu 20.04에서 Ubuntu 22.04로 OS 마이그레이션	✅	✅	✅	✅
새 로캘: ar-ly, fr-be, nl-be 및 uz-uz	✅	✅
업데이트된 nuget 패키지, Go 버전	✅	✅
모델 다운로드 시간을 줄이기 위해 모델 다운로드 병렬 처리 추가	✅	✅	✅

2024년 10월 릴리스

최신 모델 버전에 대한 지원 추가:

음성 언어 식별 1.16.0
신경망 텍스트 음성 변환 3.5.0
- en-us-ariacpuneural을(를) en-us-jessacpuneural의 별칭으로 만들기
- 텍스트를 음성 백 엔드 엔진 버전으로 업데이트
음성 텍스트 변환 4.10.0
- 로캘 지원 복원 uk-UA
- 오디오에서 오랜 기간 침묵으로 작동하도록 무음 설정 수정
- 사용되지 않는 모델 바꾸기: cs-CZ,da-DK, en-GB, fr-CAhu-HU, it-CH, tr-TRzh-CN-sichuan
텍스트로 사용자 지정 음성 변환 4.10.0

2024년 9월 릴리스

최신 모델 버전에 대한 지원 추가:

음성 언어 식별 1.15.0
- 취약성 완화
인공신경망 텍스트 음성 변환 3.4.0
- 새 음성: en-us-andrewmultilingualneural, en-us-jessaneural, es-us-alonsoneural, es-us-palomaneural, it-it-isabellamultilingualneural
- 취약성 완화
음성 텍스트 변환 4.9.0
- 새 로케일: ar-YE, af-ZA, am-ET, ar-MA, ar-TN, sw-KE, sw-TZ, zu-ZA
- 취약성 완화
- 사용되지 않는 모델 업데이트
사용자 지정 음성 텍스트 변환 4.9.0
- 취약성 완화

2024-8월 출시

최신 모델 버전에 대한 지원 추가:

음성 언어 식별 1.14.0
- .NET 8.0 업그레이드
- 취약성 완화
인공신경망 텍스트 음성 변환 3.3.0
- .NET 8.0 업그레이드
- 취약성 완화
음성 텍스트 변환 4.8.0
- .NET 8.0 업그레이드
- 취약성 완화
- 인식 엔진 업그레이드
- PropertyId.Speech_SegmentationSilenceTimeoutMs가 무시되는 문제를 해결합니다.
- 사용되지 않는 모델 업데이트
- uk-UA 로캘 제거

2024년 2월 릴리스

최신 모델 버전에 대한 지원 추가:

사용자 지정 음성 텍스트 변환 4.6.0
음성 텍스트 변환 4.6.0
인공신경망 텍스트 음성 변환 3.1.0

음성 텍스트 변환 구성 요소를 최신 버전으로 업그레이드합니다. 모든 es 로캘 모델을 최신 모델로 업그레이드합니다. 음성 텍스트 변환 사용 사례에 대한 미디어 변환 버퍼를 늘립니다.

2023년 11월 릴리스

최신 모델 버전에 대한 지원 추가:

사용자 지정 음성 텍스트 변환 4.5.0
음성 텍스트 변환 4.5.0
인공신경망 텍스트 음성 변환 2.19.0

2023년 10월 릴리스

최신 모델 버전에 대한 지원 추가:

사용자 지정 음성 텍스트 변환 4.4.0
음성 텍스트 변환 4.4.0
인공신경망 텍스트 음성 변환 2.18.0

여러 가지 고위험 취약성 문제를 해결합니다.

컨테이너에서 중복 로그를 제거합니다.

내부 미디어 구성 요소를 최신으로 업그레이드합니다.

음성 en-IN-NeerjaNeural에 대한 지원을 추가합니다.

2023-9월 릴리스

최신 모델 버전에 대한 지원 추가:

음성 언어 식별 1.12.0
사용자 지정 음성 텍스트 변환 4.3.0
음성 텍스트 변환 4.3.0
인공신경망 텍스트 음성 변환 2.17.0

사용자 지정 음성 텍스트 변환 및 음성 텍스트 변환을 최신 프레임워크로 업그레이드합니다.

취약성 문제를 수정했습니다.

음성 ar-AE-FatimaNeural에 대한 지원을 추가합니다.

2023년 7월 릴리스

최신 모델 버전에 대한 지원 추가:

사용자 지정 음성 텍스트 변환 4.1.0
음성 텍스트 변환 4.1.0
신경망 텍스트 음성 변환 2.15.0

로컬 사용자 지정 모델 파일과 함께 docker 탑재 옵션을 통해 음성 텍스트 변환 컨테이너를 실행하는 문제를 수정합니다.

경우에 따라 RECOGNIZING 이벤트가 음성 SDK를 통해 응답으로 표시되지 않는 문제를 해결합니다.

취약성 문제를 수정했습니다.

2023년 6월 릴리스

최신 모델 버전에 대한 지원 추가:

사용자 지정 음성 텍스트 변환 4.0.0
음성 텍스트 변환 4.0.0
신경망 텍스트 음성 변환 2.14.0

온-프레미스 음성 텍스트 변환 이미지가 .NET 6.0으로 업그레이드됩니다.

en-us, ar-eg, ar-bh, ja-jp, ko-kr 등을 포함한 로캘에 대한 표시 모델을 업그레이드합니다.

취약성 문제를 해결하려면 음성 텍스트 변환 컨테이너 구성 요소를 업그레이드합니다.

로캘 음성 de-DE-AmalaNeural,de-AT-IngridNeural,de-AT-JonasNeural 및 en-US-JennyMultilingualNeural에 대한 지원 추가

2023년 5월 릴리스

최신 모델 버전에 대한 지원 추가:

사용자 지정 음성 텍스트 변환 3.14.0
음성 텍스트 변환 3.14.0
신경망 텍스트 음성 변환 2.13.0

he-IL 문장 부호 문제 수정

취약성 문제 수정

새 로캘 음성 추가 en-US-MichelleNeural및 es-MX-CandelaNeural

2023년 4월 릴리스

보안 업데이트

취약성 문제 수정

2023년 3월 릴리스

최신 모델 버전에 대한 지원 추가:

사용자 지정 음성 텍스트 변환 3.12.0
음성 텍스트 변환 3.12.0
음성 언어 식별 1.11.0
인공신경망 텍스트 음성 변환 2.11.0

취약성 문제 수정

tr-TR의 대문자화 문제 수정

en-US 표시 모델의 음성을 텍스트로 변환 기능을 업그레이드하세요.

표준 음성에 ar-AE-HamdanNeural 대한 지원을 추가합니다.

2023년 2월 릴리스

새 컨테이너 버전

최신 모델 버전에 대한 지원을 추가합니다.

사용자 지정 음성 텍스트 변환 3.11.0
음성 텍스트 변환 3.11.0
인공신경망 텍스트 음성 변환 2.10.0

취약성 문제 수정

음성 모델에 대한 정기 업그레이드

새 아랍어 로캘 추가:

AR-IL
ar-PS

히브리어 및 터키어 디스플레이 모델 업그레이드

2023년 1월 릴리스

새 컨테이너 버전

최신 모델 버전에 대한 지원을 추가합니다.

사용자 지정 음성 텍스트 변환 3.10.0
음성 텍스트 변환 3.10.0
신경망 텍스트 음성 변환 2.9.0

가설 모드 문제 수정

HTTP 프록시 문제 수정

사용자 지정 음성 텍스트 변환 컨테이너 연결 끊김 모드

TTS 프런트 엔드에 CNV 연결 끊김 컨테이너 지원 추가

다음 로캘 음성에 대한 지원을 추가합니다.

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

2022년 12월 릴리스

새 컨테이너 버전

최신 모델 버전에 대한 지원을 추가합니다.

사용자 지정 음성 텍스트 변환 3.9.0
음성 텍스트 변환 3.9.0
신경망 기반 텍스트 음성 변환 2.8.0

ipv4/ipv6 문제 수정

취약성 문제 수정

2022년 11월 릴리스

새 컨테이너 버전

최신 모델 버전에 대한 지원을 추가합니다.

사용자 지정 음성 텍스트 변환 3.8.0
음성 텍스트 변환 3.8.0
뉴럴 텍스트 음성 변환 2.7.0

2022년 10월 릴리스

새 컨테이너 버전

최신 모델 버전에 대한 지원을 추가합니다.

사용자 지정 음성 텍스트 변환 3.7.0
음성 텍스트 변환 3.7.0
신경망 기반 텍스트 음성 변환 2.6.0

2022년 9월 릴리스

음성 텍스트 변환 3.6.0-amd64

최신 모델 버전에 대한 지원을 추가합니다.

다음 로캘에 대한 지원을 추가합니다.

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
글-이스
he-il
하이암
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-사천

정기적인 월별 업데이트입니다(보안 업그레이드 및 취약성 수정 포함).

사용자 지정 음성 텍스트 변환 3.6.0-amd64

정기적인 월별 업데이트입니다(보안 업그레이드 및 취약성 수정 포함).

인공신경망 텍스트 음성 변환 v2.5.0

다음 표준 음성에 대한 지원을 추가합니다.

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

정기적인 월별 업데이트입니다(보안 업그레이드 및 취약성 수정 포함).

2022년 5월 릴리스

음성-언어-감지 컨테이너 v1.9.0-amd64-preview

speech-language-detection에 대한 버그 수정.

2022년 3월 릴리스

사용자 지정 음성 텍스트 변환 컨테이너 v3.1.0

디스플레이 모델 가져오기 지원을 추가합니다.

2022년 1월 릴리스

음성 텍스트 변환 컨테이너 v3.0.0

연결이 끊긴 환경에서 컨테이너 사용에 대한 지원을 추가합니다.

음성 텍스트 변환 컨테이너 v2.18.0

정기적인 월별 업데이트입니다(보안 업그레이드 및 취약성 수정 포함).

신경망 기반 텍스트 음성 변환 컨테이너 v1.12.0

다음 표준 음성에 대한 지원을 추가합니다. am-et-amehaneuralam-et-mekdesneuralso-so-muuseneuralso-so-ubaxneural

정기적인 월별 업데이트입니다(보안 업그레이드 및 취약성 수정 포함).

다음을 통해 공유

Azure AI 음성의 새로운 기능은 무엇인가요?

최근 강조 표시

릴리스 정보

Speech SDK 1.44.1: 패치 릴리스

버그 수정

Speech SDK 1.44: 2025-5월 릴리스

새로운 기능:

버그 수정

샘플

JavaScript용 Speech SDK

새로운 기능:

버그 수정

음성 CLI(SPX)

새로운 기능

버그 수정

Speech SDK 1.43: 2025-3월 릴리스

새로운 기능:

버그 수정

샘플

Speech SDK 1.42.0: 2024-12월 릴리스

새로운 기능

버그 수정

샘플

2024년 11월 릴리스

Visual Studio Code용 Azure AI Speech Toolkit 확장

텍스트 음성 변환 아바타 코드 샘플

Speech SDK 1.41.1: 2024-10월 릴리스

새로운 기능

버그 수정

주요 변경 내용

Speech SDK 1.40: 2024년 8월 릴리스

새로운 기능

버그 수정

샘플

Speech SDK 1.38.0: 2024년 6월 릴리스

새로운 기능

버그 수정

샘플

Speech SDK 1.37.0: 2024년 4월 릴리스

새로운 기능

버그 수정

샘플

Speech SDK 1.36.0: 2024-3월 릴리스

새로운 기능

버그 수정

샘플

Speech SDK 1.35.0: 2024년 2월 릴리스

새로운 기능

버그 수정

샘플

Speech SDK 1.34.1: 2024년 1월 릴리스

주요 변경 내용

새로운 기능

버그 수정

Speech SDK 1.34.0: 2023년 11월 릴리스

주요 변경 내용

새로운 기능

버그 수정

샘플

Speech CLI 1.34.0: 2023년 11월 릴리스

새로운 기능

버그 수정

Speech SDK 1.33.0: 2023년 10월 릴리스

호환성이 손상되는 변경 알림

새로운 기능

버그 수정

샘플

Speech CLI 1.33.0: 2023년 10월 릴리스

새로운 기능

버그 수정

Speech SDK 1.32.1: 2023년 9월 릴리스

버그 수정

샘플

Speech SDK 1.31.0: 2023년 8월 릴리스

새로운 기능

주요 변경 내용

버그 수정

샘플

Speech SDK 1.30.0: 2023년 7월 릴리스