Azure Speech는 지속적으로 업데이트됩니다. 최신 개발 정보를 항상 파악할 수 있게 이 문서에서는 새 릴리스 및 기능 관련 정보를 제공합니다.
중요한
Speech SDK를 통한 콘텐츠 평가(미리 보기)는 2025년 7월에 사용 중지되었습니다. 대신 Azure OpenAI 모델을 사용하여 관련 평가 설명서 설명된 대로 콘텐츠 평가 결과를 가져올 수 있습니다.
Speech SDK 1.48.2: 2026-2월 릴리스
중요한
이 릴리스에는 Linux 및 Android에서 CRL(인증서 해지 목록) 분할에 대한 중요한 수정 사항이 포함되어 있습니다. CRL 검사를 사용하도록 설정된 플랫폼 중 하나를 사용하는 경우 2026년 7월 1일 이전에 1.48.2로 업그레이드합니다. 자세한 내용은 CRL 호환성 업데이트를 참조하세요.
버그 수정:
- 분할된 CRL을 올바르게 처리하기 위해 Linux 및 Android에서 CRL 캐시 키 논리가 수정되었습니다. 이제 SDK는 발급자 이름과 CRL 배포 지점을 모두 캐시 키로 사용하여 Azure 지역에서 연결하거나 인증서 회전 후에
X509_V_ERR_DIFFERENT_CRL_SCOPE(오류 44) 오류를 방지합니다.
- CRL 검사가 사용하도록 설정된 경우 Linux 및 Android에서 인증서 회전 후 잠재적인 연결 오류가 해결되었습니다.
Speech SDK 1.48.1: 2026-2월 릴리스
대상 플랫폼 지원에 대한 참고 사항:
- Android x86 지원은 이 릴리스 후에 삭제됩니다.
새로운 기능:
- Linux 및 Android에서 기본적으로 CRL을 사용하지 않도록 설정합니다.
- 향상된 네트워크 오류 처리 및 로깅
- 큰 구 목록의 생성 시간을 최적화했습니다.
-
Java: 음성 합성 입력 텍스트 스트리밍에 대한 지원이 추가되었습니다.
-
Java: JNI 메모리 관리가 향상되었습니다.
-
자바 스크립트: 인식 대기 시간 메트릭 - 이제 인식 결과에는 오디오 입력에서 결과로 종단 간 대기 시간을 측정하는 SpeechServiceResponse_RecognitionLatencyMs 속성이 포함됩니다.
-
자바 스크립트: 인식자에 대한 시간 제한 중지 - 새 Recognizer_StopTimeoutMs 속성을 사용하면 stopContinuousRecognitionAsync()에 대한 시간 제한 보호를 사용할 수 있습니다. 설정된 경우 지정된 시간 내에 서비스가 완료되지 않으면 무기한 대기하지 않고 작업이 즉시 취소됩니다.
-
자바 스크립트: 아바타 장면 구성 - 새 AvatarSceneConfig 클래스를 사용하면 아바타 확대/축소, 위치(X/Y), 회전(X/Y/Z) 및 진폭을 구성할 수 있습니다. AvatarSynthesizer.updateSceneAsync()를 통해 런타임에 장면을 업데이트할 수 있습니다.
버그 수정:
- 로깅을 사용할 때 받아쓰기 모드에서 충돌이 해결되었습니다.
- 네트워크 스택에서 CRL 관련 메모리 누수 해결
- 임베디드 음성 인식에서 성능 카운터 데이터가 누락되는 문제를 수정했습니다.
- 내장형 음성 합성 시스템에서 구두점에 따른 일정한 침묵 구간의 매핑
- 하이브리드 음성 합성에서의 고정 단어 경계 캐싱
-
자바 스크립트: 이제 자동 원본 언어 검색은 비어 있거나 비어 있는 "from" 언어 매개 변수를 허용합니다.
-
JavaScript: 향상된 Azure ID 통합을 위해 SDK 종속성으로 @azure/core-auth 추가되었습니다.
Samples:
Java, Python: 보안 취약성을 해결하기 위해 여러 종속성의 업데이트된 버전입니다.
Speech SDK 1.47: 2025-11월 릴리스
새로운 기능:
- Linux 클라이언트에서 온라인 인증서 해지 정보에 액세스할 수 없도록 네트워크 조건으로 인해 오류를 무시하도록 기본 정책을 변경했습니다.
- [JavaScript] 사진 아바타의 기본 모델 이름을 지정하는 지원이 추가되었습니다.
버그 수정:
샘플 업데이트:
- 서비스 사용 중지로 인해 의도 인식 샘플(C++에서 의도 인식의 독립 실행형 구현 제외)이 제거되었습니다.
- 서비스 사용 중지로 인해 스피커 인식 샘플이 제거되었습니다.
- 마지막 Speech SDK Unity 패키지가 1.44 릴리스에 게시되어 더 이상 직접적인 지원이 없기 때문에 Unity 샘플이 제거되었습니다.
주요 변경 내용:
- 서비스 사용 중지로 인한 의도 인식 지원이 제거되었습니다.
- 서비스 사용 중지로 인해 화자 인식 지원이 제거되었습니다.
Speech SDK 1.46: 2025-9월 릴리스
새로운 기능:
-
Speech_StartEventSensitivity 속성을 사용하여 음성 시작 이벤트 민감도에 대한 지원이 추가되었습니다.
- 사용되지 않는
SpeechServiceConnection_EndSilenceTimeoutMs 속성입니다.
- 발음 평가에서 콘텐츠 평가 기능을 사용 중지했습니다.
- Android OpenSSL을 3.0.17로 업데이트했습니다.
- 메모리 사용량 증가를 방지하기 위해 원격 분석 큐에 크기 제한을 추가했습니다.
- 잠재적인 IO 중단을 방지하기 위해 TTS에서 캐시 읽기를 위한 시간 제한 가드가 추가되었습니다.
- URL 리디렉션 캐시 동작을 제어하는 구성 가능한 속성이 추가되었습니다.
- [C#] EventSource 기반 로깅에 대한 지원이 추가되었습니다.
- [Python] AzureKeyCredential 인증에 대한 지원이 추가되었습니다.
버그 수정
- 포함된 텍스트 음성 변환에서 ja-JP 발음 문제가 해결되었습니다.
- 포함된 음성 텍스트 변환에서 오랜 기간 동안 메모리 사용량이 눈에 띄는 증가를 수정했습니다.
- 인식 중지 시간 초과 중에 발생한 경합 상태로 인한 충돌을 수정했습니다.
- [JavaScript] Docker 컨테이너 서비스에서 작동하지 않는 문제를 해결
fromHost 했습니다.
샘플
-
AzureKeyCredential 및 Microsoft Entra ID token credential 인증의 사용을 보여 주는 샘플을 업데이트했습니다.
- [JavaScript, Python]
fromEndpoint 사용하도록 샘플을 업데이트했습니다.
Speech SDK 1.45: 2025년 7월 릴리스
새로운 기능:
- 구 목록 문법 가중치 설정에 대한 지원이 추가되었습니다.
- 보다 구체적인 파일 열기 오류 코드가 추가되었습니다.
- SDK Windows DLL을 ASCII가 아닌 경로 아래에 배치할 수 있도록 유니코드 경로 지원이 업데이트되었습니다.
- 서비스 논리에 맞게 분할 전략 속성에 대한 설명이 업데이트되었습니다.
- [C#, Java] ApiKeyCredential을 사용하는 인증에 대한 지원이 추가되었습니다.
버그 수정
샘플
- [Java] Microsoft Entra ID 토큰 자격 증명 인증을 보여 주는 샘플 코드가 추가되었습니다.
Speech SDK 1.44.1: 패치 릴리스
SDK 버전 1.44.1은 4개의 버그 수정을 통해서만 JavaScript용으로 릴리스됩니다.
버그 수정
- 세분화 컨트롤 매개 변수가 하나만 제공된 경우 범위를 벗어난 예외가 수정되었습니다.
- enableDictation이 Speech Service에 올바르게 전달되지 않았습니다.
- ConversationTranscriber는 fromEndpoint 메서드를 사용하여 만들 때 올바른 URL 경로를 사용하지 않았습니다.
- 데이터가 분리된 후 입력 스트림으로 푸시될 때 발생하는 오류를 수정했습니다.
Speech SDK 1.44: 2025-5월 릴리스
중요한
대상 플랫폼에 대한 지원이 변경되고 있습니다.
- 지원되는 최소 Android 버전은 이제 Android 8.0(API 수준 26)입니다.
- Speech SDK Unity 패키지의 게시는 이 릴리스 후에 일시 중단됩니다.
새로운 기능:
- Android 16KB 메모리 페이지 크기에 대한 지원이 추가되었습니다.
- 포함된 음성 인식에서 SpeechStartDetected 이벤트의 대기 시간을 줄입니다.
- [C++, Python] AudioDataStream의 사용 가능한 크기를 가져오는 메서드를 추가했습니다.
- [C++, Python] 음성 합성 요청에서 사용자 지정 어휘 URL 및 기본 설정 로캘에 대한 지원이 추가되었습니다.
- [Java, Python] 자동 토큰 새로 고침을 사용하여 Microsoft Entra 토큰 기반 인증에 대한 지원이 추가되었습니다.
- [이동] 대화 내용 기록에 대한 지원이 추가되었습니다.
버그 수정
샘플
- [Python] Microsoft Entra 토큰 자격 증명을 사용하여
recognizer 대한 샘플 코드가 추가되었습니다.
JavaScript용 Speech SDK
새로운 기능:
- 업데이트된 개발 종속성: TypeScript 3.5.3 → 4.5
- 기본적으로 V2 엔드포인트를 사용하도록 TranslationRecognizer가 업데이트되었습니다.
- V2 엔드포인트를 사용하도록 SpeechRecognizer가 업데이트되었습니다.
- 이로 인해 NoMatch 결과가 더 이상 수신되지 않습니다.
- 음성 인식 및 번역에 대한 Microsoft Entra 토큰 기반 인증에 대한 지원이 추가되었습니다.
- 대부분의 시나리오에서 SpeechConfig를 생성하는 데 권장되는 방법으로 FromEndpoint API가 업데이트되었습니다.
- 사용할 때 적용됨:
- 음성인식기
- TranslationRecognizer(SpeechTranslationConfig를 통해)
- 대화 기록기
- 음성 합성기
- 이제 Speech 및 Microsoft Foundry 리소스에 대한 Azure 포털의 엔드포인트를 사용하여 SpeechConfig 개체를 생성할 수 있습니다.
- SpeechConfig를 생성하는 다른 모든 메서드는 계속 작동하며 지원됩니다.
버그 수정
Speech SDK 1.43: 2025-3월 릴리스
새로운 기능:
- 대부분의 시나리오에서 SpeechConfig를 생성하는 데 권장되는 방법으로 FromEndpoint API가 업데이트되었습니다.
- 사용할 때 적용됨:
- 음성인식기
- TranslationRecognizer(SpeechTranslationConfig를 통해)
- 대화 기록기
- 모든 프로그래밍 언어에서 SpeechSynthesizer를 사용할 수 있으며, JavaScript는 예외입니다.
- 이제 Speech 및 Cognitive Services 리소스에 대한 Azure 포털의 엔드포인트를 사용하여 SpeechConfig 개체를 생성할 수 있습니다.
- SpeechConfig를 생성하는 다른 모든 메서드는 계속 작동하며 지원됩니다.
- 기본적으로 V2 엔드포인트를 사용하도록 TranslationRecognizer가 업데이트되었습니다.
- 이렇게 하면 V2 엔드포인트를 사용할 때 URL에서 채널 내 메시지로 컨트롤 매개 변수가 이동합니다.
- 동작 변경: "zh"에 대해 반환되는 기본 언어는 이제 "zh-hans" 대신 "zh-CN"입니다.
- SpeechSynthesis_FrameTimeoutInterval 및 SpeechSynthesis_RtfTimeoutThreshold 대한 속성 ID가 추가되었습니다.
- SDK가 장기 실행 인식에 다시 연결하는 횟수를 최적화했습니다.
- [C++, Python] 텍스트 스트리밍 요청에서 스타일 및 온도를 지정하기 위한 지원이 추가되었습니다.
- [C#] FromEndpoint를 사용하여 구성 개체를 생성할 때 자동 Microsoft Entra ID 토큰 새로 고침에 대한 지원이 추가되었습니다.
- Speech SDK에서 Azure.Core NuGet 패키지에 대한 종속성을 추가합니다.
- 이제 Speech SDK는 다음을 사용할 때 인증을 위해 TokenCredential 파생 개체를 수락할 수 있습니다.
- [Objective-C] 오픈 범위에서 원본 언어 자동 검색을 지원하도록 SPXTranslationRecognizer가 업데이트되었습니다.
- [Objective-C , Python] 진단 API EventLogger, FileLogger 및 MemoryLogger가 추가되었습니다.
- [Go]: TranslationRecognizer 지원 추가됨
버그 수정
샘플
- [C++] 패턴 일치를 사용하여 독립 실행형 의도 인식에 대한 샘플이 추가되었습니다.
- 2025년 10월 LUIS 서비스가 사용 중지되면 Speech SDK도 IntentRecognizer 개체 패밀리를 사용 중지합니다.
- 그 전에는 패턴 일치를 위한 구현을 공유하려고 했습니다.
- [C++, C#, Java, Python] FromSubscription 대신 FromEndpoint API를 사용하도록 대부분의 샘플을 업데이트했습니다.
- [C#] 다중 계층 음성 인식 애플리케이션에 대한 시나리오 샘플이 추가되었습니다.
- 에지 디바이스에서 중간 계층 서비스로 오디오 재생 및 다시 연결하여 음성 SDK를 통해 음성 서비스에 오디오를 전달하는 방법을 보여 줍니다.
- [C#] 자동 Microsoft Entra ID 토큰 새로 고침을 사용하도록 샘플을 업데이트했습니다.
- [Python] 새 진단 API에 대한 샘플이 추가되었습니다.
- [Unity] 새로운 Azure.Core 종속성 설치에 대한 지침이 추가되었습니다.
Speech SDK 1.42.0: 2024-12월 릴리스
새로운 기능
- Java: FileLogger, MemoryLogger, EventLogger 및 SpxTrace 클래스를 사용하여 진단 로깅 API를 추가했습니다.
- 모임 참가자의 JSON 속성 "세부 정보"를 서비스에 보내는 지원
- Go: 프록시가 사용되지 않는 호스트를 지정하는 SpeechServiceConnection_ProxyHostBypass 공용 속성 ID가 추가되었습니다.
- JavaScript, Go: 공용 속성 ID Speech_SegmentationStrategy를 추가하여 음성 구가 종료되고 최종 인식 결과를 생성해야 하는 경우(의미 체계 구분 포함) 결정할 수 있습니다.
- JavaScript, Go: Java, Python, C#, C++의 시간에 따라 음성 구의 끝을 결정하는 Speech_SegmentationMaximumTimeMs 공용 속성 ID가 추가됨
버그 수정
- 음성 이름이 설정되지 않은 경우 모든 합성에 대해 포함된 TTS 음성이 (다시) 로드되는 문제가 수정되었습니다.
- 일부 시나리오에서 MeetingTranscriber를 사용할 때 오프셋 계산 문제가 해결되었습니다.
- 여러 진단 이벤트 수신기를 병렬로 등록할 때 발생할 수 있는 교착 상태를 수정했습니다.
- (JavaScript) 오디오가 끝날 때 NoMatch 결과가 손실될 수 있는 문제가 수정되었습니다. 또한 이 수정은 음성 끝의 동작을 다른 SDK 언어와 정렬하며 일부 빈 이벤트가 더 이상 발생하지 않을 수 있습니다.
- (JavaScript) 결과 JSON의 오프셋을 수정하여 결과 개체의 오프셋과 맞춥니다. 이전에는 결과 개체의 오프셋 속성만 서비스 다시 연결을 고려하여 수정되었습니다.
- Go 언어: 컴파일 오류 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639 수정
- 서비스에 다시 연결될 때 모임 대화 내용 기록에서 결과 오프셋이 수정되었습니다.
- 로깅에서 교착 상태가 수정되었습니다.
샘플
- .NET 8.0을 사용하도록 C# 샘플을 업데이트했습니다.
- Java 샘플에서는 새 진단 로깅 클래스의 사용을 보여 주는 진단 로깅 API를 사용합니다.
2024년 11월 릴리스
이제 Visual Studio Code 사용자가 Azure Speech Toolkit 확장을 사용할 수 있습니다. 간단한 클릭으로 쉽게 빌드하고 실행할 수 있는 음성 빠른 시작 및 시나리오 샘플 목록이 포함되어 있습니다. 자세한 내용은 Visual Studio Code Marketplace의 Azure Speech Toolkit 참조하세요.
텍스트 음성 변환 아바타 코드 샘플
Android 및 iOS 대한 음성 아바타 코드 샘플에 텍스트를 추가했습니다. 이러한 샘플에서는 실시간 텍스트를 사용하여 모바일 애플리케이션에서 아바타를 음성으로 변환하는 방법을 보여 줍니다.
Speech SDK 1.41.1: 2024-10월 릴리스
새로운 기능
- Amazon Linux 2023 및 Azure Linux 3.0에 대한 지원이 추가되었습니다.
- 프록시가 사용되지 않는 호스트를 지정하는 공용 속성 ID SpeechServiceConnection_ProxyHostBypass 추가되었습니다.
- 새 구 세분화 전략을 제어하는 속성이 추가되었습니다.
버그 수정
- 2024년 8월 이후에 생성된 키워드 인식 고급 모델에 대한 불완전한 지원이 수정되었습니다.
- 문자열 사용과 관련된 C#의 메모리 누수 수정
- Objective-C 및 Swift의 SPXConversationTranscriptionResult에서 SPXAutoDetectSourceLanguageResult를 가져올 수 없음을 수정했습니다.
- 인식에서 Microsoft Audio Stack을 사용할 때 가끔 발생하는 충돌을 해결했습니다.
- Python에서 형식 힌트를 수정했습니다.
https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- 사용자 지정 엔드포인트를 사용할 때 TTS 음성 목록을 가져올 수 없음을 수정했습니다.
- 음성이 짧은 이름으로 지정될 때 모든 음성 요청에 대해 포함된 TTS 다시 초기화가 수정되었습니다.
- RecognizeOnce 오디오의 최대 기간에 대한 API 참조 설명서를 수정했습니다.
- JavaScript에서 임의 샘플링 속도를 처리하는 동안 오류가 수정됨
- JavaScript에서 오디오 오프셋을 계산하는 동안 오류가 해결됨
주요 변경 내용
- 이 플랫폼에 사용할 수 없는 필수 ONNX 런타임으로 인해 Windows ARM 32비트에서 키워드 인식 지원이 제거되었습니다.
Speech SDK 1.40: 2024년 8월 릴리스
참고
Speech SDK 버전 1.39.0은 내부적으로 릴리스되었고, 누락되지 않았습니다.
새로운 기능
- 음성 인식에서
G.722 압축 오디오 스트리밍에 대한 지원이 추가되었습니다.
- 음성 합성에서 입력 텍스트 스트리밍의 피치, 속도, 볼륨 설정에 대한 지원이 추가되었습니다.
- 음성 합성에
PersonalVoiceSynthesisRequest를 도입하여 개인 음성 입력 텍스트 스트리밍에 대한 지원이 추가되었습니다. 이 API는 미리 보기 상태이며, 이후 버전에서 변경될 수 있습니다.
-
ConversationTranscriber를 사용할 때 중간 결과의 다이어리화에 대한 지원이 추가되었습니다.
- CentOS 7 지원 종료 및 RHEL 7 유지 관리 지원 2 종료로 인해 CentOS/RHEL 7 지원이 제거되었습니다.
- 포함된 음성 모델을 사용하려면 이제 모델 키 대신 모델 라이선스가 필요합니다. 사용자가 기존의 포함된 음성 고객이고 업그레이드하려는 경우 Microsoft의 지원 담당자에게 모델 업데이트에 대한 자세한 내용을 문의하세요.
버그 수정
샘플
- 포함된 음성 샘플이 키 대신 모델 라이선스를 사용하도록 업데이트되었습니다.
Speech SDK 1.38.0: 2024년 6월 릴리스
새로운 기능
- Speech SDK Linux 플랫폼 업그레이드 요구 사항:
- 새 최소 기준은 Ubuntu 20.04 LTS이거나
glibc 2.31 이상과 호환됩니다.
- Linux x86용 이진 파일은 Ubuntu 20.04 플랫폼 지원에 따라 제거됩니다.
-
RHEL/CentOS 7은 6월 30일까지 계속 지원됩니다(CentOS 7 종료 및 RHEL 7 유지 관리 지원 2 종료). 이진 파일은 Speech SDK 1.39.0 릴리스에서 제거될 예정입니다.
- Linux에서 OpenSSL 3에 대한 지원을 추가합니다.
- 음성 신시사이저를 사용하여 g722-16khz-64kbps 오디오 출력 형식에 대한 지원을 추가합니다.
- 음성 신시사이저를 사용하여 연결 개체를 통해 메시지를 보내는 지원을 추가합니다.
- Objective-C 및 Swift에서 Start/StopKeywordRecognition API를 추가합니다.
- 사용자 지정 변환 모델 범주를 선택하기 위한 API를 추가합니다.
- 음성 신시사이저를 사용하여 GStreamer 사용을 업데이트합니다.
버그 수정
- Start/StopKeywordRecognition 중에 "Websocket 메시지 크기가 65,536바이트를 초과할 수 없음" 오류를 수정합니다.
- 음성 합성 중에 Python 구분 오류를 수정합니다.
샘플
- 기본적으로 .NET 6.0을 사용하도록 C# 샘플을 업데이트합니다.
Speech SDK 1.37.0: 2024년 4월 릴리스
새로운 기능
- 음성 합성에서 입력 텍스트 스트리밍에 대한 지원을 추가합니다.
- 기본 음성 합성 음성을 en-US-AvaMultilingualNeural로 변경합니다.
- OpenSSL 3.x를 사용하도록 Android 빌드를 업데이트합니다.
버그 수정
샘플
Speech SDK 1.36.0: 2024-3월 릴리스
새로운 기능
- AutoDetectSourceLanguageConfig::FromOpenRange()를 사용하여 v2 엔드포인트에서 다국어 번역에서 언어 식별에 대한 지원을 추가합니다.
버그 수정
SynthesisStarted 이벤트 중에 중지가 호출되면 SynthesisCanceled 이벤트가 발생하지 않는 문제를 해결합니다.
포함된 음성 합성에서 노이즈 문제를 해결합니다.
여러 인식기를 병렬로 실행할 때 포함된 음성 인식의 충돌을 수정합니다.
v1/v2 엔드포인트에서 구문 감지 모드 설정을 수정합니다.
Microsoft Audio Stack의 다양한 문제를 해결합니다.
샘플
Speech SDK 1.35.0: 2024년 2월 릴리스
새로운 기능
- 기본 텍스트 음성 변환을 en-US-JennyMultilingualNeural에서 en-US-AvaNeural 목소리로 변경합니다.
- 자세한 출력 형식을 사용하여 포함된 음성 번역 결과에서 단어 수준의 세부 정보를 지원합니다.
버그 수정
- Python AudioDataStream 위치 가져오기 API 수정을 진행합니다.
- 언어 감지 없이 v2 엔드포인트를 사용하여 음성 번역이 수정되었습니다.
- 내장된 텍스트 음성 변환 시스템에서 임의의 크래시 및 중복 단어 경계 이벤트를 수정합니다.
- WebSocket 연결의 내부 서버 오류에 대한 올바른 취소 오류 코드를 반환합니다.
- MAS가 C#과 함께 사용될 때 FPIEProcessor.dll 라이브러리를 로드하지 못하는 문제가 수정되었습니다.
샘플
- 포함된 인식 샘플 서식이 사소하게 업데이트되었습니다.
Speech SDK 1.34.1: 2024년 1월 릴리스
주요 변경 내용
새로운 기능
버그 수정
- 1.34.0에 도입된 회귀 문제(몇몇 중국 지역의 사용자에 대해 잘못된 로캘 정보로 서비스 엔드포인트 URL이 생성됨)가 수정되었습니다.
Speech SDK 1.34.0: 2023년 11월 릴리스
주요 변경 내용
-
SpeechRecognizer가 대부분의 속성에 대해 쿼리 문자열 매개 변수를 더 이상 지원하지 않는 새 엔드포인트(즉, URL을 명시적으로 지정하지 않은 경우)를 사용하도록 업데이트되었습니다. ServicePropertyChannel.UriQueryParameter를 사용하여 쿼리 문자열 매개 변수를 직접 설정하는 대신 해당 API 함수를 사용하세요.
새로운 기능
버그 수정
- iOS SDK x2 배로 증가한 바이너리 크기에 대한 수정 · 문제 #2113 · Azure-Samples/cognitive-services-speech-sdk(github.com)
- Azure 음성을 텍스트로 변환하는 API로부터 단어 수준 타임스탬프를 가져올 수 없는 문제 수정 · 문제 #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- 이벤트를 올바르게 분리하도록 DialogServiceConnector 소멸 단계가 수정되었습니다. 이로 인해 때때로 크래시가 발생했었습니다.
- MAS 사용 시 인식기를 만드는 동안 발생하는 예외가 수정되었습니다.
- Windows UWP x64 및 Arm64용 Microsoft.CognitiveServices.Speech.Extension.MAS NuGet 패키지의FPIEProcessor.dll 네이티브 C++용 VC 런타임 라이브러리에 종속되었습니다. VC 런타임 라이브러리(UWP용)를 수정하도록 종속성을 업데이트하여 이 문제가 수정되었습니다.
- MAS · 이슈 #2124 · Azure-Samples/cognitive-services-speech-sdk(github.com)를 사용할 때 recognizeOnceAsync에 대한 반복 호출로 인해 SPXERR_ALREADY_INITIALIZED 오류 발생 수정
- 구문 목록을 사용할 때 발생하는 포함된 음성 인식 오류를 수정합니다.
샘플
- 음성 인식을 위한 iOS 내장 샘플, 텍스트 음성 변환 및 번역.
Speech CLI 1.34.0: 2023년 11월 릴리스
새로운 기능
- 음성을 합성할 때 단어 경계 이벤트 출력을 지원합니다.
버그 수정
- JMESPath 종속성이 최신 릴리스로 업데이트되었으며, 문자열 평가가 개선되었습니다.
Speech SDK 1.33.0: 2023년 10월 릴리스
호환성이 손상되는 변경 알림
- 이제 MAS(Microsoft Audio Stack)용으로 추가된 새 NuGet 패키지가 패키지 구성 파일에서 MAS를 사용하는 애플리케이션에 포함되어야 합니다.
새로운 기능
- Microsoft Audio Stack을 사용할 때 향상된 반향 제거 성능을 제공하는 새 NuGet 패키지 Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg가 추가되었습니다.
- 발음 평가: 운율, 어휘, 문법 및 토픽 측면에서 음성을 평가할 수 있는 운율 및 콘텐츠 평가에 대한 지원이 추가되었습니다.
버그 수정
샘플
Speech CLI 1.33.0: 2023년 10월 릴리스
새로운 기능
- 음성을 합성할 때 단어 경계 이벤트 출력을 지원합니다.
버그 수정
Speech SDK 1.32.1: 2023년 9월 릴리스
버그 수정
- OpenSSL1.1.1v의 최신 보안 수정 사항으로 Android 패키지 업데이트
- JS – 시간 제한 작업자에 대한 데이터 URL 로드 무시를 허용하기 위해 WebWorkerLoadType 속성이 추가되었습니다.
- JS – 10분 후 대화 번역 연결 끊김 수정
- JS – 이제 Conversation의 대화 번역 인증 토큰이 번역 서비스 연결로 전파됩니다.
샘플
Speech SDK 1.31.0: 2023년 8월 릴리스
새로운 기능
실시간 분할 지원은 Speech SDK 1.31.0의 공개 미리 보기에서 사용할 수 있습니다. 이 기능은 C#, C++, Java, JavaScript, Python 및 Objective-C/Swift SDK에서 사용할 수 있습니다.
오디오 재생과 동기화된 음성 합성 단어 경계 및 viseme 이벤트
주요 변경 내용
이전의 "대화 기록" 시나리오는 "모임 대화 내용 기록"으로 이름이 변경되었습니다. 예를 들어, MeetingTranscriber 대신 ConversationTranscriber를 사용하고, CreateMeetingAsync 대신 CreateConversationAsync를 사용합니다. SDK 개체 및 메서드의 이름이 변경되었더라도 기능 자체는 변경되지 않았습니다. 사용자 프로필 및 음성 서명이 포함된 모임 대화 내용을 기록하려면 모임 대화 내용 기록 개체를 사용합니다. "대화 번역" 개체 및 메서드는 이러한 변경 내용의 영향을 받지 않습니다. 번역 시나리오를 충족하기 위해 ConversationTranslator 개체와 해당 메서드를 계속 사용할 수 있습니다.
실시간 분할을 위해 새로운 ConversationTranscriber 개체가 도입되었습니다. 새로운 "대화 기록" 개체 모델 및 통화 패턴은 SpeechRecognizer 개체를 사용한 연속 인식과 유사합니다. 주요 차이점은 ConversationTranscriber 개체가 여러 화자를 구별(분할)하려는 대화 시나리오에서 사용되도록 설계되었다는 것입니다. 사용자 프로필 및 음성 서명은 적용되지 않습니다. 자세한 내용은 실시간 분리 빠른 시작을 참조하세요.
이 표에는 실시간 분할 및 모임 대화 내용 기록을 위한 이전 및 새 개체 이름이 표시됩니다. 시나리오 이름은 첫 번째 열에 있고, 이전 개체 이름은 두 번째 열에 있으며, 새 개체 이름은 세 번째 열에 있습니다.
| 시나리오 이름 |
이전 개체 이름 |
새 개체 이름 |
| 실시간 분리 |
해당 없음 |
ConversationTranscriber |
| 모임 대화 내용 기록 |
ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant
1
ParticipantChangedReason
1
User
1 |
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting
2 |
1Participant, ParticipantChangedReason 및 User 개체는 모임 대화 내용 기록 및 모임 번역 시나리오 모두에 적용 가능합니다.
2Meeting 개체는 새로운 개체이며 MeetingTranscriber 개체와 함께 사용됩니다.
버그 수정
샘플
Speech SDK 1.30.0: 2023년 7월 릴리스
새로운 기능
-
C++, C#, Java - 포함된 음성 인식의 자세한 결과에
DisplayWords 대한 지원이 추가되었습니다.
-
Objective-C/Swift - Objective-C/Swift에
ConnectionMessageReceived 이벤트에 대한 지원이 추가되었습니다.
-
Objective-C/Swift - iOS용 키워드 발견 모델이 개선되었습니다. 이 변경으로 인해 iOS 이진 파일(예: NuGet, XCFramework)이 포함된 특정 패키지의 크기가 늘어났습니다. 향후 릴리스에서는 크기를 줄이기 위해 노력하고 있습니다.
버그 수정
- 고객이 보고한 대로 PhraseListGrammar에서 음성 인식기를 사용할 때 메모리 누수(GitHub 문제)가 수정되었습니다.
- 텍스트 음성 변환 열린 연결 API의 교착 상태가 수정되었습니다.
추가 참고 사항
-
Java - 내부적으로 사용되는 일부
public Java API 메서드가 패키지 internal, protected 또는 private 변경되었습니다. 애플리케이션에서 이러한 변경 내용을 사용할 것으로 예상하지 않으므로 이 변경 내용은 개발자에게 영향을 미치지 않습니다. 투명성을 위해 여기에 표시됩니다.
샘플
- 고유의 애플리케이션에서 학습 언어를 지정하는 방법에 대한 새로운 발음 평가 샘플
Speech SDK 1.29.0: 2023년 6월 릴리스
새로운 기능
-
C++, C#, Java - 포함된 음성 번역 API의 미리 보기입니다. 이제 클라우드 연결 없이 음성 번역을 할 수 있습니다!
-
JavaScript - 이제 음성 번역에 LID(지속적인 언어 식별)가 사용하도록 설정되었습니다.
-
JavaScript -
LocaleName 클래스에 VoiceInfo 속성을 추가하기 위한 커뮤니티 기여입니다. 끌어오기 요청에 GitHub 사용자 shivsarthak 감사합니다.
-
C++, C#, Java - 포함된 텍스트를 16kHz에서 48kHz 샘플 속도로 음성 출력으로 다시 샘플링하는 지원이 추가되었습니다.
- 단순 패턴 일치를 사용하여 의도 인식기에
hi-IN 로캘에 대한 지원이 추가되었습니다.
버그 수정
- 일부 Android 테스트에서 볼 수 있듯이 개체 제거 중 음성 인식기의 경쟁 조건으로 인해 발생하는 크래시를 수정했습니다.
- 단순 패턴 검사기를 사용하여 의도 인식기에서 발생할 수 있는 교착 상태를 수정했습니다.
샘플
Speech SDK 1.28.0: 2023년 5월 릴리스
호환성이 손상되는 변경
-
JavaScript SDK: OCSP(온라인 인증서 상태 프로토콜)가 제거되었습니다. 이를 통해 클라이언트는 인증서 처리를 위한 브라우저 및 노드 표준을 더 잘 준수할 수 있습니다. 버전 1.28 이상에는 더 이상 사용자 지정 OCSP 모듈이 포함되지 않습니다.
새로운 기능
- 이제 발화가 끝날 때 무음 시간 제한이 발생하면 포함된 음성 인식이
NoMatchReason::EndSilenceTimeout을 반환합니다. 이는 실시간 음성 서비스를 사용하여 인식을 수행할 때의 동작과 일치합니다.
-
JavaScript SDK:
SpeechTranslationConfig 열거형 값을 사용하여 PropertyId의 속성을 설정합니다.
버그 수정
-
Windows에서 C# - Windows 오디오 확장에서 잠재적인 경합 상태 및 교착 상태 문제를 수정합니다. 오디오 렌더러를 빠르게 삭제하고 Synthesizer 메서드를 사용하여 말하기를 중지하는 시나리오에서 기본 이벤트는 중지로 초기화되지 않았으며 렌더러 개체가 삭제되지 않을 수 있지만 삭제를 위해 전역 잠금을 유지하여 dotnet GC 스레드를 동결할 수 있습니다.
샘플
- MAUI용 포함된 음성 샘플을 추가했습니다.
- 안드로이드 자바 용 포함된 음성 샘플을 텍스트 음성 변환(TTS)을 포함하도록 업데이트했습니다.
Speech SDK 1.27.0: 2023년 4월 릴리스
예정된 변경 내용에 대한 알림
- 다음 JavaScript SDK 릴리스에서는 OCSP(온라인 인증서 상태 프로토콜)를 제거할 계획입니다. 이를 통해 클라이언트는 인증서 처리를 위한 브라우저 및 노드 표준을 더 잘 준수할 수 있습니다. 버전 1.27은 사용자 지정 OCSP 모듈을 포함하는 마지막 릴리스입니다.
새로운 기능
-
JavaScript – 화자 식별 및 검증 기능을 통해 브라우저에서 마이크 입력 지원이 추가되었습니다.
-
포함된 음성 인식 -
PropertyId::Speech_SegmentationSilenceTimeoutMs 설정에 대한 지원을 업데이트합니다.
버그 수정
-
일반 - 서비스 재연결 논리의 안정성 업데이트(JavaScript를 제외한 모든 프로그래밍 언어)
-
General - Windows 메모리 누수 문자열 변환을 수정합니다(JavaScript를 제외한 모든 관련 프로그래밍 언어).
-
포함된 음성 인식 - 특정 문법 목록 항목을 사용할 때 프랑스어 음성 인식의 크래시를 수정합니다.
-
소스 코드 설명서 - 서비스의 오디오 로깅과 관련된 SDK 참조 설명서 주석이 수정되었습니다.
-
의도 인식 - 목록 항목과 관련된 패턴 검사기 우선 순위를 수정합니다.
샘플
- C# CTS(대화 기록) 샘플에서 인증 실패를 적절하게 처리합니다.
- Python, JavaScript, Objective-C 및 Swift에 대한 스트리밍 발음 평가 예제가 추가되었습니다.
Speech SDK 1.26.0: 2023년 3월 릴리스
주요 변경 내용
- xcframework가 있는 Cocoapod, NuGet(Xamarin 및 MAUI용) 및 Unity 패키지의 모든 iOS 대상에서 비트코드가 비활성화되었습니다. 이러한 변화는 Apple이 Xcode 14부터 비트코드 지원을 중단했기 때문입니다. 이 변경 내용은 또한 Xcode 13 버전을 사용 중이거나 Speech SDK를 사용하여 애플리케이션에서 비트코드를 명시적으로 활성화한 경우 "프레임워크에 비트코드가 없으므로 다시 빌드해야 합니다"라는 오류가 발생할 수 있음을 의미합니다. 이 문제를 해결하려면 대상에 비트코드가 사용하지 않도록 설정되어 있는지 확인합니다.
- 이 릴리스에서는 최소 iOS 배포 대상이 11.0으로 업그레이드되며, 이는 armv7 HW가 더 이상 지원되지 않음을 의미합니다.
새로운 기능
- 포함된(디바이스 내) 음성 인식은 이제 8kHz 및 16kHz 샘플링 속도 입력 오디오(샘플당 16비트, 모노 PCM)를 모두 지원합니다.
- 음성 합성은 이제 연결, 네트워크 및 서비스 대기 시간을 결과에 보고하여 엔드투엔드 대기 시간을 최적화하도록 돕습니다.
-
간단한 패턴 일치를 통한 의도 인식을 위한 새로운 동점 분리 규칙. 일치하는 문자 바이트가 많을수록 문자 바이트 수가 적은 패턴 일치보다 우선합니다. 예: "오른쪽 상단에서 {항목} 선택" 패턴이 "{항목} 선택"보다 우선합니다.
버그 수정
샘플
Speech SDK 1.25.0: 2023년 1월 릴리스
주요 변경 내용
- 언어 식별(미리 보기) API가 간소화되었습니다. Speech SDK 1.25로 업데이트하고 빌드가 중단되는 경우 언어 식별 페이지를 방문하여 새 속성
SpeechServiceConnection_LanguageIdMode에 대해 알아봅니다. 이 단일 속성은 이전의 두 속성인 SpeechServiceConnection_SingleLanguageIdPriority 및 SpeechServiceConnection_ContinuousLanguageIdPriority를 바꿉니다. 짧은 대기 시간과 높은 정확도 사이의 우선 순위는 최근 모델 개선에 따라 더 이상 필요하지 않습니다. 이제 연속 음성 인식 또는 번역을 수행할 때 시작 시 또는 연속 언어 식별을 실행할지 여부만 선택하면 됩니다.
새로운 기능
-
C#/C++/Java: 이제 제어된 공개 미리 보기에서 Embedded Speech SDK가 릴리스됩니다.
포함된 음성(미리 보기) 설명서를 참조하세요. 이제 클라우드 연결이 일시적이거나 사용할 수 없는 경우 디바이스 내 음성을 텍스트로 변환 및 텍스트를 음성으로 변환할 수 있습니다. Android, Linux, macOS 및 Windows 플랫폼에서 지원됨
-
C# MAUI: Speech SDK NuGet에서 iOS 및 Mac Catalyst 대상에 대해 추가된 지원(커머 문제)
-
유니티: Unity 패키지에 추가된 Android x86_64 아키텍처(구성자 문제)
-
이동:
- 음성 인식을 위해 추가된 ALAW/MULAW 직접 스트리밍 지원(고객 문제)
- PhraseListGrammar에 대한 지원이 추가되었습니다. GitHub 사용자 czkoko의 커뮤니티 기여에 감사합니다.
-
C#/C++: 이제 Intent Recognizer는 Microsoft 서비스의 오케스트레이션을 사용하여 C++ 및 C#의 대화형 Language Understanding 모델을 지원합니다.
버그 수정
-
KeywordRecognizer를 중지하려고 할 때 간헐적으로 멈추는 문제 수정
-
Python:
-
PronunciationAssessmentGranularity.FullText이 설정될 때 발음 평가 결과를 가져오는 문제 수정 (고객 문제)
- 음성 합성 음성을 가져올 때 검색되지 않는 남성 음성의 성별 속성 수정
-
JavaScript
- iOS 디바이스에 기록된 일부 WAV 파일 구문 분석 수정(Customer 문제)
- JS SDK는 이제 npm-force-resolutions를 사용하지 않고 빌드합니다(고객 문제).
- Conversation Translator는 이제 SpeechConfig.fromEndpoint()를 사용하여 만들어진 speechConfig 인스턴스를 사용할 때 서비스 엔드포인트를 올바르게 설정합니다.
샘플
Speech SDK 1.24.2: 2022년 11월 릴리스
새로운 기능
- 새 기능이 없으며 새 모델 파일을 지원하기 위한 포함된 엔진 수정만 있습니다.
버그 수정
-
모든 프로그래밍 언어
- 포함된 음성 인식 모델의 암호화 문제가 해결되었습니다.
Speech SDK 1.24.1: 2022년 11월 릴리스
새로운 기능
버그 수정
-
모든 프로그래밍 언어
- 음성 글꼴이 지원되지 않을 때 임베디드 TTS 오류 수정
- fix stopSpeaking()은 Linux에서 재생을 중지할 수 없습니다(#1686)
-
JavaScript SDK
- Conversation Transcriber의 오디오 게이트 방식에 대한 회귀 버그가 수정되었습니다.
-
Java
- Docs 파이프라인이 온라인 참조 문서를 업데이트할 수 있도록 업데이트된 POM 및 Javadocs 파일이 Maven Central에 일시적으로 게시되었습니다.
-
Python
- Python speak_text(ssml)가 void를 반환하는 회귀를 수정합니다.
Speech SDK 1.24.0: 2022년 10월 릴리스
새로운 기능
-
모든 프로그래밍 언어: AMR-WB(16khz)가 지원되는 텍스트 음성 변환 오디오 출력 형식 목록에 추가됨
-
Python: 지원되는 Linux 배포용 Linux Arm64용 패키지가 추가되었습니다.
-
C#/C++/Java/Python: ALAW 및 MULAW를 기존 PCM 스트림 외에도
AudioStreamWaveFormat를 사용하여 음성 서비스에 직접 스트리밍할 수 있는 기능이 추가되었습니다.
-
C# MAUI: nuGet 패키지는 .NET MAUI 개발자를 위한 Android 대상을 지원하도록 업데이트되었습니다(커머 문제)
-
Mac: iOS 이진 파일을 포함하지 않는 별도의 Mac용 XCframework를 추가했습니다. 이 항목은 더 작은 XCframework 패키지를 사용하는 Mac 이진 파일만 필요한 개발자를 위한 옵션을 제공합니다.
- MAS(Microsoft Audio Stack):
- 빔 형성 각도를 지정하면 지정된 범위를 벗어나서 생성되는 소리가 더 잘 억제됩니다.
- Linux ARM32 및 Linux Arm64의
libMicrosoft.CognitiveServices.Speech.extension.mas.so 크기를 약 70% 줄입니다.
-
패턴 일치를 사용하는 의도 인식:
- 언어
fr, de, es, jp에 대한 맞춤법 지원을 추가합니다.
- 언어
es에 대해 미리 빌드된 정수 지원을 추가했습니다.
버그 수정
-
iOS: 압축된 오디오 디코딩 실패로 인한 iOS 16의 음성 합성 오류를 수정합니다(커머 문제).
-
JavaScript:
- 음성 합성 음성 목록을 가져올 때 인증 토큰이 작동하지 않는 문제를 수정합니다(고객 문제).
- 작업자 로드에 대한 데이터 URL을 사용합니다(고객 문제).
- AudioWorklet이 브라우저에서 지원되는 경우에만 오디오 프로세서 워크렛을 만듭니다(고객 문제). 이것은 William Wong의 커뮤니티 기여였습니다. William, 감사합니다!
- LUIS 응답
connectionMessage 비어 있는 경우 인식된 콜백을 수정합니다(커머 문제).
- 음성 구분 시간 제한을 올바르게 설정합니다.
-
패턴 일치를 사용하는 의도 인식:
- 이제 모델 내의 비 json 문자가 제대로 로드됩니다.
- 연속 인식 중에
recognizeOnceAsync(text)가 호출되었을 때 발생하는 중단 문제를 수정합니다.
Speech SDK 1.23.0: 2022년 7월 릴리스
새로운 기능
-
C#, C++, Java: 패턴 일치를 사용하여 의도 인식에서
zh-cn 및 zh-hk 언어에 대한 지원이 추가되었습니다.
-
C#:
AnyCPU .NET Framework 빌드에 대한 지원이 추가됨
버그 수정
-
Android: OpenSSL을 1.1.1q로 업데이트하여 OpenSSL 취약성 CVE-2022-2068이 수정됨
-
Python: PushAudioInputStream을 사용할 때 크래시 수정
-
iOS: iOS에 보고된 대로 "EXC_BAD_ACCESS: null 포인터 역참조 시도"를 수정합니다(GitHub 문제)
Speech SDK 1.22.0: 2022년 6월 릴리스
새로운 기능
-
Java: getEntities(), applyLanguageModels() 및 recognizeOnceAsync(text)에 대한 IntentRecognitionResult API가 추가되어 "단순 패턴 일치" 엔진을 지원합니다.
-
유니티: Unity 패키지용 Mac M1(Apple Silicon) 지원 추가(GitHub 문제)
-
C#: Xamarin Android에 대한 x86_64 대한 지원이 추가되었습니다(GitHub 문제)
-
C#: v4.6.1이 사용 중지된 SDK C# 패키지의 경우 v4.6.2로 업데이트된 .NET 프레임워크 최소 버전입니다(Microsoft .NET Framework 구성 요소 수명 주기 정책 참조).
-
Linux: Debian 11 및 Ubuntu 22.04 LTS 지원이 추가되었습니다. Ubuntu 22.04 LTS를 사용하려면 여기에서 이진 패키지(예: x64의 경우 libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb 이상)로 또는 원본에서 컴파일하여 libssl1.1을 수동으로 설치해야 합니다.
버그 수정
-
UWP: OpenSSL 종속성이 UWP 라이브러리에서 제거되고 보안 규정 준수 및 더 작은 이진 공간을 충족하기 위해 WinRT websocket 및 HTTP API로 대체되었습니다.
-
Mac: macOS 플랫폼을 대상으로 하는 Swift 프로젝트를 사용할 때 “MicrosoftCognitiveServicesSpeech 모듈을 찾을 수 없음” 문제가 해결됨
-
Windows, Mac: 속성을 통해 구성된 오디오 원본이 때때로 실시간 속도로 스트리밍되도록 구성된 오디오 원본이 뒤쳐지고 결국 용량을 초과하는 플랫폼별 문제를 해결했습니다.
-
C#: v4.6.2를 사용하도록 업데이트된 .NET 프레임워크 샘플
-
Unity: Android 및 UWP용으로 고정된 가상 도우미 샘플
-
Unity: Unity 2020 LTS 버전용으로 업데이트된 Unity 샘플
Speech SDK 1.21.0: 2022년 4월 릴리스
새로운 기능
-
Java 및 JavaScript: SpeechRecognizer 개체를 사용할 때 연속 언어 식별에 대한 지원이 추가됨
-
JavaScript: Microsoft에서 고객이 보고한 문제를 해결하는 데 도움이 되도록 콘솔 로깅 수준 및 (노드 전용) 파일 로깅을 사용하도록 진단 API가 추가되었습니다.
-
Python: 대화 전사에 대한 지원이 추가됨
-
Go: Speaker Recognition 지원이 추가되었습니다.
-
C++ & C#: 의도 인식기(단순 패턴 일치)에 필요한 단어 그룹에 대한 지원이 추가되었습니다. 예: "(set|start|begin) a timer" - 의도를 인식하려면 "set", "start" 또는 "begin"이 있어야 합니다.
-
모든 프로그래밍 언어, Speech Synthesis: 단어 경계 이벤트에 기간 속성이 추가되었습니다. 문장 부호와 문장 경계에 대한 지원이 추가되었습니다.
-
Objective-C/Swift/Java: 발음 평가 결과 개체(C#과 유사)에 단어 수준 결과가 추가되었습니다. 애플리케이션은 더 이상 단어 수준 정보를 가져오기 위해 JSON 결과 문자열을 구문 분석할 필요가 없습니다(GitHub 문제).
-
iOS 플랫폼: ARMv7 아키텍처에 대한 실험적 지원이 추가되었습니다.
버그 수정
-
iOS 플랫폼: CocoaPod(GitHub 문제)를 사용할 때 대상 "모든 iOS 디바이스"에 대한 빌드를 허용하도록 수정
-
Android 플랫폼: 보안 취약성 CVE-2022-0778을 수정하기 위해 OpenSSL 버전이 1.1.1n으로 업데이트되었습니다.
-
JavaScript: wav 헤더가 파일 크기로 업데이트되지 않은 문제 해결(GitHub 문제)
-
JavaScript: 요청 ID 비동기화 문제 해결로 번역 시나리오 수정 (GitHub 문제)
-
JavaScript: 스트림 없이 SpeakerAudioDestination을 인스턴스화할 때 발생하는 문제 해결(GitHub 문제]
-
C++: C++17 이상용으로 컴파일할 때 경고를 제거하도록 C++ 헤더를 수정합니다.
Speech SDK 1.20.0: 2022년 1월 릴리스
새로운 기능
-
Objective-C, Swift 및 Python: 음성 도우미 시나리오에 사용되는 DialogServiceConnector에 대한 지원이 추가되었습니다.
-
Python: Python 3.10에 대한 지원이 추가되었습니다. Python 3.6에 대한 지원은 Python 3.6의 생명 종료에 따라 제거되었습니다.
-
Unity: 이제 Linux의 Unity 애플리케이션에서 Speech SDK가 지원됩니다.
-
C++, C#: 패턴 일치를 사용하는 IntentRecognizer는 이제 C#에서 지원됩니다. 또한 사용자 지정 엔터티, 선택적 그룹 및 엔터티 역할을 사용하는 시나리오가 이제 C++ 및 C#에서 지원됩니다.
-
C++, C#: 새 FileLogger, MemoryLogger 및 EventLogger 클래스를 사용하여 진단 추적 로깅을 개선했습니다. SDK 로그는 Microsoft가 고객이 보고한 문제를 진단하는 데 필요한 중요 도구입니다. 이러한 새 클래스를 사용하면 고객이 Speech SDK 로그를 자체 로깅 시스템에 쉽게 통합할 수 있습니다.
-
모든 프로그래밍 언어: PronunciationAssessmentConfig에는 이제 원하는 음소 알파벳(IPA 또는 SAPI) 및 N-Best Phoneme Count를 설정하는 속성이 있습니다(GitHub 문제 1284에 따라 구성 JSON을 작성할 필요가 없습니다). 또한 이제 음절 수준 출력이 지원됩니다.
-
Android, iOS 및 macOS(모든 프로그래밍 언어): 제한된 대역폭 네트워크를 지원하기 위한 GStreamer가 더 이상 필요하지 않습니다. 이제 SpeechSynthesizer는 운영 체제의 오디오 디코딩 기능을 사용하여 텍스트 음성 변환 서비스에서 스트리밍된 압축 오디오를 디코딩합니다.
-
모든 프로그래밍 언어: SpeechSynthesizer는 이제 라이브 스트리밍 시나리오에서 널리 사용되는 세 가지 새로운 원시 출력 Opus 형식(컨테이너 제외)을 지원합니다.
-
JavaScript: speechSynthesizer에 getVoicesAsync() API를 추가하여 지원되는 합성 음성 목록을 검색합니다(GitHub 문제 1350)
-
JavaScript: pcM이 아닌 웨이브 형식을 지원하기 위해 AudioStreamFormat에 getWaveFormat() API를 추가했습니다(GitHub 문제 452)
-
JavaScript: SpeakerAudioDestination(GitHub 문제 463)에 볼륨 getter/setter 및 mute()/unmute() API 추가됨
버그 수정
-
C++, C#, Java, JavaScript, Objective-C 및 Swift: PushAudioInputStream을 사용하는 음성 인식기를 중지하는 동안 10초 지연을 제거하도록 수정합니다. StopContinuousRecognition이 호출된 후 새 오디오가 푸시되지 않는 경우입니다(GitHub 문제 1318, 331)
-
Android 및 UWP의Unity: Unity 메타 파일은 UWP, Android Arm64 및 Android용 Windows 하위 시스템(WSA) Arm64(GitHub 문제 1360)에 대해 수정되었습니다.
-
iOS: CocoaPods를 사용할 때 iOS 디바이스에서 Speech SDK 애플리케이션 컴파일이 수정되었습니다(GitHub 문제 1320)
-
iOS: SpeechSynthesizer가 오디오를 스피커에 직접 출력하도록 구성된 경우 아주 가끔 처음부터 재생이 중지되었습니다. 이 문제가 해결되었습니다.
-
JavaScript: 오디오 워크렛이 없는 경우 마이크 입력에 스크립트 프로세서 대체를 사용합니다(GitHub 문제 455)
-
JavaScript: Sentry 통합으로 발견된 버그를 완화하기 위해 에이전트에 프로토콜 추가(GitHub 문제 465)
-
C++C#, Python 및 Java 샘플은 자세한 인식 결과를 가져오는 방법을 보여 줌 세부 정보에는 대체 인식 결과, 신뢰도 점수, 어휘 양식, 정규화된 양식, 마스킹된 정규화된 양식, 각각에 대한 단어 수준 타이밍이 포함됩니다.
-
iOS 샘플 AVFoundation을 외부 오디오 원본으로 사용하여 추가되었습니다.
-
Java 샘플이 WordBoundary 이벤트를 사용하여 SRT(SubRip Text) 형식을 얻는 방법을 보여주기 위해 추가되었습니다.
- 발음 평가를 위한 Android 샘플.
-
C++C# 새 진단 로깅 클래스의 사용을 보여 줍니다.
Speech SDK 1.19.0: 2021년 11월 릴리스
중요 사항
Speaker Recognition 서비스는 현재 GA(일반 공급)입니다. Speech SDK API는 C++, C#, Java 및 JavaScript에서 사용할 수 있습니다. Speaker Recognition을 사용하면 고유한 음성 특성으로 화자를 정확하게 확인하고 식별할 수 있습니다. 이 항목에 대한 자세한 내용은 설명서를 참조하세요.
Azure DevOps 및 GitHub 함께 Ubuntu 16.04에 대한 지원을 중단했습니다. Ubuntu 16.04는 2021년 4월에 수명이 종료되었습니다. Ubuntu 16.04 워크플로를 Ubuntu 18.04 이상으로 마이그레이션합니다.
Linux 바이너리에서 OpenSSL 연결 방식이 동적으로 변경되었습니다. Linux 이진 크기가 약 50% 감소했습니다.
Mac M1 ARM 기반 실리콘 지원이 추가되었습니다.
새로운 기능
C++/C#/Java: Microsoft Audio Stack을 사용하여 음성 입력에 대한 오디오 처리 지원을 사용하도록 새 API가 추가되었습니다.
여기서 설명함
C++: 고급 패턴 일치를 용이하게 하는 의도 인식을 위한 새로운 API입니다. 여기에는 목록 및 미리 작성된 정수 엔터티뿐만 아니라 의도 및 엔터티를 모델로 그룹화하기 위한 지원이 포함됩니다(설명서, 업데이트, 샘플은 개발 중이며, 조만간 게시될 예정임).
Mac: CocoaPod, Python, Java 및 NuGet 패키지에 대한 Arm64(M1) 기반 실리콘 지원 관련 GitHub 이슈 1244.
iOS/Mac: 이제 iOS 및 macOS 이진 파일이 GitHub 문제 919 관련된 xcframework로 패키지됩니다.
iOS/Mac: GitHub 문제 1171 관련 Mac 촉매 지원
Linux: CentOS7 Speech SDK 정보를 위한 새 tar 패키지가 추가되었습니다. Linux .tar 패키지에는 이제 lib/centos7-x64의 RHEL/CentOS 7에 대한 특정 라이브러리가 포함됩니다. lib/x64의 Speech SDK 라이브러리는 지원되는 다른 모든 Linux x64 배포판(RHEL/CentOS 8 포함)에 계속 적용되며 RHEL/CentOS 7에서는 작동하지 않습니다.
JavaScript: VoiceProfile API와 SpeakerRecognizer API를 비동기/대기 가능으로 만들었습니다.
JavaScript: 미국 정부 Azure 지역에 대한 지원이 추가되었습니다.
Windows: Universal Windows Platform (UWP) 재생에 대한 지원이 추가되었습니다.
버그 수정
Android: Android 패키지용 OpenSSL 보안 업데이트(버전 1.1.1l로 업데이트됨).
Python: Python 스피커 디바이스를 선택하는 데 실패하는 버그가 해결되었습니다.
Core: 연결 시도가 실패하면 자동으로 다시 연결합니다.
iOS: GStreamer를 사용할 때 불안정성 및 비트코드 빌드 문제로 인해 iOS 패키지에서 오디오 압축을 사용할 수 없습니다. 자세한 내용은 GitHub 문제 1209 통해 사용할 수 있습니다.
Mac/iOS: xcframework 패키지를 사용하도록 샘플 및 빠른 시작이 업데이트되었습니다.
.NET: .NET 코어 3.1 버전을 사용하도록 업데이트된 샘플입니다.
JavaScript: 음성 도우미용 샘플이 추가되었습니다.
Speech SDK 1.18.0: 2021년 7월 릴리스
참고. Speech SDK 여기에서 시작을 해보십시오.
하이라이트 요약
- Ubuntu 16.04는 2021년 4월의 수명 끝에 도달했습니다. Azure DevOps 및 GitHub 통해 2021년 9월에 16.04에 대한 지원을 중단할 것입니다. 그 전에 ubuntu-16.04 워크플로를 ubuntu-18.04 이상으로 마이그레이션합니다.
새로운 기능
-
C++는 의도 인식기를 사용하여 간단한 언어 패턴 일치를 통해 간단한 의도 인식 시나리오를 보다 쉽게 구현할 수 있습니다.
-
C++/C#/Java: 독립 인식 시나리오에 대한 Speaker Recognition 등록 단계에서 유효한 활성화 구 목록을 수신하기 위해
GetActivationPhrasesAsync() 클래스에 VoiceProfileClient 새 API를 추가했습니다.
-
중요. 발표자 인식 기능은 미리보기 상태입니다. 미리보기로 만든 모든 음성 프로필은 화자 인식 기능이 미리 보기에서 일반 공급으로 전환된 후 90 일 후에 중단됩니다. 이 시점에서 미리보기 음성 프로필의 작동이 중지됩니다.
- Python: 기존 및 개체에 LID(연속 언어 식별) 지원을 추가했습니다.
-
Python: 라는
SourceLanguageRecognizer를 추가하여 인식 또는 번역 없이 일회성 또는 연속 LID를 수행합니다.
-
JavaScript에는 독립적인 인식 시나리오에 대한 발표자 인식 등록 단계에서 유효한 활성화 문구 목록을 받기 위한
getActivationPhrasesAsync API가 VoiceProfileClient 클래스에 추가되었습니다.
-
JavaScript
VoiceProfileClient의 enrollProfileAsync API는 이제 비동기 대기 가능입니다.
이 독립적인 식별 코드(예: 사용)를 참조하세요.
개선
-
Java: AutoCloseable 지원은 많은 Java 개체에 추가되었습니다. 이제 리소스를 사용하여 리소스를 해제할 수 있습니다. 참조하세요: try-with-resources를 사용하는 이 예제. 또한 이 패턴에 대해 알아보려면 try-with-resources 문장에 대한 Oracle Java 설명서 자습서를 참조하세요.
- 많은 플랫폼과 아키텍처에서 디스크 공간이 크게 줄었습니다.
Microsoft.CognitiveServices.Speech.core 이진 파일의 예: x64 Linux는 475KB 더 작습니다(8.0% 감소). Arm64 Windows UWP는 464KB 작음(11.5% 감소), x86 Windows 343KB 작음(17.5% 감소) 및 x64 Windows 451KB 작음(19.4% 감소)입니다.
버그 수정
-
Java: 합성 텍스트에 서로게이트 문자가 포함된 경우 합성 오류가 수정되었습니다. 자세한 내용은 here.
-
JavaScript에서 브라우저 마이크 오디오 처리는 이제
AudioWorkletNode를 사용하지 않는 대신 ScriptProcessorNode를 사용합니다. 자세한 내용은 here.
-
JavaScript는 장시간 진행되는 대화 번역 시나리오에서 대화를 올바르게 유지합니다. 자세한 내용은 here.
-
JavaScript: 연속 인식 중 mediastream에 대한 인식기의 재연결 문제를 해결했습니다. 자세한 내용은 here.
-
JavaScript: 연속 인식할 때 pushStream에 대한 인식기 재연결 문제를 해결했습니다. 자세한 내용은 here.
-
JavaScript: 자세한 인식 결과에서 단어 수준 오프셋 계산을 수정했습니다. 자세한 내용은 here.
샘플
- Java 빠른 시작 샘플은 here 업데이트되었습니다.
- JavaScript Speaker Recognition 샘플은
enrollProfileAsync()의 새로운 사용을 표시하도록 업데이트되었습니다. 샘플 here 참조하세요.
Speech SDK 1.17.0: 2021년 5월 릴리스
하이라이트 요약
- 사용 공간 축소 - Speech SDK 및 해당 구성 요소에 사용되는 메모리와 디스크 공간을 계속해서 줄이고 있습니다.
- 새로운 독립 실행형 언어 식별 API를 사용하면 사용 중인 언어를 인식할 수 있습니다.
- macOS에서 Unity를 사용하여 음성 지원 혼합 현실 및 게임 애플리케이션을 개발합니다.
- 이제 Go 프로그래밍 언어의 음성 인식 외에도 텍스트 음성 변환을 사용할 수 있습니다.
- GitHub에서 소중한 고객 여러분이 보고한 문제를 해결하기 위한 몇 가지 버그 수정이 있었습니다! 감사합니다. 앞으로도 피드백을 계속 보내주세요.
새로운 기능
-
C++/C#:
SourceLanguageRecognizer API를 통한 새로운 독립 실행형 시작 시 언어 감지 및 지속적인 언어 감지. 오디오 콘텐츠에서 사용 중인 언어만 감지하려는 경우 이를 수행하는 API입니다.
C++ 및 C#에 대한 세부 정보를 참조하세요.
-
C++/C#: 이제 음성 인식 및 번역 인식은 시작 시 및 지속적인 언어 식별을 모두 지원하므로 텍스트를 전사하거나 번역하기 전에 사용 중인 언어를 프로그래밍 방식으로 확인할 수 있습니다.
음성 인식 및 음성 번역 문서를 참조하세요.
-
C#: macOS(x64)에 Unity 지원이 추가되었습니다. 이를 통해 혼합 현실 및 게임에서 음성 인식 및 음성 합성을 사용할 수 있습니다.
-
Go: 더 많은 사용 사례에서 음성 합성을 사용할 수 있도록 Go 프로그래밍 언어에 음성 합성/텍스트 음성 변환 지원을 추가했습니다.
빠른 시작 또는 참조 문서를 참조하세요.
-
C++/C#/Java/Python/Objective-C/Go: 음성 신시사이저는 이제
connection 개체를 지원합니다. 이를 통해 Speech Service에 대한 연결을 관리하고 모니터링할 수 있으며 특히 사전 연결을 통해 대기 시간을 줄일 수 있습니다.
여기 설명서를 참조하세요.
-
C++/C#/Java/Python/Objective-C/Go: 이제 음성 합성 대기 시간 문제를 모니터링하고 진단하는 데 도움이 되도록
SpeechSynthesisResult 대기 시간 및 언더런 시간을 노출합니다.
C++에 대한 세부 정보를 참조하세요. C#, Java, Python, Objective-C 및 Go.
-
C++/C#/Java/Python/Objective-C: 텍스트 음성 변환은 이제 사용할 음성을 지정하지 않으면 기본적으로 신경망 음성을 사용합니다. 이렇게 하면 기본적으로 더 높은 품질의 출력이 제공되지만 기본 가격도 증가합니다.
-
C++/C#/Java/Python/Objective-C/Go: 성별에 따라 음성을 더 쉽게 선택할 수 있도록 합성 음성 정보에 Gender 속성을 추가했습니다.
GitHub 문제 #1055 해결합니다.
-
C++, C#, Java, JavaScript: 이제 Speaker Recognition에서
retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync 및 getAllProfilesAsync() 지원하여 지정된 계정에 대한 모든 음성 프로필의 사용자 관리를 용이하게 합니다.
C++, C#, Java, JavaScript 설명서를 참조하세요.
GitHub 문제 #338 해결합니다.
-
JavaScript: JavaScript 기반 음성 애플리케이션을 더욱 강력하게 만드는 연결 실패에 대한 재시도를 추가했습니다.
개선
- Linux 및 Android Speech SDK 이진 파일이 최신 버전의 OpenSSL(1.1.1k)을 사용하도록 업데이트되었습니다.
- 코드 크기 개선:
- 이제 Language Understanding 별도의 "lu" 라이브러리로 분할됩니다.
- Windows x64 코어 이진 크기는%14.4로 감소했습니다.
- Android Arm64 코어 바이너리 크기가 13.7% 감소했습니다.
- 다른 구성 요소도 크기가 감소했습니다.
버그 수정
-
All: ServiceTimeout에 대한 GitHub 문제 #842 수정되었습니다. 이제 이 오류로 종료되는 서비스에 대한 연결 없이 Speech SDK를 사용하여 긴 오디오 파일을 전사할 수 있습니다. 하지만 긴 파일에는 일괄 전사를 사용하는 것을 여전히 권장합니다.
-
C#: GitHub 문제 #947에서 음성 입력이 없을 경우 앱이 잘못된 상태에 빠지는 문제를 해결했습니다.
-
Java: 네트워크 연결이나 잘못된 구독 키 없이 DialogServiceConnector를 사용할 때 Java 1.16용 Speech SDK가 충돌하는 GitHub 문제 #997 수정되었습니다.
- 음성 인식을 갑자기 중지(예: 콘솔 앱에서 CTRL+C 사용)할 때 발생하는 충돌을 수정했습니다.
-
Java: Java Speech SDK를 사용할 때 Windows 임시 파일을 삭제하는 수정 사항이 추가되었습니다.
-
Java: 호출하면 오류가 발생할 수 있는
DialogServiceConnector.stopListeningAsync 수정되었습니다.
- 저희는 Java의 Virtual Assistant 간편 시작에서 고객 문제를 해결했습니다.
-
JavaScript: GitHub 문제 #366 수정되었습니다. 여기서
ConversationTranslator 'this.cancelSpeech는 함수가 아닙니다.'라는 오류가 발생했습니다.
-
JavaScript: GitHub 이슈 #298 수정되었습니다. 여기서 '메모리 내 스트림으로 결과 가져오기' 샘플에서 소리가 크게 재생되었습니다.
-
JavaScript: 호출하면 'ReferenceError: MediaStream이 정의되지 않음'이 발생할 수 있는
AudioConfig 수정되었습니다.
-
JavaScript: 장기 실행 세션에 대한 Node.js의 UnhandledPromiseRejection 경고가 수정되었습니다.
샘플
- macOS here 대한 Unity 샘플 설명서가 업데이트되었습니다.
- 이제 Azure 음성 인식 서비스에 대한 React Native 샘플을 here 사용할 수 있습니다.
Speech SDK 1.16.0: 2021년 3월 릴리스
참고
Windows Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지에 따라 달라집니다.
새로운 기능
-
C++/C#/Java/Python: 최신 버전의 GStreamer(1.18.3)로 이동하여 Windows, Linux 및 Android에서 미디어 형식을 전사하는 지원을 추가했습니다.
여기 설명서를 참조하세요.
-
C++/C#/Java/Objective-C/Python: 압축된 TTS/합성 오디오를 SDK로 디코딩하는 지원이 추가되었습니다. 출력 오디오 형식을 PCM으로 설정하고 시스템에서 GStreamer를 사용할 수 있으면 SDK는 서비스에서 압축된 오디오를 자동으로 요청하여 대역폭을 절약하고 클라이언트에서 오디오를 디코딩합니다. 이 기능을 사용하지 않으려면
SpeechServiceConnection_SynthEnableCompressedAudioTransmission을 false로 설정합니다.
C++, C#, Java, Objective-C, Python에 대한 세부 정보입니다.
-
JavaScript: 이제 Node.js 사용자는
AudioConfig.fromWavFileInput API를 사용할 수 있습니다. 이 주소는 GitHub 문제 #252 해결합니다.
-
C++/C#/Java/Objective-C/Python: TTS가 사용 가능한 모든 합성 음성을 반환하도록
GetVoicesAsync() 메서드가 추가되었습니다.
C++에 대한 세부 정보 C#, Java, Objective-C 및 Python.
-
C++/C#/Java/JavaScript/Objective-C/Python: 동기 viseme 애니메이션을 반환하기 위해 TTS/음성 합성에 대한
VisemeReceived 이벤트가 추가되었습니다.
여기 설명서를 참조하세요.
-
C++/C#/Java/JavaScript/Objective-C/Python: TTS에 대한
BookmarkReached 이벤트가 추가되었습니다. 입력 SSML에서 책갈피를 설정하고 각 책갈피에 대한 오디오 오프셋을 가져올 수 있습니다.
여기 설명서를 참조하세요.
-
Java: Speaker Recognition API에 대한 지원이 추가되었습니다. 자세한 내용은 here.
-
C++/C#/Java/JavaScript/Objective-C/Python: TTS용 WebM 컨테이너(Webm16Khz16BitMonoOpus 및 Webm24Khz16BitMonoOpus)를 사용하여 두 개의 새로운 출력 오디오 형식을 추가했습니다. 추가된 형식은 Opus 코덱으로 오디오를 스트리밍하는 데 보다 적합합니다.
C++, C#에 대한 세부 정보 Java, JavaScript, Objective-C, Python.
-
C++/C#/Java: Speaker Recognition 시나리오에 대한 음성 프로필 검색 지원이 추가되었습니다.
C++, C# 및 Java 대한 세부 정보입니다.
-
C++/C#/Java/Objective-C/Python: 오디오 마이크 및 스피커 컨트롤에 대한 별도의 공유 라이브러리에 대한 지원이 추가되었습니다. 이제 개발자는 필수 오디오 라이브러리 종속성이 없는 환경에서 SDK를 사용할 수 있습니다.
-
Objective-C/Swift: 엄브렐라 헤더가 포함된 모듈 프레임워크 지원이 추가되었습니다. 이제 개발자는 iOS/Mac Objective-C/Swift 앱에서 음성 SDK를 모듈로 가져올 수 있습니다. 이 주소는 GitHub 문제 #452 해결합니다.
-
Python: Python 3.9에 대한 지원을 추가하고 Python 3.5의 수명 종료에 따라 Python 3.5에 대한 지원을 중단했습니다.
알려진 문제
-
C++/C#/Java:
DialogServiceConnectorCustomCommandsConfig 사용하여 사용자 지정 명령 애플리케이션에 액세스할 수 없으며 대신 연결 오류가 발생합니다. 이 문제는 config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)를 사용하여 애플리케이션 ID를 요청에 수동으로 추가하여 해결할 수 있습니다.
CustomCommandsConfig의 예상 동작은 다음 릴리스에서 복원됩니다.
개선
- Speech SDK의 메모리 사용량 및 디스크 공간을 줄이기 위한 다중 릴리스 노력의 일환으로 Android 바이너리가 3%~5% 작아졌습니다.
-
여기서 C# 참조 설명서의 향상된 정확도, 가독성 및 참조 섹션을 확인하세요.
버그 수정
-
JavaScript: 이제 큰 WAV 파일 헤더가 올바르게 구문 분석됩니다(헤더 조각을 512바이트로 확장). 이 주소는 GitHub 문제 #962 해결합니다.
-
JavaScript: 인식 중지 전에 마이크 스트림이 종료되는 마이크 타이밍 문제가 수정되었으며, 음성 인식이 Firefox에서 작동하지 않는 문제가 해결되었습니다.
-
JavaScript: 이제 turnOn이 완료되기 전에 브라우저가 마이크를 강제로 끄더라도 초기화 프라미스가 올바르게 처리됩니다.
-
JavaScript: URL 종속성을 url 구문 분석으로 대체했습니다. 이 주소는 GitHub 문제 #264 해결합니다.
-
Android:
minifyEnabled를 true로 설정하면 콜백이 작동하지 않는 문제를 수정했습니다.
-
C++/C#/Java/Objective-C/Python:
TCP_NODELAY 대기 시간을 줄이기 위해 TTS용 기본 소켓 IO로 올바르게 설정됩니다.
-
C++/C#/Java/Python/Objective-C/Go: 인식을 시작한 직후 인식기가 제거될 때 발생하는 충돌을 해결했습니다.
-
C++/C#/Java: 스피커 인식기가 파괴되는 경우에 발생하는 충돌을 해결했습니다.
샘플
-
JavaScript: Browser 샘플 더 이상 별도의 JavaScript 라이브러리 파일을 다운로드할 필요가 없습니다.
Speech SDK 1.15.0: 2021년 1월 릴리스
참고
Windows Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지에 따라 달라집니다.
하이라이트 요약
- 메모리 및 디스크 공간을 줄여서 SDK 효율을 높입니다.
- 사용자 지정 신경망 음성 프라이빗 미리 보기에 사용할 수 있는 충실도 높은 출력 형식이 제공됩니다.
- 이제 의도 인식기가 상위 의도보다 더 많은 반환값을 얻을 수 있으므로 고객의 의도에 대한 별도의 평가를 수행할 수 있습니다.
- 이제 음성 도우미와 봇을 더 쉽게 설정할 수 있으며, 즉시 수신 대기를 중지하고 오류에 대응하는 방법을 보다 효과적으로 제어할 수 있습니다.
- 압축을 선택 사항으로 만들어서 디바이스 성능을 향상했습니다.
- Windows ARM/Arm64에서 Speech SDK를 사용합니다.
- 낮은 수준의 디버깅이 향상되었습니다.
- 이제 발음 평가 기능을 보다 폭넓게 사용할 수 있습니다.
- GitHub에서 소중한 고객 여러분이 보고한 문제를 해결하기 위한 몇 가지 버그 수정이 있었습니다! 감사합니다. 앞으로도 피드백을 계속 보내주세요.
개선
- 이제 Speech SDK는 더 효율적이고 가볍습니다. Speech SDK의 메모리 사용량 및 디스크 공간을 줄이기 위한 다중 릴리스 작업이 시작되었습니다. 첫 번째 단계로 대부분의 플랫폼에서 공유 라이브러리의 파일 크기를 대폭 줄였습니다. 1.14 릴리스와 비교할 때 다음과 같은 차이가 있습니다.
- 64비트 UWP 호환 Windows 라이브러리는 약 30% 작습니다.
- 32비트 Windows 라이브러리는 아직 크기가 개선되지 않았습니다.
- Linux 라이브러리는 20-25% 작아졌습니다.
- Android 라이브러리는 3-5% 작아졌습니다.
새로운 기능
-
모두: TTS 음성 합성 API를 통해 사용자 지정 신경망 음성의 프라이빗 미리 보기에 사용할 수 있는 새로운 48KHz 출력 형식으로 Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm이 제공됩니다.
-
모두: 사용자 지정 음성을 더 쉽게 사용할 수 있습니다.
EndpointId(C++, C#를 통해 사용자 지정 음성을 설정하는 지원이 추가되었습니다. Java, JavaScript, Objective-C, Python). 이 변경 전에는 사용자 지정 음성 사용자가 FromEndpoint 메서드를 통해 엔드포인트 URL을 설정해야 했습니다. 이제 고객은 표준 음성과 마찬가지로 FromSubscription 메서드를 사용하고, 그 다음 EndpointId을 설정하여 배포 ID를 제공할 수 있습니다. 사용자 지정 음성을 더 간단하게 설정할 수 있게 되었습니다.
-
C++/C#/Java/Objective-C/Python: 상위 의도보다 많은 정보를 얻으십시오
IntentRecognizer. 이제 LanguageUnderstandingModel FromEndpoint 메서드를 통해 verbose=true uri 매개 변수를 사용하여 상위 채점 의도뿐 아니라 모든 의도를 포함하는 JSON 결과 구성을 지원합니다. 이 주소는 GitHub 문제 #880 해결합니다.
여기서 업데이트된 설명서를 참조하세요.
-
C++/C#/Java: 음성 도우미 또는 봇이 즉시 수신을 중지합니다.
DialogServiceConnector(C++, C#, Java)에는 이제 StopListeningAsync()와 함께 ListenOnceAsync() 메서드가 > 있습니다. 따라서 오디오 캡처를 즉시 중지하고 결과를 정상적으로 대기하므로 "지금 중지" 단추 누르기 시나리오에 사용하기에 적합합니다.
-
C++/C#/Java/JavaScript: 음성 도우미 또는 봇이 기본 시스템 오류에 더 잘 반응하도록 합니다.
DialogServiceConnector(C++C#, Java, JavaScript)에는 이제 새 TurnStatusReceived 이벤트 처리기가 있습니다. 이러한 선택적 이벤트는 봇의 모든 ITurnContext 작업 해결에 해당하며, 처리되지 않은 예외, 시간 초과 또는 Direct Line Speech와 봇 간의 네트워크 단절로 인해 발생하는 경우 턴 실행 실패를 보고합니다.
TurnStatusReceived를 사용하면 실패 조건에 보다 쉽게 대응할 수 있습니다. 예를 들어 봇에서 백 엔드 데이터베이스 쿼리(예: 제품 조회)가 너무 오래 걸리는 경우 TurnStatusReceived를 통해 "죄송합니다만 이 제품은 잘 모르겠습니다. 다시 시도해 주세요" 또는 이와 비슷한 메시지로 사용자에게 다시 입력을 요청하도록 클라이언트에 알릴 수 있습니다.
-
C++/C#: 더 많은 플랫폼에서 음성 SDK를 사용합니다.
Speech SDK NuGet 패키지 이제 더 많은 컴퓨터 유형에서 Speech SDK를 더 유용하게 만들기 위해 ARM/Arm64 데스크톱 네이티브 이진 파일(UWP가 이미 지원됨)을 Windows 지원합니다.
-
Java:
DialogServiceConnector 이전에 의도치 않게 제외된 setSpeechActivityTemplate() 메서드가 있습니다. 이는 Conversation_Speech_Activity_Template 속성을 설정하는 것과 동일하며 Direct Line Speech Service에서 시작된 이후의 모든 Bot Framework 활동이 제공된 콘텐츠를 JSON 페이로드에 병합하도록 요청합니다.
-
Java: 하위 수준 디버깅이 향상되었습니다. 이제
Connection 클래스에는 다른 프로그래밍 언어(C++, C#)와 비슷하게 MessageReceived 이벤트가 있습니다. 이 이벤트는 서비스에서 들어오는 데이터에 대한 하위 수준 액세스를 제공하며 진단 및 디버깅에 유용할 수 있습니다.
-
JavaScript:
BotFrameworkConfig를 통해 음성 도우미와 봇에 맞게 쉽게 설정할 수 있으며, 이제 속성을 수동으로 설정하지 않고 사용자 지정 서비스 위치를 편리하게 사용할 수 있는 fromHost() 및 fromEndpoint() 팩터리 메서드를 제공합니다. 또한 구성 팩터리에서 기본이 아닌 봇을 사용하도록 선택적 botId 사양을 표준화했습니다.
-
JavaScript: websocket 압축을 위한 문자열 제어 속성을 추가하여 디바이스 성능을 개선했습니다. 성능상의 이유로 websocket 압축은 기본적으로 사용되지 않습니다. 낮은 대역폭 시나리오에서는 다시 사용하도록 설정할 수 있습니다. 자세한 내용은 여기를 참조하세요.
GitHub 문제 #242 해결합니다.
-
JavaScript: 음성 발음을 평가할 수 있도록 발음 평가에 대한 지원이 추가되었습니다.
여기서 빠른 시작을 참조하세요.
버그 수정
-
모두(JavaScript 제외): 인식기가 너무 많은 메모리를 할당하는 1.14 버전의 회귀를 수정했습니다.
-
C++:
DialogServiceConnector 가비지 수집 문제를 해결하여 GitHub 문제 #794 해결했습니다.
-
C#: 삭제 시 개체가 약 1초간 차단되는 스레드 종료 관련 문제를 해결했습니다.
-
C++/C#/Java: 애플리케이션이
DialogServiceConnector 음성 권한 부여 토큰 또는 활동 템플릿을 두 번 이상 설정하지 못하도록 하는 예외를 수정했습니다.
-
C++/C#/Java: 종료 시 경합 상태로 인한 인식기 충돌을 해결했습니다.
-
JavaScript:
DialogServiceConnector가 이전에는 botId의 팩터리에 지정된 선택적 BotFrameworkConfig 매개 변수를 적용하지 않았습니다. 이로 인해 기본이 아닌 봇을 사용하도록 botId 쿼리 문자열 매개 변수를 수동으로 설정해야 했습니다. 이 버그가 수정되었으며 새로 추가된 botId 및 BotFrameworkConfig를 포함하여 fromHost()의 팩터리에 제공된 fromEndpoint() 값이 적용되고 사용됩니다. 이는 applicationId에 대한 CustomCommandsConfig 매개 변수에도 적용됩니다.
-
JavaScript: GitHub 문제 #881 해결되어 인식기 개체가 재사용되도록 했습니다.
-
JavaScript: SKD가 한 TTS 세션에서
speech.config를 여러 차례 전송하여 대역폭을 낭비하는 문제를 해결했습니다.
-
JavaScript: 마이크 권한 부여에 대한 오류 처리를 간소화하여 사용자가 브라우저에서 마이크 입력을 허용하지 않을 때 더 많은 설명 메시지를 표시할 수 있게 했습니다.
-
JavaScript: 및
ConversationTranslator 형식 오류로 인해 TypeScript 사용자의 컴파일 오류가 발생한 ConversationTranscriber 수정되었습니다.
-
Objective-C: Xcode 11.4의 iOS에 대해 GStreamer 빌드가 실패한 문제를 해결하여 GitHub 문제 #911 해결했습니다.
-
Python: GitHub 문제 #870 해결되었습니다. "DeprecationWarning: imp 모듈은 importlib를 위해 더 이상 사용되지 않습니다."를 제거합니다.
샘플
- 이제 JavaScript 브라우저의 'From-file' 샘플은 음성 인식에 파일을 사용합니다.
GitHub 문제 #884 해결합니다.
Speech SDK 1.14.0: 2020년 10월 릴리스
참고
Windows Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지에 따라 달라집니다.
새로운 기능
-
Linux: Debian 10 및 Ubuntu 20.04 LTS 지원이 추가되었습니다.
-
Python/Objective-C:
KeywordRecognizer API에 대한 지원이 추가되었습니다. 설명서는 여기에 있습니다.
-
C++/Java/C#:
HttpHeader 통해 ServicePropertyChannel::HttpHeader 키/값을 설정하는 지원이 추가되었습니다.
-
JavaScript:
ConversationTranscriber API 지원이 추가되었습니다.
여기 설명서를 참조하세요.
-
C++/C#: .WAV 파일을 읽을 수 있도록 새
AudioDataStream FromWavFileInput 메서드를 추가했습니다. 여기(C++) 및 여기(C#)를 참조하세요.
-
C++/C#/Java/Python/Objective-C/Swift: 텍스트 음성 합성을 중지하는
stopSpeakingAsync() 메서드를 추가했습니다. 참조 설명서 here(C++), here (C#) 참조 설명서를 참조하세요. here(Java), here(Python) 및 here(Objective-C/Swift).
-
C#, C++, Java:
FromDialogServiceConnector() 함수를 Connection 연결 및 연결 끊기 이벤트를 모니터링하는 데 사용할 수 있는 DialogServiceConnector 클래스에 추가했습니다. 참조 설명서 here(C#), here(C++) 및 here(Java)을 참조하세요.
-
C++/C#/Java/Python/Objective-C/Swift: 음성 발음을 평가하고 음성 오디오의 정확성과 유창성에 대한 발표자 피드백을 제공하는 발음 평가에 대한 지원이 추가되었습니다.
여기에서 설명서를 확인하세요.
호환성이 손상되는 변경
-
JavaScript: PullAudioOutputStream.read()의 반환 형식이 내부 프라미스에서 네이티브 JavaScript 프라미스로 변경되었습니다.
버그 수정
-
모두:
SetServiceProperty에서 특정 특수 문자가 포함된 값을 무시하는 1.13 회귀를 수정했습니다.
-
C#: Visual Studio 2019에서 네이티브 DLL을 찾지 못한 Windows 콘솔 샘플을 수정했습니다.
-
C#: 스트림을
KeywordRecognizer 입력으로 사용하는 경우 메모리 관리와 충돌하는 문제를 수정했습니다.
-
ObjectiveC/Swift: 스트림이 인식기 입력으로 사용되는 경우 메모리 관리와 충돌하는 문제를 수정했습니다.
-
Windows: UWP의 BT HFP/A2DP와의 공존 문제를 해결했습니다.
-
JavaScript: 로깅을 개선하고 내부 디버그/서비스 상관 관계를 도와주도록 세션 ID 매핑을 수정했습니다.
-
JavaScript: 첫 번째 호출을 수행한 후
DialogServiceConnector 호출을 사용하지 않도록 설정하는 ListenOnce에 대한 픽스를 추가했습니다.
-
JavaScript: "단순" 결과만 출력되는 문제를 수정했습니다.
-
JavaScript: macOS의 Safari에서 발생하는 지속적인 인식 문제를 수정했습니다.
-
JavaScript: 요청 처리량이 높은 시나리오의 CPU 부하를 완화했습니다.
-
JavaScript: 음성 프로필 등록 결과의 세부 정보에 대한 액세스를 허용합니다.
-
JavaScript:
IntentRecognizer에서 지속적인 인식을 위한 픽스가 추가되었습니다.
-
C++/C#/Java/Python/Swift/ObjectiveC:
IntentRecognizer australiaeast 및 brazilsouth의 잘못된 URL을 수정했습니다.
-
C++/C#:
VoiceProfileType 개체를 만들 때 VoiceProfile을 인수로 추가했습니다.
-
C++/C#/Java/Python/Swift/ObjectiveC: 지정된 위치에서
AudioDataStream을(를) 읽으려고 할 때 발생할 수 있는 잠재적인 문제를 수정했습니다.
-
IOS: Unity에서 음성 인식과 충돌하는 문제를 수정했습니다.
샘플
-
ObjectiveC: 키워드 인식 here에 대한 샘플이 추가되었습니다.
-
C#/JavaScript: 대화 전사 here(C#) 및 here(JavaScript)에 대한 빠른 시작이 추가되었습니다.
- C++/C#/Java/Python/Swift/ObjectiveC: 발음 평가 here
알려진 이슈
- DigiCert Global Root G2 인증서는 기본적으로 HoloLens 2 및 Android 4.4(KitKat)에서 지원되지 않으며 Speech SDK가 작동하도록 시스템에 추가해야 합니다. 인증서는 가까운 장래에 HoloLens 2 OS 이미지에 추가될 예정입니다. Android 4.4 고객은 업데이트된 인증서를 시스템에 추가해야 합니다.
COVID-19 간이 검사
지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 만약 혹시라도 저희가 놓친 부분이 있다면, GitHub에 알려주시기 바랍니다.
건강에 유의하세요!
Speech SDK 1.13.0: 2020년 7월 릴리스
참고
Windows Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지에 따라 달라집니다.
새로운 기능
-
C#: 비동기 대화 기록을 위한 지원이 추가되었습니다.
여기 설명서를 참조하세요.
-
JavaScript: browser 및 Node.js 모두에 대한 Speaker Recognition 지원이 추가되었습니다.
-
JavaScript: 자동 언어 식별/언어 ID에 대한 지원이 추가되었습니다.
여기 설명서를 참조하세요.
-
Objective-C: 다중 디바이스 대화 및 대화 기록에 대한 지원이 추가되었습니다.
-
Python: Windows 및 Linux에서 Python 대한 압축 오디오 지원이 추가되었습니다.
여기 설명서를 참조하세요.
버그 수정
-
모두: 인식 후 KeywordRecognizer가 스트림을 앞으로 이동하지 않는 문제를 수정했습니다.
-
모두: KeywordRecognitionResult에서 얻은 스트림에 키워드가 포함되지 않는 문제를 수정했습니다.
-
모두: 사용자가 대기를 완료한 후 SendMessageAsync가 네트워크를 통해 메시지를 실제로 전송하지 않는 문제를 수정했습니다.
-
모두: 사용자가 VoiceProfileClient::SpeakerRecEnrollProfileAsync 메서드를 여러 번 호출하고 호출이 완료될 때까지 기다리지 않을 때 Speaker Recognition API에서 발생하는 충돌을 수정했습니다.
-
모두: VoiceProfileClient 및 SpeakerRecognizer 클래스에서 파일 로깅 사용을 활성화했습니다.
-
JavaScript: 브라우저가 최소화되었을 때 발생하는 속도 제한 문제를 수정했습니다.
-
JavaScript: 스트림에서 발생하는 메모리 누수 문제를 수정했습니다.
-
JavaScript: NodeJS의 OCSP 응답에 대한 캐싱을 추가했습니다.
-
Java: BigInteger 필드가 항상 0을 반환하는 문제를 해결했습니다.
-
iOS: iOS App Store에 Speech SDK 기반 앱을 게시할 때 발생했던 문제를 수정했습니다.
샘플
-
C++: Speaker Recognition here 샘플 코드가 추가되었습니다.
COVID-19 간이 검사
지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 만약 우리가 실수를 했을 경우, GitHub에서 알려주시길 바랍니다.
건강에 유의하세요!
Speech SDK 1.12.1: 2020년 6월 릴리스
새로운 기능
-
C#, C++: Speaker Recognition 미리 보기: 이 기능을 사용하면 화자 식별(누가 말하고 있나요?) 및 화자 검증(화자가 주장하는 사람이 맞나요?)이 가능합니다.
개요 설명서를 참조하세요.
버그 수정
-
C#, C++: 1.12의 Speaker Recognition에서 마이크 녹음이 작동하지 않던 문제를 수정했습니다.
-
JavaScript: Firefox와 macOS 및 iOS의 Safari에서 텍스트 음성 변환을 수정했습니다.
- Windows 애플리케이션 검증 도구의 액세스 위반 충돌 문제를 8채널 스트림 사용 시 대화 전사에서 수정하는 패치.
- 멀티 디바이스 대화 번역에서 Windows 애플리케이션 검증기 액세스 위반 충돌을 수정합니다.
샘플
COVID-19 간이 검사
지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 만약 우리가 실수를 했을 경우, GitHub에서 알려주시길 바랍니다.
건강에 유의하세요!
Speech SDK 1.12.0: 2020년 5월 릴리스
새로운 기능
-
Go: 음성 인식 및 사용자 지정 음성 도우미에 대한 새로운 Go 언어 지원.
여기서 개발 환경을 설정하세요. 샘플 코드는 아래의 샘플 섹션을 참조하세요.
-
JavaScript: 텍스트 음성 변환에 대한 브라우저 지원이 추가되었습니다.
여기 설명서를 참조하세요.
-
C++, C#, Java: Windows, Android, Linux 및 iOS 플랫폼에서 지원되는 새
KeywordRecognizer 개체 및 API입니다.
여기에서 설명서를 확인하세요. 샘플 코드는 아래의 샘플 섹션을 참조하세요.
-
Java: 번역을 지원하는 다중 디바이스 대화가 추가되었습니다.
여기서 참조 문서를 확인하세요.
개선 및 최적화
-
JavaScript: 브라우저 마이크 구현을 최적화하여 음성 인식 정확도를 높였습니다.
-
Java: SWIG 없이 직접 JNI 구현을 사용하여 바인딩을 리팩터링했습니다. 이 변경은 Windows, Android, Linux 및 Mac에 사용되는 모든 Java 패키지에 대한 바인딩 크기를 10배 줄이고 Speech SDK Java 구현의 추가 개발을 용이하게 합니다.
-
Linux: 지원 설명서에 최신 RHEL 7 관련 정보가 업데이트되었습니다.
- 서비스 및 네트워크 오류가 발생할 때 연결을 여러 번 시도하도록 연결 논리가 개선되었습니다.
-
portal.azure.com의 Speech 빠른 시작 페이지를 업데이트하여 개발자가 Azure Speech를 다음 단계로 활용할 수 있도록 지원합니다.
버그 수정
-
C#, Java: Linux ARM에서 SDK 라이브러리를 로드하는 데 문제가 있는 것을 수정했습니다(32비트 및 64비트 모두).
-
C#: TranslationRecognizer, IntentRecognizer 및 Connection 개체에 대한 네이티브 핸들의 명시적 삭제를 수정했습니다.
-
C#: ConversationTranscriber 개체의 오디오 입력 수명 관리를 수정했습니다.
- 간단한 구의 의도를 인식할 때
IntentRecognizer 결과 이유가 올바르게 설정되지 않은 문제를 수정했습니다.
-
SpeechRecognitionEventArgs 결과 오프셋이 올바르게 설정되지 않은 문제가 해결되었습니다.
- websocket 연결을 열기 전에 SDK가 네트워크 메시지를 보내려고 시도하는 경합 상태가 수정되었습니다. 참가자를 추가하는 동안
TranslationRecognizer에 대해 재현할 수 있습니다.
- 키워드 인식기 엔진의 메모리 누수 문제를 수정했습니다.
샘플
-
Go: 음성 인식 및 사용자 지정 음성 도우미에 대한 빠른 시작이 추가되었습니다. 샘플 코드는 여기서 찾을 수 있습니다.
-
JavaScript: 텍스트 음성 변환, 번역 및 의도 인식에 대한 빠른 시작을 추가했습니다.
-
C# 및 Java(Android)에 대한 키워드 인식 샘플입니다.
COVID-19 간이 검사
지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 우리가 뭔가를 놓친 경우, GitHub 알려주세요.
건강에 유의하세요!
Speech SDK 1.11.0: 2020년 3월 릴리스
새로운 기능
- Linux: RHEL(Red Hat Enterprise Linux)/CentOS 7 x64에 대한 지원이 추가되었습니다.
- Linux: Linux ARM32 및 Arm64에서 .NET Core C#에 대한 지원이 추가되었습니다. 자세한 내용은 여기를 읽어보세요.
- C#, C++: 모든 중간 및 최종 음성 인식 결과에서 일관적인 ID인
UtteranceId를 ConversationTranscriptionResult에 추가했습니다.
C# 및 C++에 대한 세부 정보를 제공합니다.
- Python:
Language ID 대한 지원이 추가되었습니다.
GitHub 리포지토리 speech_sample.py 참조하세요.
- Windows: 모든 Win32 콘솔 애플리케이션에 대한 Windows 플랫폼에서 압축 오디오 입력 형식 지원이 추가되었습니다. 자세한 내용은 here.
- JavaScript: NodeJS에서 음성 합성(텍스트 음성 변환)을 지원합니다. 자세한 내용은 here.
- JavaScript: 모든 송신 및 수신 메시지를 검사할 수 있도록 새 API를 추가합니다. 자세한 내용은 here.
버그 수정
- C#, C++: 이제
SendMessageAsync에서 이진 메시지를 이진 형식으로 보내도록 문제를 수정했습니다.
C# 및 C++에 대한 세부 정보를 제공합니다.
- C#, C++:
Connection MessageReceived 개체보다 Recognizer 개체가 먼저 삭제된 경우 Connection 이벤트를 사용하면 충돌이 발생할 수 있는 문제를 수정했습니다.
C# 및 C++에 대한 세부 정보를 제공합니다.
- Android: 대기 시간을 개선하기 위해 마이크의 오디오 버퍼 크기를 800ms에서 100ms로 줄였습니다.
- Android: Android Studio에서 x86 Android 에뮬레이터를 사용하여 issue 수정했습니다.
- JavaScript:
fromSubscription API를 통해 중국 내 Azure 지역에 대한 지원을 추가했습니다. 자세한 내용은 here.
- JavaScript: NodeJS의 연결 실패에 대한 오류 정보를 추가했습니다.
샘플
- Unity: LUIS json 가져오기가 실패하는 의도 인식 공개 샘플을 수정했습니다. 자세한 내용은 here.
- Python:
Language ID 대해 추가된 샘플입니다. 자세한 내용은 here.
코로나19로 테스트 축소: 지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 디바이스 확인 테스트를 많이 수행할 수 없었습니다. 예를 들어 Linux, iOS 및 macOS에서 마이크 입력과 스피커 출력을 테스트할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 예상치 못한 경우 GitHub 알려주세요.
여러분의 지속적인 지원에 감사드립니다. 언제나처럼 GitHub 또는 스택 오버플로 질문이나 피드백을 게시하세요.
건강에 유의하세요!
Speech SDK 1.10.0: 2020년 2월 릴리스
새로운 기능
- Python 새 3.8 릴리스를 지원하기 위한 Python 패키지가 추가되었습니다.
- RHEL(Red Hat Enterprise Linux)/CentOS 8 x64 지원(C++, C#, Java, Python).
참고
고객은 이러한 지침에 따라 OpenSSL을 구성해야 합니다.
- Debian 및 Ubuntu에 대해 Linux ARM32를 지원합니다.
- DialogServiceConnector는 이제 BotFrameworkConfig에서 선택적 "bot ID" 매개 변수를 지원합니다. 이 매개 변수를 사용하면 단일 Speech 리소스로 여러 Direct Line Speech 봇을 사용할 수 있습니다. 매개 변수를 지정하지 않으면 기본 봇(Direct Line Speech 채널 구성 페이지에서 결정됨)이 사용됩니다.
- DialogServiceConnector에는 이제 SpeechActivityTemplate 속성이 있습니다. 이 JSON 문자열의 내용은 Direct Line Speech에서 음성 인식과 같은 이벤트에 대한 응답으로 자동으로 생성되는 활동을 포함하여 Direct Line Speech 봇에 도달하는 모든 활동에서 지원되는 다양한 필드를 미리 채우기 위해 사용됩니다.
- 이제 TTS는 인증에 구독 키를 사용하여 신시사이저를 만든 후 첫 번째 합성 결과의 첫 번째 바이트 대기 시간을 줄입니다.
- 19개 로캘(es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR)의 음성 인식 모델을 업데이트하여 단어 오류율을 평균 18.6% 줄였습니다. 새 모델은 받아쓰기, 콜센터 대화 내용 기록 및 비디오 인덱싱 시나리오를 비롯하여 여러 도메인을 대폭 개선합니다.
버그 수정
- JAVA API에서 Conversation Transcriber가 제대로 기다리지 않는 버그가 수정되었습니다.
- AudioConfig에 누락된 GetProperty 및 SetProperty 메서드를 추가합니다.
- 연결이 실패할 때 audioDataStream을 중지할 수 없는 TTS 버그를 수정합니다.
- 지역 없이 엔드포인트를 사용하면 대화 번역기에서 USP 오류가 발생합니다.
- 유니버설 Windows 애플리케이션의 ID 생성은 이제 적절하게 고유한 GUID 알고리즘을 사용합니다. 이전에는 의도치 않게 대규모 상호 작용 집합에 대한 충돌을 생성하는 스텁된 구현으로 기본 설정되었습니다.
샘플
기타 변경 내용
Speech SDK 1.9.0: 2020년 1월 릴리스
새로운 기능
- 다중 디바이스 대화: 동일한 음성 또는 텍스트 기반 대화에 여러 디바이스를 연결하고, 필요에 따라 디바이스 간에 전송되는 메시지를 번역합니다.
이 문서에서 자세히 알아보세요.
- Android
.aar 패키지에 대한 키워드 인식 지원이 추가되었으며 x86 및 x64 기능에 대한 지원이 추가되었습니다.
- Objective-C:
SendMessage 및 SetMessageProperty 메서드가 Connection 개체에 추가되었습니다.
여기 설명서를 참조하세요.
- 이제 TTS C++ API는 합성 텍스트 입력을 지원
std::wstring 하므로 SDK에 전달하기 전에 wstring을 문자열로 변환할 필요가 없습니다. 자세한 내용은 여기를 참조하세요.
- C#: 이제 언어 ID 및 소스 언어 구성을 사용할 수 있습니다.
- JavaScript: Speech Service의 사용자 지정 메시지를
Connection 콜백으로 전달하는 기능을 receivedServiceMessage 개체에 추가했습니다.
- JavaScript: 온-프레미스 컨테이너 및 소버린 클라우드에서 쉽게 사용할 수 있도록
FromHost API에 대한 지원이 추가되었습니다.
여기 설명서를 참조하세요.
- JavaScript:
NODE_TLS_REJECT_UNAUTHORIZED의 기여로 이제 를 적용하게 되었습니다. 자세한 내용은 여기를 참조하세요.
주요 변경 내용
-
OpenSSL은 1.1.1b 버전으로 업데이트되었으며 Linux용 Speech SDK 핵심 라이브러리에 정적으로 연결됩니다. 이로 인해 시스템의 OpenSSL 디렉터리에 수신함 /usr/lib/ssl이 설치되지 않으면 중단이 발생할 수 있습니다. Speech SDK 문서의 설명서에서 문제 해결 방법을 확인하세요.
- C#
WordLevelTimingResult.Offset에 대해 반환되는 데이터 형식을 int에서 long으로 변경했으므로 이제 음성 데이터가 2분보다 긴 경우 WordLevelTimingResults에 액세스할 수 있습니다.
- 이제
PushAudioInputStream 및 PullAudioInputStream은 AudioStreamFormat(만들 때 필요에 따라 설정)을 기반으로 wav 헤더 정보를 Speech Service에 보냅니다. 이제 고객은 지원되는 오디오 입력 형식을 사용해야 합니다. 그 외의 형식을 사용하면 최적이 아닌 인식 결과를 얻거나 다른 문제를 일으킬 수 있습니다.
버그 수정
- 위의 주요 변경 내용에서
OpenSSL 업데이트를 참조하세요. Linux 및 Java에서 간헐적으로 발생하는 크래시와 성능 문제(높은 부하 시 잠금 경합)를 해결했습니다.
- Java: 높은 동시성 시나리오에서 객체 클로저를 개선했습니다.
- NuGet 패키지를 재구성했습니다. lib 폴더에서
Microsoft.CognitiveServices.Speech.core.dll 및 Microsoft.CognitiveServices.Speech.extension.kws.dll의 복사본 3개를 제거하여 NuGet 패키지를 더 작고 더 빠르게 다운로드할 수 있게 만들었으며, 일부 C++ 네이티브 앱을 컴파일하는 데 필요한 헤더를 추가했습니다.
- 빠른 시작 샘플이 여기에서 수정되었습니다. 이들은 Linux, macOS, Windows에서 "마이크를 찾을 수 없음"이라는 예외를 표시하지 않고 종료되었습니다.
-
이 샘플 같은 특정 코드 경로에서 긴 음성 인식 결과를 사용하여 SDK 크래시가 해결되었습니다.
- Azure Web App 환경에서 이 고객 문제를 해결하기 위해 SDK 배포 오류를 해결했습니다.
- 다중
<voice> 태그 또는 <audio> 태그를 사용하여 이 고객 문제를 해결하는 동안 TTS 오류가 해결되었습니다.
- SDK가 일시 중단에서 복구될 때 발생하는 TTS 401 오류를 수정했습니다.
- JavaScript: euirim의 기여 덕분에 오디오 데이터의 순환 가져오기를 수정했습니다.
- JavaScript: 1.7에 추가된 대로 서비스 속성을 설정하기 위한 지원이 추가되었습니다.
- JavaScript: 연결 오류가 발생하면 실패한 websocket 다시 연결 시도가 연속적으로 발생하는 문제를 수정했습니다.
샘플
- Android here 키워드 인식 샘플이 추가되었습니다.
- 서버 시나리오 here에 대한 TTS 샘플이 추가되었습니다.
- C# 및 C++에 대한 다중 디바이스 대화 빠른 시작이 여기에 추가되었습니다.
기타 변경 내용
- Android의 SDK 핵심 라이브러리 크기를 최적화했습니다.
- 1.9.0 이상의 SDK는 Conversation Transcriber의 음성 서명 버전 필드에서
int 및 string 형식을 모두 지원합니다.
Speech SDK 1.8.0: 2019년 11월 릴리스
새로운 기능
- 온-프레미스 컨테이너 및 소버린 클라우드에서 쉽게 사용할 수 있도록
FromHost() API를 추가했습니다.
- 음성 인식에 대한 원본 언어 식별 추가(Java 및 C++)
- 예상 소스 언어(Java 및 C++)를 지정하는 데 사용되는 음성 인식용
SourceLanguageConfig 개체가 추가되었습니다.
- NuGet 및 Unity 패키지를 통해 Windows(UWP), Android 및 iOS에서
KeywordRecognizer 지원 추가
- 원격 대화 Java API가 대화 전사를 위한 비동기 일괄 처리에 추가되었습니다.
주요 변경 내용
- Conversation Transcriber 기능이
Microsoft.CognitiveServices.Speech.Transcription 네임스페이스에서 이동되었습니다.
- Conversation Transcriber 메서드의 일부는 새
Conversation 클래스로 이동되었습니다.
- 32비트(ARMv7 및 x86) iOS에 대한 지원 삭제
버그 수정
- 유효한 Speech Service 구독 키 없이 로컬
KeywordRecognizer를 사용하는 경우 발생하는 충돌 해결
샘플
-
KeywordRecognizer에 대한 Xamarin 샘플
-
KeywordRecognizer에 대한 Unity 샘플
- 자동 소스 언어 식별을 위한 C++ 및 Java 샘플입니다.
Speech SDK 1.7.0: 2019년 9월 릴리스
새로운 기능
- Universal Windows Platform (UWP), Android 및 iOS에서 Xamarin 대한 베타 지원이 추가됨
- Unity에 대한 iOS 지원이 추가되었습니다.
- Android, iOS 및 Linux에서 ALaw, Mulaw, FLAC에 대한
Compressed 입력 지원이 추가되었습니다.
- 서비스에 메시지를 보낼 수 있도록
SendMessageAsync 클래스에 Connection이 추가되었습니다.
- 메시지의 속성을 설정할 수 있도록
SetMessageProperty 클래스에 Connection이 추가되었습니다.
- TTS는 Java(JRE 및 Android), Python, Swift 및 Objective-C에 대한 바인딩을 추가했습니다.
- macOS, iOS 및 Android에 대한 재생 지원이 TTS에 추가되었습니다.
- TTS에 대한 "단어 경계" 정보가 추가되었습니다.
버그 수정
- Android용 Unity 2019에서 IL2CPP 빌드 문제가 수정되었습니다.
- wav 파일 입력의 잘못된 헤더가 올바르지 않게 처리되는 문제를 수정했습니다.
- UUID가 일부 연결 속성에서 고유하지 않은 문제를 수정했습니다.
- Swift 바인딩에서 Null 허용 여부 지정자에 대한 몇 가지 경고를 수정 했습니다(코드를 약간 변경해야 할 수 있음).
- 네트워크 부하 시 websocket 연결이 비정상적으로 종료되는 버그를 수정했습니다.
- Android에서 가끔 중복된 광고 노출 ID가
DialogServiceConnector에 사용되는 문제를 수정했습니다.
- 다중 턴 상호 작용의 연결 안정성 및
Canceled에서 오류 발생 시 오류 보고(DialogServiceConnector 이벤트를 통해) 기능이 향상되었습니다.
- 이제
DialogServiceConnector 세션 시작은 활성 ListenOnceAsync() 상태에서 StartKeywordRecognitionAsync()를 호출하는 경우를 포함하여 이벤트를 올바르게 제공합니다.
-
DialogServiceConnector 활동 수신 중에 발생하는 충돌을 해결했습니다.
샘플
- Xamarin을 위한 빠른 시작
- Linux Arm64 정보와 함께 CPP 빠른 시작이 업데이트됨
- Unity 빠른 시작의 iOS 정보 업데이트
Speech SDK 1.6.0: 2019년 6월 릴리스
샘플
- UWP 및 Unity의 텍스트 음성 변환 빠른 시작 샘플
- iOS의 Swift에 대한 빠른 시작 샘플
- 음성 및 의도 인식과 번역에 대한 Unity 샘플
-
DialogServiceConnector에 대한 빠른 시작 샘플 업데이트
향상된 기능/변경 사항
- 대화 상자 네임스페이스:
-
SpeechBotConnector는 DialogServiceConnector로 이름이 변경되었습니다.
-
BotConfig는 DialogServiceConfig로 이름이 변경되었습니다.
-
BotConfig::FromChannelSecret()이 DialogServiceConfig::FromBotSecret()으로 다시 매핑되었습니다.
- 모든 기존 Direct Line Speech 클라이언트는 이름 바꾸기 후에도 계속 지원됩니다.
- 프록시, 영구 연결을 지원하도록 TTS REST 어댑터 업데이트
- 잘못된 지역이 전달될 때 오류 메시지 개선
- Swift/Objective-C:
- 오류 보고 개선: 오류를 발생시킬 수 있는 메서드는 이제 두 가지 버전으로 제공됩니다. 하나는 오류 처리를 위해
NSError 개체를 노출하는 버전이고, 다른 하나는 예외를 발생시키는 버전입니다. Swift에는 전자가 노출됩니다. 이렇게 변경하려면 기존 Swift 코드를 조정해야 합니다.
- 이벤트 처리 개선
버그 수정
- 오디오 렌더링이 완료될 때까지 기다리지 않고
SpeakTextAsync가 미래값(future)을 반환하는 TTS 문제 수정
- 전체 언어 지원을 가능하게 하는 C#의 문자열 마샬링 수정
- 샘플에서 net461 대상 프레임워크를 사용하여 핵심 라이브러리를 로드하는 .NET 핵심 앱 문제 해결
- 샘플에서 출력 폴더에 네이티브 라이브러리를 배포하는 간헐적 문제 수정
- 안정적으로 웹 소켓을 닫도록 수정
- Linux에서 부하가 높은 상태에서 연결을 여는 동안 발생할 수 있는 충돌 수정
- macOS용 프레임워크 번들에서 누락된 메타데이터 수정
- Windows에서
pip install --user 문제 수정
Speech SDK 1.5.1
버그 수정 릴리스이며 네이티브/관리형 SDK에만 적용됩니다. SDK의 JavaScript 버전에는 영향을 주지 않습니다.
버그 수정
- 대화 기록에 사용되는 FromSubscription을 수정했습니다.
- 음성 도우미의 키워드 검출 버그를 수정했습니다.
Speech SDK 1.5.0: 2019년 5월 릴리스
새로운 기능
- 이제 KWS(키워드 스포팅)를 Windows 및 Linux에 사용할 수 있습니다. KWS 기능은 모든 마이크 유형에서 작동할 수 있지만 공식 KWS 지원은 현재 Azure Kinect DK 하드웨어 또는 Speech Devices SDK에 있는 마이크 배열로 제한됩니다.
- 구문 힌트 기능은 SDK를 통해 사용할 수 있습니다. 자세한 내용은 여기를 참조하세요.
- 대화 기록 기능은 SDK를 통해 사용할 수 있습니다.
- Direct Line Speech 채널을 사용하여 음성 도우미에 대한 지원을 추가합니다.
샘플
- SDK에서 지원하는 새 기능 또는 새로운 서비스에 대한 샘플이 추가되었습니다.
향상된 기능/변경 사항
- 서비스 동작 또는 서비스 결과(예: 욕설 및 기타 비속어 마스킹)를 조정하는 다양한 인식기 속성이 추가되었습니다.
- 이제
FromEndpoint 인식기를 만들었더라도 표준 구성 속성을 통해 인식기를 구성할 수 있습니다.
- Objective-C:
OutputFormat 속성이 SPXSpeechConfiguration에 추가되었습니다.
- 이제 SDK는 Linux 배포판으로 Debian 9를 지원합니다.
버그 수정
- 화자 리소스가 텍스트 음성 변환에서 너무 일찍 소멸하는 문제를 수정했습니다.
Speech SDK 1.4.2
버그 수정 릴리스이며 네이티브/관리형 SDK에만 적용됩니다. SDK의 JavaScript 버전에는 영향을 주지 않습니다.
Speech SDK 1.4.1
JavaScript 전용 릴리스입니다. 추가한 기능은 없습니다. 다음과 같이 수정했습니다.
- 웹팩이 https-proxy-agent를 로드하지 않도록 방지하세요.
Speech SDK 1.4.0: 2019년 4월 릴리스
새로운 기능
- 이제 SDK는 텍스트 음성 변환 서비스를 베타 버전으로 지원합니다. C++ 및 C#의 Windows 및 Linux Desktop에서 지원됩니다. 자세한 내용은 텍스트 음성 변환 개요를 참조하세요.
- 이제 SDK는 MP3 및 Opus/OGG 오디오 파일을 스트림 입력 파일로 지원합니다. 이 기능은 C++ 및 C#의 Linux에서만 사용할 수 있으며 현재 베타 버전입니다(자세한 내용은 여기 참조).
- Java, .NET 코어, C++ 및 Objective-C 대한 Speech SDK는 macOS 지원을 받았습니다. Objective-C의 macOS 지원은 현제 베타 버전입니다.
- iOS: iOS용 Speech SDK(Objective-C) 역시 현재 CocoaPod로 게시됩니다.
- JavaScript: 기본이 아닌 마이크를 입력 디바이스로 지원합니다.
- JavaScript: Node.js에 대한 프록시를 지원합니다.
샘플
- macOS 기반의 C++ 및 Objective-C에서 Speech SDK를 사용하는 샘플이 추가되었습니다.
- 텍스트 음성 변환 서비스 사용법을 보여주는 샘플이 추가되었습니다.
향상된 기능/변경 사항
- Python: 이제 인식 결과의 추가 속성이
properties 속성을 통해 노출됩니다.
- 추가 개발 및 디버그 지원이 필요한 경우 SDK 로깅 및 진단 정보를 로그 파일로 리디렉션할 수 있습니다(자세한 내용은 여기 참조).
- JavaScript: 오디오 처리 성능이 향상되었습니다.
버그 수정
- Mac/iOS: Speech Service에 대한 연결을 설정할 수 없을 때 오래 기다려야 하는 버그를 수정했습니다.
- Python: Python 콜백의 인수에 대한 오류 처리를 개선합니다.
- JavaScript: RequestSession에서 음성이 종료된 경우의 잘못된 상태 보고를 수정했습니다.
Speech SDK 1.3.1: 2019년 2월 새로 고침
버그 수정 릴리스이며 네이티브/관리형 SDK에만 적용됩니다. SDK의 JavaScript 버전에는 영향을 주지 않습니다.
버그 수정
- 마이크 입력을 사용할 때 메모리 누수가 수정되었습니다. 스트림 기반 또는 파일 입력에는 영향을 주지 않습니다.
Speech SDK 1.3.0: 2019 2월 릴리스
새로운 기능
- Speech SDK는
AudioConfig 클래스를 통해 입력 마이크를 선택할 수 있도록 지원합니다. 따라서 기본이 아닌 마이크에서 Speech Service로 오디오 데이터를 스트리밍할 수 있습니다. 자세한 내용은 오디오 입력 디바이스 선택에 대한 설명서를 참조하세요. JavaScript에서는 아직 이 기능을 사용할 수 없습니다.
- 이제 Speech SDK는 베타 버전의 Unity를 지원합니다.
GitHub 샘플 리포지토리 문제 섹션을 통해 피드백을 제공합니다. 이 릴리스에서는 Windows x86 및 x64(데스크톱 또는 Universal Windows Platform 애플리케이션) 및 Android(ARM32/64, x86)에서 Unity를 지원합니다. 자세한 내용은 Unity 빠른 시작을 참조하세요.
- 이전 릴리스에서 제공하던
Microsoft.CognitiveServices.Speech.csharp.bindings.dll 파일은 더 이상 필요 없습니다. 이제 이 기능이 핵심 SDK에 통합되었습니다.
샘플
다음 새 콘텐츠는 샘플 리포지토리에서 사용할 수 있습니다.
-
AudioConfig.FromMicrophoneInput에 대한 추가 샘플
- 의도 인식 및 번역에 대한 추가 Python 샘플입니다.
- iOS에서
Connection 개체를 사용하는 방법에 대한 추가 샘플
- 오디오 출력을 사용한 번역을 위한 추가 Java 샘플입니다.
-
일괄 대화 내용 기록 REST API
향상된 기능/변경 사항
- Python
-
SpeechConfig의 매개 변수 확인 및 오류 메시지를 개선했습니다.
-
Connection 개체 지원을 추가했습니다.
- Windows 32비트 Python(x86)를 지원합니다.
- Python Speech SDK는 베타 버전이 없습니다.
- iOS
- SDK는 이제 iOS SDK 버전 12.1용으로 빌드되었습니다.
- SDK는 이제 iOS 버전 9.2 이상을 지원합니다.
- 참조 설명서를 개선하고 몇 가지 속성 이름을 수정합니다.
- JavaScript
-
Connection 개체 지원을 추가했습니다.
- 번들로 묶은 JavaScript의 형식 정의 파일을 추가했습니다.
- 구문 힌트의 초기 지원 및 구현이 제공됩니다.
- 인식을 위해 서비스 JSON을 사용하는 속성 컬렉션을 반환합니다.
- Windows DLL에는 이제 버전 리소스가 포함됩니다.
-
FromEndpoint 인식기를 만드는 경우 엔드포인트 URL에 매개 변수를 직접 추가할 수 있습니다.
FromEndpoint를 사용하면 표준 구성 속성을 통해 인식기를 구성할 수 없습니다.
버그 수정
- 빈 프록시 이름과 프록시 암호가 올바르게 처리되지 않았습니다. 이 릴리스에서는 프록시 이름과 프록시 암호를 빈 문자열로 설정하면 프록시에 연결될 때 제출되지 않습니다.
- SDK에서 만든 SessionId가 항상 일부 언어/환경에서 무작위인 것은 아니었습니다. 이 문제를 수정하기 위해 난수 생성기 초기화를 추가했습니다.
- 권한 부여 토큰 처리를 개선했습니다. 권한 부여 토큰을
SpeechConfig에 지정하고, API 키는 비워 둡니다. 그런 다음, 평소처럼 인식기를 만듭니다.
- 경우에 따라
Connection 개체가 올바르게 해제되지 않았습니다. 이 문제는 해결되었습니다.
- Safari에서도 오디오 출력의 변환 합성을 지원하도록 JavaScript 샘플을 수정했습니다.
Speech SDK 1.2.1
JavaScript 전용 릴리스입니다. 추가한 기능은 없습니다. 다음과 같이 수정했습니다.
- speech.end가 아닌 turn.end에서 스트림 끝을 실행합니다.
- 현재 전송이 실패한 경우 다음 전송을 예약하지 않는 오디오 펌프의 버그를 수정했습니다.
- 인증 토큰을 사용한 연속 인식을 수정했습니다.
- 다른 인식기/엔드포인트의 버그를 수정했습니다.
- 설명서 개선
Speech SDK 1.2.0: 2018년 12월 릴리스
새로운 기능
- Python
- 베타 버전의 Python 지원(3.5 이상)은 이 릴리스에서 사용할 수 있습니다. 자세한 내용은 [여기](../../quickstart-python.md)를 참조하세요.
- JavaScript
- JavaScript용 Speech SDK가 오픈 소스로 제공됩니다. 소스 코드는 GitHub 사용할 수 있습니다.
- 이제 Node.js를 지원합니다. 자세한 정보는 여기에서 확인할 수 있습니다.
- 오디오 세션에 대한 길이 제한이 제거되었으므로 백그라운드에서 자동으로 다시 연결됩니다.
-
Connection 개체
-
Recognizer에서 Connection 개체에 액세스할 수 있습니다. 이 개체를 사용하면 명시적으로 서비스 연결을 시작하고 연결 및 연결 끊기 이벤트를 구독할 수 있습니다.
(이 기능은 JavaScript 및 Python 아직 사용할 수 없습니다.)
- Ubuntu 18.04 지원
- Android
- APK 생성 중에 ProGuard 지원이 설정되었습니다.
개선
- 스레드, 잠금, 뮤텍스 수를 줄이면서 내부 스레드 사용이 개선되었습니다.
- 오류 보고/정보가 개선되었습니다. 여러 경우에 오류 메시지가 끝까지 전파되지 않았습니다.
- 최신 모듈을 사용하도록 JavaScript의 개발 종속성을 업데이트했습니다.
버그 수정
-
RecognizeAsync의 형식 불일치로 인한 메모리 누수가 수정되었습니다.
- 어떤 경우에는 예외가 유출되었습니다.
- 번역 이벤트 인수에서 메모리 누수가 수정되었습니다.
- 장기 실행 세션에서 다시 연결 시 잠금 문제가 해결되었습니다.
- 번역 실패로 인해 최종 결과가 누락될 수 있는 문제가 해결되었습니다.
- C#: 주 스레드에서
async 작업을 기다리지 않는 경우 비동기 작업이 완료되기 전에 인식기가 삭제될 수 있었습니다.
- Java: Java VM이 충돌하는 문제를 해결했습니다.
- Objective-C: 고정 열거형 매핑:
RecognizingIntent 대신 RecognizedIntent가 반환되었습니다.
- JavaScript:
SpeechConfig에서 기본 출력 형식을 'simple'로 설정합니다.
- JavaScript: JavaScript 및 다른 언어에서 구성 개체 속성 간 불일치를 제거합니다.
샘플
- 여러 샘플을 업데이트하고 수정했습니다(예: 번역을 위한 출력 음성 등).
- Node.js 샘플을 샘플 리포지토리에 추가했습니다.
Speech SDK 1.1.0
새로운 기능
- Android x86/x64를 지원합니다.
- 프록시 지원: 이제
SpeechConfig 개체에서 함수를 호출하여 프록시 정보(호스트 이름, 포트, 사용자 이름 및 암호)를 설정할 수 있습니다. iOS에서는 아직 이 기능을 사용할 수 없습니다.
- 향상된 오류 코드 및 메시지입니다. 인식이 오류를 반환한 경우 이미
Reason(취소된 이벤트의) 또는 CancellationDetails(인식 결과의) Error로 설정되어 있습니다. 취소 이벤트에는 이제 두 개의 추가 멤버 ErrorCode 및 ErrorDetails가 포함됩니다. 서버에서 보고된 오류와 함께 추가 오류 정보가 반환된 경우, 새 멤버에서 이 정보를 사용할 수 있습니다.
개선
- 인식기 구성에서 추가 확인을 추가하고, 추가 오류 메시지를 추가했습니다.
- 오디오 파일 중간의 오랜 시간의 무음 처리가 개선되었습니다.
- NuGet 패키지: .NET Framework 프로젝트의 경우 AnyCPU 구성으로 빌드할 수 없습니다.
버그 수정
- 인식기에서 발견된 몇 가지 예외를 수정했습니다. 또한 예외가 포착되어
Canceled 이벤트로 변환됩니다.
- 속성 관리에서 메모리 누수를 해결합니다.
- 오디오 입력 파일이 인식기 작동을 중지할 수 있는 버그가 수정되었습니다.
- 세션 중지 이벤트 후 이벤트를 수신할 수 있는 버그가 수정되었습니다.
- 스레딩에서 일부 경합 상태가 수정되었습니다.
- 결국 충돌을 일으킬 수 있는 iOS 호환성 문제가 해결되었습니다.
- Android 마이크 지원의 안정성 향상.
- JavaScript의 인식기가 인식 언어를 무시하는 버그가 수정되었습니다.
- JavaScript에서
EndpointId(일부 경우) 설정을 방해하는 버그가 수정되었습니다.
- JavaScript의 AddIntent에서 매개 변수 순서를 변경하고, 누락된
AddIntent JavaScript 서명을 추가했습니다.
샘플
-
샘플 리포지토리에 끌어오기 및 밀어넣기 스트리밍 사용에 대한 C++ 및 C# 샘플을 추가했습니다.
Speech SDK 1.0.1
안정성 향상 및 버그 수정:
- 삭제 중인 인식기의 경합으로 인한 잠재적인 심각한 오류가 수정되었습니다.
- 속성이 설정되지 않은 경우 발생할 수 있는 심각한 오류가 수정되었습니다.
- 추가 오류 및 매개 변수 검사가 추가되었습니다.
- Objective-C: NSString에서 이름 재정의로 인한 잠재적인 심각한 오류가 수정되었습니다.
- Objective-C: API의 가시성이 조정되었습니다.
- JavaScript: 관련 이벤트 및 해당 페이로드가 수정되었습니다.
- 설명서 개선
샘플 리포지토리에서 JavaScript에 대한 새로운 샘플이 추가되었습니다.
Azure Speech SDK 1.0.0: 2018-9월 릴리스
새로운 기능
주요 변경 내용
- 이 릴리스에는 몇 가지 주요한 변경 내용이 도입되었습니다.
자세한 내용은 이 페이지를 확인하세요.
Azure Speech SDK 0.6.0: 2018-8월 릴리스
새로운 기능
- Speech SDK를 사용하여 빌드된 UWP 앱은 이제 WACK(Windows App 인증 키트)를 전달할 수 있습니다.
UWP 빠른 시작을 확인하세요.
- Linux에서 .NET Standard 2.0 지원(Ubuntu 16.04 x64).
- 실험적: Windows(64비트) 및 Linux(Ubuntu 16.04 x64)에서 Java 8을 지원합니다.
Java 런타임 환경 빠른 시작을 확인해 보세요.
기능 변경
- 연결 오류에 대한 추가 오류 세부 정보를 표시합니다.
주요 변경 내용
- Java(Android)에서
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate 함수에는 더 이상 경로 매개 변수가 필요하지 않습니다. 이제 지원되는 모든 플랫폼에서 경로가 자동으로 검색됩니다.
- Java 및 C#의 속성
EndpointUrl의 get 접근자가 제거되었습니다.
버그 수정
- Java 번역 인식기에서 오디오 합성 결과가 지금 구현됩니다.
- 비활성 스레드 및 사용되지 않는 열린 소켓 수가 증가하는 버그가 수정되었습니다.
- 오래 실행되는 인식이 전송 중에 종료될 수 있는 문제가 해결되었습니다.
- 인식기 종료에서 발생하는 경합 조건이 수정되었습니다.
Azure Speech SDK 0.5.0: 2018-7월 릴리스
새로운 기능
- Android 플랫폼(API 23: Android 6.0 Marshmallow 이상)을 지원합니다.
Android 빠른 시작을 확인하세요.
- Windows .NET Standard 2.0을 지원합니다.
.NET Core 빠른 시작 확인하세요.
- 실험적: Windows(버전 1709 이상)에서 UWP를 지원합니다.
-
UWP 빠른 시작을 확인하세요.
- Speech SDK를 사용하여 빌드된 UWP 앱은 아직 WACK(Windows App 인증 키트)를 전달하지 않습니다.
- 자동 재연결을 통해 긴 시간 인식을 지원합니다.
기능 변경 내용
-
StartContinuousRecognitionAsync()에서 장기 실행 인식을 지원합니다.
- 인식 결과에 더 많은 필드가 포함됩니다. 인식된 텍스트의 오디오 시작 및 지속 시간의 오프셋(두 가지 모두 틱 단위) 및 인식 상태를 나타내는 추가 값(예:
InitialSilenceTimeout, InitialBabbleTimeout)입니다.
- 팩터리 인스턴스를 만들기 위한 AuthorizationToken을 지원합니다.
주요 변경 내용
- 인식 이벤트:
NoMatch 이벤트 유형이 Error 이벤트에 병합되었습니다.
- C#의 SpeechOutputFormat이 C++에 맞게
OutputFormat으로 이름이 바뀌었습니다.
-
AudioInputStream 인터페이스의 일부 메서드 반환 형식이 다음과 같이 약간 변경되었습니다.
- Java
read 메서드는 이제 long 대신 int 반환합니다.
- C#에서
Read 메서드는 이제 uint 대신 int을 반환합니다.
- C++에서
Read 및 GetFormat 메서드는 이제 size_t 대신 int를 반환합니다.
- C++: 오디오 입력 스트림의 인스턴스가 이제
shared_ptr로만 전달될 수 있습니다.
버그 수정
-
RecognizeAsync() 시간이 초과될 때 결과의 잘못된 반환 값이 수정되었습니다.
- Windows 미디어 기반 라이브러리에 대한 종속성이 제거되었습니다. SDK에 이제 Core Audio API가 사용됩니다.
- 설명서 수정 사항: 지원되는 지역을 설명하는 지역 페이지가 추가되었습니다.
알려진 이슈
- Android용 Speech SDK에서는 번역에 대한 음성 합성 결과를 보고하지 않습니다. 이 문제는 다음 릴리스에서 해결될 예정입니다.
Azure Speech SDK 0.4.0: 2018-6월 릴리스
기능 변경 내용
오디오인풋스트림
이제 인식기가 스트림을 오디오 원본으로 사용할 수 있습니다. 자세한 내용은 관련 방법 가이드를 참조하세요.
자세한 출력 형식
SpeechRecognizer를 만들 때 Detailed 또는 Simple 출력 형식을 요청할 수 있습니다.
DetailedSpeechRecognitionResult에는 신뢰도 점수, 인식된 텍스트, 원시 어휘 형식, 정규화된 형식 및 마스킹된 욕설이 포함된 정규화된 형식이 포함됩니다.
호환성이 손상되는 변경
- C#의
SpeechRecognitionResult.Text가 SpeechRecognitionResult.RecognizedText로 변경되었습니다.
버그 수정
- 종료하는 동안 USP 계층에서 발생할 수 있는 콜백 문제가 해결되었습니다.
- 인식기가 오디오 입력 파일을 사용한 경우, 필요한 것보다 더 긴 파일 핸들을 사용하고 있었습니다.
- 메시지 펌프와 인식기 간에 여러 가지 교착 상태가 제거되었습니다.
- 서비스 응답 시간이 초과되면
NoMatch 결과를 실행합니다.
- Windows 미디어 파운데이션 라이브러리는 로드가 지연됩니다. 이 라이브러리는 마이크 입력에만 필요합니다.
- 오디오 데이터의 업로드 속도는 원본 오디오 속도의 두 배 정도로 제한됩니다.
- 이제 Windows에서 C# .NET 어셈블리는 강력한 이름을 가집니다.
- 설명서 수정:
Region은 인식기를 만드는 데 필요한 정보입니다.
추가 샘플이 추가되었고 지속적으로 업데이트되고 있습니다. 최신 샘플 집합은 Speech SDK 샘플 GitHub 리포지토리 참조하세요.
Azure Speech SDK 0.2.12733: 2018-5월 릴리스
이 릴리스는 Azure Speech SDK의 첫 번째 공개 미리 보기 릴리스입니다.
Speech CLI 1.48.0: 2026-2월 릴리스
Speech SDK 1.48.0을 사용하도록 업데이트됨
새로운 기능
버그 수정
Speech CLI 1.47.0: 2025-9월 릴리스
Speech SDK 1.47.0을 사용하도록 업데이트됨
새로운 기능
버그 수정
주요 변경 내용:
- 서비스 사용 중지로 인한 의도 인식 지원이 제거되었습니다.
- 서비스 사용 중지로 인해 화자 인식 지원이 제거되었습니다.
Speech CLI 1.46.0: 2025-9월 릴리스
Speech SDK 1.46.0을 사용하도록 업데이트됨
새로운 기능
버그 수정
Speech CLI 1.45.0: 2025-7월 릴리스
Speech SDK 1.45.0을 사용하도록 업데이트되었습니다.
새로운 기능
버그 수정
Speech CLI 1.44: 2025년 5월 릴리스
새로운 기능
- Microsoft Entra 토큰 자격 증명으로 인증에 대한 지원이 추가되었습니다.
- 빠른 대화기록 API에 대한 지원이 추가되었습니다.
버그 수정
- 파일에서 작동하지 않는 세미콜론으로 구분된 입력 URL 및 입력 파일/URL 목록을 수정했습니다.
Speech CLI 1.43: 2025-3월 릴리스
새로운 기능
- .NET 8을 사용하도록 SPX가 업데이트되었습니다.
버그 수정
- 온-프레미스 일괄 처리 시나리오에서 작동하지 않는 SPX Docker 컨테이너가 수정되었습니다.
음성 CLI 1.40.0: 2024년 8월 릴리스
Speech SDK 1.40.0을 사용하도록 업데이트되었습니다.
새로운 기능
버그 수정
Speech CLI 1.38.0: 2024년 6월 릴리스
Speech SDK 1.38.0을 사용하도록 업데이트되었습니다.
새로운 기능
버그 수정
Speech CLI 1.37.0: 2024년 4월 릴리스
Speech SDK 1.37.0을 사용하도록 업데이트되었습니다.
새로운 기능
버그 수정
음성 CLI 1.36.0: 2024년 3월 릴리스
Speech SDK 1.36.0을 사용하도록 업데이트되었습니다.
새로운 기능
버그 수정
Speech CLI 1.35.0: 2024년 2월 릴리스
Speech SDK 1.35.0을 사용하도록 업데이트되었습니다.
새로운 기능
버그 수정
Speech CLI 1.34.0: 2023년 11월 릴리스
Speech SDK 1.34.0을 사용하도록 업데이트되었습니다.
Speech CLI 1.33.0: 2023년 10월 릴리스
Speech SDK 1.33.0을 사용하도록 업데이트되었습니다.
음성 CLI 1.31.0: 2023년 8월 릴리스
Speech SDK 1.31.0을 사용하도록 업데이트되었습니다.
음성 CLI 1.30.0: 2023년 7월 릴리스
Speech SDK 1.30.0을 사용하도록 업데이트되었습니다.
Speech CLI 1.29.0: 2023년 6월 릴리스
Speech SDK 1.29.0을 사용하도록 업데이트되었습니다.
음성 CLI 1.28.0: 2023년 5월 릴리스
Speech SDK 1.28.0을 사용하도록 업데이트되었습니다.
Speech CLI 1.27.0: 2023년 4월 릴리스
업데이트
- Speech SDK 1.27.0을 사용하도록 업데이트되었습니다.
- 사용자 지정 음성 인식 및 Batch 음성 인식에 v3.1 REST API를 사용하도록 기본 엔드포인트를 업데이트합니다.
버그 수정
- 쿼리 매개 변수 구문 분석/구성 방법과 관련된 수정 사항입니다.
음성 CLI 1.26.0: 2023년 3월 릴리스
Speech SDK 1.26.0을 사용하도록 업데이트되었습니다.
Speech CLI 1.25.0: 2023년 1월 릴리스
Speech SDK 1.25.0을 사용하도록 업데이트되었습니다.
Speech CLI 1.24.0: 2022년 10월 릴리스
Speech SDK 1.24.0을 사용합니다.
새로운 기능
- 모든 spx 이벤트에 대해 JMESPath 쿼리를 지원하도록 “spx 검사”가 확장되었습니다.
버그 수정
- JMESPath 쿼리 평가에 대한 견고성의 다양한 개선 사항이 있습니다.
- 리소스가 제한된 컴퓨터에서 발생할 수 있는 파일 쓰기에 대한 잘림을 수정합니다.
음성 CLI 1.23.0: 2022년 7월 릴리스
Speech SDK 1.23.0을 사용합니다.
새로운 기능
- 더 나은 캡션(
--output vtt 및 --output srt) 큰 결과 분할(최대 37자, 3줄)
-
spx synthesize
--format 옵션이 문서화됨(spx help synthesize format 참조)
- 대부분의
spx csr 명령/옵션이 문서화됨(spx help csr 참조)
-
spx csr model copy 명령이 추가됨(spx help csr model copy 참조)
- JMES 쿼리를 사용하는
--check result 옵션이 추가됨(spx help check result 참조)
- 잘못된 명령 옵션을 지정할 때 발생하는 오류 메시지가 개선됨
- .NET Core 3.1에서 .NET 6.0으로 이동했습니다. Speech CLI를 실행하려면 .NET 6.0 런타임 이상을 설치해야 합니다.
버그 수정
- 언어를 제거하기 위해 모든 URL이 업데이트됨(예: "en-US")
- 모든 경우에 올바르게 보고하도록 버전 정보가 수정됨(이전에는 경우에 따라 공백으로 표시됨)
Speech CLI 1.22.0: 2022년 6월 릴리스
Speech SDK 1.22.0을 사용합니다.
새로운 기능
- Azure 웹 포털에 접속하지 않고도 Speech 리소스 키를 생성할 수 있도록 사용자를 안내하는
spx init 명령이 추가되었습니다.
- 이제 Speech Docker 컨테이너에 Azure CLI 포함되어 있으므로
spx init 명령이 기본으로 작동합니다.
- 대기 시간을 계산할 때 SPX를 더 유용하게 만들기 위해 이벤트 출력 옵션으로 타임스탬프를 추가했습니다.
Speech CLI 1.21.0: 2022년 4월 릴리스
Speech SDK 1.21.0을 사용합니다.
새로운 기능
- WEBVTT 캡션 생성
-
--output vtt에 spx translate 지원이 추가됨
- 기본 VTT FILENAME을 재정의하는
--output vtt file FILENAME 지원
-
--output vtt file -은 표준 출력에 쓰기 위한 지원을 제공합니다.
- 각 대상 언어에 대해 개별 VTT 파일이 만들어집니다(예:
--target en;de;fr).
- SRT 캡션 생성
-
--output srt, spx recognize 및 spx intent에 spx translate 지원 추가
- 기본 SRT 파일 이름을 재정의하는
--output srt file FILENAME 지원
-
--output srt file -은 표준 출력에 쓰기 위한 지원을 제공합니다.
-
spx translate의 경우 각 대상 언어에 대해 개별 SRT 파일이 만들어집니다(예: --target en;de;fr).
버그 수정
-
hh:mm:ss.fff 형식을 올바르게 사용하도록 WEBVTT 시간 범위 출력 수정
Speech CLI 1.20.0: 2022년 1월 릴리스
새로운 기능
- 화자 인식
-
spx profile enroll 및 spx speaker [identify/verify]는 마이크 입력을 지원합니다.
- 의도 인식(
spx intent)
--keyword FILE.table
-
--pattern 및 --patterns
--output all/each intentid
--output all/each entity json
--output all/each ENTITY entity
-
--once, --once+--continuous(continuous가 이제 기본값)
--output all/each connection EVENT
-
--output all/each connection message(예: text, path)
- CLI 콘솔 출력 예상 검사/작성:
- 모든 명령에서
--expect PATTERN 및 --not expect PATTERN 지원
- 필요한 패턴 작성을 도와주는
--auto expect
- SDK 로깅 출력 예상 확인/작성
- 모든 명령에서
--log expect PATTERN 및 --not log expect PATTERN 지원
- 모든 명령에 대한
--log auto expect [FILTER] 지원
-
--log FILE 및 spx profile에서 spx speaker 지원
- 오디오 파일 입력
- 모든 명령에 대한
--format ANY 지원
-
--file - 지원(표준 입력에서 읽기 및 파이프 사용 시나리오 활성화)
- 오디오 파일 출력
-
--audio output - 표준 출력에 쓰기, 파이프 시나리오 사용
- 출력 파일
-
--output all/each file - 표준 출력에 쓰기
-
--output batch file - 표준 출력에 쓰기
-
--output vtt file - 표준 출력에 쓰기
-
--output json file - 표준 출력에 쓰기, spx csr 및 spx batch 명령의 경우
- 출력 속성
-
--output […] result XXX property(PropertyId 또는 문자열)
-
--output […] connection message received XXX property(PropertyId 또는 문자열)
-
--output […] recognizer XXX property(PropertyId 또는 문자열)
- Azure WebJob 통합
-
spx webjob은 이제 하위 명령 패턴을 따릅니다.
- 하위 명령 패턴을 반영하도록 WebJob 도움말 업데이트(
spx help webjob 참조)
버그 수정
-
--output vtt FILE 및 --output batch FILE이 동시에 사용될 때 발생하는 버그 수정
-
spx [...] --zip ZIPFILENAME에는 이제 모든 시나리오에 필요한 모든 이진 파일이 포함됩니다(있는 경우).
-
spx profile 및 spx speaker 명령은 이제 취소에 대한 자세한 오류 정보를 반환합니다.
2021년 5월 릴리스
새로운 기능
- 프로필, 스피커 ID 및 화자 검증을 위한 지원이 추가되었습니다. 명령줄에서
spx profile 및 spx speaker를 실행해 보세요.
- 대화 상자 지원도 추가되었습니다. 명령줄에서
spx dialog를 실행해 보세요.
-
spx 도움말이 향상되었습니다.
GitHub 문제 열어 이 작업이 어떻게 작동하는지에 대한 피드백을 제공합니다.
- .NET 도구 설치의 크기를 줄입니다.
COVID-19 간이 검사
진행 중인 전염병으로 인해 엔지니어가 집에서 작업하도록 계속 요구함에 따라, 더 적은 구성으로 더 적은 수의 디바이스에서 테스트하기 위해 전염병 전 수동 확인 스크립트가 줄어들고 환경별 버그가 미끄러질 가능성이 높아질 수 있습니다. 저희는 수많은 자동화를 통해 여전히 엄격한 유효성 검사를 수행하고 있습니다. 만약 저희가 무엇인가를 놓쳤다면 GitHub에 알려주세요.
건강에 유의하세요!
2021년 3월 릴리스
새로운 기능
- 의도 인식을 위한
spx intent 명령이 추가되었으며, 이 명령은 spx recognize intent를 대체합니다.
- 인식 및 의도는 이제 Azure 함수를 사용하여
spx recognize --wer url <URL> 사용하여 단어 오류율을 계산할 수 있습니다.
- 이제 인식에서
spx recognize --output vtt file <FILENAME>을 사용하여 결과를 VTT 파일로 출력할 수 있습니다.
- 이제 중요한 키 정보는 디버그/자세한 정보 출력에서 잘 보이지 않게 표시됩니다.
- 일괄 처리 대화 내용 기록 만들기의 콘텐츠 필드에 대한 URL 검사 및 오류 메시지가 추가되었습니다.
COVID-19 간이 검사
진행 중인 전염병으로 인해 엔지니어가 집에서 작업하도록 계속 요구함에 따라, 더 적은 구성으로 더 적은 수의 디바이스에서 테스트하기 위해 전염병 전 수동 확인 스크립트가 줄어들고 환경별 버그가 미끄러질 가능성이 높아질 수 있습니다. 저희는 수많은 자동화를 통해 여전히 엄격한 유효성 검사를 수행하고 있습니다. 만약 우리가 무언가를 놓쳤다면, GitHub에서 알려주세요.
건강에 유의하세요!
2021년 1월 릴리스
새로운 기능
COVID-19 간이 검사
진행 중인 전염병으로 인해 엔지니어가 집에서 작업하도록 계속 요구함에 따라, 더 적은 구성으로 더 적은 수의 디바이스에서 테스트하기 위해 전염병 전 수동 확인 스크립트가 줄어들고 환경별 버그가 미끄러질 가능성이 높아질 수 있습니다. 저희는 수많은 자동화를 통해 여전히 엄격한 유효성 검사를 수행하고 있습니다. 만약 저희가 무언가를 놓쳤다면 GitHub에서 알려주세요.
건강에 유의하세요!
2020년 10월 릴리스
SPX는 코드를 작성하지 않고 음성 서비스를 사용하기 위한 명령줄 인터페이스입니다.
여기서 최신 버전을 다운로드하세요.
새로운 기능
-
spx csr dataset upload --kind audio|language|acoustic – URL뿐만 아니라 로컬 데이터에서 데이터 세트를 만듭니다.
-
spx csr evaluation create|status|list|update|delete – 새 모델을 기준 진위/기타 모델과 비교합니다.
-
spx * list – 페이지가 아닌 환경을 지원합니다(--top X --skip X가 필요 없음).
-
spx * --http header A=B – 사용자 지정 헤더(사용자 지정 인증을 위해 Office에 추가됨)를 지원합니다.
-
spx help – 텍스트 및 역따옴표 텍스트 색상 구분(파란색)이 향상되었습니다.
2020년 6월 릴리스
- CLI 내 도움말 검색 기능이 추가되었습니다.
spx help find --text TEXT
spx help find --topic NAME
- 새로 배포된 v3.0 Batch 및 사용자 지정 음성 API와 함께 작동하도록 업데이트되었습니다.
spx help batch examples
spx help csr examples
COVID-19 간이 검사
지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 만약 우리가 놓친 것이 있다면 GitHub에서 저희에게 알려주세요.
건강에 유의하세요!
Speech CLI(SPX라고도 함): 2020년 5월 릴리스
SPX는 명령줄에서 인식, 합성, 번역, 일괄 처리 대화 내용 기록 및 사용자 지정 음성 관리를 수행할 수 있는 새로운 명령줄 도구입니다. 이 도구를 사용하여 Speech Service를 테스트하거나 수행해야 하는 Speech Service 작업을 스크립팅할 수 있습니다. 이 도구를 다운로드하고 여기서 설명서를 읽어보세요.
2025년 12월 릴리스
새로운 음성 유형 Dragon HD Omni의 공개 미리 보기
Dragon HD Omni는 광범위한 미리 빌드된 음성을 하나의 고급 음성 모델로 통합하여 상황에 맞는 적응, 프로소디, 표현력을 향상시키고 각 음성의 고유한 특성을 유지합니다. 고객 서비스, 접근성 및 창의적인 프로덕션과 같은 시나리오에 대해 보다 정확하고 유연하며 실제와 같은 음성을 제공합니다.
|
로캘(BCP-47) |
음성 이름 |
en-US |
en-US-Ava-DragonHDOmniLatestNeural(여성) |
en-US |
en-US-Andrew-DragonHDOmniLatestNeural(남성) |
en-US |
en-US-Dana-DragonHDOmniLatestNeural(여성) |
en-US |
en-US-Caleb-DragonHDOmniLatestNeural(남성) |
en-US |
en-US-Phoebe-DragonHDOmniLatestNeural(여성) |
en-US |
en-US-Lewis-DragonHDOmniLatestNeural(남성) |
zh-CN |
zh-CN-Xiaoyue-DragonHDOmniLatestNeural(여성) |
zh-CN |
zh-CN-Yunqi-DragonHDOmniLatestNeural(여성) |
접미사를 :DragonHDOmniLatestNeural 추가하여 직접 SSML 호출을 통해 지정된 음성의 Omni 버전을 시도하여 이 음성 이름 형식을 사용할 수도 있습니다.
다음은 그 예입니다.
|
이전 신경망 음성 |
옴니 버전 음성 이름 |
de-DE-ConradNeural |
de-DE-Conrad:DragonHDOmniLatestNeural |
인공신경망 텍스트 음성 변환 4.1.0
2025년 11월 릴리스
새로운 HD 음성 공개 미리 보기
Azure HD(음성 고화질) 음성은 공개 미리 보기에서 사용할 수 있습니다. HD 음성은 콘텐츠를 이해하고, 입력 텍스트에서 감정을 자동으로 감지하고, 감정에 맞게 실시간으로 말하기 톤을 조정할 수 있습니다. 자세한 내용은 AZURE SPEECH HD(고화질) 음성은 무엇입니까? 참조하세요.
|
로캘(BCP-47) |
음성 이름 |
en-GB |
en-GB-Ada:DragonHDLatestNeural(여성) |
en-GB |
en-GB-Ollie:DragonHDLatestNeural(남성) |
es-MX |
es-MX-Tristan:DragonHDLatestNeural(남성) |
es-MX |
es-MX-Ximena:DragonHDLatestNeural(여성) |
fr-CA |
fr-CA-Sylvie:DragonHDLatestNeural(여성) |
fr-CA |
fr-CA-Thierry:DragonHDLatestNeural(남성) |
ko-KR |
ko-KR-Hyunsu:DragonHDLatestNeural(남성) |
ko-KR |
ko-KR-SunHi:DragonHDLatestNeural(여성) |
이전 HD 음성 33개는 품질이 향상되고 버그가 수정된 v2.0으로 업데이트되었습니다.
|
로캘(BCP-47) |
음성 이름 |
de-DE |
de-DE-Florian:DragonHDLatestNeural(남성) |
de-DE |
de-DE-Seraphina:DragonHDLatestNeural(여성) |
en-US |
en-US-Adam:DragonHDLatestNeural(남성) |
en-US |
en-US-Alloy:DragonHDLatestNeural(남성) |
en-US |
en-US-Andrew:DragonHDLatestNeural(남성) |
en-US |
en-US-Andrew2:DragonHDLatestNeural(남성) |
en-US |
en-US-Andrew3:DragonHDLatestNeural(남성) |
en-US |
en-US-Aria:DragonHDLatestNeural(여성) |
en-US |
en-US-Ava:DragonHDLatestNeural(여성) |
en-US |
en-US-Ava3:DragonHDLatestNeural(여성) |
en-US |
en-US-Bree:DragonHDLatestNeural(여성) |
en-US |
en-US-Brian:DragonHDLatestNeural(남성) |
en-US |
en-US-Davis:DragonHDLatestNeural(남성) |
en-US |
en-US-Emma:DragonHDLatestNeural(여성) |
en-US |
en-US-Emma2:DragonHDLatestNeural(여성) |
en-US |
en-US-Jane:DragonHDLatestNeural(여성) |
en-US |
en-US-Jenny:DragonHDLatestNeural(여성) |
en-US |
en-US-Nova:DragonHDLatestNeural(여성) |
en-US |
en-US-Phoebe:DragonHDLatestNeural(여성) |
en-US |
en-US-Serena:DragonHDLatestNeural(여성) |
en-US |
en-US-Steffan:DragonHDLatestNeural(남성) |
es-ES |
es-ES-Tristan:DragonHDLatestNeural(남성) |
es-ES |
es-ES-Ximena:DragonHDLatestNeural(여성) |
fr-FR |
fr-FR-Remy:DragonHDLatestNeural(남성) |
fr-FR |
fr-FR-Vivienne:DragonHDLatestNeural(여성) |
it-IT |
it-IT-Alessio:DragonHDLatestNeural(남성) |
it-IT |
it-IT-Isabella:DragonHDLatestNeural(여성) |
ja-JP |
ja-JP-Masaru:DragonHDLatestNeural(남성) |
ja-JP |
ja-JP-Nanami:DragonHDLatestNeural(여성) |
pt-BR |
pt-BR-Macerio:DragonHDLatestNeural(남성) |
pt-BR |
pt-BR-Thalita:DragonHDLatestNeural(여성) |
zh-CN |
zh-CN-Xiaochen:DragonHDLatestNeural(여성) |
zh-CN |
zh-CN-Yunfan:DragonHDLatestNeural(남성) |
참고
이 업데이트 후에 호출 en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural 할 때 문제가 발생하는 경우 음성 이름을 en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeuralen-US-MultiTalker-Ava-Andrew:DragonHDv1.2Neural로 업데이트하세요.en-US-MultiTalker-Ava-Steffan:DragonHDv1.2Neural
신경망 음성 합성 4.0.0-프리뷰
- OS가 Azure Linux 3으로 업데이트됨
- 해결된 취약성
2025년 10월 릴리스
인공신경망 텍스트 음성 변환 3.14.0
- 새 신경망 음성에 대한 지원 추가:
nl-nl-maartenneural, nl-be-arnaudneural, nl-be-denaneuralde-de-elkeneural
- 해결된 취약성
2025년 8월 릴리스
새로운 HD 음성 공개 미리 보기
|
로캘(BCP-47) |
음성 이름 |
it-IT |
it-IT-Alessio:DragonHDLatestNeural(남성) |
it-IT |
it-IT-Isabella:DragonHDLatestNeural(여성) |
pt-BR |
pt-BR-Macerio:DragonHDLatestNeural(남성) |
pt-BR |
pt-BR-Thalita:DragonHDLatestNeural(여성) |
en-US |
en-US-Jane:DragonHDLatestNeural(여성) |
2025년 7월 릴리스
공개 미리 보기 Personal Voice가 v2.1로 업그레이드되었습니다.
새로운 "DragonV2.1" 모델은 음성의 자연스러움을 개선하여 더 나은 발음 정확도를 유지하면서 보다 현실적이고 안정적인 운율을 제공합니다.
2025년 6월 릴리스
VoiceLive API 업데이트
- 더 많은 GenAI 모델 지원: GPT-4.1, GPT-4.1 Mini, Phi-4 mini 및 Phi-4 멀티모달 모델은 이제 기본적으로 지원됩니다.
- 더 많은 사용자 지정 기능 지원
- Azure 의미 체계 VAD는 GPT-Realtime 및 GPT-4o-Mini-Realtime을 지원하도록 확장됩니다.
- 더 많은 지역에서 사용 가능
선택한 en-US 음성의 음성 변환 기능에 대한 공개 미리 보기
이제 이 기능에 다음 음성을 사용할 수 있습니다.
|
로캘(BCP-47) |
음성 이름 |
en-US |
en-US-Adam:MultilingualNeural(남성) |
en-US |
en-US-Amanda:MultilingualNeural(여성) |
en-US |
en-US-Andrew:MultilingualNeural(남성) |
en-US |
en-US-Ava:MultilingualNeural(여성) |
en-US |
en-US-Brandon:MultilingualNeural(남성) |
en-US |
en-US-Brian:MultilingualNeural(남성) |
en-US |
en-US-Christopher:MultilingualNeural(남성) |
en-US |
en-US-Cora:MultilingualNeural(여성) |
en-US |
en-US-Davis:MultilingualNeural(남성) |
en-US |
en-US-Derek:MultilingualNeural(남성) |
en-US |
en-US-Dustin:MultilingualNeural(남성) |
en-US |
en-US-EchoTurbo:MultilingualNeural(남성) |
en-US |
en-US-Emma:MultilingualNeural(여성) |
en-US |
en-US-Evelyn:MultilingualNeural(여성) |
en-US |
en-US-FableTurbo:MultilingualNeural(중립) |
en-US |
en-US-Jenny:MultilingualNeural(여성) |
en-US |
en-US-Lewis:MultilingualNeural(남성) |
en-US |
en-US-Lola:MultilingualNeural(여성) |
en-US |
en-US-Nancy:MultilingualNeural(여성) |
en-US |
en-US-NovaTurbo:MultilingualNeural(여성) |
en-US |
en-US-OnyxTurbo:MultilingualNeural(남성) |
en-US |
en-US-Phoebe:MultilingualNeural(여성) |
en-US |
en-US-Ryan:MultilingualNeural(남성) |
en-US |
en-US-Samuel:MultilingualNeural(남성) |
en-US |
en-US-Serena:MultilingualNeural(여성) |
en-US |
en-US-ShimmerTurbo:MultilingualNeural(여성) |
en-US |
en-US-Steffan:MultilingualNeural(남성) |
2025년 5월 릴리스
VoiceLive API에 대한 공개 미리 보기
foundry Tools의 Azure Speech는 음성 에이전트를 빌드하기 위한 단일 통합 API를 제공합니다. 오늘부터 공개 미리 보기로 제공되는 이 새로운 API는 선택한 기본 모델을 사용하여 대기 시간이 짧고 확장 가능한 음성 간 변환 상호 작용을 지원합니다.
2025년 4월 릴리스
새로운 HD 음성 공개 미리 보기
이제 다음 HD 음성을 미리 볼 수 있습니다.
|
로캘(BCP-47) |
음성 이름 |
en-US |
en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural(중립) |
en-US |
en-US-Bree:DragonHDLatestNeural(여성) |
en-US |
en-US-AshTurboMultilingualNeural(남성) |
2025년 3월 릴리스
일부 HD 음성의 일반 공급
이제 다음 HD 음성이 일반 공급됩니다.
|
로캘(BCP-47) |
음성 이름 |
de-DE |
de-DE-Florian:DragonHDLatestNeural(남성) |
de-DE |
de-DE-Seraphina:DragonHDLatestNeural(여성) |
en-US |
en-US-Adam:DragonHDLatestNeural(남성) |
en-US |
en-US-Andrew:DragonHDLatestNeural(남성) |
en-US |
en-US-Andrew2:DragonHDLatestNeural(남성) |
en-US |
en-US-Ava:DragonHDLatestNeural(여성) |
en-US |
en-US-Brian:DragonHDLatestNeural(남성) |
en-US |
en-US-Davis:DragonHDLatestNeural(남성) |
en-US |
en-US-Emma:DragonHDLatestNeural(여성) |
en-US |
en-US-Emma2:DragonHDLatestNeural(여성) |
en-US |
en-US-Steffan:DragonHDLatestNeural(남성) |
es-ES |
es-ES-Tristan:DragonHDLatestNeural(남성) |
es-ES |
es-ES-Ximena:DragonHDLatestNeural(여성) |
fr-FR |
fr-FR-Remy:DragonHDLatestNeural(남성) |
fr-FR |
fr-FR-Vivienne:DragonHDLatestNeural(여성) |
ja-JP |
ja-JP-Masaru:DragonHDLatestNeural(남성) |
ja-JP |
ja-JP-Nanami:DragonHDLatestNeural(여성) |
zh-CN |
zh-CN-Xiaochen:DragonHDLatestNeural(여성) |
zh-CN |
zh-CN-Yunfan:DragonHDLatestNeural(남성) |
팟캐스트 시나리오에 대한 다중 토커 음성(미리 보기)
|
로캘(BCP-47) |
음성 이름 |
en-US |
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural(중립) |
새 HD 음성(미리 보기)
|
로캘(BCP-47) |
음성 이름 |
en-US |
en-US-Ava3:DragonHDLatestNeural (여성) - 팟캐스트에 최적화 |
en-US |
en-US-Andrew3:DragonHDLatestNeural (남성) - 팟캐스트에 최적화 |
Dragon HD Flash 모델(미리 보기)
|
로캘(BCP-47) |
음성 이름 |
zh-CN |
zh-CN-Xiaochen:DragonHDFlashLatestNeural(여성) |
zh-CN |
zh-CN-Xiaoxiao:DragonHDFlashLatestNeural(여성) |
zh-CN |
zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural (여성, 무료 대화에 최적화됨) |
zh-CN |
zh-CN-Yunxiao:DragonHDFlashLatestNeural(남성) |
zh-CN |
zh-CN-Yunyi:DragonHDFlashLatestNeural(남성) |
2025년 2월 릴리스
HD 음성 업데이트(미리 보기)
다국어 음성을 지원하도록 업데이트된 13개의 현재 HD 음성이 업데이트되었습니다.
|
로캘(BCP-47) |
음성 이름 |
de-DE |
de-DE-Seraphina:DragonHDLatestNeural(여성) |
en-US |
en-US-Brian:DragonHDLatestNeural(남성) |
en-US |
en-US-Davis:DragonHDLatestNeural(남성) |
en-US |
en-US-Ava:DragonHDLatestNeural(여성) |
en-US |
en-US-Andrew:DragonHDLatestNeural(남성) |
en-US |
en-US-Andrew2:DragonHDLatestNeural (남성) - 무료 대화에 최적화 |
en-US |
en-US-Emma:DragonHDLatestNeural(여성) |
en-US |
en-US-Emma2:DragonHDLatestNeural (여성) - 무료 대화에 최적화 |
en-US |
en-US-Steffan:DragonHDLatestNeural(남성) |
en-US |
en-US-Aria:DragonHDLatestNeural(여성) |
en-US |
en-US-Jenny:DragonHDLatestNeural(여성) |
ja-JP |
ja-JP-Masaru:DragonHDLatestNeural(남성) |
zh-CN |
zh-CN-Xiaochen:DragonHDLatestNeural(여성) |
새 HD 음성(미리 보기)
HD 음성 14개 추가
|
로캘(BCP-47) |
음성 이름 |
de-DE |
de-DE-Florian:DragonHDLatestNeural(남성) |
en-US |
en-US-Adam:DragonHDLatestNeural(남성) |
en-US |
en-US-Brian:DragonHDLatestNeural(남성) |
en-US |
en-US-Davis:DragonHDLatestNeural(남성) |
en-US |
en-US-Phoebe:DragonHDLatestNeural(여성) |
en-US |
en-US-Serena:DragonHDLatestNeural(여성) |
en-US |
en-US-Alloy:DragonHDLatestNeural(남성) |
en-US |
en-US-Nova:DragonHDLatestNeural(여성) |
es-ES |
es-ES-Ximena:DragonHDLatestNeural(여성) |
es-ES |
es-ES-Tristan:DragonHDLatestNeural(남성) |
fr-FR |
fr-FR-Vivienne:DragonHDLatestNeural(여성) |
fr-FR |
fr-FR-Remy:DragonHDLatestNeural(남성) |
ja-JP |
ja-JP-Nanami:DragonHDLatestNeural(여성) |
zh-CN |
zh-CN-Yunfan:DragonHDLatestNeural(남성) |
새로운 다국어 음성 소개(미리 보기)
en-US에 감정 지원이 포함된 4개의 다국어 음성이 추가되었습니다.
|
로캘(BCP-47) |
음성 이름 |
스타일 |
en-US |
DerekMultilingualNeural(남성) |
empathetic, excited, , relieved, shy |
en-US |
PhoebeMultilingualNeural(여성) |
empathetic, sad, serious |
en-US |
DavisMultilingualNeural(남성) |
empathetic, funny, relieved |
en-US |
NancyMultilingualNeural(여성) |
excited, friendly, funny, relievedshy |
Microsoft Foundry Models의 터보 음성에서 Azure OpenAI(일반 공급)
이제 다음 6개의 터보 음성이 일반적으로 제공됩니다.
|
로캘(BCP-47) |
음성 이름 |
en-US |
en-US-AlloyTurboMultilingualNeural(남성) |
en-US |
en-US-EchoTurboMultilingualNeural(남성) |
en-US |
en-US-FableTurboMultilingualNeural(중립) |
en-US |
en-US-NovaTurboMultilingualNeural(여성) |
en-US |
en-US-OnyxTurboMultilingualNeural(남성) |
en-US |
en-US-ShimmerTurboMultilingualNeural(여성) |
음성 품질 개선(일반 공급)
16개 음성의 품질이 향상되었습니다.
|
로캘(BCP-47) |
음성 이름 |
ar-EG |
ar-EG-ShakirNeural(남성) |
ca-ES |
ca-ES-EnricNeural(남성) |
en-IE |
en-IE-EmilyNeural(여성) |
fi-FI |
fi-FI-HarriNeural(남성) |
fi-FI |
fi-FI-SelmaNeural(여성) |
fr-CH |
fr-CH-FabriceNeural(여성) |
hr-HR |
hr-HR-GabrijelaNeural(여성) |
nl-NL |
nl-NL-MaartenNeural(남성) |
pt-PT |
pt-PT-RaquelNeural(여성) |
ro-RO |
ro-RO-AlinaNeural(여성) |
sv-SE |
sv-SE-MattiasNeural(남성) |
sv-SE |
sv-SE-SofieNeural(여성) |
vi-VN |
vi-VN-HoaiMyNeural(여성) |
vi-VN |
vi-VN-NamMinhNeural(남성) |
zh-HK |
zh-HK-HiuMaanNeural(여성) |
zh-HK |
zh-HK-WanLungNeural(남성) |
다양한 스타일 포함 Jenny(일반 공급)
포함된 음성에 대한 en-US-JennyNeural 스타일 지원이 추가되었습니다. 클라우드에서와 동일한 스타일이 지원됩니다. 지원되는 스타일은 angry, assistant, chat, cheerful, customerservice, excited, friendly, hopeful, newscast, sad, shouting, terrified, unfriendly 및 whispering입니다.
2025년 1월 릴리스
사용자 지정 아바타 학습
이제 Speech Studio에서 사용자 지정 아바타를 학습할 수 있습니다. 이전에는 Microsoft가 사용자 지정 아바타를 학습할 때까지 기다려야 했습니다.
사용자 지정 아바타를 만드는 방법에 대한 자세한 내용은 사용자 지정 텍스트 음성 변환 아바타 만들기를 참조 하세요.
2024년 10월 릴리스
표준 음성
공개 미리 보기에서 en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeural 및 en-US-ShimmerTurboMultilingualNeural Azure OpenAI 음성의 4 터보 버전이 도입되었습니다. Azure OpenAI 음성의 터보 버전은 Azure OpenAI 음성과 유사한 음성 페르소나를 가지고 있지만 추가 기능을 지원합니다. Turbo 음성은 다른 Azure Speech 음성과 마찬가지로 전체 SSML 요소 집합과 단어 경계와 같은 더 많은 기능을 지원합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
이러한 음성은 이제 일반 공급됩니다.
|
로캘(BCP-47) |
음성 이름 |
de-DE |
SeraphinaMultilingualNeural |
de-DE |
FlorianMultilingualNeural |
en-GB |
AdaMultilingualNeural |
en-GB |
OllieMultilingualNeural |
en-US |
LunaNeural |
en-US |
KaiNeural |
en-US |
CoraMultilingualNeural |
en-US |
ChristopherMultilingualNeural |
en-US |
BrandonMultilingualNeural |
es-ES |
IsidoraMultilingualNeural |
es-ES |
ArabellaMultilingualNeural |
es-ES |
TristanMultilingualNeural |
es-ES |
XimenaMultilingualNeural |
fr-FR |
LucienMultilingualNeural |
fr-FR |
VivienneMultilingualNeural |
fr-FR |
RemyMultilingualNeural |
it-IT |
IsabellaMultilingualNeural |
it-IT |
MarcelloMultilingualNeural |
it-IT |
AlessioMultilingualNeural |
it-IT |
GiuseppeMultilingualNeural |
ko-KR |
HyunsuMultilingualNeural |
pt-BR |
ThalitaMultilingualNeural |
pt-BR |
MacerioMultilingualNeural |
표준 HD(고화질) 음성
Azure SPEECH HD(고화질) 음성은 공개 미리 보기에서 사용할 수 있습니다. HD 음성은 콘텐츠를 이해하고, 입력 텍스트에서 감정을 자동으로 감지하고, 감정에 맞게 실시간으로 말하기 톤을 조정할 수 있습니다. HD 음성은 신경망(및 비 HD) 음성과 동일한 음성 가상 사용자를 유지하며 향상된 기능을 통해 더 많은 가치를 제공합니다. 자세한 내용은 AZURE SPEECH HD(고화질) 음성은 무엇입니까? 참조하세요.
사용자 지정 신경망 음성
이전에는 일부 로캘에서는 V3에서만 학습 레시피가 지원되었습니다. 이러한 로캘은 이제 V9도 지원하므로 향상된 학습 품질과 확장된 기능을 사용할 수 있습니다. 이러한 로캘의 경우 다음 표를 참조하세요.
|
로캘(BCP-47) |
Language |
ar-EG |
아랍어(이집트) |
ar-SA |
아랍어(사우디아라비아) |
ca-ES |
카탈로니아어 |
cs-CZ |
체코어(체코) |
da-DK |
덴마크어(덴마크) |
de-AT |
독일어(오스트리아) |
de-CH |
독일어(스위스) |
el-GR |
그리스어(그리스) |
en-IN |
영어(인도) |
fi-FI |
핀란드어(핀란드) |
fr-CH |
프랑스어(스위스) |
he-IL |
히브리어(이스라엘) |
hi-IN |
힌디어(인도) |
hu-HU |
헝가리어(헝가리) |
ms-MY |
말레이어(말레이시아) |
nb-NO |
노르웨이어 복말(노르웨이) |
nl-NL |
네덜란드어(네덜란드) |
pl-PL |
폴란드어(폴란드) |
pt-PT |
포르투갈어(포르투갈) |
ro-RO |
루마니아어(루마니아) |
ru-RU |
러시아어(러시아) |
sk-SK |
슬로바키아어(슬로바키아) |
sv-SE |
스웨덴어(스웨덴) |
th-TH |
태국어(태국) |
r-TR |
터키어(튀르키예) |
vi-VN |
베트남어(베트남) |
zh-HK |
중국어(광둥어, 번체) |
zh-TW |
중국어(대만어 북경어, 번체) |
이제 사용자 지정 신경망 음성 Pro에서 다음과 같은 새 로캘을 지원합니다.
-
en-NZ: 영어(뉴질랜드)
-
es-CL: 스페인어(칠레)
-
es-US: 스페인어(United States)
-
ta-MY: 타밀어(말레이시아)
지원되는 로캘의 전체 목록은 사용자 지정 신경망 음성 의 언어 목록을 참조하세요.
이제 언어 간 기능은 다음과 같은 새 로캘을 원본 로캘로 지원합니다.
|
로캘(BCP-47) |
Language |
da-DK |
덴마크어(덴마크) |
de-AT |
독일어(오스트리아) |
de-CH |
독일어(스위스) |
de-DE |
독일어(독일) |
en-CA |
영어(캐나다) |
fi-FI |
핀란드어(핀란드) |
fr-CH |
프랑스어(스위스) |
hu-HU |
헝가리어(헝가리) |
ms-MY |
말레이어(말레이시아) |
nb-NO |
노르웨이어 복말(노르웨이) |
pt-PT |
포르투갈어(포르투갈) |
sv-SE |
스웨덴어(스웨덴) |
tr-TR |
터키어(튀르키예) |
ta-IN |
타밀어(인도) |
zh-HK |
중국어(광둥어, 번체) |
지원되는 로캘의 전체 목록은 사용자 지정 신경망 음성 의 언어 목록을 참조하세요.
이제 다중 스타일 음성 기능이 다음과 같은 새 로캘을 지원합니다.
|
로캘(BCP-47) |
Language |
ar-EG |
아랍어(이집트) |
ar-SA |
아랍어(사우디아라비아) |
ca-ES |
카탈로니아어 |
cs-CZ |
체코어(체코) |
da-DK |
덴마크어(덴마크) |
de-AT |
독일어(오스트리아) |
de-CH |
독일어(스위스) |
de-DE |
독일어(독일) |
el-GR |
그리스어(그리스) |
en-AU |
영어(호주) |
en-CA |
영어(캐나다) |
en-GB |
영어(영국) |
en-IN |
영어(인도) |
es-ES |
스페인어(스페인) |
es-MX |
스페인어(멕시코) |
fi-FI |
핀란드어(핀란드) |
fr-CA |
프랑스어(캐나다) |
fr-CH |
프랑스어(스위스) |
fr-FR |
프랑스어(프랑스) |
he-IL |
히브리어(이스라엘) |
hi-IN |
힌디어(인도) |
hu-HU |
헝가리어(헝가리) |
it-IT |
이탈리아어(이탈리아) |
ko-KR |
한국어(대한민국) |
ms-MY |
말레이어(말레이시아) |
nb-NO |
노르웨이어 복말(노르웨이) |
nl-BE |
네덜란드어(벨기에) |
nl-NL |
네덜란드어(네덜란드) |
pl-PL |
폴란드어(폴란드) |
pt-BR |
포르투갈어(브라질) |
pt-PT |
포르투갈어(포르투갈) |
ro-RO |
루마니아어(루마니아) |
ru-RU |
러시아어(러시아) |
sk-SK |
슬로바키아어(슬로바키아) |
sv-SE |
스웨덴어(스웨덴) |
th-TH |
태국어(태국) |
tr-TR |
터키어(튀르키예) |
vi-VN |
베트남어(베트남) |
zh-HK |
중국어(광둥어, 번체) |
zh-TW |
중국어(대만어 북경어, 번체) |
지원되는 로캘의 전체 목록은 사용자 지정 신경망 음성 의 언어 목록을 참조하세요.
2024년 9월 릴리스
표준 음성
다음 로캘에서 새 음성에 대한 지원 및 일반 공급이 추가되었습니다.
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
as-IN |
아삼어(인도) |
as-IN-YashicaNeural(여성)
as-IN-PriyomNeural(남성) |
or-IN |
오리야어(인도) |
or-IN-SubhasiniNeural(여성)
or-IN-SukantNeural(남성) |
pa-IN |
펀잡어(인도) |
pa-IN-OjasNeural(남성)
pa-IN-VaaniNeural(여성) |
이 테이블의 한 음성은 일반적으로 사용할 수 있으며 'en-IN' 로캘만 지원합니다.
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
en-IN |
영어(인도) |
en-IN-AashiNeural(여성) |
이 테이블의 5개 음성은 일반적으로 사용할 수 있으며 "en-IN" 및 "hi-IN" 로캘을 모두 지원합니다.
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
en-IN |
영어(인도) |
en-IN-AaravNeural(남성)
en-IN-AnanyaNeural(여성)
en-IN-KavyaNeural(여성)
en-IN-KunalNeural(남성)
en-IN-RehaanNeural(남성) |
hi-IN |
힌디어(인도) |
hi-IN-AaravNeural(남성)
hi-IN-AnanyaNeural(여성)
hi-IN-KavyaNeural(여성)
hi-IN-KunalNeural(남성)
hi-IN-RehaanNeural(남성) |
음성 스타일 및 역할
newscast, cheerful, empathetic 스타일 지원이 en-IN-NeerjaNeural 및 hi-IN-SwaraNeural 음성에 추가되었습니다.
다음 음성에 대한 새 스타일이 추가되었습니다.
-
es-MX-DaliaNeural: whisperingsad, cheerful
-
fr-FR-DeniseNeural: whisperingsad, excited
-
it-IT-IsabellaNeural: whispering, sad, excitedcheerful
-
pt-PT-RaquelNeural: whispering, sad
-
de-DE-ConradNeural: sad, cheerful
-
en-GB-RyanNeural: whispering, sad
-
es-MX-JorgeNeural: whispering, sad, excitedcheerful
-
fr-FR-HenriNeural: whisperingsad, excited
-
it-IT-DiegoNeural: sadexcited, cheerful
-
es-ES-AlvaroNeural: cheerful, sad
-
ko-KR-InjoonNeural: sad
자세한 내용은 음성 스타일 및 역할을 참조하세요.
2024년 8월 릴리스
표준 음성
공개 미리 보기에 새로운 다국어 음성이 도입되었습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
새로운 다국어 음성
| 로캘 |
Language |
성별 |
음성 이름 |
| ko-KR |
영어(미국) |
남성 |
en-US-AdamMultilingualNeural |
| ko-KR |
영어(미국) |
여성 |
en-US-AmandaMultilingualNeural |
| ko-KR |
영어(미국) |
남성 |
en-US-DerekMultilingualNeural |
| ko-KR |
영어(미국) |
남성 |
en-US-LewisMultilingualNeural |
| ko-KR |
영어(미국) |
여성 |
en-US-LolaMultilingualNeural |
| ko-KR |
영어(미국) |
여성 |
en-US-PhoebeMultilingualNeural |
| ko-KR |
영어(미국) |
남성 |
en-US-SamuelMultilingualNeural |
| ko-KR |
영어(미국) |
여성 |
en-US-SerenaMultilingualNeural |
| ko-KR |
영어(미국) |
남성 |
en-US-DustinMultilingualNeural |
| ko-KR |
영어(미국) |
여성 |
en-US-EvelynMultilingualNeural |
| es-ES |
스페인어(스페인) |
남성 |
es-ES-TristanMultilingualNeural |
| fr-FR |
프랑스어(프랑스) |
남성 |
fr-FR-LucienMultilingualNeural |
| pt-BR |
포르투갈어(브라질) |
남성 |
pt-BR-MacerioMultilingualNeural |
| zh-CN |
중국어(북경어, 간체) |
남성 |
zh-CN-YunfanMultilingualNeural |
| zh-CN |
중국어(북경어, 간체) |
남성 |
zh-CN-YunxiaoMultilingualNeural |
| zh-CN |
중국어(북경어, 간체) |
남성 |
zh-CN-YunyiMultilingualNeural |
자연성이 개선되어 다국어 음성으로 업데이트된 단일어 모델
| 로캘 |
Language |
성별 |
음성 이름 |
| ko-KR |
영어(미국) |
여성 |
en-US-NancyMultilingualNeural |
| ko-KR |
영어(미국) |
남성 |
en-US-BrandonMultilingualNeural |
| ko-KR |
영어(미국) |
남성 |
en-US-ChristopherMultilingualNeural |
| ko-KR |
미국 영어 |
여성 |
en-US-CoraMultilingualNeural |
| ko-KR |
영어(미국) |
남성 |
en-US-DavisMultilingualNeural |
| ko-KR |
미국 영어 |
남성 |
en-US-SteffanMultilingualNeural |
| es-ES |
스페인어(스페인) |
여성 |
es-ES-XimenaMultilingualNeural |
| it-IT |
이탈리아어(이탈리아) |
남성 |
it-IT-GiuseppeMultilingualNeural |
| en-US |
한국어(대한민국) |
남성 |
ko-KR-HyunsuMultilingualNeural |
더 나은 품질로 다음과 같은 현재 다국어 음성을 향상합니다.
| 로캘 |
Language |
성별 |
음성 이름 |
| ko-KR |
영어 (미국) |
남성 |
en-US-AndrewMultilingualNeural |
| ko-KR |
영어(미국) |
여성 |
en-US-AvaMultilingualNeural |
이제 세 개의 다국어 음성이 스타일을 지원합니다. 자세한 내용은 음성 스타일 및 역할을 참조하세요.
- en-US-SerenaMultilingualNeural:
empathetic, excited, friendly, shy, serious, relieved 및 sad.
- en-US-AndrewMultilingualNeural:
empathetic 및 relieved.
- zh-CN-XiaoxiaoMultilingualNeural:
affectionate, cheerful, empathetic, excited, poetry-reading, sorry 및 story.
2024년 7월 릴리스
텍스트 음성 변환 아바타(GA)
텍스트 음성 변환 아바타가 이제 일반적으로 이용 가능합니다. 자세한 내용은 텍스트 음성 변환 아바타를 참조하세요.
표준 음성
공개 미리 보기에서 Azure OpenAI 음성의 터보 버전 두 가지를 소개합니다: en-US-AlloyTurboMultilingualNeural 및 en-US-NovaTurboMultilingualNeural. Azure OpenAI 음성의 터보 버전은 Azure OpenAI 음성과 유사한 음성 페르소나를 가지고 있지만 추가 기능을 지원합니다. Turbo 음성은 다른 Azure Speech 음성과 마찬가지로 전체 SSML 요소 집합과 단어 경계와 같은 더 많은 기능을 지원합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
공개 미리 보기에 두 가지 새로운 다국어 음성 zh-CN-YunfanMultilingualNeural 및 zh-CN-YunxiaoMultilingualNeural을 도입했습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
포함된 인공신경망 음성
2024년 6월 릴리스
표준 음성
특정 지역 동아시아, 동남 아시아, 미국 동부, 미국 서부 및 인도 중부에서 사용할 수 있는 공개 미리 보기의 6가지 새로운 음성 소개
| 로캘 |
Language |
텍스트 음성 변환 음성 |
or-IN |
오리야어(인도) |
or-IN-SubhasiniNeural(여성) |
or-IN |
오리야어(인도) |
or-IN-SukantNeural(남성) |
pa-IN |
펀잡어(인도) |
pa-IN-VaaniNeural(여성) |
pa-IN |
펀잡어(인도) |
pa-IN-OjasNeural(남성) |
as-IN |
아삼어(인도) |
as-IN-YashicaNeural(여성) |
as-IN |
아삼어(인도) |
as-IN-PriyomNeural(남성) |
자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
텍스트 음성 변환 아바타
- 텍스트 음성 변환 아바타는 이제 동남 아시아, 북유럽, 서유럽, 스웨덴 중부, 미국 중남부 및 미국 서부 2 지역을 지원합니다. 자세한 내용은 Speech Service 지역을 참조하세요.
2024년 5월 릴리스
개인 목소리(GA)
이제 개인 보이스가 일반적으로 사용 가능합니다. 개인 보이스를 사용하면 몇 초 안에 AI에서 생성한 음성(또는 애플리케이션 사용자) 복제본을 얻을 수 있습니다. 1분 음성 샘플을 오디오 프롬프트로 제공한 다음, 이를 사용하여 100개 이상의 로캘에서 지원되는 90개 이상의 언어로 음성을 생성합니다. 자세한 내용은 개인 보이스 개요를 참조하세요.
표준 음성
8가지 새로운 다국어 음성을 공개 미리 보기로 소개합니다: en-GB-AdaMultilingualNeural, en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeural, es-ES-IsidoraMultilingualNeural, it-IT-AlessioMultilingualNeural, it-IT-IsabellaMultilingualNeural, it-IT-MarcelloMultilingualNeural 및 pt-BR-ThalitaMultilingualNeural. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
공개 미리 보기의 콜 센터 시나리오에 최적화된 2개의 새로운 en-US 음성 en-US-LunaNeural 및 en-US-KaiNeural 소개 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
2024년 4월 릴리스
텍스트 음성 변환 아바타
- 이제 아바타의 정적 배경 이미지를 설정할 수 있습니다. 이 기능을 활용하려면
avatarConfig.backgroundImage 속성을 사용하고 원하는 이미지를 가리키는 URL을 지정하기만 하면 됩니다. 자세한 내용은 일괄 합성 아바타 속성을 참조하세요.
2024년 3월 릴리스
표준 음성
en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural, zh-CN-XiaoxiaoMultilingualNeural등 모든 지역에서 9개의 다국어 음성을 사용할 수 있습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
공개 미리 보기용 새로운 다국어 음성 소개: ja-JP-MasaruMultilingualNeural. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
추가 업데이트:
-
en-US-RyanMultilingualNeural(은)는 일반적으로 모든 지역에서 사용할 수 있습니다.
-
en-US-JennyMultilingualV2Neural(은)는 일반적으로 모든 지역에서 사용할 수 있으며 en-US-JennyMultilingualNeural(와)과 병합됩니다.
- 미국 동부, 서유럽 및 동남 아시아에서 3가지 새로운 스타일로 업데이트된
en-IN-NeerjaNeural 및 hi-IN-SwaraNeural 미리 보기를 사용할 수 있습니다.
- 인도 중부의 새로운 여성 목소리 미리 보기:
en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural 및 hi-IN-AnanyaNeural.
텍스트 음성 변환 아바타
2024년 2월 릴리스
OpenAI 음성
Azure Speech 서비스는 미국 중북부 및 스웨덴 중부 지역에서 OpenAI의 텍스트 음성을 지원합니다. Azure 음성 음성과 마찬가지로 OpenAI 텍스트 음성 변환은 고품질 음성 합성을 제공하여 작성된 텍스트를 자연스러운 음성 오디오로 변환합니다. 이를 통해 몰입형 및 대화형 사용자 환경에 대한 다양한 가능성이 열립니다. 자세한 내용은 OpenAI 텍스트 음성 변환 음성이란?을 참조하세요.
이 업데이트를 통해 Azure Speech를 사용하여 표준 음성의 가격 책정을 조정했습니다.
여기에서 업데이트된 가격을 확인합니다.
개인 음성
개인 음성 기능은 이제 DragonLatestNeural 및 PhoenixLatestNeural 모델을 지원합니다. 이러한 새로운 모델은 합성된 음성의 자연스러움을 강화하여 프롬프트에서 음성의 특성이 더 비슷해집니다. 자세한 내용은 애플리케이션에서 개인 음성 통합을 참조하세요.
2023년 12월 릴리스
사용자 지정 음성 API
사용자 지정 음성 API는 전문적이고개인적인 사용자 지정 인공신경망 음성 모델을 만들고 관리하는 데 사용할 수 있습니다.
사용자 지정 신경망 음성
이제 새로 학습된 음성 모델은 모델 버전에 관계없이 48kHz 샘플 속도를 지원합니다. 이전에 학습된 음성 모델의 경우 샘플 속도를 48kHz로 향상하려면 엔진 버전을 최소 2023.11.13.0 버전으로 업그레이드해야 합니다.
표준 음성
- 공개 미리 보기를 위한 새로운 다국어 음성 소개:
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
de-DE |
독일어(독일) |
de-DE-FlorianMultilingualNeural(남성) |
de-DE |
독일어(독일) |
de-DE-SeraphinaMultilingualNeural(여성) |
en-US |
영어(미국) |
en-US-AvaMultilingualNeural(여성) |
en-US |
미국 영어 |
en-US-EmmaMultilingualNeural(여성) |
fr-FR |
프랑스어(프랑스) |
fr-FR-RemyMultilingualNeural(남성) |
en-US |
미국 영어 |
en-US-BrianMultilingualNeural(남성) |
en-US |
영어(미국) |
en-US-AndrewMultilingualNeural(남성) |
fr-FR |
프랑스어(프랑스) |
fr-FR-VivienneMultilingualNeural(여성) |
zh-CN |
중국어(북경어, 간체) |
zh-CN-XiaoxiaoMultilingualNeural(여성) |
zh-CN |
중국어(북경어, 간체) |
zh-CN-XiaochenMultilingualNeural(여성) |
zh-CN |
중국어(북경어, 간체) |
zh-CN-YunyiMultilingualNeural(남성) |
- 몇 가지 중국어 언어와 악센트를 지원하는 공개 미리 보기에 대한 새로운
zh-CN-XiaoxiaoDialectsNeural 음성 소개:
| 음성 이름 |
제2언어 |
언어/악센트 |
zh-CN-XiaoxiaoDialectsNeural |
zh-CN-shaanxi |
중국어(중위안 만다린 산시성, 간체) |
|
zh-CN-sichuan |
중국어(중국어 남경어, 간체) |
|
zh-CN-shanxi |
중국어(산시 악센트 북경어, 간체) |
|
nan-CN |
중국어(남부 분, 간체) |
|
zh-CN-anhui |
중국어(장화이 북경어 안후이, 간체) |
|
zh-CN-hunan |
중국어(후난 억양의 표준 중국어, 간체) |
|
zh-CN-gansu |
중국어(라니인 북경어 간수, 간플라이) |
|
zh-CN-shandong |
중국어(질루 만다린, 간체) |
|
zh-CN-henan |
중국어(중위안 만다린 허난성, 간체) |
|
zh-CN-liaoning |
중국어(동북방언, 간체) |
|
zh-TW |
중국어(대만어 북경어, 번체) |
2023년 11월 릴리스
개인 음성
개인 음성은 서유럽, 미국 동부 및 동남 아시아 지역에서 미리 보기로 사용할 수 있습니다. 개인 음성(미리 보기)을 사용하면 몇 초 안에 AI에서 생성한 음성(또는 애플리케이션 사용자) 복제본을 얻을 수 있습니다. 1분 음성 샘플을 오디오 프롬프트로 제공한 다음, 이를 사용하여 100개 이상의 로캘에서 지원되는 90개 이상의 언어로 음성을 생성합니다.
자세한 내용은 개인 음성을 참조하세요.
텍스트 음성 변환 아바타
텍스트 음성 변환 아바타는 미국 서부 2, 서유럽 및 동남 아시아 지역에서 미리 보기로 제공됩니다.
텍스트 음성 변환 아바타는 자연스레 들리는 음성으로 말하는 광실주의적 인간(표준 아바타 또는 사용자 지정 텍스트 음성 아바타)의 디지털 비디오로 텍스트를 변환합니다. 텍스트 음성 변환 아바타 비디오는 비동기적으로 또는 실시간으로 합성할 수 있습니다. 개발자는 API를 통해 텍스트 음성 변환 아바타와 통합된 애플리케이션을 빌드하거나, Speech Studio에서 콘텐츠 만들기 도구를 사용하여 코딩 없이 비디오 콘텐츠를 만들 수 있습니다.
자세한 내용은 텍스트 음성 변환 아바타, 투명성 고지, 그리고 음성 및 아바타 성우에 대한 공개를 참조하세요.
사용자 지정 신경망 음성
언어 간 음성을 위한 24개의 새로운 로캘에 대한 지원이 추가되었습니다. 자세한 내용은 전체 언어 목록을 참조하세요.
표준 음성
공개 미리 보기를 위한 새로운 음성 소개:
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
de-DE |
독일어(독일) |
SeraphinaNeural(여성) |
es-ES |
스페인어(스페인) |
XimenaNeural(여성) |
fr-CA |
프랑스어(캐나다) |
ThierryNeural(남성) |
fr-FR |
프랑스어(프랑스) |
VivienneNeural(여성) |
it-IT |
이탈리아어(이탈리아) |
GiuseppeNeural(남성) |
ko-KR |
한국어(대한민국) |
HyunsuNeural(남성) |
pt-BR |
포르투갈어(브라질) |
ThalitaNeural(여성) |
버그 수정 및 품질 개선으로 업데이트된 모델:
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
es-ES |
스페인어(스페인) |
AlvaroNeural(남성) |
en-GB |
영어(영국) |
RyanNeural(남성) |
ko-KR |
한국어(대한민국) |
InjoonNeural(남성) |
자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
2023년 10월 릴리스
사용자 지정 신경망 음성
- 사용자 지정 인공신경망 음성 Pro를 사용하여 12가지 새로운 로캘에 대한 지원이 추가되었습니다. 자세한 내용은 전체 언어 목록을 참조하세요.
2023년 9월 릴리스
표준 음성
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
en-US |
미국식 영어 |
en-US-EmmaNeural(여성) |
en-US |
미국 영어 |
en-US-AndrewNeural(남성) |
en-US |
미국식 영어 |
en-US-BrianNeural(남성) |
자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
포함된 인공신경망 음성
- 여기에서 147개의 로캘(fa-IR, 페르시아어(이란) 제외)은 선택한 여성 음성 1가지 및/또는 선택한 남성 음성 1가지를 통해 바로 사용할 수 있습니다.
2023년 8월 릴리스
사용자 지정 신경망 음성
- 최신 CNV Lite 학습 레시피 버전이 릴리스되었습니다. 이 릴리스에서는 언어 모델의 품질이 여러 가지 향상되었습니다.
Speech Studio를 사용해 보세요.
2023년 7월 릴리스
사용자 지정 신경망 음성
표준 음성
공개 미리 보기를 위한 새로운 en-US 성 중립적 음성 소개:
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
en-US |
영어(미국) |
en-US-BlueNeural(중립) |
공개 미리 보기를 위한 새로운 다국어 음성 소개:
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
en-US |
영어(미국) |
en-US-JennyMultilingualV2Neural(여성) |
en-US |
영어(미국) |
en-US-RyanMultilingualNeural(남성) |
다국어 음성 en-US-JennyMultilingualV2Neural 및 en-US-RyanMultilingualNeural은 입력 텍스트의 언어를 자동 검색합니다. 그러나 여전히 <lang> 요소를 사용하여 이러한 음성에 대한 말하기 언어를 조정할 수 있습니다.
이러한 새로운 다국어 음성은 Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland) 등 41개 언어 및 악센트로 말할 수 있습니다. German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).
이러한 다국어 음성은 중단, 강조, 묵음 및 하위와 같은 특정 SSML 요소를 완전히 지원하지 않습니다.
중요한
음성은 en-US-JennyMultilingualV2Neural 평가 목적으로만 공개 미리 보기로 일시적으로 제공됩니다. 앞으로는 제거될 예정입니다.
영어가 아닌 다른 언어로 말하려면 현재 en-US-JennyMultilingualNeural 음성 구현에서는 <lang xml:lang> 요소를 설정해야 합니다. 2023년 4분기 동안 en-US-JennyMultilingualNeural 음성이 <lang xml:lang> 요소 없이 입력 텍스트의 언어로 말하도록 업데이트될 것으로 예상됩니다. 이는 en-US-JennyMultilingualV2Neural 음성과 동일합니다.
아래 음성에 대한 공개 미리 보기의 새로운 기능을 소개합니다.
- 세르비아어(세르비아)
sr-RS 음성: sr-latn-RS-SophieNeural 및 sr-latn-RS-NicholasNeural에 대한 라틴어 입력이 추가되었습니다.
- 알바니아어(알바니아)
sq-AL 음성: sq-AL-AnilaNeural 및 sq-AL-IlirNeural에 대한 영어 발음 지원이 추가되었습니다.
2023년 5월 릴리스
오디오 콘텐츠 만들기
- 말하기 스타일과 다중 스타일 사용자 지정 음성을 사용하는 모든 표준 음성은 스타일 수준 조정을 지원합니다.
- 이제 단어를 말하고 녹음하는 방법으로 단어의 발음을 수정할 수 있습니다. 녹음에서 음소를 자동으로 인식할 수 있습니다. 이제 말하여 인식 기능이 공용 미리 보기로 제공됩니다.
2023년 4월 릴리스
표준 음성
- 이러한 음성의 다음 기능은 공개 미리 보기에서 GA로 이동되었습니다.
| 스타일 |
텍스트 음성 변환 음성 |
| 스타일="채팅" |
en-GB-RyanNeural, es-MX-JorgeNeural 및 it-IT-IsabellaNeural |
| 스타일="명랑한" |
en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural 및 it-IT-IsabellaNeural |
| 스타일="슬픔" |
en-GB-SoniaNeural, fr-FR-DeniseNeural 및 fr-FR-HenriNeural |
-
hi-IN, ta-IN 및 te-IN 음성의 영어 발음을 개선하여 이제 공개 미리 보기 지역에서 비행 중입니다.
자세한 내용은 언어 및 음성 목록을 참조하세요.
2023년 3월 릴리스
새로운 기능
SSML(Speech Synthesis Markup Language)은 디바이스의 특정 시나리오에 대해 합성된 음성 출력의 품질을 최적화하는 오디오 효과 프로세서 요소를 지원하도록 업데이트되었습니다.
음성 합성 표시에 대해 자세히 알아봅니다.
사용자 지정 신경망 음성
nl-BE Pro를 사용하여 로캘에 대한 지원이 추가되었습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
표준 음성
이제 다음 음성이 일반적으로 사용 가능합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
en-AU |
영어(호주) |
en-AU-AnnetteNeural(여성)
en-AU-CarlyNeural(여성)
en-AU-DarrenNeural(남성)
en-AU-DuncanNeural(남성)
en-AU-ElsieNeural(여성)
en-AU-FreyaNeural(여성)
en-AU-JoanneNeural(여성)
en-AU-KenNeural(남성)
en-AU-KimNeural(여성)
en-AU-NeilNeural(남성)
en-AU-TimNeural(남성)
en-AU-TinaNeural(여성)
en-AU-WilliamNeural(남성) |
en-GB |
영어(영국) |
en-GB-RyanNeural(남성)
en-GB-SoniaNeural(여성) |
es-ES |
스페인어(스페인) |
es-ES-AbrilNeural(여성)
es-ES-ArnauNeural(남성)
es-ES-DarioNeural(남성)
es-ES-EliasNeural(남성)
es-ES-EstrellaNeural(여성)
es-ES-IreneNeural(여성)
es-ES-LaiaNeural(여성)
es-ES-LiaNeural(여성)
es-ES-NilNeural(남성)
es-ES-SaulNeural(남성)
es-ES-TeoNeural(남성)
es-ES-TrianaNeural(여성)
es-ES-VeraNeural(여성) |
es-MX |
스페인어(멕시코) |
es-MX-JorgeNeural(남성) |
fr-FR |
프랑스어(프랑스) |
fr-FR-HenriNeural(남성) |
it-IT |
이탈리아어(이탈리아) |
it-IT-IsabellaNeural(여성) |
ja-JP |
일본어(일본) |
ja-JP-AoiNeural(여성)
ja-JP-DaichiNeural(남성)
ja-JP-MayuNeural(여성)
ja-JP-NaokiNeural(남성)
ja-JP-ShioriNeural(여성) |
cheerful 음성으로 de-DE-ConradNeural 스타일에 대한 지원을 추가했습니다.
2023년 2월 릴리스
표준 음성
이제 다음 음성이 일반적으로 사용 가능합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
zh-CN |
중국어(북경어, 간체) |
zh-CN-XiaomengNeural(여성)
zh-CN-XiaoyiNeural(여성)
zh-CN-XiaozhenNeural(여성)
zh-CN-YunfengNeural(남성)
zh-CN-YunhaoNeural(남성)
zh-CN-YunjianNeural(남성)
zh-CN-YunxiaNeural(남성)
zh-CN-YunzeNeural(남성) |
zh-CN-henan |
중국어(중위안 만다린 허난성, 간체) |
zh-CN-henan-YundengNeural(남성) |
2022년 12월 릴리스
일괄 처리 합성 REST API(미리 보기)
일괄 처리 합성 API는 현재 공개 미리 보기 상태입니다. 일반적으로 사용할 수 있게 되면 Long Audio API는 더 이상 사용되지 않습니다. 자세한 내용은 일괄 처리 합성 API로 마이그레이션을 참조하세요.
2022년 11월 릴리스
표준 음성(GA)
이제 다음 음성이 일반적으로 사용 가능합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
es-MX |
스페인어(멕시코) |
es-MX-BeatrizNeural(여성)
es-MX-CandelaNeural(여성)
es-MX-CarlotaNeural(여성)
es-MX-CecilioNeural(남성)
es-MX-GerardoNeural(남성)
es-MX-LarissaNeural(여성)
es-MX-LibertoNeural(남성)
es-MX-LucianoNeural(남성)
es-MX-MarinaNeural(여성)
es-MX-NuriaNeural(여성)
es-MX-PelayoNeural(남성)
es-MX-RenataNeural(여성)
es-MX-YagoNeural(남성) |
it-IT |
이탈리아어(이탈리아) |
it-IT-BenignoNeural(남성)
it-IT-CalimeroNeural(남성)
it-IT-CataldoNeural(남성)
it-IT-FabiolaNeural(여성)
it-IT-FiammaNeural(여성)
it-IT-GianniNeural(남성)
it-IT-ImeldaNeural(여성)
it-IT-IrmaNeural(여성)
it-IT-LisandroNeural(남성)
it-IT-PalmiraNeural(여성)
it-IT-PierinaNeural(여성)
it-IT-RinaldoNeural(남성) |
pt-BR |
포르투갈어(브라질) |
pt-BR-BrendaNeural(여성)
pt-BR-DonatoNeural(남성)
pt-BR-ElzaNeural(여성)
pt-BR-FabioNeural(남성)
pt-BR-GiovannaNeural(여성)
pt-BR-HumbertoNeural(남성)
pt-BR-JulioNeural(남성)
pt-BR-LeilaNeural(여성)
pt-BR-LeticiaNeural(여성)
pt-BR-ManuelaNeural(여성)
pt-BR-NicolauNeural(남성)
pt-BR-ValerioNeural(남성)
pt-BR-YaraNeural(여성) |
사용자 지정 신경망 음성
사용자 지정 인공신경망 음성에 대해 다음 로캘 지원이 추가됩니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
- 사용자 지정 인공신경망 음성 Pro를 사용하여
fr-BE 로캘에 대한 지원이 추가되었습니다.
- 사용자 지정 인공신경망 음성 Lite를 사용하여
es-ES 로캘에 대한 지원이 추가되었습니다.
2022년 10월 릴리스
표준 음성(GA)
이제 다음 음성이 일반적으로 사용 가능합니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
eu-ES |
바스크어 |
eu-ES-AinhoaNeural(여성)
eu-ES-AnderNeural(남성) |
hy-AM |
아르메니아어(아르메니아) |
hy-AM-AnahitNeural(여성)
hy-AM-HaykNeural(남성) |
표준 음성(미리 보기)
이제 퍼블릭 미리 보기에서 다음 음성을 사용할 수 있습니다. 자세한 내용은 전체 언어 및 음성 목록을 참조하세요.
| 로캘(BCP-47) |
Language |
텍스트 음성 변환 음성 |
en-AU |
영어(호주) |
en-AU-AnnetteNeural(여성)
en-AU-CarlyNeural(여성)
en-AU-DarrenNeural(남성)
en-AU-DuncanNeural(남성)
en-AU-ElsieNeural(여성)
en-AU-FreyaNeural(여성)
en-AU-JoanneNeural(여성)
en-AU-KenNeural(남성)
en-AU-KimNeural(여성)
en-AU-NeilNeural(남성)
en-AU-TimNeural(남성)
en-AU-TinaNeural(여성) |
es-ES |
스페인어(스페인) |
es-ES-AbrilNeural(여성)
es-ES-AlvaroNeural(남성)
es-ES-ArnauNeural(남성)
es-ES-DarioNeural(남성)
es-ES-EliasNeural(남성)
es-ES-EstrellaNeural(여성)
es-ES-IreneNeural(여성)
es-ES-LaiaNeural(여성)
es-ES-LiaNeural(여성)
es-ES-NilNeural(남성)
es-ES-SaulNeural(남성)
es-ES-TeoNeural(남성)
es-ES-TrianaNeural(여성)
es-ES-VeraNeural(여성) |
ja-JP |
일본어(일본) |
ja-JP-AoiNeural(여성)
ja-JP-DaichiNeural(남성)
ja-JP-MayuNeural(여성)
ja-JP-NaokiNeural(남성)
ja-JP-ShioriNeural(여성) |
ko-KR |
한국어(대한민국) |
ko-KR-BongJinNeural(남성)
ko-KR-GookMinNeural(남성)
ko-KR-JiMinNeural(여성)
ko-KR-SeoHyeonNeural(여성)
ko-KR-SoonBokNeural(여성)
ko-KR-YuJinNeural(여성) |
wuu-CN |
중국어(우, 간체) |
wuu-CN-XiaotongNeural(여성)
wuu-CN-YunzheNeural(남성) |
yue-CN |
중국어(광둥어, 간체) |
yue-CN-XiaoMinNeural(여성)
yue-CN-YunSongNeural(남성) |
일반 TTS 음성 업데이트
-
fil-PH-AngeloNeural 및 fil-PH-BlessicaNeural 음성의 품질이 향상되었습니다.
-
es-CL 스페인어(칠레) 및 uz-UZ 우즈베크어(우즈베키스탄) 로캘 관련 음성에 대한 텍스트 정규화 규칙이 업데이트되었습니다.
-
sq-AL 알바니아어(알바니아) 및 az-AZ 아제르바이잔어(아제르바이잔) 로케일에 대한 음성에 영어 철자가 추가되었습니다.
-
zh-HK-WanLungNeural 음성에 대한 영어 발음이 향상되었습니다.
-
nl-NL-MaartenNeural 및 pt-BR-AntonioNeural 음성에 대한 질문 톤이 향상되었습니다.
-
<lang ="en-US"> 태그에 대한 지원이 추가되어, 음성 de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural, 및 it-IT-IsabellaNeural의 영어 발음이 향상되었습니다.
- 음성
style="chat", en-GB-RyanNeural, es-MX-JorgeNeural 관련 it-IT-IsabellaNeural 태그에 대한 지원이 추가되었습니다.
-
style="cheerful" 태그에 대해 다음 목소리에 대한 지원이 추가되었습니다: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, 및 it-IT-IsabellaNeural.
-
style="sad" 태그에 대해 다음의 음성들에 대한 지원이 추가되었습니다: en-GB-SoniaNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural.
2022년 9월 릴리스
표준 음성
- 모든 표준 음성은 48kHz 샘플 속도로 고화질 음성으로 업그레이드되었습니다.
2022년 8월 릴리스
표준 음성
새 음성이 퍼블릭 미리 보기로 릴리스되었습니다.
- 미국 영어 음성:
en-US-AIGenerate1Neural 및 en-US-AIGenerate2Neural.
- 중국어 지역 언어용 음성:
zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeural 및 zh-CN-shandong-YunxiangNeural.
자세한 내용은 언어 및 음성 목록을 참조하세요.
2022년 7월 릴리스
표준 음성
- 공개 미리 보기에서
zh-CN 중국어(중국어, 간체)의 새로운 음성 5개와 en-US 영어(United States)의 새로운 음성 1개를 추가했습니다.
전체 언어 및 음성 목록을 참조하세요.
| Language |
로캘 |
성별 |
음성 이름 |
스타일 지원 |
| 중국어(북경어, 간체) |
zh-CN |
여성 |
zh-CN-XiaomengNeural
새로 만들기 |
SSML을 통해 사용 가능한 일반, 여러 스타일 |
| 중국어(북경어, 간체) |
zh-CN |
여성 |
zh-CN-XiaoyiNeural
새로 만들기 |
SSML을 통해 사용 가능한 일반, 여러 스타일 |
| 중국어(북경어, 간체) |
zh-CN |
여성 |
zh-CN-XiaozhenNeural
새로 만들기 |
SSML을 통해 사용 가능한 일반, 여러 스타일 |
| 중국어(북경어, 간체) |
zh-CN |
남성 |
zh-CN-YunxiaNeural
새로 만들기 |
SSML을 통해 사용 가능한 일반, 여러 스타일 |
| 중국어(북경어, 간체) |
zh-CN |
남성 |
zh-CN-YunzeNeural
새로 만들기 |
SSML을 통해 사용 가능한 일반, 여러 스타일 |
| 영어(미국) |
en-US |
남성 |
en-US-RogerNeural
새로 만들기 |
일반 |
- 추가된 신경망 음성에 대한 스타일 및 역할이 지원됨
| 음성 |
스타일 |
스타일 정도 |
역할 |
| zh-CN-XiaomengNeural 공개 미리 보기 |
chat |
지원됨 |
|
| zh-CN-XiaoyiNeural 공개 미리 보기 |
affectionate,angry, cheerful, disgruntled, embarrassed, fearfulgentle, sadserious |
지원됨 |
|
| zh-CN-XiaozhenNeural 공개 미리 보기 |
angry, cheerful, disgruntled, fearful, sadserious |
지원됨 |
|
| zh-CN-YunxiaNeural 공개 미리 보기 |
angry, calm, cheerful, fearfulsad |
지원됨 |
|
| zh-CN-YunzeNeural 공개 미리 보기 |
angry,calm, cheerful, depressed, disgruntled, documentary-narrationfearful, sadserious |
지원됨 |
지원됨 |
viseme으로 얼굴 위치 가져오기
2022년 6월 릴리스
표준 음성
- 인공신경망 텍스트 음성 변환을 위한 9개의 새 언어와 변형이 추가되었습니다.
| Language |
로캘 |
성별 |
음성 이름 |
스타일 지원 |
| 아랍어(레바논) |
ar-LB |
여성 |
ar-LB-LaylaNeural
새로 만들기 |
일반 |
| 아랍어(레바논) |
ar-LB |
남성 |
ar-LB-RamiNeural
새로 만들기 |
일반 |
| 아랍어(오만) |
ar-OM |
여성 |
ar-OM-AyshaNeural
새로 만들기 |
일반 |
| 아랍어(오만) |
ar-OM |
남성 |
ar-OM-AbdullahNeural
새로 만들기 |
일반 |
| 아제르바이잔어(아제르바이잔) |
az-AZ |
여성 |
az-AZ-BabekNeural
새로 만들기 |
일반 |
| 아제르바이잔어(아제르바이잔) |
az-AZ |
남성 |
az-AZ-BanuNeural
새로 만들기 |
일반 |
| 보스니아어(보스니아 헤르체고비나) |
bs-BA |
여성 |
bs-BA-VesnaNeural
새로 만들기 |
일반 |
| 보스니아어(보스니아 헤르체고비나) |
bs-BA |
남성 |
bs-BA-GoranNeural
새로 만들기 |
일반 |
| 조지아어(조지아) |
ka-GE |
여성 |
ka-GE-EkaNeural
새로 만들기 |
일반 |
| 조지아어(조지아) |
ka-GE |
남성 |
ka-GE-GiorgiNeural
새로 만들기 |
일반 |
| 몽골어(몽골) |
mn-MN |
여성 |
mn-MN-YesuiNeural
새로 만들기 |
일반 |
| 몽골어(몽골) |
mn-MN |
남성 |
mn-MN-BataaNeural
새로 만들기 |
일반 |
| 네팔어(네팔) |
ne-NP |
여성 |
ne-NP-HemkalaNeural
새로 만들기 |
일반 |
| 네팔어(네팔) |
ne-NP |
남성 |
ne-NP-SagarNeural
새로 만들기 |
일반 |
| 알바니아어(알바니아) |
sq-AL |
여성 |
sq-AL-AnilaNeural
새로 만들기 |
일반 |
| 알바니아어(알바니아) |
sq-AL |
남성 |
sq-AL-IlirNeural
새로 만들기 |
일반 |
| 타밀어(말레이시아) |
ta-MY |
여성 |
ta-MY-KaniNeural
새로 만들기 |
일반 |
| 타밀어(말레이시아) |
ta-MY |
남성 |
ta-MY-SuryaNeural
새로 만들기 |
일반 |
-
en-GB 영어(영국), fr-FR 프랑스어(프랑스) 및 de-DE 독일어(독일)에 대한 공개 미리 보기의 GA 36 음성:
| Language |
로캘 |
성별 |
음성 이름 |
스타일 지원 |
| 영어(영국) |
en-GB |
여성 |
en-GB-AbbiNeural |
일반 |
| 영어(영국) |
en-GB |
여성 |
en-GB-BellaNeural |
일반 |
| 영어(영국) |
en-GB |
여성 |
en-GB-HollieNeural |
일반 |
| 영어(영국) |
en-GB |
여성 |
en-GB-MaisieNeural |
일반, 아이 목소리 |
| 영어(영국) |
en-GB |
여성 |
en-GB-OliviaNeural |
일반 |
| 영어(영국) |
en-GB |
여성 |
en-GB-SoniaNeural |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-AlfieNeural |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-ElliotNeural |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-EthanNeural |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-NoahNeural |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-OliverNeural |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-ThomasNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-BrigitteNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-CelesteNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-CoralieNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-EloiseNeural |
일반, 아이 목소리 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-JacquelineNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-JosephineNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-YvetteNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
남성 |
fr-FR-AlainNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
남성 |
fr-FR-ClaudeNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
남성 |
fr-FR-JeromeNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
남성 |
fr-FR-MauriceNeural |
일반 |
| 프랑스어(프랑스) |
fr-FR |
남성 |
fr-FR-YvesNeural |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-AmalaNeural |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-ElkeNeural |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-GiselaNeural |
일반, 아이 목소리 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-KlarissaNeural |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-LouisaNeural |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-MajaNeural |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-TanjaNeural |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-BerndNeural |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-ChristophNeural |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-KasperNeural |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-KillianNeural |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-KlausNeural |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-RalfNeural |
일반 |
- 공개 미리 보기에서
es-MX 스페인어(멕시코), it-IT 이탈리아어(이탈리아), pt-BR 포르투갈어(브라질)의 40가지 새로운 음성 및 zh-CN 중국어(북경어, 간체)에 대한 2개의 악센트 추가:
| Language |
로캘 |
성별 |
음성 이름 |
스타일 지원 |
| 스페인어(멕시코) |
es-MX |
여성 |
es-MX-BeatrizNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
여성 |
es-MX-CarlotaNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
여성 |
es-MX-NuriaNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
여성 |
es-MX-RenataNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
여성 |
es-MX-LarissaNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
여성 |
es-MX-CandelaNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
여성 |
es-MX-MarinaNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
여성 |
it-IT-FiammaNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
여성 |
it-IT-IrmaNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
여성 |
it-IT-FabiolaNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
여성 |
it-IT-PalmiraNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
여성 |
it-IT-ImeldaNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
여성 |
it-IT-PierinaNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
여성 |
pt-BR-ElzaNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
여성 |
pt-BR-ManuelaNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
여성 |
pt-BR-BrendaNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
여성 |
pt-BR-LeilaNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
여성 |
pt-BR-YaraNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
여성 |
pt-BR-GiovannaNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
여성 |
pt-BR-LeticiaNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
남성 |
es-MX-CecilioNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
남성 |
es-MX-LibertoNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
남성 |
es-MX-LucianoNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
남성 |
es-MX-PelayoNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
남성 |
es-MX-YagoNeural
새로 만들기 |
일반 |
| 스페인어(멕시코) |
es-MX |
남성 |
es-MX-GerardoNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
남성 |
it-IT-BenignoNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
남성 |
it-IT-CataldoNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
남성 |
it-IT-LisandroNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
남성 |
it-IT-CalimeroNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
남성 |
it-IT-RinaldoNeural
새로 만들기 |
일반 |
| 이탈리아어(이탈리아) |
it-IT |
남성 |
it-IT-GianniNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
남성 |
pt-BR-DonatoNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
남성 |
pt-BR-HumbertoNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
남성 |
pt-BR-FabioNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
남성 |
pt-BR-JulioNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
남성 |
pt-BR-ValerioNeural
새로 만들기 |
일반 |
| 포르투갈어(브라질) |
pt-BR |
남성 |
pt-BR-NicolauNeural
새로 만들기 |
일반 |
| 중국어(북경어, 간체) |
zh-CN-sichuan |
남성 |
zh-CN-sichuan-YunxiSichuanNeural
새로 만들기 |
일반, 쓰촨 악센트 |
| 중국어(북경어, 간체) |
zh-CN-liaoning |
여성 |
zh-CN-liaoning-XiaobeiNeural
새로 만들기 |
일반, 랴오닝 악센트 |
-
en-SG-LunaNeural 및 en-SG-WayneNeural의 품질 개선
- en-US-JennyNeural, en-US-AriaNeural 및 zh-CN-XiaoxiaoNeural을 사용한 공개 미리 보기에 대한 48kHz 출력 지원
사용자 지정 신경망 음성
오디오 콘텐츠 만들기 도구
- 지원되는 페이지 매김.
- 작업 파일 페이지에서 이름, 파일 형식 및 업데이트 시간을 기준으로 전역적으로 정렬할 수 있습니다.
2022년 5월 릴리스
표준 음성
- 미국 영어의 다양성을 보강하기 위해 여러 스타일로 공개 미리 보기에서 5개의 새로운 음성을 출시했습니다.
전체 언어 및 음성 목록을 참조하세요.
-
Angry에 대한 공개 미리 보기에서 이러한 새 스타일 Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified, Whispering 및 en-US-AriaNeural을 지원합니다.
-
Angry, Cheerful에 대한 공개 미리 보기에서 이러한 새 스타일 Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified, Whispering, en-US-GuyNeural 및 en-US-JennyNeural을 지원합니다.
-
Excited에 대한 공개 미리 보기에서 이러한 새 스타일 Friendly, Hopeful, Shouting, Unfriendly, Terrified, Whispering 및 en-US-SaraNeural을 지원합니다.
음성 스타일 및 역할을 참조하세요.
- 새 음성
zh-CN-YunjianNeural, zh-CN-YunhaoNeural, zh-CN-YunfengNeural을 공개하고 퍼블릭 미리 보기로 릴리스했습니다.
전체 언어 및 음성 목록을 참조하세요.
-
sports-commentary에 대한 퍼블릭 미리 보기에서 2 새 스타일 sports-commentary-excited, zh-CN-YunjianNeural를 지원합니다.
음성 스타일 및 역할을 참조하세요.
-
advertisement-upbeat에 대한 퍼블릭 미리 보기에서 1 새 스타일 zh-CN-YunhaoNeural를 지원합니다.
음성 스타일 및 역할을 참조하세요.
-
cheerful의 sad 및 fr-FR-DeniseNeural 스타일은 일반적으로 모든 지역에서 사용할 수 있습니다.
- SSML은 en-US 및 en-AU 음성에 대한 MathML 요소를 지원하도록 업데이트되었습니다.
음성 합성 표시에 대해 자세히 알아봅니다.
사용자 지정 신경망 음성
오디오 콘텐츠 만들기 도구
- 로그인하지 않고 오디오 콘텐츠 만들기 도구를 사용해 볼 수 있습니다.
- 음소 조정을 위한 레이아웃이 향상되었습니다.
- 향상된 성능: 한 번에 업로드할 최대 파일 수(200)를 지정했습니다.
- 향상된 성능: 최대 디렉터리 깊이 수준(5개 수준)을 지정했습니다.
2022년 3월 릴리스
표준 음성
사용자 지정 신경망 음성
오디오 콘텐츠 만들기 도구
2022년 2월 릴리스
사용자 지정 신경망 음성
- 공개 미리 보기에서 사용자 지정 인공신경망 음성 라이트가 릴리스되었습니다.
사용자 지정 인공신경망 음성 라이트에 대해 자세히 알아보세요.
- 언어 지원이 49개 로캘로 확장되었습니다.
언어 지원을 참조하세요.
- 더 많은 지역/데이터 센터가 지원됩니다.
지역 지원을 참조하세요.
오디오 콘텐츠 만들기 도구
- 오디오 다운로드의 출력 길이 제한을 제거했습니다.
2022년 1월 릴리스
새 언어 및 음성
인공신경망 텍스트 음성 변환을 위한 10개의 새 언어와 변형이 추가되었습니다.
| Language |
로캘 |
성별 |
음성 이름 |
스타일 지원 |
| 벵골어(인도) |
bn-IN |
여성 |
bn-IN-TanishaaNeural
새로 만들기 |
일반 |
| 벵골어(인도) |
bn-IN |
남성 |
bn-IN-BashkarNeural
새로 만들기 |
일반 |
| 아이슬란드어(아이슬란드) |
is-IS |
여성 |
is-IS-GudrunNeural
새로 만들기 |
일반 |
| 아이슬란드어(아이슬란드) |
is-IS |
남성 |
is-IS-GunnarNeural
새로 만들기 |
일반 |
| 칸나다어(인도) |
kn-IN |
여성 |
kn-IN-SapnaNeural
새로 만들기 |
일반 |
| 칸나다어(인도) |
kn-IN |
남성 |
kn-IN-GaganNeural
새로 만들기 |
일반 |
| 카자흐어(카자흐스탄) |
kk-KZ |
여성 |
kk-KZ-AigulNeural
새로 만들기 |
일반 |
| 카자흐어(카자흐스탄) |
kk-KZ |
남성 |
kk-KZ-DauletNeural
새로 만들기 |
일반 |
| 라오스어 (라오스) |
lo-LA |
여성 |
lo-LA-KeomanyNeural
새로 만들기 |
일반 |
| 라오스어 (라오스) |
lo-LA |
남성 |
lo-LA-ChanthavongNeural
새로 만들기 |
일반 |
| 마케도니아어(북마케도니아 공화국) |
mk-MK |
여성 |
mk-MK-MarijaNeural
새로 만들기 |
일반 |
| 마케도니아어(북마케도니아 공화국) |
mk-MK |
남성 |
mk-MK-AleksandarNeural
새로 만들기 |
일반 |
| 말라얄람어(인도) |
ml-IN |
여성 |
ml-IN-SobhanaNeural
새로 만들기 |
일반 |
| 말라얄람어(인도) |
ml-IN |
남성 |
ml-IN-MidhunNeural
새로 만들기 |
일반 |
| 파슈토(아프가니스탄어) |
ps-AF |
여성 |
ps-AF-LatifaNeural
새로 만들기 |
일반 |
| 파슈토(아프가니스탄어) |
ps-AF |
남성 |
ps-AF-GulNawazNeural
새로 만들기 |
일반 |
| 세르비아어(세르비아, 키릴 문자) |
sr-RS |
여성 |
sr-RS-SophieNeural
새로 만들기 |
일반 |
| 세르비아어(세르비아, 키릴 문자) |
sr-RS |
남성 |
sr-RS-NicholasNeural
새로 만들기 |
일반 |
| 스리랑카어(스리랑카) |
si-LK |
여성 |
si-LK-ThiliniNeural
새로 만들기 |
일반 |
| 스리랑카어(스리랑카) |
si-LK |
남성 |
si-LK-SameeraNeural
새로 만들기 |
일반 |
사용 가능한 음성의 전체 목록은 언어 지원을 참조하세요.
미리 보기의 새 음성
미리 보기에 en-GB, fr-FR 및 de-DE에 대한 새 음성이 추가되었습니다.
| Language |
로캘 |
성별 |
음성 이름 |
스타일 지원 |
| 영어(영국) |
en-GB |
여성 |
en-GB-AbbiNeural
새로 만들기 |
일반 |
| 영어(영국) |
en-GB |
여성 |
en-GB-BellaNeural
새로 만들기 |
일반 |
| 영어(영국) |
en-GB |
여성 |
en-GB-HollieNeural
새로 만들기 |
일반 |
| 영어(영국) |
en-GB |
여성 |
en-GB-OliviaNeural
새로 만들기 |
일반 |
| 영어(영국) |
en-GB |
소녀 |
en-GB-MaisieNeural
새로 만들기 |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-AlfieNeural
새로 만들기 |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-ElliotNeural
새로 만들기 |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-EthanNeural
새로 만들기 |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-NoahNeural
새로 만들기 |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-OliverNeural
새로 만들기 |
일반 |
| 영어(영국) |
en-GB |
남성 |
en-GB-ThomasNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-BrigitteNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-CelesteNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-CoralieNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-JacquelineNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-JosephineNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
여성 |
fr-FR-YvetteNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
소녀 |
fr-FR-EloiseNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
남성 |
fr-FR-AlainNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
남성 |
fr-FR-ClaudeNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
남성 |
fr-FR-JeromeNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
남성 |
fr-FR-MauriceNeural
새로 만들기 |
일반 |
| 프랑스어(프랑스) |
fr-FR |
남성 |
fr-FR-YvesNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-AmalaNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-ElkeNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-KlarissaNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-LouisaNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-MajaNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
여성 |
de-DE-TanjaNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
소녀 |
de-DE-GiselaNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-BerndNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-ChristophNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-KasperNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-KillianNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-KlausNeural
새로 만들기 |
일반 |
| 독일어(독일) |
de-DE |
남성 |
de-DE-RalfNeural
새로 만들기 |
일반 |
사용 가능한 음성의 전체 목록은 언어 지원을 참조하세요.
발음 정확도
- 모든
he-IL 음성의 영어 단어 발음이 향상되었습니다.
-
cs-CZ 및 da-DK의 단어 수준 발음 정확도가 향상되었습니다.
- 아랍어 분음 부호 및 히브리어 니쿠드 처리가 향상되었습니다.
-
ja-JP에 대한 엔터티 읽기 기능이 향상되었습니다.
음성 스튜디오
- 사용자 지정 인공신경망 음성: 일괄 처리 API(긴 오디오 API)를 사용하는 추가 모델 테스트 지원
- 오디오 콘텐츠 만들기: 더 많은 출력 형식 사용
2021년10월 릴리스
새 언어 및 음성
인공신경망 텍스트 음성 변환을 위한 다음과 같은 49개의 새 언어와 98개의 변형이 추가되었습니다.
Adri -af-ZA 아프리칸스어(남아프리카 공화국), Willem -af-ZA 아프리칸스어(남아프리카 공화국), Mekdes -am-ET 암하라어(에티오피아), Ameha -am-ET 암하라어(에티오피아), Fatima -ar-AE 아랍어(아랍에미리트 연합), Hamdan -ar-AE 아랍어(아랍에미리트 연합), Laila -ar-BH 아랍어(바레인), Ali -ar-BH 아랍어(바레인), Amina -ar-DZ 아랍어(알제리), Ismael -ar-DZ 아랍어(알제리), Rana -ar-IQ 아랍어(이라크), Bassel -ar-IQ 아랍어(이라크), Sana -ar-JO 아랍어(요르단), Taim -ar-JO 아랍어(요르단), Noura -ar-KW 아랍어(쿠웨이트), Fahed -ar-KW 아랍어(쿠웨이트), Iman -ar-LY 아랍어(리비아), Omar -ar-LY 아랍어(리비아), Mouna -ar-MA 아랍어(모로코), Jamal -ar-MA 아랍어(모로코), Amal -ar-QA 아랍어(카타르), Moaz -ar-QA 아랍어(카타르), Amany -ar-SY 아랍어(시리아), Laith -ar-SY 아랍어(시리아), Reem -ar-TN 아랍어(튀니지), Hedi -ar-TN 아랍어(튀니지), Maryam -ar-YE 아랍어(예멘), Saleh -ar-YE 아랍어(예멘), Nabanita -bn-BD 벵골어(방글라데시), Pradeep -bn-BD 벵골어(방글라데시), Asilia -en-KE 영어(케냐), Chilemba -en-KE 영어(케냐), Ezinne -en-NG 영어(나이지리아), Abeo -en-NG 영어(나이지리아), Imani -en-TZ 영어(탄자니아), Elimu -en-TZ 영어(탄자니아), Sofia -es-BO 스페인어(볼리비아), Marcelo -es-BO 스페인어(볼리비아), Catalina -es-CL 스페인어(칠레), Lorenzo -es-CL 스페인어(칠레), Maria -es-CR 스페인어(코스타리카), Juan -es-CR 스페인어(코스타리카), Belkys -es-CU 스페인어(쿠바), Manuel -es-CU 스페인어(쿠바), Ramona -es-DO 스페인어(도미니카 공화국), Emilio -es-DO 스페인어(도미니카 공화국), Andrea -es-EC 스페인어(에콰도르), Luis -es-EC 스페인어(에콰도르), Teresa -es-GQ 스페인어(적도 기니), Javier -es-GQ 스페인어(적도 기니), Marta -es-GT 스페인어(과테말라), Andres -es-GT 스페인어(과테말라), Karla -es-HN 스페인어(온두라스), Carlos -es-HN 스페인어(온두라스), Yolanda -es-NI 스페인어(니카라과), Federico -es-NI 스페인어(니카라과), Margarita -es-PA 스페인어(파나마), Roberto -es-PA 스페인어(파나마), Camila -es-PE 스페인어(페루), Alex -es-PE 스페인어(페루), Karina -es-PR 스페인어(푸에르토리코), Victor -es-PR 스페인어(푸에르토리코), Tania -es-PY 스페인어(파라과이), Mario -es-PY 스페인어(파라과이), Lorena -es-SV 스페인어(엘살바도르), Rodrigo -es-SV 스페인어(엘살바도르), Valentina -es-UY 스페인어(우루과이), Mateo -es-UY 스페인어(우루과이), Paola -es-VE 스페인어(베네수엘라), Sebastian -es-VE 스페인어(베네수엘라), Dilara -fa-IR 페르시아어(이란), Farid -fa-IR 페르시아어(이란), Blessica -fil-PH 필리핀어(필리핀), Angelo -fil-PH 필리핀어(필리핀), Sabela -gl-ES 갈리시아어, Roi -gl-ES 갈리시아어, Siti -jv-ID 자바어(인도네시아), Dimas -jv-ID 자바어(인도네시아), Sreymom -km-KH 크메르어(캄보디아), Piseth -km-KH 크메르어(캄보디아), Nilar -my-MM 버마어(미얀마), Thiha -my-MM 버마어(미얀마), Ubax -so-SO 소말리어(소말리아), Muuse -so-SO 소말리어(소말리아), Tuti -su-ID 순다어(인도네시아), Jajang -su-ID 순다어(인도네시아), Rehema -sw-TZ 스와힐리어(탄자니아), Daudi -sw-TZ 스와힐리어(탄자니아), Saranya -ta-LK 타밀어(스리랑카), Kumar -ta-LK 타밀어(스리랑카), Venba -ta-SG 타밀어(싱가포르), Anbu -ta-SG 타밀어(싱가포르), Gul -ur-IN 우르두어(인도), Salman -ur-IN 우르두어(인도), Madina -uz-UZ 우즈벡어(우즈베키스탄), Sardor -uz-UZ 우즈벡어(우즈베키스탄), Thando -zu-ZA 줄루어(남아프리카 공화국), Themba -zu-ZA 줄루어(남아프리카 공화국).
2021년 9월 릴리스
-
en-US의 새로운 챗봇 음성: Sara는 더 캐주얼하게 말하고 챗봇 시나리오에 가장 적합한 젊은 여성 성인을 나타냅니다.
-
ja-JP 일본어 음성 Nanami에 새 스타일 추가: 채팅, 고객 서비스, 쾌활함 등 세 가지 새 스타일을 이제 Nanami에서 사용할 수 있습니다.
-
전체적인 발음 개선:
id-ID의 Adri, th-TH의 Premwadee, da-DK의 Christel, vi-VN의 HoaiMy 및 NamMinh.
-
zh-CN 중국어(북경어, 중국)의 새 음성 2개 미리 보기: 자연스러운 말하기 및 고객 서비스 시나리오에 최적화된 Xiaochen 및 Xiaoyan.
2021년 7월 릴리스
인공신경망 텍스트 음성 변환 업데이트
Speech Studio 업데이트
-
사용자 지정 인공신경망 음성: 어쿠스틱 모델을 위한 학습 시간이 50% 감소하는 동안 모델 품질이 향상된 UniTTSv3 학습 파이프라인을 업데이트 했습니다.
-
오디오 콘텐츠 만들기는 "내보내기" 성능 문제 및 사용자 지정 신경망 음성 선택에 대한 버그를 수정했습니다.
2021년 6월 릴리스
Speech Studio 업데이트
-
사용자 지정 인공신경망 음성: 동남 아시아를 지원 하도록 확장된 사용자 지정 인공신경망 음성 학습입니다. 데이터 업로드 상태 확인 지원을 위한 새로운 기능이 출시되었습니다.
-
오디오 콘텐츠 만들기는 사용자 지정 어휘를 지원하는 새 기능을 릴리스했습니다. 이 기능을 사용하면 사용자가 쉽게 어휘집 파일을 만들고 사용자 지정된 음성 출력에 대한 사용자 지정 발음을 정의할 수 있습니다.
2021년 5월 릴리스
인공신경망 TTS에 새 언어 및 음성 추가
10개의 새로운 언어 도입 - 10개의 새로운 로캘에서 20개의 새로운 음성이 인공신경망 TTS 언어 목록에 추가되었습니다. Yan - en-HK 영어(홍콩), Sam - en-HK 영어(홍콩), Molly - en-NZ 영어(뉴질랜드), Mitchell - en-NZ 영어(뉴질랜드), Luna - en-SG 영어(싱가포르), Wayne - en-SG 영어(싱가포르), Leah - en-ZA 영어(남아프리카), Luke - en-ZA 영어(남아프리카), Dhwani - gu-IN 구자라트어(인도), Niranjan - gu-IN 구자라트어(인도), Aarohi - mr-IN 마라티어(인도), Manohar - mr-IN 마라티어(인도), Elena - es-AR 스페인어(아르헨티나), Tomas - es-AR 스페인어(아르헨티나), Salome - es-CO 스페인어(콜롬비아), Gonzalo - es-CO 스페인어(콜롬비아), Paloma - es-US 스페인어(미국), Alonso - es-US 스페인어(미국), Zuri - sw-KE 스와힐리어(케냐), Rafiki - sw-KE 스와힐리어(케냐).
미리 보기에서 11개의 새로운 en-US 음성 - 미리 보기에서 11개의 새로운 en-US 음성이 미국 영어에 추가되었습니다. Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob입니다.
5개의 zh-CN 중국어(북경어, 간체) 음성이 일반 공급됩니다. - 5개의 중국어(북경어, 간체) 음성이 미리 보기에서 일반 공급으로 변경되었습니다. Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui입니다. 이제 이러한 음성은 모든 지역에서 사용할 수 있습니다. Yunxi는 채팅 봇 및 음성 에이전트에 적합한 새로운 '도우미' 스타일로 추가되었습니다. Xiaomo의 음성 스타일은 보다 자연스럽고 기능적으로 개선되었습니다.
2021년 4월 릴리스
21개 지역에서 인공신경망 텍스트 음성 변환 사용 가능
-
12개의 새 지역 추가 - 이제 새로운 12개 지역
Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2에서 인공신경망 텍스트 음성 변환을 사용할 수 있습니다. 21개 지원 지역의 전체 목록은 여기를 확인하세요.
2021년 3월 릴리스
인공신경망 TTS에 새 언어 및 음성 추가
6개 새 언어 도입 - 다음과 같은 6개 새 로캘의 12개 새 음성이 인공신경망 TTS 언어 목록에 추가되었습니다. cy-GB 웨일스어(영국)를 사용하는 Nia, cy-GB 웨일스어(영국)를 사용하는 Aled, en-PH 영어(필리핀)를 사용하는 Rosa, en-PH 영어(필리핀)를 사용하는 James, fr-BE 프랑스어(벨기에)를 사용하는 Charline, fr-BE 프랑스어(벨기에)를 사용하는 Gerard, nl-BE 네덜란드어(벨기에)를 사용하는 Dena, nl-BE 네덜란드어(벨기에)를 사용하는 Arnaud, uk-UA 우크라이나어(우크라이나)를 사용하는 Polina, uk-UA 우크라이나어(우크라이나)를 사용하는 Ostap, ur-PK 우르두어(파키스탄)를 사용하는 Uzma, ur-PK 우르두어(파키스탄)를 사용하는 Asad.
미리 보기에서 GA로 전환되는 5개 언어 - 11월에 도입된 다음과 같은 5개 로캘의 10개 음성이 이제 GA로 전환됩니다. et-EE 에스토니아어(에스토니아)를 사용하는 Kert, ga-IE 아일랜드어(아일랜드)를 사용하는 Colm, lv-LV 라트비아어(라트비아)를 사용하는 Nils, lt-LT 리투아니아어(리투아니아)를 사용하는 Leonas, mt-MT 몰타어(몰타)를 사용하는 Joseph.
프랑스어(캐나다)에 새로운 남성 음성 추가 - fr-CA 프랑스어(캐나다)에 새 음성 Antoine가 추가되었습니다.
품질 향상 - 발음 오류율이 hu-HU 헝가리어 - 48.17%, nb-NO 노르웨이어 - 52.76%, nl-NL 네덜란드어(네덜란드) - 22.11%로 낮아졌습니다.
이번 릴리스에서는 60개 언어/로캘의 총 142개 인공신경망 음성을 지원합니다. 또한 70개가 넘는 표준 음성이 49개 언어/로캘로 제공됩니다. 전체 목록을 보려면 언어 지원을 방문하세요.
캐릭터를 애니메이션 하기 위한 얼굴 포즈 이벤트 받기
이제 인공신경망 텍스트 음성 변환에 viseme 이벤트가 포함됩니다. Viseme 이벤트를 통해 사용자는 합성된 음성과 함께 일련의 얼굴 포즈를 가져올 수 있습니다. Viseme은 2D 및 3D 아바타 모델의 움직임을 제어하는 데 사용할 수 있으며 입 움직임을 합성된 음성과 일치시킵니다. Viseme 이벤트는 현재 en-US-AriaNeural 음성에만 사용할 수 있습니다.
SSML(Speech Synthesis Markup Language)에 책갈피 요소 추가
책갈피 요소를 사용하면 SSML로 사용자 지정 표식을 삽입하여 오디오 스트림에 있는 각 표식의 오프셋을 얻을 수 있습니다. 텍스트 또는 태그 시퀀스의 특정 위치를 참조하는 데 사용할 수 있습니다.
2021년 2월 릴리스
사용자 지정 인공신경망 음성 GA
사용자 지정 신경망 음성은 중국어(북경어, 간체), 영어(오스트레일리아), 영어(인도), 영어(영국), 영어(미국), 프랑스어(캐나다), 프랑스어(프랑스), 독일어(독일), 이탈리아어(이탈리아), 일본어(일본), 한국어(한국), 포르투갈어(브라질), 스페인어(멕시코) 및 스페인어(스페인)의 13개 언어로 2월에 일반적으로 사용 가능합니다.
사용자 지정 인공신경망 음성이란 무엇이며 책임감 있게 사용하는 방법은 무엇인지 자세히 알아보세요.
사용자 지정 인공신경망 음성 기능을 사용하려면 등록이 필요하며 Microsoft 자격 조건에 따라 액세스가 제한될 수 있습니다.
제한된 액세스에 대해 자세히 알아보세요.
2020년 12월 릴리스
GA 및 미리보기에서 제공되는 새로운 인공신경망 음성
51가지 새 음성이 출시되면서 54개 언어/로캘로 총 129가지 인공신경망 음성이 제공됩니다.
GA 로캘의 46가지 새 음성: ar-EG 아랍어(이집트)를 사용하는 Shakir, ar-SA 아랍어(사우디아라비아)를 사용하는 Hamed, bg-BG 불가리아어(불가리아)를 사용하는 Borislav, ca-ES 카탈로니아어를 사용하는 Joana, cs-CZ 체코어(체코 공화국)를 사용하는 Antonin, da-DK 덴마크어(덴마크)를 사용하는 Jeppe, de-AT 독일어(오스트리아)를 사용하는 Jonas, de-CH 독일어(스위스)를 사용하는 Jan, el-GR 그리스어(그리스)를 사용하는 Nestoras, en-CA 영어(캐나다)를 사용하는 Liam, en-IE 영어(아일랜드)를 사용하는 Connor, en-IN 힌디어(인도)를 사용하는 Madhur, en-IN 텔구루어(인도)를 사용하는 Mohan, en-IN 영어(인도)를 사용하는 Prabhat, en-IN 타밀어(인도)를 사용하는 Valluvar, es-ES 카탈로니아어를 사용하는 Enric, et-EE 에스토니아어(에스토니아)를 사용하는 Kert, fi-FI 핀란드어(핀란드)를 사용하는 Harri, fi-FI 핀란드어(핀란드)를 사용하는 Selma, fr-CH 프랑스어(스위스)를 사용하는 Fabrice, ga-IE 아일랜드어(아일랜드)를 사용하는 Colm, he-IL 히브리어(이스라엘)를 사용하는 Avri, hr-HR 크로아티아어(크로아티아어)를 사용하는 Srecko, hu-HU 헝가리어(헝가리)를 사용하는 Tamas, id-ID 인도네시아어(인도네시아)를 사용하는 Gadis, lt-LT 리투아니아어(리투아니아)를 사용하는 Leonas, lv-LV 라트비아어(라트비아)를 사용하는 Nils, ms-MY 말레이어(말레이시아)를 사용하는 Osman, mt-MT 몰타어(몰타)를 사용하는 Joseph, nb-NO 노르웨이어 복말(노르웨이)을 사용하는 Finn, nb-NO 노르웨이어 복말(노르웨이)을 사용하는 Pernille, nl-NL 네덜란드어(네덜란드)를 사용하는 Fenna, nl-NL 네덜란드어(네덜란드)를 사용하는 Maarten, pl-PL 폴란드어(폴란드)를 사용하는 Agnieszka, pl-PL 폴란드어(폴란드어)를 사용하는 Marek, pt-BR 포르투갈어(브라질)를 사용하는 Duarte, pt-PT 포르투갈어(포르투갈)를 사용하는 Raquel, ro-RO 루마니아어(루마니아)를 사용하는 Emil, ru-RU 러시아어(러시아)를 사용하는 Dmitry, ru-RU 러시아어(러시아)를 사용하는 Svetlana, sk-SK 슬로바키아어(슬로바키아)를 사용하는 Lukas, sl-SI 슬로베니아어(슬로베니아)를 사용하는 Rok, sv-SE 스웨덴어(스웨덴)를 사용하는 Mattias, sv-SE 스웨덴어(스웨덴)를 사용하는 Sofie, th-TH 태국어(태국)를 사용하는 Niwat, tr-TR 터키어(튀르키예)를 사용하는 Ahmet, vi-VN 베트남어(베트남)를 사용하는 NamMinh, zh-TW 대만 북경어(대만)를 사용하는 HsiaoChen, zh-TW 대만 북경어(대만)를 사용하는 YunJhe, zh-HK 중국어 광둥어(홍콩 특별행정구)를 사용하는 HiuMaan, zh-HK 중국어 광둥어(홍콩 SAR)를 사용하는 WanLung.
미리 보기 로캘의 5가지 새 음성: et-EE 에스토니아어(에스토니아)를 사용하는 Kert, ga-IE 아일랜드어(아일랜드)를 사용하는 Colm, lv-LV 라트비아어(라트비아)를 사용하는 Nils, lt-LT 리투아니아어(리투아니아)를 사용하는 Leonas, mt-MT 몰타어(몰타)를 사용하는 Joseph.
이번 릴리스에서는 54개 언어/로캘의 총 129개 인공신경망 음성을 지원합니다. 또한 70개가 넘는 표준 음성이 49개 언어/로캘로 제공됩니다. 전체 목록을 보려면 언어 지원을 방문하세요.
오디오 콘텐츠 만들기 업데이트
- 음성 범주 및 자세한 음성 설명을 추가하여 음성 선택 UI를 개선했습니다.
- 여러 언어의 모든 인공신경망 음성에 대해 억양 튜닝을 사용하도록 설정했습니다.
- 브라우저의 언어에 따라 UI 지역화를 자동화했습니다.
- 모든
StyleDegree 인공신경망 음성에 zh-CN 컨트롤을 사용하도록 설정했습니다.
오디오 콘텐츠 만들기 도구를 방문하여 새로운 기능을 확인하세요.
zh-CN 음성 업데이트
- 영어 말하기를 지원하도록 모든
zh-CN 인공신경망 음성을 업데이트했습니다.
- 억양 조정을 지원하기 위해 모든
zh-CN 인공신경망 음성을 사용하도록 설정했습니다. SSML 또는 오디오 콘텐츠 만들기 도구를 사용하여 최적의 억양으로 조정할 수 있습니다.
-
zh-CN 컨트롤을 지원하도록 모든 StyleDegree 다중 스타일 인공신경망 음성을 업데이트했습니다. 감정 강도(부드럽게 또는 강하게)를 조정할 수 있습니다.
- 여러 감정을 수행할 수 있는 여러 스타일을 지원하도록
zh-CN-YunyeNeural을 업데이트했습니다.
2020년 11월 릴리스
미리 보기로 제공되는 새 로캘 및 음성
- 인공신경망 텍스트 음성 변환 포트폴리오에 다음과 같은 5가지 새 음성 및 언어가 도입되었습니다. 몰타어(몰타)를 사용하는 Grace, 리투아니아어(리투아니아)를 사용하는 Ona, 에스토니아어(에스토니아)를 사용하는 Anu, 아일랜드어(아일랜드)를 사용하는 Orla, 라트비아어(라트비아)를 사용하는 Everita.
-
여러 스타일과 역할이 포함된 5가지 새
zh-CN 음성 지원: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan 및 Yunxi를 지원합니다.
이러한 음성은 EastUS, SouthEastAsia 및 WestEurope의 세 가지 Azure 지역에서 공개 미리 보기로 제공됩니다.
인공신경망 텍스트 음성 변환 컨테이너 GA
- 인공신경망 텍스트 음성 변환 컨테이너를 사용하면 개발자는 보안 및 데이터 거버넌스 요구 사항에 맞게 자신의 환경에서 가장 자연스러운 디지털 음성이 포함된 음성 합성을 실행할 수 있습니다.
음성 컨테이너를 설치하는 방법을 확인하세요.
새로운 기능
-
사용자 지정 음성: 사용자가 한 지역에서 다른 지역으로 음성 모델을 복사할 수 있으며, 엔드포인트 일시 중단 및 다시 시작을 지원합니다. 여기에서 Azure 포털 이동합니다.
-
SSML 묵음 태그를 지원합니다.
- 일반 TTS 음성 품질 향상: nb-NO의 단어 수준 발음 정확도가 향상되었습니다. 발음 오류가 53% 감소했습니다.
이 기술 블로그에서 자세히 알아보세요.
2020년 10월 릴리스
새로운 기능
일반 TTS 음성 품질 향상
-
pl-PL(오류 발생률 51% 감소) 및 fi-FI(오류 발생률 58% 감소)의 단어 수준 발음 정확도를 개선했습니다.
- 사전 시나리오에 대한
ja-JP 단일 단어 읽기 기능이 향상되었습니다. 발음 오류가 80% 감소했습니다.
-
zh-CN-XiaoxiaoNeural: 감정/CustomerService/뉴스/쾌활한/화난 스타일의 음성 품질이 향상되었습니다.
-
zh-CN: Erhua 발음 및 가벼운 톤을 개선하고 공백 운율을 구체화하여 명확성을 크게 향상했습니다.
2020년 9월 릴리스
새로운 기능
Ignite 2020에 대한 TTS 업데이트 전체 공지를 읽어보세요.
2020년 8월 릴리스
새로운 기능
인공신경망 텍스트 음성 변환: en-US Aria 음성의 새로운 말하기 스타일. AriaNeural은 뉴스를 읽을 때 뉴스 캐스터처럼 들릴 수 있습니다. '뉴스캐스트-포멀' 스타일은 더 진지하고, '뉴스캐스트-캐주얼' 스타일은 보다 편안하고 비공식적입니다.
SSML에서 말하기 스타일을 사용하는 방법을 참조하세요.
사용자 지정 음성: 학습 데이터 품질을 자동으로 확인하는 새 기능이 출시되었습니다. 데이터를 업로드하면 시스템에서는 오디오 및 음성 텍스트 데이터의 다양한 측면을 검사하고, 자동으로 문제를 수정하거나 필터링하여 음성 모델의 품질을 향상합니다. 여기에는 오디오 및 스크립트 형식 외에도 오디오 볼륨, 노이즈 수준, 음성의 발음 정확도, 표준화된 텍스트와 음성 맞춤, 오디오의 무음 등이 포함됩니다.
오디오 콘텐츠 만들기: 보다 강력한 음성 튜닝 및 오디오 관리 기능을 제공하는 새 기능 세트입니다.
발음: 발음 튜닝 기능이 최신 음소 세트로 업데이트되었습니다. 라이브러리에서 올바른 음소 요소를 선택하고, 선택한 단어의 발음을 구체화할 수 있습니다.
다운로드: 단락에서 오디오 생성을 지원하도록 오디오 "다운로드"/"내보내기" 기능이 향상되었습니다. 여러 오디오 출력을 생성하는 동안 동일한 파일/SSML에서 콘텐츠를 편집할 수 있습니다. "다운로드"의 파일 구조도 구체화되었습니다. 이제 한 폴더의 모든 오디오 파일을 쉽게 가져올 수 있습니다.
작업 상태: 다중 파일 내보내기 환경이 개선되었습니다. 이전에는 여러 파일을 내보낼 때 파일 중 하나가 실패하면 전체 작업이 실패했습니다. 하지만 이제는 나머지 파일이 성공적으로 내보내집니다. 작업 보고서가 보다 상세하고 체계적인 정보로 보강되었습니다. 이제 실패한 모든 파일과 문장의 로그를 보고서에서 확인할 수 있습니다.
SSML 설명서: 모든 튜닝 기능을 사용하는 방법에 대한 규칙을 확인할 수 있는 SSML 문서에 연결되었습니다.
사용자에게 친숙한 표시 이름과 인공신경망 음성을 지원하는 말하는 스타일을 포함하도록 Voice List API가 업데이트되었습니다.
일반 TTS 음성 품질 향상
ru-RU(오류 56% 감소) 및 sv-SE(오류 49% 감소)의 단어 수준 발음 오류가 감소했습니다.
en-US 인공신경망 음성의 다성음악 단어 읽기가 40% 향상되었습니다. 다성음악 단어의 예로는 "read", "live", "content", "record", "object" 등이 있습니다.
fr-FR의 질문 톤이 더 자연스럽게 향상되었습니다. MOS(Mean Opinion Score) +0.28을 획득했습니다.
다음 음성의 보코더가 업데이트되었습니다. 충실도가 향상되고 전반적인 성능 속도가 40% 빨라졌습니다.
| 로캘 |
음성 |
en-GB |
미아 |
es-MX |
달리아 |
fr-CA |
Sylvie |
fr-FR |
데니스 |
ja-JP |
나나미 주 |
ko-KR |
선희 |
버그 수정
- 오디오 콘텐츠 만들기 도구의 여러 버그 수정
- 자동 새로 고침 문제를 수정했습니다.
- 동남 아시아 지역 zh-CN의 음성 스타일 문제를 수정했습니다.
- '중단' 태그가 있는 내보내기 오류와 구두점 오류를 포함하여 안정성 문제를 수정했습니다.
2026년 2월 릴리스
Microsoft Foundry 새 포털의 음성 텍스트 변환 플레이그라운드는 이제 실시간 음성 텍스트 변환 API를 지원합니다. 코드를 작성하지 않고 브라우저에서 직접 실시간 전사를 테스트할 수 있습니다.
음성 인식 퀵스타트를 시작하세요.
2025년 12월 릴리스
음성 텍스트 변환 5.1.0
- 음성 텍스트 변환 컨테이너를 활용하는 실시간 일지화의 일반 공급.
- 해결된 취약성
2025년 11월 릴리스
LLM Speech API는 현재 공개 미리 보기입니다. 향상된 품질, 심층 컨텍스트 이해, 다국어 지원 및 프롬프트 튜닝 기능을 제공하는 대규모 언어 모델 향상 음성 모델을 사용합니다. 현재 다음 음성 작업을 지원합니다.
-
transcribe: 미리 녹음된 오디오를 텍스트로 변환합니다.
-
translate: 미리 녹음된 오디오를 지정된 대상 언어의 텍스트로 변환합니다.
자세한 내용은 LLM 음성을 참조하세요.
빠른 텍스트 변환은 이제 사용할 수 있습니다. 실제 오디오 기간보다 훨씬 빠르게 오디오를 전사할 수 있습니다. 자세한 내용은 빠른 대화기록 API 가이드를 참조하세요.
오디오 파일에서 다국어 콘텐츠를 지속적으로 정확하게 전사하려면 빠른 전사 API를 통해 로캘 코드를 지정하지 않고 최신 다국어 모델을 사용할 수 있습니다. 자세한 내용은 빠른 대화기록을 통한 다국어 대화 내용 기록을 참조하세요.
이제 Azure Speech Service에서 비디오 번역을 사용할 수 있습니다. 자세한 내용은 비디오 번역이란?
2025년 10월 릴리스
Speech to text REST API 버전 2025-10-15
음성 텍스트 변환 REST API 버전 2025-10-15는 일반 공급용으로 릴리스됩니다. 자세한 내용은 Speech to text REST API 참조 설명서 및 Speech to text REST API 가이드를 참조하세요.
Speech SDK에 대한 구문 목록 가중치 관리
이제 실시간 전사와 함께 Speech SDK를 사용할 때 음성 인식 결과에 대한 구 목록의 영향을 제어할 수 있습니다. 새 구 목록 가중치 기능을 사용하면 0.0(사용 안 함)에서 2.0(최대 영향) 사이의 바이어스 수준을 설정하여 기본 사전을 통해 받는 우선 순위 구 목록 용어의 양을 미세 조정할 수 있습니다. 자세한 내용은 구 목록을 사용하여 인식 정확도 향상을 참조하세요.
2025년 9월 릴리스
음성 텍스트 변환 5.0.3-preview
- 취약성 수정
- 다이어리화를 위한 사용자 정의 Redis 엔드포인트를 지원합니다.
- STT 백 엔드/프런트 엔드 엔진 업데이트
- 버전 4.12에서 이전에 지원되었던 로캘의 적용 범위가 추가되었습니다.
2025년 8월 릴리스
Fast Transcription에서 지원되는 새 로캘
빠른 대화기록은 이제 몇 가지 en- 변형(12가지 로캘), es- 변형(19가지 로캘) 및 ar- 변형(13가지 로캘)을 포함한 추가 로캘을 지원합니다. 자세한 내용은 음성 텍스트 변환 지원 언어를 참조하세요.
2025년 7월 릴리스
향상된 음성 텍스트 변환 모델
영어 모델(en-*을 제외한 모든 en-IN 모델)은 대기 시간을 100ms 이상 줄이는 데 도움이 되는 새로운 VAD(음성 활동 탐지기)를 통합하도록 업데이트되었습니다. 이 기능은 정확도와 무음 구분 모두에서 대기 시간을 줄이려는 목적에 긍정적 및 부정적으로 영향을 줄 수 있습니다. 추가 언어 확장은 향후 몇 개월 내에 제공될 예정입니다.
2025년 6월 릴리스
향상된 발음 평가 모델
ta-IN 및 ms-MY의 발음 평가 모델에 대한 중요한 업그레이드를 출시했습니다. 더 정확하고 신뢰할 수 있는 평가를 의미하는 PCC(Pearson 상관 관계 계수)에서 눈에 띄는 증가를 볼 수 있습니다.
이러한 업데이트된 모델은 이전과 마찬가지로 API 및 Microsoft Foundry 플레이그라운드를 통해 사용할 준비가 된 것입니다.
향상된 음성 텍스트 변환 모델
, de-DE, en-US, en-GB, es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR 및 pt-BR 로캘에 대한 zh-CN에서 음성 텍스트 변환 모델의 정확도는 각각 10%-25% 개선되었으며, 특히 엔터티에 대한 가독성과 인식이 개선되었습니다.
2025년 5월 릴리스
향상된 음성 텍스트 변환 모델
ta-IN, te-IN, en-IN 및 hu-HU 로캘에 대한 음성 텍스트 변환 모델의 정확도가 각각 5~10% 향상되었습니다. 또한 ta-IN 및 te-IN 모델에 대해 고스트 단어가 약 20배 감소한 것으로 추정됩니다.
빠른 전사 API - 다국어 음성 전사
오디오 파일에서 다국어 콘텐츠를 지속적으로 정확하게 전사하려면 이제 빠른 전사 API를 통해 로캘 코드를 지정하지 않고도 최신 다국어 모델을 사용할 수 있습니다. 자세한 내용은 빠른 대화기록을 통한 다국어 대화 내용 기록을 참조하세요.
Fast Transcription에서 지원되는 새 로캘
빠른 변환은 이제 fi-FI, he-IL, id-ID, pl-PL, pt-PT, sv-SE등의 추가 로캘을 지원합니다. 자세한 내용은 음성 텍스트 변환 지원 언어를 참고하시기 바랍니다.
2025년 4월 릴리스
발음 평가
이러한 로캘에 대한 발음 평가 모델에 대한 상당한 개선 사항을 발표하게 되어 기쁩니다. de-DEes-MXit-ITja-JPko-KRpt-BR 이러한 향상된 기능으로 Pearson PCC(상관 관계 계수)가 크게 향상되어 보다 정확하고 신뢰할 수 있는 평가를 보장합니다.
이전과 마찬가지로 모델은 API 및 Microsoft Foundry 플레이그라운드를 통해 사용할 수 있습니다.
2025년 3월 릴리스
대화 기록 다중 채널 분리(사용 중지)
대화 기록 다중 채널 분리 기능은 2025년 3월 28일에 사용 중지됩니다.
음성을 텍스트로 변환할 때 화자 분리 기능을 계속 사용하려면, 대신 다음 기능을 사용하십시오.
이러한 음성 텍스트 변환 기능은 단일 채널 오디오에 대한 다이어리화만 지원합니다. 대화 기록 다중 채널 분할과 함께 사용한 다중 채널 오디오는 지원되지 않습니다.
2025년 1월 릴리스
새 기능 - 의미 체계 구분
새 기능의 릴리스 발표: 의미 체계 세분화. 이 기능은 의미 체계 정보를 기반으로 오디오를 분할하는 디코더 내부의 문장 부호 모듈을 통합하여 보다 논리적이고 정확한 구분 경계를 만듭니다.
주요 이점:
- 향상된 세그먼트 정확도: 의미 체계 정보를 사용하여 이 기능은 입력 오디오에 일시 중지가 없으므로 긴 세그먼트의 인스턴스를 크게 줄입니다.
- 세분화 부족으로 인한 대기 시간 감소: 음성 인식에 대한 전체 대기 시간이 감소하고 세그먼트의 가장 긴 5%의 길이가 40%-60% 감소합니다.
- 과잉 구분 완화: 이 기능은 더 나은 문장을 구성할 수 있을 때 분할을 지연시켜 과분화를 방지하는 데도 도움이 됩니다.
지원되는 지역 설정:
- 영어(en-US, en-GB)
- 중국어(zh-CN, zh-HK)
- 일본어(ja-JP)
- 한국어(ko-KR)
- 독일어(de-DE)
- 프랑스어(fr-FR)
- 이탈리아어(it-IT)
- 스페인어(es-ES, es-MX)
- 힌디어(hi-IN)
- 포르투갈어(pt-BR, pt-PT)
- 터키어(tr-TR)
- 러시아어(ru-RU)
- 태국어 (th-TH)
- 인도네시아어(id-ID)
구현 세부 정보는 "의미 체계 구분" 섹션에서 음성을 인식하는 방법 설명서를 참조하세요.
실시간 음성 텍스트 변환 - 새로운 영어 모델 릴리스
다양한 성능 메트릭에서 상당한 개선을 제공하는 최신 영어 음성 모델(en-US, en-CA)의 릴리스를 발표합니다. 다음은 이 릴리스의 주요 하이라이트입니다.
- 접근성 향상: Microsoft 내부 접근성 테스트 집합에서 WER(Word 오류율)을 36% 감소시켜 음성 인식이 음성 장애가 있는 개인의 음성을 인식할 수 있도록 보다 정확하고 안정적입니다.
- 유령 단어 감소: 유령 단어 개발 세트에서 90%의 놀라운 감소와 함께 다른 유령 단어 데이터 세트에서는 63%에서 100%까지 감소하여 전사의 명확성과 정확도를 크게 향상시킵니다.
새 모델은 엔터티 인식과 철자가 나열된 문자 인식을 포함하여 전반적인 성능을 개선했습니다.
이러한 발전은 모든 사용자에게 보다 정확하고 효율적이며 만족스러운 환경을 제공할 것으로 예상됩니다. 새 모델은 API 및 Microsoft Foundry 플레이그라운드를 통해 사용할 수 있습니다. 피드백을 통해 기능을 더욱 발전시키도록 권장합니다.
2024년 11월 릴리스
Speech to text REST API 버전 2024-11-15
음성 텍스트 변환 REST API 버전 2024-11-15는 일반 공급용으로 릴리스됩니다. 자세한 내용은 Speech to text REST API 참조 설명서 및 Speech to text REST API 가이드를 참조하세요.
참고
음성 텍스트 변환 REST API 버전 2024-05-15-preview는 더 이상 사용되지 않습니다.
빠른 대화기록(GA)
빠른 대화기록은 이제 음성 텍스트 변환 REST API 버전 2024-11-15를 통해 일반적으로 사용할 수 있습니다. 빠른 대화기록을 사용하면 고속 인수를 사용하여 오디오 파일을 텍스트로 정확하고 동기식으로 기록할 수 있습니다. 실제 오디오 기간보다 더 빠르게 오디오를 전사할 수 있습니다. 자세한 내용은 빠른 대화기록 API 가이드를 참조하세요.
2024년 10월 릴리스
실시간 음성 텍스트 변환(이중 언어)
이중 언어 모델을 통해 짧은 스페인어 용어의 인식 품질이 es-US 크게 향상되었습니다. 모델은 이중 언어이며 영어를 지원합니다. 영어 인식의 품질도 향상되었습니다.
비디오 번역(미리 보기)
이제 비디오 번역 API를 공개 미리 보기로 사용할 수 있습니다. 자세한 내용은 비디오 번역을 사용하는 방법을 참조하세요.
2024년 9월 릴리스
실시간 음성 텍스트 변환
실시간 음성을 텍스트로 변환 기술을 제공하는 새로운 모델이 다음 언어에서 더 나은 품질로 출시되었습니다.
fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ
빠른 대화기록(미리 보기)
빠른 대화기록은 이제 모노 채널 오디오 파일에서 여러 스피커를 인식하고 구분하는 분할 기능을 지원합니다. 자세한 내용은 빠른 대화기록 API 가이드를 참조하세요.
2024년 8월 릴리스
언어 학습(미리 보기)
이제 언어 학습이 공개 미리 보기로 제공됩니다. 대화형 언어 학습을 활용하면 보다 몰입도 있게 효과적으로 학습할 수 있습니다. 자세한 내용은 발음 평가를 사용한 대화형 언어 학습을 참조하세요.
발음 평가
이제 음성 발음 평가는 일반 공급 버전에서 33개 언어를 지원하며, 각 언어는 모든 음성 텍스트 변환 지역에서 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.
| Language |
로캘(BCP-47) |
| 아랍어(이집트) |
ar-EG |
| 아랍어(사우디아라비아) |
ar-SA |
| 카탈로니아어 |
ca-ES |
| 중국어(광둥어, 번체) |
zh-HK |
| 중국어(북경어, 간체) |
zh-CN |
| 중국어(대만어 북경어, 번체) |
zh-TW |
| 덴마크어(덴마크) |
da-DK |
| 네덜란드어(네덜란드) |
nl-NL |
| 영어(호주) |
en-AU |
| 영어(캐나다) |
en-CA |
| 영어(인도) |
en-IN |
| 영어(영국) |
en-GB |
| 영어(미국) |
en-US |
| 핀란드어(핀란드) |
fi-FI |
| 프랑스어(캐나다) |
fr-CA |
| 프랑스어(프랑스) |
fr-FR |
| 독일어(독일) |
de-DE |
| 힌디어(인도) |
hi-IN |
| 이탈리아어(이탈리아) |
it-IT |
| 일본어(일본) |
ja-JP |
| 한국어(대한민국) |
ko-KR |
| 말레이어(말레이시아) |
ms-MY |
| 노르웨이어 복말(노르웨이) |
nb-NO |
| 폴란드어(폴란드) |
pl-PL |
| 포르투갈어(브라질) |
pt-BR |
| 포르투갈어(포르투갈) |
pt-PT |
| 러시아어(러시아) |
ru-RU |
| 스페인어(멕시코) |
es-MX |
| 스페인어(스페인) |
es-ES |
| 스웨덴어(스웨덴) |
sv-SE |
| 타밀어(인도) |
ta-IN |
| 태국어(태국) |
th-TH |
| 베트남어(베트남) |
vi-VN |
2024년 7월 릴리스
빠른 대화기록 API(미리 보기)
빠른 대화기록은 이제 공개 미리 보기에서 사용할 수 있습니다. 빠른 대화기록을 사용하면 고속 인수를 사용하여 오디오 파일을 텍스트로 정확하고 동기식으로 기록할 수 있습니다. 실제 오디오 기간보다 더 빠르게 오디오를 전사할 수 있습니다. 자세한 내용은 빠른 대화기록 API 가이드를 참조하세요.
2024년 6월 릴리스
음성 텍스트 변환 REST API v3.2 일반 공급
음성 텍스트 변환 REST API 버전 3.2가 일반 공급됩니다. 음성 텍스트 변환 REST API v3.2에 대한 자세한 내용은 음성 텍스트 변환 REST API v3.2 참조 설명서 및 음성 텍스트 변환 REST API 가이드를 참조하세요.
참고
미리 보기 버전 3.2-preview.1 및 3.2-preview.2는 2024 년 9월부터 사용 중지됩니다.
음성 텍스트 변환 REST API 버전 3.1은 발표되는 날부터 사용 중지됩니다. Speech to text REST API v3.0은 2026년 3월 31일에 사용 중지됩니다. 업그레이드에 대한 자세한 내용은 음성 텍스트 변환 REST API v3.0에서 v3.1 및v3.1에서 v3.2 마이그레이션 가이드를 참조하세요.
2024년 5월 릴리스
비디오 번역(미리 보기)
비디오 번역은 이제 공개 미리 보기에서 사용할 수 있습니다. 비디오 번역은 Foundry 도구의 Azure Speech의 기능으로, 여러 언어로 비디오를 자동으로 원활하게 번역하고 생성할 수 있습니다. 이 기능은 전 세계 다양한 시청자에게 맞게 비디오 콘텐츠를 지역화하는 데 도움을 주기 위해 설계되었습니다. 브이로그, 교육, 뉴스, 기업 교육, 광고, 영화, TV 프로그램 등과 같은 다양한 사용 사례에서 몰입할 수 있는 지역화된 비디오를 효율적으로 만들 수 있습니다. 자세한 내용은 비디오 번역 개요를 참조하세요.
발음 평가
음성 발음 평가는 이제 24개 언어(1개의 새 언어가 추가됨)를 지원하며, 공개 미리 보기에서 7개 언어를 더 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.
2024년 4월 릴리스
자동 다국어 음성 번역(미리 보기)
자동 다국어 음성 번역은 공개 미리 보기에서 사용할 수 있습니다. 이 혁신적인 기능을 통해 언어 장벽을 극복하여 다양한 언어 환경에서 원활한 의사소통을 위한 탁월한 기능을 활용할 수 있습니다.
주요 사항
- 지정되지 않은 입력 언어: 다국어 음성 번역은 다양한 언어의 오디오를 수신할 수 있으며 예상되는 입력 언어가 무엇인지 지정할 필요가 없습니다. 사전 설정 없이도 글로벌 상황을 이해하고 협업할 수 있는 귀중한 기능입니다.
- 언어 전환: 다국어 음성 번역을 통해 동일한 세션 중에 여러 언어를 말하고 모두 동일한 대상 언어로 번역할 수 있습니다. 입력 언어가 변경되거나 기타 작업을 수행할 때 세션을 다시 시작할 필요가 없습니다.
작동 방식
- 여행 인터프리터: 다국어 음성 번역은 외국 여행지를 방문하는 관광객에게 기본 설정 언어로 정보와 지원을 제공함으로써 여행 환경을 향상시킬 수 있습니다. 호텔 컨시어지 서비스, 단계별 투어 및 방문객 센터는 이 기술을 활용하여 다양한 언어적 요구를 충족할 수 있습니다.
- 국가별 컨퍼런스: 다국어 음성 번역은 실시간 번역 캡션을 사용하여 다양한 언어를 구사할 수 있는 다양한 지역의 참가자 간의 의사소통을 지원할 수 있습니다. 참석자는 특정 언어를 지정할 필요 없이 네이티브 언어로 말할 수 있으므로 원활한 이해와 협업이 보장됩니다.
- 교육 모임: 다문화 클래스룸이나 온라인 학습 환경에서 다국어 음성 번역은 학생과 교사 간의 언어 다양성을 지원할 수 있습니다. 각 학생이나 강사의 언어를 지정할 필요 없이 원활한 의사소통과 참여가 가능합니다.
액세스 방법
자세한 소개를 보려면 음성 번역 개요를 참조하세요. 또한 음성을 번역하는 방법에서 코드 샘플을 참조할 수 있습니다. 이 새로운 기능은 1.37.0 이후의 모든 SDK 버전에서 완벽하게 지원됩니다.
GA(분할)를 사용한 실시간 음성 텍스트 변환
이제 분할을 사용한 실시간 음성 텍스트 변환을 일반적으로 사용할 수 있습니다.
분할을 사용하여 대화에 참여하는 여러 화자를 구분하는 음성 텍스트 변환 애플리케이션을 만들 수 있습니다. 실시간 분할에 대한 자세한 내용은 실시간 분할 빠른 시작을 확인합니다.
음성 텍스트 변환 모델 업데이트
실시간 음성 텍스트 변환은 이중 언어 기능을 갖춘 새로운 모델을 릴리스했습니다. 이제 en-IN 모델은 영어와 힌디어 이중 언어 시나리오를 모두 지원하고 개선된 정확도를 제공합니다. 아랍어 로캘(ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA , ar-SA, ar-SY, ar-TN, ar-YE)은 이제 영어에 대한 이중 언어 지원, 향상된 정확도 및 콜 센터 지원을 갖추고 있습니다.
일괄 대화 내용 기록은 es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR 및 zh-CN 언어에 대한 새로운 아키텍처를 갖춘 모델을 제공합니다. 이러한 모델은 가독성과 개체 인식을 크게 향상시킵니다.
2024년 3월 릴리스
위스퍼 GA(일반 공급)
Azure Speech를 사용한 위스퍼 음성 인식 모델이 이제 일반적으로 사용 가능합니다.
Azure Speech와 Azure OpenAI를 Microsoft Foundry 모델에서 언제 사용해야 할지 알아보려면 Whisper 모델이란 무엇인가?를 참조하세요.
2024년 2월 릴리스
발음 평가
구문 목록
다음 로캘에 대한 구문 목록 지원이 추가되었습니다: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.
2023년 11월 릴리스
이중 언어 음성 모델링 소개!
실시간 음성 모델링인 이중 언어 음성 모델링에 획기적인 추가 기능을 공개하게 되어 기쁩니다. 이러한 향상된 기능을 통해 음성 모델은 영어와 스페인어뿐 아니라, 영어와 프랑스어 등 이중 언어 쌍을 원활하게 지원할 수 있습니다. 이 기능을 사용하면 사용자가 실시간 상호 작용 중에 언어 간에 손쉽게 전환할 수 있으므로 커뮤니케이션 환경을 개선하기 위한 노력의 중요한 전환점이 될 것입니다.
주요 사항:
- 이중 언어 지원: 최신 릴리스를 통해 사용자는 실시간 음성 상호 작용 중에 영어와 스페인어 또는 영어와 프랑스어 간에 원활하게 전환할 수 있습니다. 이 기능은 이러한 두 언어 간에 자주 전환하는 이중 언어 화자에 맞게 조정됩니다.
- 향상된 사용자 환경: 회사, 가정 또는 다양한 커뮤니티 설정에서 이중 언어 화자는 이 기능이 매우 유용하다는 것을 알게 됩니다. 영어와 스페인어를 실시간으로 이해하고 응답하는 모델의 기능은 효과적이고 원활한 의사 소통의 새로운 가능성을 열어줍니다.
사용 방법:
Speech Service API를 호출하거나 Speech Studio에서 사용해 볼 때 es-US(스페인어와 영어) 또는 fr-CA(프랑스어와 영어)를 선택합니다. 어떤 언어로든 자유롭게 말하거나 섞어 사용할 수 있습니다. 모델은 동적으로 적응하도록 설계되어 두 언어 모두에서 정확하고 맥락을 인식한 응답을 제공합니다.
이제 최신 기능 릴리스인 원활한 다국어 통신을 손쉽게 사용하여 통신 게임의 수준을 높일 때가 되었습니다!
음성 텍스트 변환 모델 업데이트
음성 모델에 향상된 정확도, 향상된 가독성 및 향상된 엔터티 인식을 약속하는 중요한 업데이트를 도입하게 되어 기쁩니다. 이 업그레이드에는 확장된 학습 데이터 세트로 강화된 강력한 새 구조가 함께 제공되어 전반적인 성능이 현저히 향상되었습니다. 여기에는 en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE 및 he-IL용으로 새로 릴리스된 모델이 포함되어 있습니다.
강조 표시:
- 새 모델 구조의 정확도 향상: 보다 풍부한 학습 데이터 세트와 결합된 다시 정의된 모델 구조는 정확도 수준을 높여 보다 정확한 음성 출력을 약속합니다.
- 가독성 향상: 최신 모델은 가독성을 크게 향상시켜 음성 콘텐츠의 일관성과 명확성을 향상시킵니다.
- 고급 엔터티 인식: 엔터티 인식은 상당한 업그레이드를 받아 보다 정확하고 미묘한 차이가 있는 결과를 가져옵니다.
잠재적 영향: 이러한 발전에도 불구하고 잠재적 영향을 염두에 두는 것이 중요합니다.
- 사용자 지정 무음 제한 시간 기능: 사용자 지정 무음 시간 제한(특히 낮은 설정)을 사용하는 사용자는 한 단어 구가 과도하게 분할되고 누락될 수 있습니다.
- 새 모델은 키워드 접두사 기능과 호환성 문제를 나타낼 수 있으므로 사용자는 특정 애플리케이션에서 성능을 평가하는 것이 좋습니다.
- 언어 비유창성이 줄어듦: 사용자는 음성 출력에서 "음" 또는 "에"와 같은 비유창성 단어나 구가 줄어드는 것을 알 수 있습니다.
- 단어 타임스탬프 기간의 부정확성: 말더듬 단어는 타임스탬프 기간에 부정확성을 표시할 수 있으므로 정확한 타이밍에 따라 애플리케이션에서 주의를 기울여야 합니다.
- 신뢰도 점수 분포 분산: 신뢰도 점수 및 관련 임계값에 의존하는 사용자는 분포에서 잠재적 분산을 알고 있어야 하며 최적의 성능을 위해 조정이 필요합니다.
- 구 목록 기능의 정확도 향상은 특정 구의 잘못된 인식으로 인해 영향을 받을 수 있습니다.
이러한 개선 사항을 탐색하고 원활한 전환을 위한 잠재적인 문제를 고려하는 것이 좋습니다. 언제나처럼 피드백은 서비스를 개선하고 발전시키는 데 중요한 역할을 합니다.
발음 평가
이제 음성 발음 평가는 일반적으로 18개 언어를 지원하며, 공개 미리 보기에서 6개의 언어를 더 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.
2023년 11월 1일부터 발음 평가에서 운율, 문법, 어휘 및 토픽이라는 새로운 기능을 도입하게 되어 기쁩니다. 이러한 향상된 기능은 읽기 및 말하기 평가 모두에 더욱 포괄적인 언어 학습 환경을 제공하는 것이 목표입니다. SDK 버전 1.35.0 이상으로 업그레이드하여 발음 평가를 사용하는 방법 및 Speech Studio에서 발음 평가에 대한 자세한 내용을 알아보세요.
2023년 9월 릴리스
Whisper 공개 미리 보기
이제 Azure Speech는 일괄 처리 전사 API를 통해 OpenAI의 위스퍼 모델을 지원합니다. 자세한 내용은 일괄 처리 대화 내용 기록 만들기 가이드를 확인해 보세요.
참고
Azure OpenAI는 동기 REST API를 사용하여 음성 텍스트 변환을 위한 OpenAI의 위스퍼 모델도 지원합니다. 자세히 알아보려면 빠른 시작을 확인하세요.
Azure Speech와 Azure OpenAI를 사용하는 시기에 대해 자세히 알아보려면 위스퍼 모델이란?을 확인하세요.
음성 텍스트 변환 REST API v3.2 공개 미리 보기
음성 텍스트 변환 REST API v3.2는 미리 보기로 사용 가능합니다.
음성 텍스트 변환 REST API v3.1이 일반적으로 사용 가능합니다. Speech to text REST API v3.0은 2026년 3월 31일에 사용 중지됩니다. 자세한 내용은 음성 텍스트 변환 REST API v3.0에서 v3.1 마이그레이션 가이드와 v3.1에서 v3.2 마이그레이션 가이드를 참조하세요.
2023년 8월 릴리스
새로운 음성 텍스트 변환 로캘:
음성 텍스트 변환은 다음 표에 표시된 것처럼 두 가지 새로운 로캘을 지원합니다. 전체 언어 목록은 여기를 참조하세요.
| 로캘 |
Language |
pa-IN |
펀잡어(인도) |
ur-IN |
우르두어(인도) |
발음 평가
- 음성 발음 평가는 이제 일반적으로 영어(캐나다), 영어(인도) 및 프랑스어(캐나다)에서 사용할 수 있는 3개 추가 언어를 지원하며, 미리 보기에서 3개 추가 언어를 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.
2023년 5월 릴리스
발음 평가
- 음성 발음 평가는 이제 일반적으로 독일어(독일), 일본어(일본), 스페인어(멕시코)에서 사용할 수 있는 3개 추가 언어를 지원하며, 미리 보기에서 4개 추가 언어를 사용할 수 있습니다. 자세한 내용은 발음 평가를 위한 전체 언어 목록을 참조하세요.
- 이제 모든 공용 지역에서 발음 평가를 위해 표준 음성 텍스트 변환 약정 계층을 사용할 수 있습니다. 표준 음성 텍스트 변환에 대한 약정 계층을 구매하는 경우 발음 평가 비용은 약정을 충족하는 데 사용됩니다.
약정 계층 가격 책정을 참조하세요.
2023년 2월 릴리스
발음 평가
- 음성 발음 평가는 현재 영어(영국), 영어(오스트레일리아), 프랑스어(프랑스), 스페인어(스페인), 중국어(북경어, 간체)에서 일반적으로 사용할 수 있는 5개 추가 언어를 지원하며 다른 언어는 미리 보기로 제공됩니다.
- 고유의 애플리케이션에서 스트리밍 모드로 발음 평가를 사용하는 방법을 보여 주는 샘플 코드를 추가했습니다.
사용자 지정 음성
de-AT 로캘에 대해 오디오 + 인간 레이블이 지정된 대화록에 대한 지원이 추가되었습니다.
2023년 1월 릴리스
사용자 지정 음성
추가 로캘(ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE 및 ja-JP)에 대해 오디오 + 인간이 레이블을 지정한 대화 기록에 대한 지원이 추가되었습니다.
구조화된 텍스트 적응에 대한 지원이 로캘 de-AT에 추가되었습니다.
2022년 12월 릴리스
음성 텍스트 변환 REST API
음성 텍스트 변환 REST API 버전 3.1이 일반적으로 사용 가능합니다.
음성 텍스트 변환 REST API 버전 3.0은 사용 중지됩니다. 마이그레이션 방법에 대한 자세한 내용은 가이드를 참조하세요.
2022년 10월 릴리스
새 음성 텍스트 변환 로캘
ml-IN 로캘 관련 말라얄람어(인도)에 대한 지원이 추가되었습니다. 전체 언어 목록은 여기서 확인하세요.
2022년 7월 릴리스
새로운 음성 텍스트 변환 로캘:
다음 표와 같이 7개의 새로운 로캘을 추가했습니다. 전체 언어 목록은 여기서 확인하세요.
| 로캘 |
Language |
bs-BA |
보스니아어(보스니아 헤르체고비나) |
yue-CN |
중국어(광둥어, 간체) |
zh-CN-sichuan |
중국어(중국어 남경어, 간체) |
wuu-CN |
중국어(우, 간체) |
ps-AF |
파슈토(아프가니스탄어) |
so-SO |
소말리아어(소말리아) |
cy-GB |
웨일스어(영국) |
2022년 6월 릴리스
새로운 음성 텍스트 변환 로캘:
다음 표와 같이 10개의 새로운 로캘을 추가했습니다. 전체 언어 목록은 여기서 확인하세요.
| 로캘 |
Language |
sq-AL |
알바니아어(알바니아) |
hy-AM |
아르메니아어(아르메니아) |
az-AZ |
아제르바이잔어(아제르바이잔) |
eu-ES |
바스크어 |
gl-ES |
갈리시아어 |
ka-GE |
조지아어(조지아) |
it-CH |
이탈리아어(스위스) |
kk-KZ |
카자흐어(카자흐스탄) |
mn-MN |
몽골어(몽골) |
ne-NP |
네팔어(네팔) |
2022년 4월 릴리스
새로운 음성 텍스트 변환 로캘:
아래는 새 로캘의 목록입니다. 전체 언어 목록은 여기서 확인하세요.
| 로캘 |
Language |
bn-IN |
벵골어(인도) |
2022년 1월 릴리스
새로운 음성 텍스트 변환 로캘:
아래는 새 로캘의 목록입니다. 전체 언어 목록은 여기서 확인하세요.
| 로캘 |
Language |
af-ZA |
아프리칸스어(남아프리카 공화국) |
am-ET |
암하라어(에티오피아) |
de-CH |
독일어(스위스) |
fr-BE |
프랑스어(벨기에) |
is-IS |
아이슬란드어(아이슬란드) |
jv-ID |
자바어(인도네시아) |
km-KH |
크메르어(캄보디아) |
kn-IN |
칸나다어(인도) |
lo-LA |
라오스어 (라오스) |
mk-MK |
마케도니아어(북마케도니아) |
my-MM |
버마어(미얀마) |
nl-BE |
네덜란드어(벨기에) |
si-LK |
스리랑카어(스리랑카) |
sr-RS |
세르비아어(세르비아) |
sw-TZ |
스와힐리어(탄자니아) |
uk-UA |
우크라이나어(우크라이나) |
uz-UZ |
우즈베크어(우즈베키스탄) |
zu-ZA |
줄루어(남아프리카 공화국) |
2021년 7월 릴리스
새로운 음성 텍스트 변환 로캘:
아래는 새 로캘의 목록입니다. 전체 언어 목록은 여기서 확인하세요.
| 로캘 |
Language |
ar-DZ |
아랍어(알제리아) |
ar-LY |
아랍어(리비아) |
ar-MA |
아랍어(모로코) |
ar-TN |
아랍어(튀니지) |
ar-YE |
아랍어(예멘) |
bg-BG |
불가리아어(불가리아) |
el-GR |
그리스어(그리스) |
et-EE |
에스토니아어(에스토니아) |
fa-IR |
페르시아어(이란) |
ga-IE |
아일랜드어(아일랜드) |
hr-HR |
크로아티아어(크로아티아) |
lt-LT |
리투아니아어(리투아니아) |
lv-LV |
라트비아어(라트비아) |
mt-MT |
몰타어(몰타) |
ro-RO |
루마니아어(루마니아) |
sk-SK |
슬로바키아어(슬로바키아) |
sl-SI |
슬로베니아어(슬로베니아) |
sw-KE |
스와힐리어(케냐) |
2021년 1월 릴리스
새로운 음성 텍스트 변환 로캘:
아래는 새 로캘의 목록입니다. 전체 언어 목록은 여기서 확인하세요.
| 로캘 |
Language |
ar-AE |
아랍어(아랍에미리트) |
ar-IL |
아랍어(이스라엘) |
ar-IQ |
아랍어(이라크) |
ar-OM |
아랍어(오만) |
ar-PS |
아랍어(팔레스타인 자치 정부) |
de-AT |
독일어(오스트리아) |
en-GH |
영어(가나) |
en-KE |
영어 (케냐) |
en-NG |
영어(나이지리아) |
en-TZ |
영어(탄자니아) |
es-GQ |
스페인어(적도 기니) |
fil-PH |
필리핀어(필리핀) |
fr-CH |
프랑스어(스위스) |
he-IL |
히브리어(이스라엘) |
id-ID |
인도네시아어(인도네시아) |
ms-MY |
말레이어(말레이시아) |
vi-VN |
베트남어(베트남) |
2020년 8월 릴리스
새로운 음성 텍스트 변환 로캘:
8월에 새로운 음성 텍스트 변환 로캘 26개가 출시되었습니다. 2개는 유럽 언어 cs-CZ 및 hu-HU, 5개는 영어 로캘, 19개는 대부분의 남아메리카 국가/지역을 포함하는 스페인어 로캘입니다. 아래는 새 로캘의 목록입니다. 전체 언어 목록은 여기서 확인하세요.
| 로캘 |
Language |
cs-CZ |
체코어(체코 공화국) |
en-HK |
영어(홍콩 특별행정구) |
en-IE |
영어(아일랜드) |
en-PH |
영어(필리핀) |
en-SG |
영어(싱가포르) |
en-ZA |
영어(남아프리카 공화국) |
es-AR |
스페인어(아르헨티나) |
es-BO |
스페인어(볼리비아) |
es-CL |
스페인어(칠레) |
es-CO |
스페인어(콜롬비아) |
es-CR |
스페인어(코스타리카) |
es-CU |
스페인어(쿠바) |
es-DO |
스페인어(도미니카 공화국) |
es-EC |
스페인어(에콰도르) |
es-GT |
스페인어(과테말라) |
es-HN |
스페인어(온두라스) |
es-NI |
스페인어(니카라과) |
es-PA |
스페인어(파나마) |
es-PE |
스페인어(페루) |
es-PR |
스페인어(푸에르토리코) |
es-PY |
스페인어(파라과이) |
es-SV |
스페인어(엘살바도르) |
es-US |
스페인어(미국) |
es-UY |
스페인어(우루과이) |
es-VE |
스페인어(베네수엘라) |
hu-HU |
헝가리어(헝가리) |
2026년 2월 릴리스
Foundry Agent Service와의 음성 에이전트 통합은 Python, Java, C# 및 JavaScript에 대한 SDK 지원을 통해 미리 보기로 제공됩니다. 새로운 빠른 시작 및 방법 지침을 사용하여 실시간 음성 에이전트를 빌드합니다. 자세한 내용은 Voice Live 및 Foundry 에이전트 서비스 시작 및음성 에이전트 빌드 방법을 참조하세요.
새로운 방법 가이드를 사용할 수 있습니다.
2026년 1월 릴리스
Voice Live API 참조 2026-01-01-preview 는 미리 보기로 제공되며, 음성 라이브 세션에 대한 업데이트된 이벤트 및 구성 범위가 제공됩니다. 자세한 내용은 Voice Live API 참조 2026-01-01-preview를 참조하세요.
2025년 11월
음성 라이브 API는 일반적으로 사용할 수 있습니다. 음성 인식, 생성 AI 및 텍스트 음성 변환을 지능형 음성 에이전트를 빌드하기 위한 짧은 대기 시간 인터페이스로 결합하는 올인원 솔루션인 Voice Live API를 사용하여 대화를 원활한 환경으로 변환합니다. 자세한 내용은 Voice Live를 참조하세요.
2025년 6월 릴리스
인공신경망 텍스트 음성 변환 3.11.0
뉴럴 텍스트 음성 변환 버전 3.11.0을 릴리스했습니다.
- 새 신경망 음성에 대한 지원 추가:
de-DE-SeraphinaMultilingualNeural, es-ES-XimenaMultilingualNeural, fi-FI-SelmaNeuralnb-NO-FinnNeural.
- 다국어 사용자 지정 어휘에 대한 지원이 추가되었습니다.
2025년 5월 릴리스
최신 모델 버전에 대한 지원 추가:
텍스트 음성 변환의 경우:
- 텍스트를 음성 백 엔드로 업데이트하고 프런트 엔드 엔진을 최신 버전으로 업데이트했습니다.
- 다국어 사용자 지정 어휘에 대한 지원이 추가되었습니다.
- 상태 검사 기능이 향상되었습니다. 이제 상태 검사 엔드포인트는
/synthesize/health입니다. 서비스가 정상이면 이 엔드포인트는 HTTP 상태 200을 반환합니다. 서비스가 비정상이면 HTTP 상태 503을 반환합니다.
- 2025년 3월/4월 Microsoft ASP.NET Core 보안 업데이트의 보안 취약성을 해결하기 위해 기본 이미지를 AspNet 8.0.16으로 업데이트했습니다.
2025년 3월 릴리스
최신 모델 버전에 대한 지원 추가:
- 인공신경망 텍스트 음성 변환 3.9.0
- 음성 텍스트 변환 5.0.1(미리 보기)
- 사용자 지정 음성 텍스트 변환 5.0.1(미리 보기)
음성 텍스트 변환 및 사용자 지정 음성 텍스트 변환의 경우 다음 기능이 포함됩니다.
- 새 음성 텍스트 변환 모델 지원
- Azure Linux 3.0으로 운영 체제 변경
- 새 로캘 지원: ar-dz, as-in, es-gq or-in, pa-in 및 ur-in
- 디코더 업데이트
- 컨테이너에서 최신 사용자 지정 모델(2023 이상)을 사용하는 기능
텍스트 음성 변환의 경우 새 신경망 음성에 대한 지원을 추가했습니다. en-GB-OliviaNeuralen-US-ChristopherNeuralnl-NL-FennaNeural
2025년 2월 릴리스
최신 모델 버전에 대한 지원 추가:
- 음성 언어 식별 1.18.0
- 인공신경망 텍스트 음성 변환 3.7.0
- 음성 텍스트 변환 4.12.0
- 사용자 지정 음성 텍스트 변환 4.12.0
릴리스의 주요 내용은 다음과 같습니다.
| 기능 업데이트 |
음성 텍스트 변환 |
사용자 지정 음성 텍스트 변환 |
인공신경망 텍스트 음성 변환 |
음성 언어 식별 |
| 취약성 수정 |
✅ |
✅ |
✅ |
✅ |
| Ubuntu 20.04에서 Ubuntu 22.04로 OS 마이그레이션 |
✅ |
✅ |
✅ |
✅ |
| 새 로캘: ar-ly, fr-be, nl-be 및 uz-uz |
✅ |
✅ |
|
|
| 업데이트된 nuget 패키지, Go 버전 |
✅ |
✅ |
|
|
| 모델 다운로드 시간을 줄이기 위해 모델 다운로드 병렬 처리 추가 |
✅ |
✅ |
✅ |
|
2024년 10월 릴리스
최신 모델 버전에 대한 지원 추가:
- 음성 언어 식별 1.16.0
- 신경망 텍스트 음성 변환 3.5.0
-
en-us-ariacpuneural을(를) en-us-jessacpuneural의 별칭으로 만들기
- 텍스트를 음성 백 엔드 엔진 버전으로 업데이트
- 음성 텍스트 변환 4.10.0
- 로캘 지원 복원
uk-UA
- 오디오에서 오랜 기간 침묵으로 작동하도록 무음 설정 수정
- 사용되지 않는 모델 바꾸기:
cs-CZ,da-DK, en-GB, fr-CAhu-HU, it-CH, tr-TRzh-CN-sichuan
- 텍스트로 사용자 지정 음성 변환 4.10.0
2024년 9월 릴리스
최신 모델 버전에 대한 지원 추가:
- 음성 언어 식별 1.15.0
- 인공신경망 텍스트 음성 변환 3.4.0
- 새 음성:
en-us-andrewmultilingualneural, en-us-jessaneural, es-us-alonsoneural, es-us-palomaneural, it-it-isabellamultilingualneural
- 취약성 완화
- 음성 텍스트 변환 4.9.0
- 새 로케일:
ar-YE, af-ZA, am-ET, ar-MA, ar-TN, sw-KE, sw-TZ, zu-ZA
- 취약성 완화
- 사용되지 않는 모델 업데이트
- 사용자 지정 음성 텍스트 변환 4.9.0
2024-8월 출시
최신 모델 버전에 대한 지원 추가:
- 음성 언어 식별 1.14.0
- 인공신경망 텍스트 음성 변환 3.3.0
- 음성 텍스트 변환 4.8.0
- .NET 8.0 업그레이드
- 취약성 완화
- 인식 엔진 업그레이드
-
PropertyId.Speech_SegmentationSilenceTimeoutMs가 무시되는 문제를 해결합니다.
- 사용되지 않는 모델 업데이트
-
uk-UA 로캘 제거
2024년 2월 릴리스
최신 모델 버전에 대한 지원 추가:
- 사용자 지정 음성 텍스트 변환 4.6.0
- 음성 텍스트 변환 4.6.0
- 인공신경망 텍스트 음성 변환 3.1.0
음성 텍스트 변환 구성 요소를 최신 버전으로 업그레이드합니다.
모든 es 로캘 모델을 최신 모델로 업그레이드합니다.
음성 텍스트 변환 사용 사례에 대한 미디어 변환 버퍼를 늘립니다.
2023년 11월 릴리스
최신 모델 버전에 대한 지원 추가:
- 사용자 지정 음성 텍스트 변환 4.5.0
- 음성 텍스트 변환 4.5.0
- 인공신경망 텍스트 음성 변환 2.19.0
2023년 10월 릴리스
최신 모델 버전에 대한 지원 추가:
- 사용자 지정 음성 텍스트 변환 4.4.0
- 음성 텍스트 변환 4.4.0
- 인공신경망 텍스트 음성 변환 2.18.0
여러 가지 고위험 취약성 문제를 해결합니다.
컨테이너에서 중복 로그를 제거합니다.
내부 미디어 구성 요소를 최신으로 업그레이드합니다.
음성 en-IN-NeerjaNeural에 대한 지원을 추가합니다.
2023-9월 릴리스
최신 모델 버전에 대한 지원 추가:
- 음성 언어 식별 1.12.0
- 사용자 지정 음성 텍스트 변환 4.3.0
- 음성 텍스트 변환 4.3.0
- 인공신경망 텍스트 음성 변환 2.17.0
사용자 지정 음성 텍스트 변환 및 음성 텍스트 변환을 최신 프레임워크로 업그레이드합니다.
취약성 문제를 수정했습니다.
음성 ar-AE-FatimaNeural에 대한 지원을 추가합니다.
2023년 7월 릴리스
최신 모델 버전에 대한 지원 추가:
- 사용자 지정 음성 텍스트 변환 4.1.0
- 음성 텍스트 변환 4.1.0
- 신경망 텍스트 음성 변환 2.15.0
로컬 사용자 지정 모델 파일과 함께 docker 탑재 옵션을 통해 음성 텍스트 변환 컨테이너를 실행하는 문제를 수정합니다.
경우에 따라 RECOGNIZING 이벤트가 음성 SDK를 통해 응답으로 표시되지 않는 문제를 해결합니다.
취약성 문제를 수정했습니다.
2023년 6월 릴리스
최신 모델 버전에 대한 지원 추가:
- 사용자 지정 음성 텍스트 변환 4.0.0
- 음성 텍스트 변환 4.0.0
- 신경망 텍스트 음성 변환 2.14.0
텍스트 이미지에 대한 온-프레미스 음성 변환이 .NET 6.0으로 업그레이드됨
en-us, ar-eg, ar-bh, ja-jp, ko-kr 등을 포함한 로캘에 대한 표시 모델을 업그레이드합니다.
취약성 문제를 해결하려면 음성 텍스트 변환 컨테이너 구성 요소를 업그레이드합니다.
로캘 음성 de-DE-AmalaNeural,de-AT-IngridNeural,de-AT-JonasNeural 및 en-US-JennyMultilingualNeural에 대한 지원 추가
2023년 5월 릴리스
최신 모델 버전에 대한 지원 추가:
- 사용자 지정 음성 텍스트 변환 3.14.0
- 음성 텍스트 변환 3.14.0
- 신경망 텍스트 음성 변환 2.13.0
he-IL 문장 부호 문제 수정
취약성 문제 수정
새 로캘 음성 추가 en-US-MichelleNeural및 es-MX-CandelaNeural
2023년 4월 릴리스
보안 업데이트
취약성 문제 수정
2023년 3월 릴리스
최신 모델 버전에 대한 지원 추가:
- 사용자 지정 음성 텍스트 변환 3.12.0
- 음성 텍스트 변환 3.12.0
- 음성 언어 식별 1.11.0
- 인공신경망 텍스트 음성 변환 2.11.0
취약성 문제 수정
tr-TR의 대문자화 문제 수정
en-US 표시 모델의 음성을 텍스트로 변환 기능을 업그레이드하세요.
표준 음성에 ar-AE-HamdanNeural 대한 지원을 추가합니다.
2023년 2월 릴리스
새 컨테이너 버전
최신 모델 버전에 대한 지원을 추가합니다.
- 사용자 지정 음성 텍스트 변환 3.11.0
- 음성 텍스트 변환 3.11.0
- 인공신경망 텍스트 음성 변환 2.10.0
취약성 문제 수정
음성 모델에 대한 정기 업그레이드
새 아랍어 로캘 추가:
히브리어 및 터키어 디스플레이 모델 업그레이드
2023년 1월 릴리스
새 컨테이너 버전
최신 모델 버전에 대한 지원을 추가합니다.
- 사용자 지정 음성 텍스트 변환 3.10.0
- 음성 텍스트 변환 3.10.0
- 신경망 텍스트 음성 변환 2.9.0
가설 모드 문제 수정
HTTP 프록시 문제 수정
사용자 지정 음성 텍스트 변환 컨테이너 연결 끊김 모드
TTS 프런트 엔드에 CNV 연결 끊김 컨테이너 지원 추가
다음 로캘 음성에 대한 지원을 추가합니다.
- da-DK-ChristelNeural
- da-DK-JeppeNeural
- en-IN-PrabhatNeural
2022년 12월 릴리스
새 컨테이너 버전
최신 모델 버전에 대한 지원을 추가합니다.
- 사용자 지정 음성 텍스트 변환 3.9.0
- 음성 텍스트 변환 3.9.0
- 신경망 기반 텍스트 음성 변환 2.8.0
ipv4/ipv6 문제 수정
취약성 문제 수정
2022년 11월 릴리스
새 컨테이너 버전
최신 모델 버전에 대한 지원을 추가합니다.
- 사용자 지정 음성 텍스트 변환 3.8.0
- 음성 텍스트 변환 3.8.0
- 뉴럴 텍스트 음성 변환 2.7.0
2022년 10월 릴리스
새 컨테이너 버전
최신 모델 버전에 대한 지원을 추가합니다.
- 사용자 지정 음성 텍스트 변환 3.7.0
- 음성 텍스트 변환 3.7.0
- 신경망 기반 텍스트 음성 변환 2.6.0
2022년 9월 릴리스
음성 텍스트 변환 3.6.0-amd64
최신 모델 버전에 대한 지원을 추가합니다.
다음 로캘에 대한 지원을 추가합니다.
- az-az
- bn-in
- bs-ba
- cy-gb
- eu-es
- fa-ir
- 글-이스
- he-il
- 하이암
- it-ch
- ka-ge
- kk-kz
- mk-mk
- mn-mn
- ne-np
- ps-af
- so-so
- sq-al
- wuu-cn
- yue-cn
- zh-cn-사천
정기적인 월별 업데이트입니다(보안 업그레이드 및 취약성 수정 포함).
사용자 지정 음성 텍스트 변환 3.6.0-amd64
정기적인 월별 업데이트입니다(보안 업그레이드 및 취약성 수정 포함).
인공신경망 텍스트 음성 변환 v2.5.0
다음 표준 음성에 대한 지원을 추가합니다.
az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural
정기적인 월별 업데이트입니다(보안 업그레이드 및 취약성 수정 포함).
2022년 5월 릴리스
음성-언어-감지 컨테이너 v1.9.0-amd64-preview
speech-language-detection에 대한 버그 수정.
2022년 3월 릴리스
사용자 지정 음성 텍스트 변환 컨테이너 v3.1.0
디스플레이 모델 가져오기 지원을 추가합니다.
2022년 1월 릴리스
음성 텍스트 변환 컨테이너 v3.0.0
연결이 끊긴 환경에서 컨테이너 사용에 대한 지원을 추가합니다.
음성 텍스트 변환 컨테이너 v2.18.0
정기적인 월별 업데이트입니다(보안 업그레이드 및 취약성 수정 포함).
신경망 기반 텍스트 음성 변환 컨테이너 v1.12.0
다음 표준 음성에 대한 지원을 추가합니다. am-et-amehaneuralam-et-mekdesneuralso-so-muuseneuralso-so-ubaxneural
정기적인 월별 업데이트입니다(보안 업그레이드 및 취약성 수정 포함).