다음을 통해 공유


Azure AI 음성의 새로운 기능은 무엇인가요?

Azure AI 음성은 지속적으로 업데이트됩니다. 최신 개발 정보를 항상 파악할 수 있게 이 문서에서는 새 릴리스 및 기능 관련 정보를 제공합니다.

최근 강조 표시

  • 이제 빠른 전사를 일반적으로 사용할 수 있습니다. 실제 오디오 기간보다 훨씬 빠르게 오디오를 전사할 수 있습니다. 자세한 내용은 빠른 대화기록 API 가이드를 참조하세요.
  • 이제 Visual Studio Code 사용자가 Azure AI Speech Toolkit 확장을 사용할 수 있습니다. 간단한 클릭으로 쉽게 빌드하고 실행할 수 있는 음성 빠른 시작 및 시나리오 샘플 목록이 포함되어 있습니다. 자세한 내용은 Visual Studio Code Marketplace의 Azure AI Speech Toolkit을 참조 하세요.
  • Azure AI 음성 HD(고화질) 음성은 공개 미리 보기에서 사용할 수 있습니다. HD 음성은 콘텐츠를 이해하고, 입력 텍스트에서 감정을 자동으로 감지하고, 감정에 맞게 실시간으로 말하기 톤을 조정할 수 있습니다. 자세한 내용은 Azure AI Speech HD(고화질) 음성이란?을 참조하세요.
  • 이제 Azure AI 음성 서비스에서 비디오 번역을 사용할 수 있습니다. 자세한 내용은 비디오 번역이란 무엇인가요?를 참조하세요.
  • Azure AI Speech Service는 OpenAI 텍스트 음성 변환 음성을 지원합니다. 자세한 내용은 OpenAI 텍스트 음성 변환 음성이란?을 참조하세요.
  • 사용자 지정 음성 API는 전문적이고 개인적인 사용자 지정 인공신경망 음성 모델을 만들고 관리하는 데 사용할 수 있습니다.

릴리스 정보

서비스 또는 리소스 선택

2024년 11월 릴리스

이제 Visual Studio Code 사용자가 Azure AI Speech Toolkit 확장을 사용할 수 있습니다. 간단한 클릭으로 쉽게 빌드하고 실행할 수 있는 음성 빠른 시작 및 시나리오 샘플 목록이 포함되어 있습니다. 자세한 내용은 Visual Studio Code Marketplace의 Azure AI Speech Toolkit을 참조 하세요.

Speech SDK 1.41.1: 2024-10월 릴리스

새로운 기능

  • Amazon Linux 2023 및 Azure Linux 3.0에 대한 지원이 추가되었습니다.
  • 프록시가 사용되지 않는 호스트를 지정하는 공용 속성 ID SpeechServiceConnection_ProxyHostBypass 추가되었습니다.
  • 새 구 세분화 전략을 제어하는 속성이 추가되었습니다.

버그 수정

호환성이 손상되는 변경

  • 이 플랫폼에 사용할 수 없는 필수 ONNX 런타임으로 인해 Windows ARM 32비트에서 키워드 인식 지원이 제거되었습니다.

Speech SDK 1.40: 2024년 8월 릴리스

참고 항목

Speech SDK 버전 1.39.0은 내부적으로 릴리스되었고, 누락되지 않았습니다.

새로운 기능

  • 음성 인식에서 G.722 압축 오디오 스트리밍에 대한 지원이 추가되었습니다.
  • 음성 합성에서 입력 텍스트 스트리밍의 피치, 속도, 볼륨 설정에 대한 지원이 추가되었습니다.
  • 음성 합성에 PersonalVoiceSynthesisRequest를 도입하여 개인 음성 입력 텍스트 스트리밍에 대한 지원이 추가되었습니다. 이 API는 미리 보기 상태이며, 이후 버전에서 변경될 수 있습니다.
  • ConversationTranscriber를 사용할 때 중간 결과의 다이어리화에 대한 지원이 추가되었습니다.
  • CentOS 7 EOLRHEL 7 유지 관리 지원 2의 종료로 인해 CentOS/RHEL 7 지원이 제거되었습니다.
  • 포함된 음성 모델을 사용하려면 이제 모델 키 대신 모델 라이선스가 필요합니다. 사용자가 기존의 포함된 음성 고객이고 업그레이드하려는 경우 Microsoft의 지원 담당자에게 모델 업데이트에 대한 자세한 내용을 문의하세요.

버그 수정

샘플

  • 포함된 음성 샘플이 키 대신 모델 라이선스를 사용하도록 업데이트되었습니다.

Speech SDK 1.38.0: 2024년 6월 릴리스

새로운 기능

  • Speech SDK Linux 플랫폼 업그레이드 요구 사항:
    • 새 최소 기준은 Ubuntu 20.04 LTS이거나 glibc 2.31 이상과 호환됩니다.
    • Linux x86용 이진 파일은 Ubuntu 20.04 플랫폼 지원에 따라 제거됩니다.
    • RHEL/CentOS 7은 6월 30일까지 계속 지원됩니다(CentOS 7 종료 및 RHEL 7 유지 관리 지원 2 종료). 이진 파일은 Speech SDK 1.39.0 릴리스에서 제거될 예정입니다.
  • Linux에서 OpenSSL 3에 대한 지원을 추가합니다.
  • 음성 신시사이저를 사용하여 g722-16khz-64kbps 오디오 출력 형식에 대한 지원을 추가합니다.
  • 음성 신시사이저를 사용하여 연결 개체를 통해 메시지를 보내는 지원을 추가합니다.
  • Objective-C 및 Swift에서 Start/StopKeywordRecognition API를 추가합니다.
  • 사용자 지정 변환 모델 범주를 선택하기 위한 API를 추가합니다.
  • 음성 신시사이저를 사용하여 GStreamer 사용을 업데이트합니다.

버그 수정

  • Start/StopKeywordRecognition 중에 "Websocket 메시지 크기가 65,536바이트를 초과할 수 없음" 오류를 수정합니다.
  • 음성 합성 중에 Python 구분 오류를 수정합니다.

샘플

  • 기본적으로 .NET 6.0을 사용하도록 C# 샘플을 업데이트합니다.

Speech SDK 1.37.0: 2024년 4월 릴리스

새로운 기능

  • 음성 합성에서 입력 텍스트 스트리밍에 대한 지원을 추가합니다.
  • 기본 음성 합성 음성을 en-US-AvaMultilingualNeural로 변경합니다.
  • OpenSSL 3.x를 사용하도록 Android 빌드를 업데이트합니다.

버그 수정

샘플

  • 새로운 기능을 위해 업데이트되었습니다.

Speech SDK 1.36.0: 2024-3월 릴리스

새로운 기능

  • AutoDetectSourceLanguageConfig::FromOpenRange()를 사용하여 v2 엔드포인트에서 다국어 번역에서 언어 식별에 대한 지원을 추가합니다.

버그 수정

  • SynthesisStarted 이벤트 중에 중지가 호출되면 SynthesisCanceled 이벤트가 발생하지 않는 문제를 해결합니다.

  • 포함된 음성 합성에서 노이즈 문제를 해결합니다.

  • 여러 인식기를 병렬로 실행할 때 포함된 음성 인식의 충돌을 수정합니다.

  • v1/v2 엔드포인트에서 구 검색 모드 설정을 수정합니다.

  • Microsoft Audio Stack의 다양한 문제를 해결합니다.

샘플

  • 새 기능에 대한 업데이트입니다.

Speech SDK 1.35.0: 2024년 2월 릴리스

새로운 기능

  • 기본 텍스트 음성 변환을 en-US-JennyMultilingualNeural에서 en-US-AvaNeural 목소리로 변경합니다.
  • 자세한 출력 형식을 사용하여 포함된 음성 번역 결과에서 단어 수준의 세부 정보를 지원합니다.

버그 수정

  • Python에서 AudioDataStream position getter API가 수정되었습니다.
  • 언어 감지 없이 v2 엔드포인트를 사용하여 음성 번역이 수정되었습니다.
  • 포함된 텍스트 음성 변환에서 임의 크래시 및 중복 단어 경계 이벤트를 수정합니다.
  • WebSocket 연결의 내부 서버 오류에 대한 올바른 취소 오류 코드를 반환합니다.
  • MAS가 C#과 함께 사용될 때 FPIEProcessor.dll 라이브러리를 로드하지 못하는 문제가 수정되었습니다.

샘플

  • 포함된 인식 샘플 서식이 사소하게 업데이트되었습니다.

Speech SDK 1.34.1: 2024년 1월 릴리스

호환성이 손상되는 변경

  • 버그 수정만

새로운 기능

  • 버그 수정만

버그 수정

  • 1.34.0에 도입된 회귀 문제(몇몇 중국 지역의 사용자에 대해 잘못된 로캘 정보로 서비스 엔드포인트 URL이 생성됨)가 수정되었습니다.

Speech SDK 1.34.0: 2023년 11월 릴리스

호환성이 손상되는 변경

  • SpeechRecognizer가 대부분의 속성에 대해 쿼리 문자열 매개 변수를 더 이상 지원하지 않는 새 엔드포인트(즉, URL을 명시적으로 지정하지 않은 경우)를 사용하도록 업데이트되었습니다. ServicePropertyChannel.UriQueryParameter를 사용하여 쿼리 문자열 매개 변수를 직접 설정하는 대신 해당 API 함수를 사용하세요.

새로운 기능

  • .NET 8과의 호환성(centos7-x64에 대한 경고를 제외하고 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 수정)
  • 포함된 음성을 실행하는 디바이스의 기능을 평가하는 데 사용할 수 있는 포함된 음성 성능 메트릭을 지원합니다.
  • 포함된 다국어 번역에서 원본 언어 식별을 지원합니다.
  • 미리 보기로 릴리스된 iOS 및 Swift/Objective-C에 대한 포함된 음성 텍스트 변환, 텍스트 음성 변환 및 번역을 지원합니다.
  • 포함된 지원은 MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod에서 제공됩니다.

버그 수정

  • iOS SDK x2배 이진 크기 증가 수정 · 문제 #2113 · Azure-Samples/cognitive-services-speech-sdk(github.com)
  • Azure 음성 텍스트 변환 API에서 단어 수준 타임스탬프를 가져올 수 없는 문제 수정 · 문제 #2156 · Azure-Samples/cognitive-services-speech-sdk(github.com)
  • 이벤트를 올바르게 분리하도록 DialogServiceConnector 소멸 단계가 수정되었습니다. 이로 인해 때때로 크래시가 발생했었습니다.
  • MAS 사용 시 인식기를 만드는 동안 발생하는 예외가 수정되었습니다.
  • Windows UWP x64 및 Arm64용 Microsoft.CognitiveServices.Speech.Extension.MAS NuGet 패키지의 FPIEProcessor.dll에 네이티브 C++용 VC 런타임 라이브러리에 대한 종속성이 있었습니다. VC 런타임 라이브러리(UWP용)를 수정하도록 종속성을 업데이트하여 이 문제가 수정되었습니다.
  • MAS 사용 시 recognizeOnceAsync에 대해 [MAS] 되풀이 호출을 하면 SPXERR_ALREADY_INITIALIZED가 발생하는 문제 수정 · 문제 #2124 · Azure-Samples/cognitive-services-speech-sdk(github.com)
  • 구 목록 사용 시 포함된 음성 인식 크래시 수정.

샘플

  • 음성 텍스트 변환, 텍스트 음성 변환 및 번역을 위한 포함된 iOS 샘플.

Speech CLI 1.34.0: 2023년 11월 릴리스

새로운 기능

  • 음성을 합성할 때 단어 경계 이벤트 출력을 지원합니다.

버그 수정

  • JMESPath 종속성이 최신 릴리스로 업데이트되었으며, 문자열 평가가 개선되었습니다.

Speech SDK 1.33.0: 2023년 10월 릴리스

호환성이 손상되는 변경 알림

  • 이제 MAS(Microsoft Audio Stack)용으로 추가된 새 NuGet 패키지가 패키지 구성 파일에서 MAS를 사용하는 애플리케이션에 포함되어야 합니다.

새로운 기능

  • Microsoft Audio Stack을 사용할 때 향상된 반향 제거 성능을 제공하는 새 NuGet 패키지 Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg가 추가되었습니다.
  • 발음 평가: 운율, 어휘, 문법 및 토픽 측면에서 음성을 평가할 수 있는 운율 및 콘텐츠 평가에 대한 지원이 추가되었습니다.

버그 수정

샘플

Speech CLI 1.33.0: 2023년 10월 릴리스

새로운 기능

  • 음성을 합성할 때 단어 경계 이벤트 출력을 지원합니다.

버그 수정

  • 없음

Speech SDK 1.32.1: 2023년 9월 릴리스

버그 수정

  • OpenSSL1.1.1v의 최신 보안 수정 사항으로 Android 패키지 업데이트
  • JS – 시간 제한 작업자에 대한 데이터 URL 로드 무시를 허용하기 위해 WebWorkerLoadType 속성이 추가되었습니다.
  • JS – 10분 후 대화 번역 연결 끊김 수정
  • JS – 이제 Conversation의 대화 번역 인증 토큰이 번역 서비스 연결로 전파됩니다.

샘플

Speech SDK 1.31.0: 2023년 8월 릴리스

새로운 기능

  • 실시간 분할 지원은 Speech SDK 1.31.0의 공개 미리 보기에서 사용할 수 있습니다. 이 기능은 C#, C++, Java, JavaScript, Python 및 Objective-C/Swift SDK에서 사용할 수 있습니다.

  • 오디오 재생과 동기화된 음성 합성 단어 경계 및 viseme 이벤트

호환성이 손상되는 변경

  • 이전의 "대화 기록" 시나리오는 "모임 대화 내용 기록"으로 이름이 변경되었습니다. 예를 들어, ConversationTranscriber 대신 MeetingTranscriber를 사용하고, CreateConversationAsync 대신 CreateMeetingAsync를 사용합니다. SDK 개체 및 메서드의 이름이 변경되었더라도 기능 자체는 변경되지 않았습니다. 사용자 프로필 및 음성 서명이 포함된 모임 대화 내용을 기록하려면 모임 대화 내용 기록 개체를 사용합니다. 자세한 내용은 모임 대화 내용 기록을 참조하세요. "대화 번역" 개체 및 메서드는 이러한 변경 내용의 영향을 받지 않습니다. 번역 시나리오를 충족하기 위해 ConversationTranslator 개체와 해당 메서드를 계속 사용할 수 있습니다.
  • 실시간 분할을 위해 새로운 ConversationTranscriber 개체가 도입되었습니다. 새로운 "대화 기록" 개체 모델 및 통화 패턴은 SpeechRecognizer 개체를 사용한 연속 인식과 유사합니다. 주요 차이점은 ConversationTranscriber 개체가 여러 화자를 구별(분할)하려는 대화 시나리오에서 사용되도록 설계되었다는 것입니다. 사용자 프로필 및 음성 서명은 적용되지 않습니다. 자세한 내용은 실시간 분할 빠른 시작을 참조하세요.

이 표에는 실시간 분할 및 모임 대화 내용 기록을 위한 이전 및 새 개체 이름이 표시됩니다. 시나리오 이름은 첫 번째 열에 있고, 이전 개체 이름은 두 번째 열에 있으며, 새 개체 이름은 세 번째 열에 있습니다.
시나리오 이름 이전 개체 이름 새 개체 이름
실시간 분할 해당 없음 ConversationTranscriber
모임 대화 내용 기록 ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1Participant, ParticipantChangedReasonUser 개체는 모임 대화 내용 기록 및 모임 번역 시나리오 모두에 적용 가능합니다.

2Meeting 개체는 새로운 개체이며 MeetingTranscriber 개체와 함께 사용됩니다.

버그 수정

샘플

Speech SDK 1.30.0: 2023년 7월 릴리스

새로운 기능

  • C++, C#, Java - 포함된 음성 인식의 세부 결과에 DisplayWords에 대한 지원이 추가되었습니다.
  • Objective-C/Swift - Objective-C/Swift에 ConnectionMessageReceived 이벤트에 대한 지원이 추가되었습니다.
  • Objective-C/Swift - iOS용 키워드 발견 모델이 개선되었습니다. 이 변경으로 인해 iOS 이진 파일(예: NuGet, XCFramework)이 포함된 특정 패키지의 크기가 늘어났습니다. 향후 릴리스에서는 크기를 줄이기 위해 노력하고 있습니다.

버그 수정

  • 고객이 보고한 대로 PhraseListGrammar와 함께 음성 인식기를 사용할 때 메모리 누수가 해결되었습니다(GitHub 문제).
  • 텍스트 음성 변환 열린 연결 API의 교착 상태가 수정되었습니다.

추가 참고 사항

  • Java - 내부적으로 사용되는 일부 public Java API 메서드가 internal, protected 또는 private 패키지로 변경되었습니다. 애플리케이션에서 이러한 변경 내용을 사용할 것으로 예상하지 않으므로 이 변경 내용은 개발자에게 영향을 미치지 않습니다. 투명성을 위해 여기에 표시됩니다.

샘플

Speech SDK 1.29.0: 2023년 6월 릴리스

새로운 기능

  • C++, C#, Java - 포함된 Speech Translation API 미리 보기. 이제 클라우드 연결 없이 음성 번역을 할 수 있습니다!
  • JavaScript - 이제 음성 번역에 LID(지속적인 언어 식별)가 사용하도록 설정되었습니다.
  • JavaScript - VoiceInfo 클래스에 LocaleName 속성을 추가하기 위한 커뮤니티 기여입니다. 끌어오기 요청을 보내주신 GitHub 사용자 shivsarthak에게 감사드립니다.
  • C++, C#, Java - 포함된 텍스트 음성 변환을 16kHz에서 48kHz 샘플 속도 출력으로 다시 샘플링하기 위한 지원이 추가되었습니다.
  • 단순 패턴 일치를 사용하여 의도 인식기에 hi-IN 로캘에 대한 지원이 추가되었습니다.

버그 수정

  • 일부 Android 테스트에서 볼 수 있듯이 개체 제거 중 음성 인식기의 경쟁 조건으로 인해 발생하는 크래시를 수정했습니다.
  • 단순 패턴 검사기를 사용하여 의도 인식기에서 발생할 수 있는 교착 상태를 수정했습니다.

샘플

  • 새로운 포함된 Speech Translation 샘플

Speech SDK 1.28.0: 2023년 5월 릴리스

주요 변경 내용

  • JavaScript SDK: OCSP(온라인 인증서 상태 프로토콜)가 제거되었습니다. 이를 통해 클라이언트는 인증서 처리를 위한 브라우저 및 노드 표준을 더 잘 준수할 수 있습니다. 버전 1.28 이상에는 더 이상 사용자 지정 OCSP 모듈이 포함되지 않습니다.

새로운 기능

  • 이제 발화가 끝날 때 무음 시간 제한이 발생하면 포함된 음성 인식NoMatchReason::EndSilenceTimeout을 반환합니다. 이는 실시간 음성 서비스를 사용하여 인식을 수행할 때의 동작과 일치합니다.
  • JavaScript SDK: PropertyId 열거형 값을 사용하여 SpeechTranslationConfig의 속성을 설정합니다.

버그 수정

  • Windows의 C# - Windows 오디오 확장의 잠재적인 경합 상태/교착 상태를 수정합니다. 오디오 렌더러를 빠르게 삭제하고 Synthesizer 메서드를 사용하여 말하기를 중지하는 시나리오에서 기본 이벤트는 중지로 초기화되지 않았으며 렌더러 개체가 삭제되지 않을 수 있지만 삭제를 위해 전역 잠금을 유지하여 dotnet GC 스레드를 동결할 수 있습니다.

샘플

  • MAUI용 포함된 음성 샘플을 추가했습니다.
  • 텍스트 음성 변환을 포함하도록 Android Java용 포함된 음성 샘플을 업데이트했습니다.

Speech SDK 1.27.0: 2023년 4월 릴리스

예정된 변경 내용에 대한 알림

  • 다음 JavaScript SDK 릴리스에서는 OCSP(온라인 인증서 상태 프로토콜)를 제거할 계획입니다. 이를 통해 클라이언트는 인증서 처리를 위한 브라우저 및 노드 표준을 더 잘 준수할 수 있습니다. 버전 1.27은 사용자 지정 OCSP 모듈을 포함하는 마지막 릴리스입니다.

새로운 기능

  • JavaScript – Speaker Identification 및 확인을 통해 브라우저에서 마이크 입력에 대한 지원이 추가되었습니다.
  • 포함된 음성 인식 - PropertyId::Speech_SegmentationSilenceTimeoutMs 설정에 대한 지원을 업데이트합니다.

버그 수정

  • 일반 - 서비스 재연결 논리의 안정성 업데이트(JavaScript를 제외한 모든 프로그래밍 언어)
  • 일반 - Windows(JavaScript를 제외한 모든 관련 프로그래밍 언어)에서 문자열 변환 메모리 누수를 수정합니다.
  • 포함된 음성 인식 - 특정 문법 목록 항목을 사용할 때 프랑스어 음성 인식의 크래시를 수정합니다.
  • 소스 코드 설명서 - 서비스의 오디오 로깅과 관련된 SDK 참조 설명서 주석이 수정되었습니다.
  • 의도 인식 - 목록 항목과 관련된 패턴 검사기 우선 순위를 수정합니다.

샘플

  • C# CTS(대화 기록) 샘플에서 인증 실패를 적절하게 처리합니다.
  • Python, JavaScript, Objective-C 및 Swift에 대한 스트리밍 발음 평가의 예가 추가되었습니다.

Speech SDK 1.26.0: 2023년 3월 릴리스

호환성이 손상되는 변경

  • xcframework가 포함된 Cocoapod, NuGet(Xamarin 및 MAUI용) 및 Unity 패키지의 모든 iOS 대상에서 비트코드가 사용하지 않도록 설정되었습니다. 이러한 변화는 Apple이 Xcode 14부터 비트코드 지원을 중단했기 때문입니다. 이 변경 내용은 또한 Xcode 13 버전을 사용 중이거나 Speech SDK를 사용하여 애플리케이션에서 비트코드를 명시적으로 활성화한 경우 "프레임워크에 비트코드가 없으므로 다시 빌드해야 합니다"라는 오류가 발생할 수 있음을 의미합니다. 이 문제를 해결하려면 대상에 비트코드가 사용하지 않도록 설정되어 있는지 확인합니다.
  • 이 릴리스에서는 최소 iOS 배포 대상이 11.0으로 업그레이드되며, 이는 armv7 HW가 더 이상 지원되지 않음을 의미합니다.

새로운 기능

  • 포함된(디바이스 내) 음성 인식은 이제 8kHz 및 16kHz 샘플링 속도 입력 오디오(샘플당 16비트, 모노 PCM)를 모두 지원합니다.
  • 음성 합성은 이제 연결, 네트워크 및 서비스 대기 시간을 결과에 보고하여 엔드투엔드 대기 시간을 최적화하도록 돕습니다.
  • 간단한 패턴 일치를 통한 의도 인식을 위한 새로운 동점 분리 규칙. 일치하는 문자 바이트가 많을수록 문자 바이트 수가 적은 패턴 일치보다 우선합니다. 예: "오른쪽 상단에서 {항목} 선택" 패턴이 "{항목} 선택"보다 우선합니다.

버그 수정

  • 음성 합성: 단어 경계 이벤트에서 이모티콘이 올바르지 않은 버그를 수정합니다.
  • CLU(대화 언어 이해)를 통한 의도 인식:
    • 이제 CLU Orchestrator 워크플로의 의도가 올바르게 나타납니다.
    • JSON 결과는 이제 속성 ID LanguageUnderstandingServiceResponse_JsonResult를 통해 사용할 수 있습니다.
  • 키워드 활성화로 음성 인식: 키워드 인식 후 ~150ms 오디오 누락을 수정합니다.
  • 고객이 보고한 Speech SDK NuGet iOS MAUI 릴리스 빌드 수정(GitHub 문제)

샘플

Speech SDK 1.25.0: 2023년 1월 릴리스

호환성이 손상되는 변경

  • 언어 식별(미리 보기) API가 간소화되었습니다. Speech SDK 1.25로 업데이트하고 빌드가 중단되는 경우 언어 식별 페이지를 방문하여 새 속성 SpeechServiceConnection_LanguageIdMode에 대해 알아봅니다. 이 단일 속성은 이전의 두 속성인 SpeechServiceConnection_SingleLanguageIdPrioritySpeechServiceConnection_ContinuousLanguageIdPriority를 바꿉니다. 짧은 대기 시간과 높은 정확도 사이의 우선 순위는 최근 모델 개선에 따라 더 이상 필요하지 않습니다. 이제 연속 음성 인식 또는 번역을 수행할 때 시작 시 또는 연속 언어 식별을 실행할지 여부만 선택하면 됩니다.

새로운 기능

  • C#/C++/Java: 포함된 Speech SDK가 현재 제한 공개 미리 보기로 릴리스되었습니다. 포함된 음성(미리 보기) 설명서를 참조하세요. 이제 클라우드 연결이 일시적이거나 사용할 수 없는 경우 디바이스 내 음성을 텍스트로 변환 및 텍스트를 음성으로 변환할 수 있습니다. Android, Linux, macOS 및 Windows 플랫폼에서 지원됨
  • C# MAUI: Speech SDK NuGet에서 iOS 및 Mac Catalyst 대상에 대한 지원 추가(고객 문제)
  • Unity: Unity 패키지에 Android x86_64 아키텍처 추가(고객 문제)
  • 이동:
    • 음성 인식을 위해 추가된 ALAW/MULAW 직접 스트리밍 지원(고객 문제)
    • PhraseListGrammar에 대한 지원이 추가되었습니다. 커뮤니티 기여에 대해 GitHub 사용자 czkoko에게 감사드립니다!
  • C#/C++: 의도 인식기가 이제 Microsoft 서비스의 오케스트레이션을 통해 C++ 및 C#에서 대화 언어 이해 모델을 지원합니다.

버그 수정

  • KeywordRecognizer를 중지하려고 할 때 간헐적으로 멈추는 문제 수정
  • Python:
    • PronunciationAssessmentGranularity.FullText가 설정된 경우 발음 평가 결과를 받는 문제 수정(고객 문제)
    • 음성 합성 음성을 가져올 때 검색되지 않는 남성 음성의 성별 속성 수정
  • JavaScript
    • iOS 디바이스에서 녹음된 일부 WAV 파일을 구문 분석하기 위한 수정(고객 문제)
    • JS SDK는 이제 npm-force-resolutions를 사용하지 않고 빌드합니다(고객 문제).
    • Conversation Translator는 이제 SpeechConfig.fromEndpoint()를 사용하여 만들어진 speechConfig 인스턴스를 사용할 때 서비스 엔드포인트를 올바르게 설정합니다.

샘플

  • 포함된 음성 사용 방법을 보여 주는 샘플을 추가했습니다.

  • MAUI용 음성 텍스트 변환 샘플 추가

    Speech SDK 샘플 리포지토리를 참조하세요.

Speech SDK 1.24.2: 2022년 11월 릴리스

새로운 기능

  • 새 기능이 없으며 새 모델 파일을 지원하기 위한 포함된 엔진 수정만 있습니다.

버그 수정

  • 모든 프로그래밍 언어
    • 포함된 음성 인식 모델의 암호화 문제가 해결되었습니다.

Speech SDK 1.24.1: 2022년 11월 릴리스

새로운 기능

버그 수정

  • 모든 프로그래밍 언어
    • 음성 글꼴이 지원되지 않을 때 포함된 TTS 크래시 수정
    • stopSpeaking()이 Linux에서 재생을 중지할 수 없는 문제 수정(#1686)
  • JavaScript SDK
    • Conversation Transcriber가 오디오를 제어한 방식의 회귀가 수정되었습니다.
  • Java
    • Docs 파이프라인이 온라인 참조 문서를 업데이트할 수 있도록 업데이트된 POM 및 Javadocs 파일이 Maven Central에 일시적으로 게시되었습니다.
  • Python
    • Python speak_text(ssml)가 void를 반환하는 경우 회귀를 수정합니다.

Speech SDK 1.24.0: 2022년 10월 릴리스

새로운 기능

  • 모든 프로그래밍 언어: AMR-WB(16khz)가 지원되는 텍스트 음성 변환 오디오 출력 형식 목록에 추가됨
  • Python: 지원되는 Linux 배포판에 대해 Linux Arm64용 패키지가 추가되었습니다.
  • C#/C++/Java/Python: AudioStreamWaveFormat을 사용하여 ALAW MULAW 직접 스트리밍에 대한 지원이 Speech Service(기존 PCM 스트림 외에도)에 추가되었습니다.
  • C# MAUI: .NET MAUI 개발자를 위해 Android 대상을 지원하도록 NuGet 패키지가 업데이트되었습니다(고객 문제).
  • Mac: iOS 이진 파일을 포함하지 않는 별도의 Mac용 XCframework를 추가했습니다. 이 항목은 더 작은 XCframework 패키지를 사용하는 Mac 이진 파일만 필요한 개발자를 위한 옵션을 제공합니다.
  • MAS(Microsoft Audio Stack):
    • 빔 형성 각도를 지정하면 지정된 범위를 벗어나서 생성되는 소리가 더 잘 억제됩니다.
    • Linux ARM32 및 Linux Arm64의 libMicrosoft.CognitiveServices.Speech.extension.mas.so 크기를 약 70% 줄입니다.
  • 패턴 일치를 사용하는 의도 인식:
    • 언어 fr, de, es, jp에 대한 맞춤법 지원을 추가합니다.
    • 언어 es에 대해 미리 빌드된 정수 지원을 추가했습니다.

버그 수정

  • iOS: 압축된 오디오 디코딩 실패로 인한 iOS 16의 음성 합성 오류를 수정합니다(고객 문제).
  • JavaScript:
    • 음성 합성 음성 목록을 가져올 때 인증 토큰이 작동하지 않는 문제를 수정합니다(고객 문제).
    • 작업자 로드에 대한 데이터 URL을 사용합니다(고객 문제).
    • AudioWorklet이 브라우저에서 지원되는 경우에만 오디오 프로세서 워크렛을 만듭니다(고객 문제). 이것은 William Wong의 커뮤니티 기여였습니다. William, 감사합니다!
    • LUIS 응답 connectionMessage가 비어 있을 때 인식된 콜백을 수정합니다(고객 문제).
    • 음성 구분 시간 제한을 올바르게 설정합니다.
  • 패턴 일치를 사용하는 의도 인식:
    • 이제 모델 내의 비 json 문자가 제대로 로드됩니다.
    • 연속 인식 중에 recognizeOnceAsync(text)가 호출되었을 때 발생하는 중단 문제를 수정합니다.

Speech SDK 1.23.0: 2022년 7월 릴리스

새로운 기능

  • C#, C++, Java: 패턴 일치를 사용하여 의도 인식에서 zh-cnzh-hk 언어에 대한 지원이 추가됨
  • C#: AnyCPU .NET Framework 빌드에 대한 지원이 추가됨

버그 수정

  • Android: OpenSSL을 1.1.1q로 업데이트하여 OpenSSL 취약성 CVE-2022-2068이 수정됨
  • Python: PushAudioInputStream 사용 시 발생하는 크래시가 수정됨
  • iOS: iOS에서 보고된 "EXC_BAD_ACCESS: Null 포인터 역참조 시도"가 수정됨(GitHub 문제)

Speech SDK 1.22.0: 2022년 6월 릴리스

새로운 기능

  • Java: getEntities(), applyLanguageModels(), recognizeOnceAsync(text)에 대한 IntentRecognitionResult API가 추가되어 "간단한 패턴 일치" 엔진을 지원합니다.
  • Unity: Unity 패키지용 Mac M1(Apple 실리콘)에 대한 지원 추가(GitHub 문제)
  • C#: Xamarin Android에 대한 x86_64에 대한 지원 추가(GitHub 문제)
  • C#: .NET 프레임워크 최소 버전은 v4.6.1이 만료됨에 따라 SDK C# 패키지용 v4.6.2로 업데이트되었습니다(Microsoft .NET Framework 구성 요소 수명 주기 정책 참조).
  • Linux: Debian 11 및 Ubuntu 22.04 LTS 지원이 추가되었습니다. Ubuntu 22.04 LTS를 사용하려면 여기에서 이진 패키지(예: x64의 경우 libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb 이상)로 또는 원본에서 컴파일하여 libssl1.1을 수동으로 설치해야 합니다.

버그 수정

  • UWP: OpenSSL 종속성이 UWP 라이브러리에서 제거되고 보안 규정 준수 및 더 작은 이진 공간을 충족하기 위해 WinRT websocket 및 HTTP API로 대체되었습니다.
  • Mac: macOS 플랫폼을 대상으로 하는 Swift 프로젝트를 사용할 때 “MicrosoftCognitiveServicesSpeech 모듈을 찾을 수 없음” 문제가 해결됨
  • Windows, Mac: 실시간 속도로 스트리밍하기 위해 속성을 통해 구성된 오디오 원본이 때때로 뒤쳐지고 결국 용량을 초과하는 플랫폼별 문제가 해결됨

샘플(GitHub)

  • C#: v4.6.2를 사용하도록 업데이트된 .NET 프레임워크 샘플
  • Unity: Android 및 UWP용으로 고정된 가상 도우미 샘플
  • Unity: Unity 2020 LTS 버전용으로 업데이트된 Unity 샘플

Speech SDK 1.21.0: 2022년 4월 릴리스

새로운 기능

  • Java 및 JavaScript: SpeechRecognizer 개체를 사용할 때 지속적인 언어 식별에 대한 지원이 추가되었습니다.
  • JavaScript: Microsoft에서 고객이 보고한 문제를 해결하는 데 도움이 되도록 콘솔 로깅 수준 및 (노드 전용) 파일 로깅을 사용하도록 진단 API가 추가되었습니다.
  • Python: 대화 기록 지원이 추가되었습니다.
  • Go: Speaker Recognition 지원이 추가되었습니다.
  • C++ & C#: 의도 인식기(단순 패턴 일치)에 필요한 단어 그룹에 대한 지원이 추가되었습니다. 예: "(set|start|begin) a timer" - 의도를 인식하려면 "set", "start" 또는 "begin"이 있어야 합니다.
  • 모든 프로그래밍 언어, Speech Synthesis: 단어 경계 이벤트에 기간 속성이 추가되었습니다. 문장 부호 경계 및 문장 경계에 대한 지원이 추가되었습니다.
  • Objective-C/Swift/Java: 발음 평가 결과 개체(C#과 유사)에 단어 수준 결과가 추가되었습니다. 애플리케이션에서 더 이상 JSON 결과 문자열을 구문 분석하여 단어 수준 정보를 가져올 필요가 없습니다(GitHub 문제).
  • iOS 플랫폼: ARMv7 아키텍처에 대한 실험적 지원이 추가되었습니다.

버그 수정

  • iOS 플랫폼: CocoaPod를 사용하는 경우 대상 "iOS 디바이스"에 대한 빌드를 허용(GitHub 문제)하도록 수정합니다.
  • Android 플랫폼: 보안 취약성 CVE-2022-0778을 수정하기 위해 OpenSSL 버전이 1.1.1n으로 업데이트되었습니다.
  • JavaScript: wav 헤더가 파일 크기로 업데이트되지 않는 문제 수정(GitHub 문제)
  • JavaScript: 요청 ID 비동기 문제 호환성이 손상되는 번역 시나리오(GitHub 문제)를 수정합니다.
  • JavaScript: 스트림 없이 SpeakerAudioDestination을 인스턴스화할 때 발생하는 문제(GitHub 문제)를 해결합니다.
  • C++: C++17 이상용으로 컴파일할 때 경고를 제거하도록 C++ 헤더를 수정합니다.

샘플 GitHub

Speech SDK 1.20.0: 2022년 1월 릴리스

새로운 기능

  • Objective-C, Swift 및 Python: 음성 도우미 시나리오에 사용되는 DialogServiceConnector에 대한 지원이 추가되었습니다.
  • Python: Python 3.10에 대한 지원이 추가되었습니다. Python 3.6에 대한 지원은 Python의 3.6에 대한 수명 종료에 따라 제거되었습니다.
  • Unity: 이제 Linux의 Unity 애플리케이션에서 Speech SDK가 지원됩니다.
  • C++, C#: 패턴 일치를 사용하는 IntentRecognizer는 이제 C#에서 지원됩니다. 또한 사용자 지정 엔터티, 선택적 그룹 및 엔터티 역할을 사용하는 시나리오가 이제 C++ 및 C#에서 지원됩니다.
  • C++, C#: 새 FileLogger, MemoryLogger 및 EventLogger 클래스를 사용하여 진단 추적 로깅을 개선했습니다. SDK 로그는 Microsoft가 고객이 보고한 문제를 진단하는 데 필요한 중요 도구입니다. 이러한 새 클래스를 사용하면 고객이 Speech SDK 로그를 자체 로깅 시스템에 쉽게 통합할 수 있습니다.
  • 모든 프로그래밍 언어: PronunciationAssessmentConfig에는 이제 원하는 음소 알파벳(IPA 또는 SAPI) 및 N-최적 음소 수를 설정하는 속성이 있습니다(GitHub 이슈 1284에 따라 구성 JSON을 작성할 필요가 없음). 또한 이제 음절 수준 출력이 지원됩니다.
  • Android, iOS 및 macOS(모든 프로그래밍 언어): 제한된 대역폭 네트워크를 지원하기 위한 GStreamer가 더 이상 필요하지 않습니다. 이제 SpeechSynthesizer는 운영 체제의 오디오 디코딩 기능을 사용하여 텍스트 음성 변환 서비스에서 스트리밍된 압축 오디오를 디코딩합니다.
  • 모든 프로그래밍 언어: SpeechSynthesizer는 이제 라이브 스트리밍 시나리오에서 널리 사용되는 세 가지 새로운 원시 출력 Opus 형식(컨테이너 제외)을 지원합니다.
  • JavaScript: 지원되는 합성 음성 목록을 검색할 수 있도록 SpeechSynthesizer에 getVoicesAsync() API가 추가되었습니다(GitHub 이슈 1350).
  • JavaScript: PCM이 아닌 웨이브 형식을 지원하기 위해 AudioStreamFormat에 getWaveFormat() API가 추가되었습니다(GitHub 이슈 452).
  • JavaScript: SpeakerAudioDestination에 볼륨 getter/setter 및 mute()/unmute() API가 추가되었습니다(GitHub 이슈 463).

버그 수정

  • C++, C#, Java, JavaScript, Objective-C 및 Swift: PushAudioInputStream을 사용하는 음성 인식기를 중지하는 동안 10초 지연을 제거하도록 수정합니다. StopContinuousRecognition이 호출된 후 새 오디오가 푸시되지 않는 경우가 이에 해당합니다(GitHub 이슈 1318, 331).
  • Android 및 UWP의 Unity: UWP, Android Arm64 및 WSA(Android용 Windows 하위 시스템) Arm64에 대한 Unity 메타 파일이 수정되었습니다(GitHub 이슈 1360).
  • iOS: CocoaPods를 사용할 때 iOS 디바이스에서 Speech SDK 애플리케이션을 컴파일하는 문제가 해결되었습니다(GitHub 이슈 1320).
  • iOS: SpeechSynthesizer가 오디오를 스피커에 직접 출력하도록 구성된 경우 아주 가끔 처음부터 재생이 중지되었습니다. 이 문제가 해결되었습니다.
  • JavaScript: 오디오 워크렛이 없는 경우 마이크 입력에 스크립트 프로세서를 대신 사용합니다(GitHub 이슈 455).
  • JavaScript: 에이전트에 프로토콜을 추가하여 Sentry 통합에서 발견된 버그를 완화합니다(GitHub 이슈 465).

샘플 GitHub

  • 자세한 인식 결과를 가져오는 방법을 보여주는 C++, C#, PythonJava 샘플. 세부 정보에는 대체 인식 결과, 신뢰도 점수, 어휘 양식, 정규화된 양식, 마스킹된 정규화된 양식, 각각에 대한 단어 수준 타이밍이 포함됩니다.
  • 외부 오디오 원본으로 AVFoundation을 사용하여 추가된 iOS 샘플.
  • WordBoundary 이벤트를 사용하여 SRT(SubRip 텍스트) 형식을 가져오는 방법을 보여주기 위해 추가된 Java 샘플.
  • 발음 평가에 대한 Android 샘플.
  • 새 진단 로깅 클래스의 사용법을 보여주는 C++, C#.

Speech SDK 1.19.0: 2021년 11월 릴리스

중요 사항

  • Speaker Recognition 서비스는 현재 GA(일반 공급)입니다. Speech SDK API는 C++, C#, Java 및 JavaScript에서 사용할 수 있습니다. Speaker Recognition을 사용하면 고유한 음성 특성으로 화자를 정확하게 확인하고 식별할 수 있습니다. 이 항목에 대한 자세한 내용은 설명서를 참조하세요.

  • Azure DevOps 및 GitHub와 함께 Ubuntu 16.04에 대한 지원이 중단되었습니다. Ubuntu 16.04는 2021년 4월에 수명이 종료되었습니다. Ubuntu 16.04 워크플로를 Ubuntu 18.04 이상으로 마이그레이션합니다.

  • Linux 이진에서 OpenSSL 연결이 동적으로 변경되었습니다. Linux 이진 크기가 약 50% 감소했습니다.

  • Mac M1 ARM 기반 실리콘 지원이 추가되었습니다.

새로운 기능

  • C++/C#/Java: Microsoft Audio Stack을 사용하여 음성 입력에 대한 오디오 처리 지원을 사용할 수 있도록 새 API가 추가되었습니다. 여기서 설명함

  • C++: 고급 패턴 일치를 용이하게 하는 의도 인식을 위한 새로운 API입니다. 여기에는 목록 및 미리 작성된 정수 엔터티뿐만 아니라 의도 및 엔터티를 모델로 그룹화하기 위한 지원이 포함됩니다(설명서, 업데이트, 샘플은 개발 중이며, 조만간 게시될 예정임).

  • Mac: GitHub 문제 1244와 관련된 CocoaPod, Python, Java, NuGet 패키지용 Arm64(M1) 기반 실리콘 지원입니다.

  • iOS/Mac: iOS 및 macOS 이진이 이제 GitHub 이슈 919와 관련된 xcframework로 패키지되었습니다.

  • iOS/Mac: GitHub 이슈 1171과 관련된 Mac Catalyst에 대한 지원입니다.

  • Linux: CentOS7 Speech SDK 정보를 위한 새 tar 패키지가 추가되었습니다. Linux .tar 패키지에는 이제 lib/centos7-x64의 RHEL/CentOS 7에 대한 특정 라이브러리가 포함됩니다. lib/x64의 Speech SDK 라이브러리는 지원되는 다른 모든 Linux x64 배포판(RHEL/CentOS 8 포함)에 계속 적용되며 RHEL/CentOS 7에서는 작동하지 않습니다.

  • JavaScript: VoiceProfile API와 SpeakerRecognizer API를 비동기/대기 가능으로 만들었습니다.

  • JavaScript: 미국 정부 Azure 지역에 대한 지원이 추가되었습니다.

  • Windows: UWP(유니버설 Windows 플랫폼)에서 재생에 대한 지원이 추가되었습니다.

버그 수정

  • Android: Android 패키지용 OpenSSL 보안 업데이트(버전 1.1.1l로 업데이트됨).

  • Python: Python에서 화자 디바이스 선택이 실패하는 버그가 해결되었습니다.

  • Core: 연결 시도가 실패하면 자동으로 다시 연결합니다.

  • iOS: GStreamer를 사용할 때 불안정성 및 비트코드 빌드 문제로 인해 iOS 패키지에서 오디오 압축을 사용할 수 없습니다. 세부 정보는 GitHub 이슈 1209를 통해 제공됩니다.

샘플 GitHub

  • Mac/iOS: xcframework 패키지를 사용하도록 샘플 및 빠른 시작이 업데이트되었습니다.

  • .NET: .NET core 3.1 버전을 사용하도록 샘플이 업데이트되었습니다.

  • JavaScript: 음성 도우미용 샘플이 추가되었습니다.

Speech SDK 1.18.0: 2021년 7월 릴리스

참고. Speech SDK 여기에서 시작을 해보십시오.

하이라이트 요약

  • Ubuntu 16.04는 2021년 4월의 수명 끝에 도달했습니다. Azure DevOps 및 GitHub를 통해 2021년 9월에 16.04에 대한 지원을 중단합니다. 그 전에 ubuntu-16.04 워크플로를 ubuntu-18.04 이상으로 마이그레이션합니다.

새로운 기능

  • C++는 의도 인식기를 사용하여 간단한 언어 패턴 일치를 통해 간단한 의도 인식 시나리오를 보다 쉽게 구현할 수 있습니다.
  • C++/C#/Java에서는 독립적인 인식 시나리오에 대한 발표자 인식 등록 단계에서 유효한 활성화 문구 목록을 수신하기 위해 GetActivationPhrasesAsync()VoiceProfileClient 클래스에 새 API를 추가했습니다.
    • 중요. 발표자 인식 기능은 미리보기 상태입니다. 미리보기로 만든 모든 음성 프로필은 화자 인식 기능이 미리 보기에서 일반 공급으로 전환된 후 90 일 후에 중단됩니다. 이 시점에서 미리보기 음성 프로필의 작동이 중지됩니다.
  • Python에는 기존의 SpeechRecognizerTranslationRecognizer개체들에 대한 자동 언어 식별 (LID)에 대한 지원이 추가되었습니다.
  • Python: 한번 또는 연속 LID(인식 또는 번역없음)을 수행하는SourceLanguageRecognizer라는새 Python 개체를 추가했습니다.
  • JavaScript에는 독립적인 인식 시나리오에 대한 발표자 인식 등록 단계에서 유효한 활성화 문구 목록을 받기 위한 getActivationPhrasesAsync API가 VoiceProfileClient 클래스에 추가되었습니다.
  • JavaScriptVoiceProfileClientenrollProfileAsync API는 이제 비동기 대기중입니다. 사용 예제는 독립 식별 코드를 참조하세요.

개선

  • Java: 많은 Java 개체에 AutoCloseable 지원이 추가되었습니다. 이제 리소스를 사용하여 리소스를 해제할 수 있습니다. ‘리소스로 시도’를 사용하는 이 샘플을참조하세요. 또한 이 패턴에 대해 알아보려면 ‘리소스로 시도’ 설명문대한 Oracle Java 자습서를 참조하십시오.
  • 많은 플랫폼과 아키텍처에서 디스크 공간이 크게 줄었습니다. Microsoft.CognitiveServices.Speech.core 이진 파일에 대한 예시: X64 Linux는 475KB 더 작고(8.0% 감소), Arm64 Windows UWP는 464KB 더 작고(11.5% 감소), x86 Windows는 343KB 더 작고(17.5% 감소), x64 Windows는 451KB 더 작습니다(19.4% 감소).

버그 수정

  • Java는 합성 텍스트가 서로게이트 문자를 포함하는 경우의 합성 오류를 해결했습니다. 자세한 내용은 여기를 참조하세요.
  • JavaScript에서 브라우저 마이크 오디오 처리는 이제 AudioWorkletNode를 사용하지 않는 대신 ScriptProcessorNode를 사용합니다. 자세한 내용은 여기를 참조하세요.
  • JavaScript는 장기적 대화 번역 상황에서 올바르게 대화를 유지합니다. 자세한 내용은 여기를 참조하세요.
  • JavaScript의 연속 인식할 때 mediastream에 대한 인식기 재연결 문제를 해결했습니다. 자세한 내용은 여기를 참조하세요.
  • JavaScript: 연속 인식할 때 pushStream에 대한 인식기 재연결 문제를 해결했습니다. 자세한 내용은 여기를 참조하세요.
  • JavaScript: 자세한 인식 결과에서 단어 수준 오프셋 계산을 수정했습니다. 자세한 내용은 여기를 참조하세요.

샘플

  • Java 빠른 시작 샘플은 여기에 업데이트 되었습니다.
  • JavaScript Speaker Recognition 샘플은 enrollProfileAsync()의 새로운 사용을 표시하도록 업데이트되었습니다. 여기에서 샘플을 참조합니다.

Speech SDK 1.17.0: 2021년 5월 릴리스

참고 항목

여기에서 Speech SDK 시작

하이라이트 요약

  • 사용 공간 축소 - Speech SDK 및 해당 구성 요소에 사용되는 메모리와 디스크 공간을 계속해서 줄이고 있습니다.
  • 새로운 독립 실행형 언어 식별 API를 사용하면 사용 중인 언어를 인식할 수 있습니다.
  • macOS에서 Unity를 사용하여 음성 지원 혼합 현실 및 게임 애플리케이션을 개발합니다.
  • 이제 Go 프로그래밍 언어의 음성 인식 외에도 텍스트 음성 변환을 사용할 수 있습니다.
  • 소중한 고객의 문제를 해결하기 위한 여러 버그 수정이 GitHub에 플래깅되었습니다. 감사합니다. 앞으로도 피드백을 계속 보내주세요.

새로운 기능

  • C++/C#: SourceLanguageRecognizer API를 통한 새로운 독립 실행형 시작 시 언어 감지 및 지속적인 언어 감지. 오디오 콘텐츠에서 사용 중인 언어만 감지하려는 경우 이를 수행하는 API입니다. C++C#에 대한 세부 정보를 참조하세요.
  • C++/C#: 이제 음성 인식 및 번역 인식은 시작 시 및 지속적인 언어 식별을 모두 지원하므로 텍스트를 전사하거나 번역하기 전에 사용 중인 언어를 프로그래밍 방식으로 확인할 수 있습니다. 음성 인식음성 번역 문서를 참조하세요.
  • C#: macOS(x64)에 Unity 지원이 추가되었습니다. 이를 통해 혼합 현실 및 게임에서 음성 인식 및 음성 합성을 사용할 수 있습니다.
  • Go: 더 많은 사용 사례에서 음성 합성을 사용할 수 있도록 Go 프로그래밍 언어에 음성 합성/텍스트 음성 변환 지원을 추가했습니다. 빠른 시작 또는 참조 문서를 참조하세요.
  • C++/C#/Java/Python/Objective-C/Go: 이제 음성 합성기가 connection 개체를 지원합니다. 이를 통해 Speech Service에 대한 연결을 관리하고 모니터링할 수 있으며 특히 사전 연결을 통해 대기 시간을 줄일 수 있습니다. 여기 설명서를 참조하세요.
  • C++/C#/Java/Python/Objective-C/Go: 이제 SpeechSynthesisResult에서 지연 시간과 언더런 시간을 공개하여 음성 합성 지연 문제를 모니터링하고 진단할 수 있습니다. C++, C#, Java, Python, Objective-CGo에 대한 세부 정보를 참조하세요.
  • C++/C#/Java/Python/Objective-C: 이제 텍스트 음성 변환은 사용할 음성을 지정하지 않는 경우 기본적으로 신경망 음성을 사용합니다. 이렇게 하면 기본적으로 더 높은 품질의 출력이 제공되지만 기본 가격도 증가합니다. 70개가 넘는 표준 음성 또는130개가 넘는 신경망 음성을 지정하여 기본값을 변경할 수 있습니다.
  • C++/C#/Java/Python/Objective-C/Go: 성별에 따라 음성을 더 쉽게 선택할 수 있도록 합성 음성 정보에 성별 속성을 추가했습니다. 따라서 GitHub #1055 문제도 해결됩니다.
  • C++, C#, Java, JavaScript: 이제 Speaker Recognition에서 retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsyncgetAllProfilesAsync()를 지원하므로 지정된 계정에 대한 모든 음성 프로필의 사용자 관리가 용이합니다. C++, C#, Java, JavaScript에 대한 문서를 참조하세요. 따라서 GitHub #338 문제도 해결됩니다.
  • JavaScript: JavaScript 기반 음성 애플리케이션을 더욱 강력하게 만드는 연결 실패에 대한 재시도를 추가했습니다.

개선

  • Linux 및 Android Speech SDK 이진 파일이 최신 버전의 OpenSSL(1.1.1k)을 사용하도록 업데이트되었습니다.
  • 코드 크기 개선:
    • 이제 언어 이해는 별도의 "lu" 라이브러리로 분할됩니다.
    • Windows x64 코어 바이너리 크기가 14.4% 감소했습니다.
    • Android Arm64 코어 바이너리 크기가 13.7% 감소했습니다.
    • 다른 구성 요소도 크기가 감소했습니다.

버그 수정

  • 모두: ServiceTimeout에 대한 GitHub 문제 #842가 수정되었습니다. 이제 이 오류로 종료되는 서비스에 대한 연결 없이 Speech SDK를 사용하여 긴 오디오 파일을 전사할 수 있습니다. 그러나 긴 파일에는 일괄 전사를 사용하는 것이 좋습니다.
  • C#: 음성 입력이 없으면 앱이 잘못된 상태가 될 수 있는 GitHub 문제 #947이 수정되었습니다.
  • Java: 네트워크 연결이나 잘못된 구독 키 없이 DialogServiceConnector를 사용할 때 Java 1.16용 Speech SDK이 충돌하는 GitHub 문제 #997이 수정되었습니다.
  • 음성 인식을 갑자기 중지(예: 콘솔 앱에서 CTRL+C 사용)할 때 발생하는 충돌을 수정했습니다.
  • Java: Java용 Speech SDK를 사용할 때 Windows에서 임시 파일을 삭제하는 수정 사항이 추가되었습니다.
  • Java: DialogServiceConnector.stopListeningAsync를 호출하면 오류가 발생할 수 있는 GitHub 문제 #994가 수정되었습니다.
  • Java: 가상 도우미 빠른 시작에서 고객 문제가 수정되었습니다.
  • JavaScript: ConversationTranslator에서 'this.cancelSpeech가 함수가 아님' 오류를 throw한 GitHub 문제 #366이 수정되었습니다.
  • JavaScript: '메모리 내 스트림으로 결과 가져오기' 샘플이 소리내어 재생되는 GitHub 문제 #298가 수정되었습니다.
  • JavaScript: AudioConfig를 호출하면 'ReferenceError: MediaStream이 정의되지 않음'이 발생할 수 있는 GitHub 문제 #350이 수정되었습니다.
  • JavaScript: 장기 실행 세션에 대한 Node.js의 UnhandledPromiseRejection 경고가 수정되었습니다.

샘플

  • 여기에서 macOS용 Unity 샘플 문서가 업데이트되었습니다.
  • 이제 Azure AI 음성 인식 서비스에 대한 React Native 샘플을 여기에서 사용할 수 있습니다.

Speech SDK 1.16.0: 2021년 3월 릴리스

참고 항목

Windows의 Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지를 사용합니다. 여기서 다운로드하세요.

새로운 기능

  • C++/C#/Java/Python: Windows, Linux 및 Android에서 모든 미디어 형식을 지원하도록 최신 버전의 GStreamer(1.18.3)로 이동되었습니다. 여기 설명서를 참조하세요.
  • C++/C#/Java/Objective-C/Python: 압축된 TTS/합성된 오디오를 SDK로 디코딩하는 지원이 추가되었습니다. 출력 오디오 형식을 PCM으로 설정하고 시스템에서 GStreamer를 사용할 수 있으면 SDK는 서비스에서 압축된 오디오를 자동으로 요청하여 대역폭을 절약하고 클라이언트에서 오디오를 디코딩합니다. 이 기능을 사용하지 않으려면 SpeechServiceConnection_SynthEnableCompressedAudioTransmissionfalse로 설정합니다. C++, C#, Java, Objective-C, Python에 대한 세부 정보를 제공합니다.
  • JavaScript: 이제 Node.js 사용자는 AudioConfig.fromWavFileInput API를 사용할 수 있습니다. 따라서 GitHub #252 문제도 해결됩니다.
  • C++/C#/Java/Objective-C/Python: 사용 가능한 모든 합성 음성을 반환하는 TTS에 대한 GetVoicesAsync() 메서드가 추가되었습니다. C++, C#, Java, Objective-CPython에 대한 세부 정보를 제공합니다.
  • C++/C#/Java/JavaScript/Objective-C/Python: 동기 viseme 애니메이션을 반환하는 TTS/음성 합성에 대한 VisemeReceived 이벤트가 추가되었습니다. 여기 설명서를 참조하세요.
  • C++/C#/Java/JavaScript/Objective-C/Python: TTS에 대한 BookmarkReached 이벤트가 추가되었습니다. 입력 SSML에서 책갈피를 설정하고 각 책갈피에 대한 오디오 오프셋을 가져올 수 있습니다. 여기 설명서를 참조하세요.
  • Java: Speaker Recognition API에 대한 지원이 추가되었습니다. 자세한 내용은 여기를 참조하세요.
  • C++/C#/Java/JavaScript/Objective-C/Python: TTS용 WebM 컨테이너(Webm16Khz16BitMonoOpus 및 Webm24Khz16BitMonoOpus)가 포함된 두 가지 새로운 출력 오디오 형식이 추가되었습니다. 추가된 형식은 Opus 코덱으로 오디오를 스트리밍하는 데 보다 적합합니다. C++, C#, Java, JavaScript, Objective-C, Python에 대한 세부 정보를 제공합니다.
  • C++/C#/Java: Speaker Recognition 시나리오를 위한 음성 프로필 검색 지원이 추가되었습니다. C++, C#Java에 대한 세부 정보를 제공합니다.
  • C++/C#/Java/Objective-C/Python: 오디오 마이크 및 스피커 제어를 위한 별도의 공유 라이브러리 지원이 추가되었습니다. 이제 개발자는 필수 오디오 라이브러리 종속성이 없는 환경에서 SDK를 사용할 수 있습니다.
  • Objective-C/Swift: 엄브렐라 헤더가 포함된 모듈 프레임워크 지원이 추가되었습니다. 이제 개발자는 iOS/Mac Objective-C/Swift 앱에서 음성 SDK를 모듈로 가져올 수 있습니다. 따라서 GitHub #452 문제도 해결됩니다.
  • Python: Python 3.9에 대한 지원이 추가되었으며 Python의 3.5 수명 종료에 따라 Python 3.5 지원이 삭제되었습니다.

알려진 문제

  • C++/C#/Java: DialogServiceConnectorCustomCommandsConfig를 사용하여 사용자 지정 명령 애플리케이션에 액세스할 수 없으며 대신 연결 오류가 발생합니다. 이 문제는 config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)를 사용하여 애플리케이션 ID를 요청에 수동으로 추가하여 해결할 수 있습니다. CustomCommandsConfig의 예상 동작은 다음 릴리스에서 복원됩니다.

개선

  • Speech SDK의 메모리 사용량 및 디스크 공간을 줄이기 위한 다중 릴리스 노력의 일환으로 Android 바이너리가 3%~5% 작아졌습니다.
  • 여기서 C# 참조 설명서의 향상된 정확도, 가독성 및 참조 섹션을 확인하세요.

버그 수정

  • JavaScript: 이제 큰 WAV 파일 헤더가 올바르게 구문 분석됩니다(헤더 조각을 512바이트로 확장). 따라서 GitHub #962 문제도 해결됩니다.
  • JavaScript: 인식 중지 전에 마이크 스트림이 종료되는 마이크 타이밍 문제가 수정되었으며, 음성 인식이 Firefox에서 작동하지 않는 문제가 해결되었습니다.
  • JavaScript: 이제 turnOn이 완료되기 전에 브라우저가 마이크를 강제로 끄더라도 초기화 프라미스가 올바르게 처리됩니다.
  • JavaScript: URL 종속성을 url 구문 분석으로 대체했습니다. 따라서 GitHub #264 문제도 해결됩니다.
  • Android: minifyEnabled를 true로 설정하면 콜백이 작동하지 않는 문제를 수정했습니다.
  • C++/C#/Java/Objective-C/Python: 대기 시간을 줄이기 위해 TCP_NODELAY가 TTS의 기본 소켓 IO로 올바르게 설정됩니다.
  • C++/C#/Java/Python/Objective-C/Go: 인식을 시작한 직후 인식기가 삭제되었을 때 발생하는 간헐적 충돌을 수정했습니다.
  • C++/C#/Java: 화자 인식기가 삭제될 때 발생하는 간헐적 충돌을 수정했습니다.

샘플

  • JavaScript: 이제 브라우저 샘플을 사용하기 위해 별도의 JavaScript 라이브러리 파일을 다운로드할 필요가 없습니다.

Speech SDK 1.15.0: 2021년 1월 릴리스

참고 항목

Windows의 Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지를 사용합니다. 여기서 다운로드하세요.

하이라이트 요약

  • 메모리 및 디스크 공간을 줄여서 SDK 효율을 높입니다.
  • 사용자 지정 신경망 음성 프라이빗 미리 보기에 사용할 수 있는 충실도 높은 출력 형식이 제공됩니다.
  • 이제 의도 인식기가 상위 의도보다 더 많은 반환값을 얻을 수 있으므로 고객의 의도에 대한 별도의 평가를 수행할 수 있습니다.
  • 이제 음성 도우미와 봇을 더 쉽게 설정할 수 있으며, 즉시 수신 대기를 중지하고 오류에 대응하는 방법을 보다 효과적으로 제어할 수 있습니다.
  • 압축을 선택 사항으로 만들어서 디바이스 성능을 향상했습니다.
  • Windows ARM/Arm64에서 Speech SDK를 사용합니다.
  • 낮은 수준의 디버깅이 향상되었습니다.
  • 이제 발음 평가 기능을 보다 폭넓게 사용할 수 있습니다.
  • 소중한 고객의 문제를 해결하기 위한 여러 버그 수정이 GitHub에 플래깅되었습니다. 감사합니다. 앞으로도 피드백을 계속 보내주세요.

개선

  • 이제 Speech SDK는 더 효율적이고 가볍습니다. Speech SDK의 메모리 사용량 및 디스크 공간을 줄이기 위한 다중 릴리스 작업이 시작되었습니다. 첫 번째 단계로 대부분의 플랫폼에서 공유 라이브러리의 파일 크기를 대폭 줄였습니다. 1.14 릴리스와 비교할 때 다음과 같은 차이가 있습니다.
    • 64비트 UWP 호환 Windows 라이브러리가 약 30% 작아졌습니다.
    • 32비트 Windows 라이브러리는 아직 크기가 개선되지 않았습니다.
    • Linux 라이브러리는 20-25% 작아졌습니다.
    • Android 라이브러리는 3-5% 작아졌습니다.

새로운 기능

  • 모두: TTS 음성 합성 API를 통해 사용자 지정 신경망 음성의 프라이빗 미리 보기에 사용할 수 있는 새로운 48KHz 출력 형식으로 Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm이 제공됩니다.
  • 모두: 사용자 지정 음성을 더 쉽게 사용할 수 있습니다. EndpointId(C++, C#, Java, JavaScript, Objective-C, Python)를 통해 사용자 지정 음성을 설정하는 지원이 추가되었습니다. 이 변경 전에는 사용자 지정 음성 사용자가 FromEndpoint 메서드를 통해 엔드포인트 URL을 설정해야 했습니다. 이제 고객은 미리 빌드된 음성과 마찬가지로 FromSubscription 메서드를 사용한 다음, EndpointId를 설정하여 배포 ID를 제공하면 됩니다. 사용자 지정 음성을 더 간단하게 설정할 수 있게 되었습니다.
  • C++/C#/Java/Objective-C/Python: IntentRecognizer에서 상위 의도보다 더 많은 결과를 가져옵니다. 이제 LanguageUnderstandingModel FromEndpoint 메서드를 통해 verbose=true uri 매개 변수를 사용하여 상위 채점 의도뿐 아니라 모든 의도를 포함하는 JSON 결과 구성을 지원합니다. 따라서 GitHub #880 문제도 해결됩니다. 여기서 업데이트된 설명서를 참조하세요.
  • C++/C#/Java: 음성 도우미 또는 봇이 즉시 수신을 중지합니다. 이제 DialogServiceConnector(C++, C#, Java)에는 ListenOnceAsync()와 동반하는 StopListeningAsync() 메서드가 있습니다. 따라서 오디오 캡처를 즉시 중지하고 결과를 정상적으로 대기하므로 "지금 중지" 단추 누르기 시나리오에 사용하기에 적합합니다.
  • C++/C#/Java/JavaScript: 음성 도우미 또는 봇이 기본 시스템 오류에 보다 효과적으로 대응합니다. 이제 DialogServiceConnector(C++, C#, Java, JavaScript)에는 새로운 TurnStatusReceived 이벤트 처리기가 있습니다. 이러한 선택적 이벤트는 봇의 모든 ITurnContext 확인에 해당하며, 턴 실행 실패(예: Direct Line Speech와 봇 간의 처리되지 않은 예외, 시간 제한 또는 네트워크 드롭)를 보고합니다. TurnStatusReceived를 사용하면 실패 조건에 보다 쉽게 대응할 수 있습니다. 예를 들어 봇에서 백 엔드 데이터베이스 쿼리(예: 제품 조회)가 너무 오래 걸리는 경우 TurnStatusReceived를 통해 "죄송합니다만 이 제품은 잘 모르겠습니다. 다시 시도해 주세요" 또는 이와 비슷한 메시지로 사용자에게 다시 입력을 요청하도록 클라이언트에 알릴 수 있습니다.
  • C++/C#: 더 많은 플랫폼에서 음성 SDK를 사용합니다. 이제 Speech SDK NuGet 패키지는 Windows ARM/Arm64 데스크톱 네이티브 이진 파일을 지원하므로(UWP는 이미 지원됨) 더 많은 종류의 컴퓨터에서 Speech SDK를 더 유용하게 사용할 수 있습니다.
  • Java: 이제 DialogServiceConnector에는 이전에 의도치 않게 언어에서 제외된 setSpeechActivityTemplate() 메서드가 있습니다. 이 메서드는 Conversation_Speech_Activity_Template 속성을 설정하는 것과 동일하며, Direct Line Speech 서비스에서 발생하는 모든 향후 Bot Framework 활동을 제공된 콘텐츠를 해당 JSON 페이로드에 병합하도록 요청합니다.
  • Java: 낮은 수준의 디버깅이 향상되었습니다. 이제 Connection 클래스에는 다른 프로그래밍 언어(C++, C#)와 비슷하게 MessageReceived 이벤트가 있습니다. 이 이벤트는 서비스에서 들어오는 데이터에 대한 하위 수준 액세스를 제공하며 진단 및 디버깅에 유용할 수 있습니다.
  • JavaScript: BotFrameworkConfig를 통해 음성 도우미와 봇에 맞게 쉽게 설정할 수 있으며, 이제 속성을 수동으로 설정하지 않고 사용자 지정 서비스 위치를 편리하게 사용할 수 있는 fromHost()fromEndpoint() 팩터리 메서드를 제공합니다. 또한 구성 팩터리에서 기본이 아닌 봇을 사용하도록 선택적 botId 사양을 표준화했습니다.
  • JavaScript: websocket 압축을 위한 문자열 제어 속성을 추가하여 디바이스 성능을 개선했습니다. 성능상의 이유로 websocket 압축은 기본적으로 사용되지 않습니다. 낮은 대역폭 시나리오에서는 다시 사용하도록 설정할 수 있습니다. 자세한 내용은 여기를 참조하세요. 따라서 GitHub #242 문제도 해결됩니다.
  • JavaScript: 음성 발음을 평가할 수 있도록 발음 평가에 대한 지원이 추가되었습니다. 여기서 빠른 시작을 참조하세요.

버그 수정

  • 모두(JavaScript 제외): 인식기가 너무 많은 메모리를 할당하는 1.14 버전의 회귀를 수정했습니다.
  • C++: DialogServiceConnector의 가비지 수집 문제를 해결했으며, 따라서 GitHub #794 문제도 해결됩니다.
  • C#: 삭제 시 개체가 약 1초간 차단되는 스레드 종료 관련 문제를 해결했습니다.
  • C++/C#/Java: 애플리케이션이 DialogServiceConnector에서 음성 권한 부여 토큰 또는 활동 템플릿을 두 번 이상 설정할 수 없게 만드는 예외를 수정했습니다.
  • C++/C#/Java: 해제의 경합 상태로 인한 인식기 충돌을 수정했습니다.
  • JavaScript: DialogServiceConnector가 이전에는 BotFrameworkConfig의 팩터리에 지정된 선택적 botId 매개 변수를 적용하지 않았습니다. 이로 인해 기본이 아닌 봇을 사용하도록 botId 쿼리 문자열 매개 변수를 수동으로 설정해야 했습니다. 이 버그가 수정되었으며 새로 추가된 fromHost()fromEndpoint()를 포함하여 BotFrameworkConfig의 팩터리에 제공된 botId 값이 적용되고 사용됩니다. 이는 CustomCommandsConfig에 대한 applicationId 매개 변수에도 적용됩니다.
  • JavaScript: GitHub #881 문제를 수정했습니다. 이제 인식기 개체를 다시 사용할 수 있습니다.
  • JavaScript: SKD가 한 TTS 세션에서 speech.config를 여러 차례 전송하여 대역폭을 낭비하는 문제를 해결했습니다.
  • JavaScript: 마이크 권한 부여에 대한 오류 처리를 간소화하여 사용자가 브라우저에서 마이크 입력을 허용하지 않을 때 더 많은 설명 메시지를 표시할 수 있게 했습니다.
  • JavaScript: ConversationTranslatorConversationTranscriber의 입력 오류가 TypeScript 사용자의 컴파일 오류로 이어지는 GitHub #249 문제를 수정했습니다.
  • Objective-C: GStreamer 빌드가 Xcode 11.4의 iOS에서 실패하는 문제를 수정했습니다. 따라서 GitHub #911 문제도 해결됩니다.
  • Python: GitHub #870 문제를 수정하고 "DeprecationWarning: imp 모듈이 사용되지 않는 대신 importlib가 사용됩니다" 메시지를 제거했습니다.

샘플

Speech SDK 1.14.0: 2020년 10월 릴리스

참고 항목

Windows의 Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지를 사용합니다. 여기서 다운로드하세요.

새로운 기능

  • Linux: Debian 10 및 Ubuntu 20.04 LTS 지원이 추가되었습니다.
  • Python/Objective-C: KeywordRecognizer API 지원이 추가되었습니다. 설명서는 여기에 있습니다.
  • C++/Java/C#: ServicePropertyChannel::HttpHeader를 통해 HttpHeader 키/값을 설정하는 지원이 추가되었습니다.
  • JavaScript: ConversationTranscriber API 지원이 추가되었습니다. 여기 설명서를 참조하세요.
  • C++/C#: .WAV 파일을 읽을 수 있도록 새 AudioDataStream FromWavFileInput 메서드를 추가했습니다. 여기(C++)여기(C#)를 참조하세요.
  • C++/C#/Java/Python/Objective-C/Swift: 텍스트 음성 변환 합성을 중지하는 stopSpeakingAsync() 메서드를 추가했습니다. 여기(C++), 여기(C#), 여기(Java), 여기(Python)여기(Objective-C/Swift)서 참조 설명서를 확인하세요.
  • C#, C++, Java: DialogServiceConnector에 대한 연결 및 연결 끊기 이벤트를 모니터링하는 데 사용할 수 있는 FromDialogServiceConnector() 함수를 Connection 클래스에 추가했습니다. 여기(C#), 여기(C++)여기(Java)서 참조 설명서를 확인하세요.
  • C++/C#/Java/Python/Objective-C/Swift: 음성 발음을 평가하고 음성 오디오의 정확도와 능숙도에 대한 화자 피드백을 제공하는 발음 평가 지원이 추가되었습니다. 여기에서 설명서를 확인하세요.

주요 변경 내용

  • JavaScript: PullAudioOutputStream.read()의 반환 형식이 내부 프라미스에서 네이티브 JavaScript 프라미스로 변경되었습니다.

버그 수정

  • 모두: SetServiceProperty에서 특정 특수 문자가 포함된 값을 무시하는 1.13 회귀를 수정했습니다.
  • C#: Visual Studio 2019에서 네이티브 DLL을 찾지 못하는 Windows 콘솔 샘플을 수정했습니다.
  • C#: 스트림을 KeywordRecognizer 입력으로 사용하는 경우 메모리 관리와 충돌하는 문제를 수정했습니다.
  • ObjectiveC/Swift: 스트림이 인식기 입력으로 사용되는 경우 메모리 관리와 충돌하는 문제를 수정했습니다.
  • Windows: UWP에서 BT HFP/A2DP가 동시에 존재하는 문제를 수정했습니다.
  • JavaScript: 로깅을 개선하고 내부 디버그/서비스 상관 관계를 도와주도록 세션 ID 매핑을 수정했습니다.
  • JavaScript: 첫 번째 호출을 수행한 후 ListenOnce 호출을 사용하지 않도록 설정하는 DialogServiceConnector에 대한 픽스를 추가했습니다.
  • JavaScript: "단순" 결과만 출력되는 문제를 수정했습니다.
  • JavaScript: macOS의 Safari에서 발생하는 지속적인 인식 문제를 수정했습니다.
  • JavaScript: 요청 처리량이 높은 시나리오의 CPU 부하를 완화했습니다.
  • JavaScript: 음성 프로필 등록 결과의 세부 정보에 대한 액세스를 허용합니다.
  • JavaScript: IntentRecognizer에서 지속적인 인식을 위한 픽스가 추가되었습니다.
  • C++/C#/Java/Python/Swift/ObjectiveC: IntentRecognizer에서 australiaeast 및 brazilsouth에 대한 잘못된 url을 수정했습니다.
  • C++/C#: VoiceProfile 개체를 만들 때 VoiceProfileType을 인수로 추가했습니다.
  • C++/C#/Java/Python/Swift/ObjectiveC: 지정된 위치에서 AudioDataStream을 읽으려고 할 때 발생할 수 있는 SPX_INVALID_ARG를 수정했습니다.
  • IOS: Unity에서 음성 인식과 충돌하는 문제를 수정했습니다.

샘플

  • ObjectiveC: 여기에 키워드 인식 샘플이 추가되었습니다.
  • C#/JavaScript: 여기(C#)여기(JavaScript)에 대화 기록에 대한 빠른 시작이 추가되었습니다.
  • C++/C#/Java/Python/Swift/ObjectiveC: 여기에 발음 평가 샘플이 추가되었습니다.

알려진 이슈

  • DigiCert Global Root G2 인증서는 기본적으로 HoloLens 2 및 Android 4.4(KitKat)에서 지원되지 않으며, 시스템에 추가해야만 Speech SDK가 작동합니다. 이 인증서는 곧 HoloLens 2 OS 이미지에 추가됩니다. Android 4.4 고객은 업데이트된 인증서를 시스템에 추가해야 합니다.

코로나19로 테스트 축소

지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 저희가 놓친 부분이 있다면GitHub에서 알려주세요.
건강에 유의하세요!

Speech SDK 1.13.0: 2020년 7월 릴리스

참고 항목

Windows의 Speech SDK는 Visual Studio 2015, 2017 및 2019용 공유 Microsoft Visual C++ 재배포 가능 패키지를 사용합니다. 여기에서 다운로드하여 설치합니다.

새로운 기능

  • C#: 비동기 대화 기록을 위한 지원이 추가되었습니다. 여기 설명서를 참조하세요.
  • JavaScript: 브라우저Node.js에 대한 Speaker Recognition 지원이 추가되었습니다.
  • JavaScript: 자동 언어 식별/언어 ID에 대한 지원이 추가되었습니다. 여기 설명서를 참조하세요.
  • Objective-C: 다중 디바이스 대화 및 대화 기록에 대한 지원이 추가되었습니다.
  • Python: Windows 및 Linux의 Python에 대한 압축 오디오 지원이 추가되었습니다. 여기 설명서를 참조하세요.

버그 수정

  • 모두: 인식 후 KeywordRecognizer가 스트림을 앞으로 이동하지 않는 문제를 수정했습니다.
  • 모두: KeywordRecognitionResult에서 얻은 스트림에 키워드가 포함되지 않는 문제를 수정했습니다.
  • 모두: 사용자가 대기를 완료한 후 SendMessageAsync가 네트워크를 통해 메시지를 실제로 전송하지 않는 문제를 수정했습니다.
  • 모두: 사용자가 VoiceProfileClient::SpeakerRecEnrollProfileAsync 메서드를 여러 번 호출하고 호출이 완료될 때까지 기다리지 않을 때 Speaker Recognition API에서 발생하는 충돌을 수정했습니다.
  • 모두: VoiceProfileClient 및 SpeakerRecognizer 클래스의 파일 로깅 사용을 수정했습니다.
  • JavaScript: 브라우저가 최소화되었을 발생하는 제한 문제를 수정했습니다.
  • JavaScript: 스트림에서 발생하는 메모리 누수 문제를 수정했습니다.
  • JavaScript: NodeJS의 OCSP 응답에 대한 캐싱을 추가했습니다.
  • Java: BigInteger 필드에서 항상 0을 반환하는 문제를 수정했습니다.
  • iOS: iOS App Store에서 Speech SDK 기반 앱을 게시할 때 발생하는 문제를 수정했습니다.

샘플

  • C++: 여기에 Speaker Recognition 샘플 코드를 추가했습니다.

코로나19로 테스트 축소

지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 저희가 놓친 부분이 있다면GitHub에서 알려주세요.
건강에 유의하세요!

Speech SDK 1.12.1: 2020년 6월 릴리스

새로운 기능

  • C#, C++: Speaker Recognition 미리 보기: 이 기능을 사용하면 화자 식별(누가 말하고 있나요?) 및 화자 검증(화자가 주장하는 사람이 맞나요?)이 가능합니다. 개요 설명서를 참조하세요.

버그 수정

  • C#, C++: 1.12의 Speaker Recognition에서 마이크 녹음이 작동하지 않던 문제를 수정했습니다.
  • JavaScript: Firefox와 macOS 및 iOS의 Safari에서 텍스트 음성 변환을 수정했습니다.
  • 8채널 스트림을 사용할 때 대화 기록에서 발생하는 Windows 애플리케이션 검증 도구 액세스 위반 충돌을 수정했습니다.
  • 다중 디바이스 대화 기록에서 발생하는 Windows 애플리케이션 검증 도구 액세스 위반 충돌을 수정했습니다.

샘플

코로나19로 테스트 축소

지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 저희가 놓친 부분이 있다면GitHub에서 알려주세요.
건강에 유의하세요!

Speech SDK 1.12.0: 2020년 5월 릴리스

새로운 기능

  • Go: 음성 인식사용자 지정 음성 도우미에 대한 새로운 go 언어 지원이 추가되었습니다. 여기서 개발 환경을 설정하세요. 샘플 코드는 아래의 샘플 섹션을 참조하세요.
  • JavaScript: 텍스트 음성 변환에 대한 브라우저 지원이 추가되었습니다. 여기 설명서를 참조하세요.
  • C++, C#, Java: Windows, Android, Linux 및 iOS 플랫폼에서 새로운 KeywordRecognizer 개체와 API가 지원됩니다. 여기에서 설명서를 확인하세요. 샘플 코드는 아래의 샘플 섹션을 참조하세요.
  • Java: 번역을 지원하는 다중 디바이스 대화를 추가했습니다. 여기서 참조 문서를 확인하세요.

개선 및 최적화

  • JavaScript: 브라우저 마이크 구현을 최적화하여 음성 인식 정확도를 높였습니다.
  • Java: SWIG 없이 다이렉트 JNI 구현을 사용하여 바인딩을 리팩터링했습니다. 이번 변화로 Windows, Android, Linux 및 Mac에 사용되는 모든 Java 패키지의 바인딩 크기가 10분의 1로 축소되었으며 Speech SDK Java 구현을 더 쉽게 개발할 수 있게 되었습니다.
  • Linux: 지원 설명서에 최신 RHEL 7 관련 정보가 업데이트되었습니다.
  • 서비스 및 네트워크 오류가 발생할 때 연결을 여러 번 시도하도록 연결 논리가 개선되었습니다.
  • 개발자가 Azure AI 음성 여정의 다음 단계를 수행하는 데 도움이 되도록 portal.azure.com 음성 빠른 시작 페이지가 업데이트되었습니다.

버그 수정

  • C#, Java: Linux ARM(32비트 및 64비트 모두)에 SDK 라이브러리를 로드할 때 발생하는 문제를 수정했습니다.
  • C#: TranslationRecognizer, IntentRecognizer 및 Connection 개체에 대한 네이티브 핸들의 명시적 삭제를 수정했습니다.
  • C#: ConversationTranscriber 개체의 오디오 입력 수명 관리를 수정했습니다.
  • 간단한 구의 의도를 인식할 때 IntentRecognizer 결과 이유가 올바르게 설정되지 않은 문제를 수정했습니다.
  • SpeechRecognitionEventArgs 결과 오프셋이 올바르게 설정되지 않은 문제가 해결되었습니다.
  • websocket 연결을 열기 전에 SDK가 네트워크 메시지를 보내려고 시도하는 경합 상태를 수정했습니다. 참가자를 추가하는 동안 TranslationRecognizer에 대해 재현할 수 있습니다.
  • 키워드 인식기 엔진의 메모리 누수 문제를 수정했습니다.

샘플

코로나19로 테스트 축소

지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 확인 테스트를 많이 수행할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 저희가 놓친 부분이 있다면 GitHub에서 알려주세요.
건강에 유의하세요!

Speech SDK 1.11.0: 2020년 3월 릴리스

새로운 기능

  • Linux: RHEL(Red Hat Enterprise Linux)/CentOS 7 x64에 대한 지원이 추가되었습니다.
  • Linux: Linux ARM32 및 Arm64에서 .NET Core C#에 대한 지원이 추가되었습니다. 자세한 내용은 여기를 읽어보세요.
  • C#, C++: 모든 중간 및 최종 음성 인식 결과에서 일관적인 ID인 UtteranceIdConversationTranscriptionResult에 추가했습니다. C#C++에 대한 세부 정보를 제공합니다.
  • Python: Language ID에 대한 지원이 추가되었습니다. GitHub 리포지토리의 speech_sample.py를 참조하세요.
  • Windows: 모든 win32 콘솔 애플리케이션에 사용되는 Windows 플랫폼에서 압축된 오디오 입력 형식 지원을 추가했습니다. 자세한 내용은 여기를 참조하세요.
  • JavaScript: NodeJS에서 음성 합성(텍스트 음성 변환)을 지원합니다. 여기서 자세히 알아봅니다.
  • JavaScript: 모든 송신 및 수신 메시지를 검사할 수 있도록 새 API를 추가합니다. 여기서 자세히 알아봅니다.

버그 수정

  • C#, C++: 이제 SendMessageAsync에서 이진 메시지를 이진 형식으로 보내도록 문제를 수정했습니다. C#C++에 대한 세부 정보를 제공합니다.
  • C#, C++: Connection 개체보다 Recognizer 개체가 먼저 삭제된 경우 Connection MessageReceived 이벤트를 사용하면 충돌이 발생할 수 있는 문제를 수정했습니다. C#C++에 대한 세부 정보를 제공합니다.
  • Android: 대기 시간을 개선하기 위해 마이크의 오디오 버퍼 크기를 800ms에서 100ms로 줄였습니다.
  • Android: Android Studio의 x86 Android 에뮬레이터 관련 문제를 수정했습니다.
  • JavaScript: fromSubscription API를 통해 중국 내 Azure 지역에 대한 지원을 추가했습니다. 자세한 내용은 여기를 참조하세요.
  • JavaScript: NodeJS의 연결 실패에 대한 오류 정보를 추가했습니다.

샘플

  • Unity: LUIS json 가져오기가 실패하는 의도 인식 공개 샘플을 수정했습니다. 자세한 내용은 여기를 참조하세요.
  • Python: Language ID 샘플이 추가되었습니다. 자세한 내용은 여기를 참조하세요.

코로나19로 테스트 축소: 지난 몇 주 동안 저희는 원격으로 작업해야 했기 때문에 평소처럼 수동 디바이스 확인 테스트를 많이 수행할 수 없었습니다. 예를 들어 Linux, iOS 및 macOS에서 마이크 입력과 스피커 출력을 테스트할 수 없었습니다. 저희는 문제가 될 수 있는 어떤 것도 변경하지 않았으며, 자동화된 테스트는 모두 통과했습니다. 혹시라도 놓친 것이 있으면 GitHub에 알려 주세요.
여러분의 지속적인 지원에 감사드립니다. 언제든지 GitHub 또는 Stack Overflow에 질문이나 피드백을 게시해 주세요.
건강에 유의하세요!

Speech SDK 1.10.0: 2020년 2월 릴리스

새로운 기능

  • Python의 새로운 3.8 릴리스를 지원하는 Python 패키지를 추가했습니다.
  • RHEL(Red Hat Enterprise Linux)/CentOS 8 x64 지원(C++, C#, Java, Python)이 추가되었습니다.

    참고 항목

    고객은 이러한 지침에 따라 OpenSSL을 구성해야 합니다.

  • Debian 및 Ubuntu에 대해 Linux ARM32를 지원합니다.
  • DialogServiceConnector는 이제 BotFrameworkConfig에서 선택적 "bot ID" 매개 변수를 지원합니다. 이 매개 변수를 사용하면 음성 리소스 하나로 여러 Direct Line Speech 봇을 사용할 수 있습니다. 이 매개 변수를 지정하지 않으면 기본 봇(Direct Line Speech 채널 구성 페이지에서 결정)이 사용됩니다.
  • DialogServiceConnector에는 이제 SpeechActivityTemplate 속성이 있습니다. 이 JSON 문자열의 내용은 Direct Line Speech 봇에 도달하는 모든 활동에서 지원되는 다양한 지원 필드를 미리 채우기 위해 Direct Line Speech에서 사용하며, 여기에는 음성 인식과 같은 이벤트에 대응하여 자동으로 생성되는 활동이 포함됩니다.
  • 이제 TTS는 인증에 구독 키를 사용하여 신시사이저를 만든 후 첫 번째 합성 결과의 첫 번째 바이트 대기 시간을 줄입니다.
  • 19개 로캘(es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR)의 음성 인식 모델을 업데이트하여 단어 오류율을 평균 18.6% 줄였습니다. 새 모델은 받아쓰기, 콜센터 대화 내용 기록 및 비디오 인덱싱 시나리오를 비롯하여 여러 도메인을 대폭 개선합니다.

버그 수정

  • JAVA API에서 Conversation Transcriber가 올바르게 대기하지 않는 버그가 수정되었습니다.
  • Xamarin GitHub 문제에 대한 Android x86 에뮬레이터 픽스가 추가되었습니다.
  • AudioConfig에 누락된 (Get|Set)Property 메서드를 추가했습니다.
  • 연결이 실패할 때 audioDataStream을 중지할 수 없는 TTS 버그를 수정했습니다.
  • 지역이 없는 엔드포인트를 사용하면 대화 번역기에 대한 USP 오류가 발생합니다.
  • 이제 유니버설 Windows 애플리케이션에서 ID를 생성할 때 적절한 고유 GUID 알고리즘이 사용됩니다. 이전에는 의도치 않게 대규모 상호 작용에서 자주 충돌을 일으키는 스텁 구현을 기본적으로 사용했습니다.

샘플

기타 변경 내용

Speech SDK 1.9.0: 2020년 1월 릴리스

새로운 기능

  • 다중 디바이스 대화: 동일한 음성 또는 텍스트 기반 대화에 여러 디바이스를 연결하고, 필요에 따라 디바이스 간에 전송되는 메시지를 번역합니다. 이 문서에서 자세히 알아보세요.
  • Android .aar 패키지에 대한 키워드 인식 지원이 추가되었으며 x86 및 x64 기능에 대한 지원이 추가되었습니다.
  • Objective-C: SendMessageSetMessageProperty 메서드가 Connection 개체에 추가되었습니다. 여기 설명서를 참조하세요.
  • TTS C++ API는 이제 std::wstring을 합성 텍스트 입력으로 지원하므로 wstring을 SDK로 전달하기 전에 문자열로 변환할 필요가 없습니다. 자세한 내용은 여기를 참조하세요.
  • C#: 이제 언어 ID소스 언어 구성을 사용할 수 있습니다.
  • JavaScript: Speech Service의 사용자 지정 메시지를 receivedServiceMessage 콜백으로 전달하는 기능을 Connection 개체에 추가했습니다.
  • JavaScript: 온-프레미스 컨테이너 및 소버린 클라우드에서 쉽게 사용할 수 있도록 FromHost API에 대한 지원이 추가되었습니다. 여기 설명서를 참조하세요.
  • JavaScript: orgads의 기여로 이제 NODE_TLS_REJECT_UNAUTHORIZED를 적용하게 되었습니다. 자세한 내용은 여기를 참조하세요.

주요 변경 내용

  • OpenSSL은 1.1.1b 버전으로 업데이트되었으며 Linux용 Speech SDK 핵심 라이브러리에 정적으로 연결됩니다. 이로 인해 시스템의 /usr/lib/ssl 디렉터리에 수신함 OpenSSL이 설치되지 않으면 중단이 발생할 수 있습니다. Speech SDK 문서의 설명서에서 문제 해결 방법을 확인하세요.
  • C# WordLevelTimingResult.Offset에 대해 반환되는 데이터 형식을 int에서 long으로 변경했으므로 이제 음성 데이터가 2분보다 긴 경우 WordLevelTimingResults에 액세스할 수 있습니다.
  • 이제 PushAudioInputStreamPullAudioInputStreamAudioStreamFormat(만들 때 필요에 따라 설정)을 기반으로 wav 헤더 정보를 Speech Service에 보냅니다. 이제 고객은 지원되는 오디오 입력 형식을 사용해야 합니다. 그 외의 형식을 사용하면 최적이 아닌 인식 결과를 얻거나 다른 문제를 일으킬 수 있습니다.

버그 수정

  • 위의 주요 변경 내용에서 OpenSSL 업데이트를 참조하세요. Linux 및 Java의 간헐적인 충돌 및 성능 문제(높은 부하 상태에서 잠금 경합)가 모두 수정되었습니다.
  • Java: 높은 동시성 시나리오에서 개체 닫기를 개선했습니다.
  • NuGet 패키지를 재구성했습니다. lib 폴더에서 Microsoft.CognitiveServices.Speech.core.dllMicrosoft.CognitiveServices.Speech.extension.kws.dll의 복사본 3개를 제거하여 NuGet 패키지를 더 작고 더 빠르게 다운로드할 수 있게 만들었으며, 일부 C++ 네이티브 앱을 컴파일하는 데 필요한 헤더를 추가했습니다.
  • 여기 빠른 시작 샘플을 수정했습니다. 이전에는 Linux, macOS, Windows에서 "마이크를 찾을 수 없음" 예외를 표시하지 않고 종료되었습니다.
  • 이 샘플처럼 특정 코드 경로에서 긴 음성 인식 결과와 함께 SDK가 충돌하는 문제를 수정했습니다.
  • 이 고객 문제를 해결하기 위해 Azure 웹앱 환경의 SDK 배포 오류를 수정했습니다.
  • 이 고객 문제를 해결하기 위해 여러 <voice> 태그 또는 <audio> 태그를 사용할 때 발생하는 TTS 오류를 수정했습니다.
  • SDK가 일시 중단에서 복구될 때 발생하는 TTS 401 오류를 수정했습니다.
  • JavaScript: euirim의 기여 덕분에 오디오 데이터의 순환 가져오기를 수정했습니다.
  • JavaScript: 1.7에 추가된 대로 서비스 속성을 설정하기 위한 지원이 추가되었습니다.
  • JavaScript: 연결 오류가 발생하면 실패한 websocket 다시 연결 시도가 연속적으로 발생하는 문제를 수정했습니다.

샘플

  • Android 키워드 인식 샘플이 여기에 추가되었습니다.
  • 서버 시나리오에 대한 TTS 샘플이 여기에 추가되었습니다.
  • C# 및 C++에 대한 다중 디바이스 대화 빠른 시작이 여기에 추가되었습니다.

기타 변경 내용

  • Android의 SDK 핵심 라이브러리 크기를 최적화했습니다.
  • 1.9.0 이상의 SDK는 Conversation Transcriber의 음성 서명 버전 필드에서 intstring 형식을 모두 지원합니다.

Speech SDK 1.8.0: 2019년 11월 릴리스

새로운 기능

  • 온-프레미스 컨테이너 및 소버린 클라우드에서 쉽게 사용할 수 있도록 FromHost() API를 추가했습니다.
  • Java 및 C++에서 음성 인식을 위한 소스 언어 식별을 추가했습니다.
  • Java 및 C++에서 필요한 소스 언어를 지정하는 데 사용되는 음성 인식용 SourceLanguageConfig 개체를 추가했습니다.
  • NuGet 및 Unity 패키지를 통해 Windows(UWP), Android 및 iOS에 대한 KeywordRecognizer 지원을 추가했습니다.
  • 비동기 일괄 처리에서 대화 기록을 수행할 수 있도록 Remote Conversation Java API를 추가했습니다.

주요 변경 내용

  • Conversation Transcriber 기능이 Microsoft.CognitiveServices.Speech.Transcription 네임스페이스에서 이동되었습니다.
  • Conversation Transcriber 메서드의 일부는 새 Conversation 클래스로 이동되었습니다.
  • 32비트(ARMv7 및 x86) iOS에 대한 지원 삭제

버그 수정

  • 유효한 Speech Service 구독 키 없이 로컬 KeywordRecognizer를 사용하는 경우 발생하는 충돌 해결

샘플

  • KeywordRecognizer에 대한 Xamarin 샘플
  • KeywordRecognizer에 대한 Unity 샘플
  • 자동 소스 언어 식별을 위한 C++ 및 Java 샘플.

Speech SDK 1.7.0: 2019년 9월 릴리스

새로운 기능

  • UWP(유니버설 Windows 플랫폼), Android 및 iOS에서 Xamarin에 대한 베타 지원이 추가되었습니다.
  • Unity에 대한 iOS 지원이 추가되었습니다.
  • Android, iOS 및 Linux에서 ALaw, Mulaw, FLAC에 대한 Compressed 입력 지원이 추가되었습니다.
  • 서비스에 메시지를 보낼 수 있도록 SendMessageAsync 클래스에 Connection이 추가되었습니다.
  • 메시지의 속성을 설정할 수 있도록 SetMessageProperty 클래스에 Connection이 추가되었습니다.
  • Java(JRE 및 Android), Python, Swift 및 Objective-C에 대한 바인딩이 TTS에 추가되었습니다.
  • macOS, iOS 및 Android에 대한 재생 지원이 TTS에 추가되었습니다.
  • TTS에 대한 "단어 경계" 정보가 추가되었습니다.

버그 수정

  • Android용 Unity 2019에서 IL2CPP 빌드 문제가 수정되었습니다.
  • wav 파일 입력의 잘못된 헤더가 올바르지 않게 처리되는 문제를 수정했습니다.
  • UUID가 일부 연결 속성에서 고유하지 않은 문제를 수정했습니다.
  • Swift 바인딩에서 Null 허용 여부 지정자에 대한 몇 가지 경고를 수정 했습니다(코드를 약간 변경해야 할 수 있음).
  • 네트워크 부하 시 websocket 연결이 비정상적으로 종료되는 버그를 수정했습니다.
  • Android에서 가끔 중복된 광고 노출 ID가 DialogServiceConnector에 사용되는 문제를 수정했습니다.
  • 다중 턴 상호 작용의 연결 안정성 및 DialogServiceConnector에서 오류 발생 시 오류 보고(Canceled 이벤트를 통해) 기능이 향상되었습니다.
  • 이제 DialogServiceConnector 세션 시작은 활성 StartKeywordRecognitionAsync() 상태에서 ListenOnceAsync()를 호출하는 경우를 포함하여 이벤트를 올바르게 제공합니다.
  • DialogServiceConnector 활동 수신 중에 발생하는 충돌을 해결했습니다.

샘플

  • Xamarin에 대한 빠른 시작
  • Linux Arm64 정보와 함께 CPP 빠른 시작이 업데이트됨
  • Unity 빠른 시작의 iOS 정보 업데이트

Speech SDK 1.6.0: 2019년 6월 릴리스

샘플

  • UWP 및 Unity의 텍스트 음성 변환 빠른 시작 샘플
  • iOS의 Swift에 대한 빠른 시작 샘플
  • 음성 및 의도 인식과 번역에 대한 Unity 샘플
  • DialogServiceConnector에 대한 빠른 시작 샘플 업데이트

향상된 기능/변경 사항

  • 대화 상자 네임스페이스:
    • SpeechBotConnectorDialogServiceConnector로 이름이 변경되었습니다.
    • BotConfigDialogServiceConfig로 이름이 변경되었습니다.
    • BotConfig::FromChannelSecret()DialogServiceConfig::FromBotSecret()으로 다시 매핑되었습니다.
    • 기존의 모든 Direct Line Speech 클라이언트는 이름 바꾸기 후에도 계속 지원됩니다.
  • 프록시, 영구 연결을 지원하도록 TTS REST 어댑터 업데이트
  • 잘못된 지역이 전달될 때 오류 메시지 개선
  • Swift/Objective-C:
    • 오류 보고 개선: 오류를 발생시킬 수 있는 메서드는 이제 두 가지 버전으로 제공됩니다. 하나는 오류 처리를 위해 NSError 개체를 노출하는 버전이고, 다른 하나는 예외를 발생시키는 버전입니다. Swift에는 전자가 노출됩니다. 이렇게 변경하려면 기존 Swift 코드를 조정해야 합니다.
    • 이벤트 처리 개선

버그 수정

  • 오디오가 렌더링을 완료할 때까지 기다리지 않고 SpeakTextAsync가 나중에 반환되는 TTS 문제 수정
  • 전체 언어 지원을 가능하게 하는 C#의 문자열 마샬링 수정
  • 샘플에서 net461 대상 프레임워크를 사용하여 핵심 라이브러리를 로드하는 .NET Core 앱 문제 수정
  • 샘플에서 출력 폴더에 네이티브 라이브러리를 배포하는 간헐적 문제 수정
  • 안정적으로 웹 소켓을 닫도록 수정
  • Linux에서 부하가 높은 상태에서 연결을 여는 동안 발생할 수 있는 충돌 수정
  • macOS용 프레임워크 번들에서 누락된 메타데이터 수정
  • Windows에서 pip install --user 문제 수정

Speech SDK 1.5.1

버그 수정 릴리스이며 네이티브/관리형 SDK에만 적용됩니다. SDK의 JavaScript 버전에는 영향을 주지 않습니다.

버그 수정

  • 대화 기록에 사용되는 FromSubscription을 수정했습니다.
  • 음성 도우미의 키워드 검출 버그를 수정했습니다.

Speech SDK 1.5.0: 2019년 5월 릴리스

새로운 기능

  • 이제 Windows 및 Linux에서 KWS(키워드 검출)를 사용할 수 있습니다. KWS 기능은 모든 마이크 종류에 사용할 수 있지만 공식 KWS 지원은 현재 Azure Kinect DK 하드웨어 또는 Speech Devices SDK에 있는 마이크 배열로 제한됩니다.
  • 구문 힌트 기능은 SDK를 통해 사용할 수 있습니다. 자세한 내용은 여기를 참조하세요.
  • 대화 기록 기능은 SDK를 통해 사용할 수 있습니다.
  • Direct Line Speech 채널을 사용하는 음성 도우미 지원이 추가되었습니다.

샘플

  • SDK에서 지원하는 새 기능 또는 새로운 서비스에 대한 샘플이 추가되었습니다.

향상된 기능/변경 사항

  • 서비스 동작 또는 서비스 결과(예: 욕설 및 기타 비속어 마스킹)를 조정하는 다양한 인식기 속성이 추가되었습니다.
  • 이제 FromEndpoint 인식기를 만들었더라도 표준 구성 속성을 통해 인식기를 구성할 수 있습니다.
  • Objective-C: OutputFormat 속성이 SPXSpeechConfiguration에 추가되었습니다.
  • 이제 SDK는 Linux 배포판으로 Debian 9를 지원합니다.

버그 수정

  • 화자 리소스가 텍스트 음성 변환에서 너무 일찍 소멸하는 문제를 수정했습니다.

Speech SDK 1.4.2

버그 수정 릴리스이며 네이티브/관리형 SDK에만 적용됩니다. SDK의 JavaScript 버전에는 영향을 주지 않습니다.

Speech SDK 1.4.1

JavaScript 전용 릴리스입니다. 추가한 기능은 없습니다. 다음과 같이 수정했습니다.

  • 웹 팩이 https 프록시 에이전트를 로드할 수 없습니다.

Speech SDK 1.4.0: 2019년 4월 릴리스

새로운 기능

  • 이제 SDK는 텍스트 음성 변환 서비스를 베타 버전으로 지원합니다. C++ 및 C#의 Windows 및 Linux 데스크톱에서 지원됩니다. 자세한 내용은 텍스트 음성 변환 개요를 참조하세요.
  • 이제 SDK는 MP3 및 Opus/OGG 오디오 파일을 스트림 입력 파일로 지원합니다. 이 기능은 C++ 및 C#의 Linux에서만 사용할 수 있으며 현재 베타 버전입니다(자세한 내용은 여기 참조).
  • Java, .NET Core, C++ 및 Objective-C에 대한 Speech SDK에서 macOS를 지원합니다. Objective-C의 macOS 지원은 현제 베타 버전입니다.
  • iOS: iOS용 Speech SDK(Objective-C) 역시 현재 CocoaPod로 게시됩니다.
  • JavaScript: 기본이 아닌 마이크를 입력 디바이스로 지원합니다.
  • JavaScript: Node.js에 대한 프록시를 지원합니다.

샘플

  • macOS 기반의 C++ 및 Objective-C에서 Speech SDK를 사용하는 샘플이 추가되었습니다.
  • 텍스트 음성 변환 서비스 사용법을 보여주는 샘플이 추가되었습니다.

향상된 기능/변경 사항

  • Python: 이제 인식 결과의 추가 속성이 properties 속성을 통해 노출됩니다.
  • 추가 개발 및 디버그 지원이 필요한 경우 SDK 로깅 및 진단 정보를 로그 파일로 리디렉션할 수 있습니다(자세한 내용은 여기 참조).
  • JavaScript: 오디오 처리 성능이 향상되었습니다.

버그 수정

  • Mac/iOS: Speech Service에 대한 연결을 설정할 수 없을 때 오래 기다려야 하는 버그를 수정했습니다.
  • Python: Python 콜백의 인수에 대한 오류 처리가 향상되었습니다.
  • JavaScript: RequestSession에서 종료된 음성의 잘못된 상태 보고가 수정되었습니다.

Speech SDK 1.3.1: 2019년 2월 새로 고침

버그 수정 릴리스이며 네이티브/관리형 SDK에만 적용됩니다. SDK의 JavaScript 버전에는 영향을 주지 않습니다.

버그 수정

  • 마이크 입력을 사용할 때 메모리 누수가 수정되었습니다. 스트림 기반 또는 파일 입력에는 영향을 주지 않습니다.

Speech SDK 1.3.0: 2019 2월 릴리스

새로운 기능

  • Speech SDK는 AudioConfig 클래스를 통해 입력 마이크를 선택할 수 있도록 지원합니다. 따라서 기본이 아닌 마이크에서 Speech Service로 오디오 데이터를 스트리밍할 수 있습니다. 자세한 내용은 오디오 입력 디바이스 선택에 대한 설명서를 참조하세요. JavaScript에서는 아직 이 기능을 사용할 수 없습니다.
  • 이제 Speech SDK는 베타 버전의 Unity를 지원합니다. GitHub 샘플 리포지토리의 문제 섹션을 통해 피드백을 제공하세요. 이 릴리스에서는 Windows x86 및 x64(데스크톱 또는 유니버설 Windows 플랫폼 애플리케이션)와 Android(ARM32/64, x86)의 Unity를 지원합니다. 자세한 내용은 Unity 빠른 시작을 참조하세요.
  • 이전 릴리스에서 제공하던 Microsoft.CognitiveServices.Speech.csharp.bindings.dll 파일은 더 이상 필요 없습니다. 이제 이 기능이 핵심 SDK에 통합되었습니다.

샘플

다음 새 콘텐츠는 샘플 리포지토리에서 사용할 수 있습니다.

  • AudioConfig.FromMicrophoneInput에 대한 추가 샘플
  • 의도 인식 및 변환에 대한 추가 Python 샘플
  • iOS에서 Connection 개체를 사용하는 방법에 대한 추가 샘플
  • 오디오 출력을 사용한 변환에 대한 추가 Java 예제
  • 일괄 처리 기록 REST API

향상된 기능/변경 사항

  • Python
    • SpeechConfig의 매개 변수 확인 및 오류 메시지를 개선했습니다.
    • Connection 개체 지원을 추가했습니다.
    • Windows에서 32비트 Python(x86)을 지원합니다.
    • Python용 Speech SDK가 베타를 벗어났습니다.
  • iOS
    • SDK는 이제 iOS SDK 버전 12.1용으로 빌드되었습니다.
    • SDK는 이제 iOS 버전 9.2 이상을 지원합니다.
    • 참조 설명서를 개선하고 몇 가지 속성 이름을 수정합니다.
  • JavaScript
    • Connection 개체 지원을 추가했습니다.
    • 번들로 묶은 JavaScript의 형식 정의 파일을 추가했습니다.
    • 구문 힌트의 초기 지원 및 구현이 제공됩니다.
    • 인식을 위해 서비스 JSON을 사용하는 속성 컬렉션을 반환합니다.
  • 이제 Windows DLL이 버전 리소스를 포함합니다.
  • FromEndpoint 인식기를 만드는 경우 엔드포인트 URL에 매개 변수를 직접 추가할 수 있습니다. FromEndpoint를 사용하면 표준 구성 속성을 통해 인식기를 구성할 수 없습니다.

버그 수정

  • 빈 프록시 이름과 프록시 암호가 올바르게 처리되지 않았습니다. 이 릴리스에서는 프록시 이름과 프록시 암호를 빈 문자열로 설정하면 프록시에 연결될 때 제출되지 않습니다.
  • SDK에서 만든 SessionId가 항상 일부 언어/환경에서 무작위인 것은 아니었습니다. 이 문제를 수정하기 위해 난수 생성기 초기화를 추가했습니다.
  • 권한 부여 토큰 처리를 개선했습니다. 권한 부여 토큰을 사용하려는 경우 SpeechConfig에서 지정하고 구독 키를 비워 둡니다. 그런 다음, 평소처럼 인식기를 만듭니다.
  • 경우에 따라 Connection 개체가 올바르게 해제되지 않았습니다. 이 문제는 해결되었습니다.
  • Safari에서도 오디오 출력의 변환 합성을 지원하도록 JavaScript 샘플을 수정했습니다.

Speech SDK 1.2.1

JavaScript 전용 릴리스입니다. 추가한 기능은 없습니다. 다음과 같이 수정했습니다.

  • speech.end가 아닌 turn.end에서 스트림 끝을 실행합니다.
  • 현재 전송이 실패한 경우 다음 전송을 예약하지 않는 오디오 펌프의 버그를 수정했습니다.
  • 인증 토큰을 사용한 연속 인식을 수정했습니다.
  • 다른 인식기/엔드포인트의 버그를 수정했습니다.
  • 설명서 향상된 기능입니다.

Speech SDK 1.2.0: 2018년 12월 릴리스

새로운 기능

  • Python
    • 이 릴리스에서는 베타 버전의 Python(3.5 이상)이 지원됩니다. 자세한 내용은 [여기](../../quickstart-python.md)를 참조하세요.
  • JavaScript
    • JavaScript용 Speech SDK가 오픈 소스로 제공됩니다. 소스 코드는 GitHub에서 사용할 수 있습니다.
    • 이제 Node.js를 지원합니다. 자세한 정보는 여기에서 확인할 수 있습니다.
    • 오디오 세션에 대한 길이 제한이 제거되었으므로 백그라운드에서 자동으로 다시 연결됩니다.
  • Connection 개체의 멤버의 부모에 대해 SQL Server 인스턴스 이름을 표시합니다.
    • Recognizer에서 Connection 개체에 액세스할 수 있습니다. 이 개체를 사용하면 명시적으로 서비스 연결을 시작하고 연결 및 연결 끊기 이벤트를 구독할 수 있습니다. (아직 JavaScript 및 Python에서는 이 기능을 사용할 수 없습니다.)
  • Ubuntu 18.04 지원
  • Android
    • APK 생성 중에 ProGuard 지원이 설정되었습니다.

개선

  • 스레드, 잠금, 뮤텍스 수를 줄이면서 내부 스레드 사용이 개선되었습니다.
  • 오류 보고/정보가 개선되었습니다. 여러 경우에 오류 메시지가 끝까지 전파되지 않았습니다.
  • 최신 모듈을 사용하도록 JavaScript의 개발 종속성을 업데이트했습니다.

버그 수정

  • RecognizeAsync의 형식 불일치로 인한 메모리 누수가 수정되었습니다.
  • 어떤 경우에는 예외가 유출되었습니다.
  • 번역 이벤트 인수에서 메모리 누수가 수정되었습니다.
  • 장기 실행 세션에서 다시 연결 시 잠금 문제가 해결되었습니다.
  • 번역 실패로 인해 최종 결과가 누락될 수 있는 문제가 해결되었습니다.
  • C#: 주 스레드에서 async 작업을 기다리지 않는 경우 비동기 작업이 완료되기 전에 인식기가 삭제될 수 있었습니다.
  • Java: Java VM 충돌 문제가 해결되었습니다.
  • Objective-C: 고정 열거형 매핑: RecognizingIntent 대신 RecognizedIntent가 반환되었습니다.
  • JavaScript: SpeechConfig에서 기본 출력 형식을 'simple'로 설정합니다.
  • JavaScript: JavaScript 및 다른 언어에서 구성 개체 속성 간 불일치를 제거합니다.

샘플

  • 여러 샘플을 업데이트하고 수정했습니다(예: 번역을 위한 출력 음성 등).
  • Node.js 샘플을 샘플 리포지토리에 추가했습니다.

Speech SDK 1.1.0

새로운 기능

  • Android x86/x64를 지원합니다.
  • 프록시 지원: 이제 SpeechConfig 개체에서 함수를 호출하여 프록시 정보(호스트 이름, 포트, 사용자 이름 및 암호)를 설정할 수 있습니다. iOS에서는 아직 이 기능을 사용할 수 없습니다.
  • 향상된 오류 코드 및 메시지입니다. 인식이 오류를 반환한 경우 이미 Reason(취소된 이벤트의) 또는 CancellationDetails(인식 결과의) Error로 설정되어 있습니다. 취소 이벤트에는 이제 두 개의 추가 멤버 ErrorCodeErrorDetails가 포함됩니다. 서버에서 보고된 오류를 사용하여 추가 오류 정보를 반환하는 경우 해당 서버를 새 멤버에서 사용할 수 있습니다.

개선

  • 인식기 구성에서 추가 확인을 추가하고, 추가 오류 메시지를 추가했습니다.
  • 오디오 파일의 중간에 긴 무음 시간 처리가 향상되었습니다.
  • NuGet 패키지: .NET Framework의 경우 프로젝트는 AnyCPU 구성을 통한 빌드를 방지합니다.

버그 수정

  • 인식기에서 발견된 몇 가지 예외를 수정했습니다. 또한 예외가 catch되고 Canceled 이벤트로 변환됩니다.
  • 속성 관리에서 메모리 누수를 해결합니다.
  • 오디오 입력 파일이 인식기 작동을 중지할 수 있는 버그가 수정되었습니다.
  • 세션 중지 이벤트 후 이벤트를 수신할 수 있는 버그가 수정되었습니다.
  • 스레딩에서 일부 경합 상태가 수정되었습니다.
  • 결국 충돌을 일으킬 수 있는 iOS 호환성 문제가 해결되었습니다.
  • Android 마이크 지원의 안정성 향상.
  • JavaScript의 인식기가 인식 언어를 무시하는 버그가 수정되었습니다.
  • JavaScript에서 EndpointId(일부 경우) 설정을 방해하는 버그가 수정되었습니다.
  • JavaScript의 AddIntent에서 매개 변수 순서를 변경하고, 누락된 AddIntent JavaScript 서명을 추가했습니다.

샘플

  • 샘플 리포지토리에 끌어오기 및 밀어넣기 스트리밍 사용에 대한 C++ 및 C# 샘플을 추가했습니다.

Speech SDK 1.0.1

안정성 향상 및 버그 수정:

  • 삭제 중인 인식기의 경합으로 인한 잠재적인 심각한 오류가 수정되었습니다.
  • 속성이 설정되지 않은 경우 발생할 수 있는 심각한 오류가 수정되었습니다.
  • 추가 오류 및 매개 변수 검사가 추가되었습니다.
  • Objective-C: NSString에서 이름 재정의로 인한 잠재적인 심각한 오류가 수정되었습니다.
  • Objectice-C: API의 표시 유형이 조정되었습니다.
  • JavaScript: 관련 이벤트 및 해당 페이로드가 수정되었습니다.
  • 설명서 향상된 기능입니다.

샘플 리포지토리에서 JavaScript에 대한 새로운 샘플이 추가되었습니다.

Azure AI 음성 SDK 1.0.0: 2018년 9월 릴리스

새로운 기능

주요 변경 내용

  • 이 릴리스에는 몇 가지 주요한 변경 내용이 도입되었습니다. 자세한 내용은 이 페이지를 확인하세요.

Azure AI 음성 SDK 0.6.0: 2018년 8월 릴리스

새로운 기능

  • Speech SDK를 사용하여 빌드된 UWP 앱은 이제 WACK(Windows 앱 인증 키트)를 전달할 수 있습니다. UWP 빠른 시작을 확인하세요.
  • Linux(Ubuntu 16.04 x64)에서 .NET 표준 2.0을 지원합니다.
  • 실험: Windows(64비트) 및 Linux(Ubuntu 16.04 x64)에서 Java 8을 지원합니다. Java Runtime Environment 빠른 시작을 확인하세요.

기능 변경

  • 연결 오류에 대한 추가 오류 세부 정보를 표시합니다.

주요 변경 내용

  • Java(Android)에서, SpeechFactory.configureNativePlatformBindingWithDefaultCertificate 함수는 더 이상 경로 매개 변수를 요구하지 않습니다. 이제 지원되는 모든 플랫폼에서 경로가 자동으로 검색됩니다.
  • Java 및 C#에서 EndpointUrl 속성의 get-accessor가 제거되었습니다.

버그 수정

  • Java에서, 번역 인식기의 오디오 합성 결과가 구현되었습니다.
  • 비활성 스레드 및 사용되지 않는 열린 소켓 수가 증가하는 버그가 수정되었습니다.
  • 오래 실행되는 인식이 전송 중에 종료될 수 있는 문제가 해결되었습니다.
  • 인식기 종료에서 발생하는 경합 조건을 수정했습니다.

Azure AI 음성 SDK 0.5.0: 2018년 7월 릴리스

새로운 기능

  • Android 플랫폼(API 23: Android 6.0 Marshmallow 이상)을 지원합니다. Android 빠른 시작을 확인하세요.
  • Windows에서 .NET Standard 2.0을 지원합니다. .NET Core 빠른 시작을 확인하세요.
  • 실험: Windows(버전 1709 이상)에서 UWP를 지원합니다.
    • UWP 빠른 시작을 확인하세요.
    • Speech SDK를 사용하여 빌드된 UWP 앱은 아직 WACK(Windows 앱 인증 키트)를 제공하지 않습니다.
  • 자동 다시 연결을 통해 장기 실행 인식을 지원합니다.

기능 변경 내용

  • StartContinuousRecognitionAsync()에서 장기 실행 인식을 지원합니다.
  • 인식 결과에 더 많은 필드가 포함됩니다. 인식된 텍스트의 오디오 시작 및 지속 시간의 오프셋(두 가지 모두 틱 단위) 및 인식 상태를 나타내는 추가 값(예: InitialSilenceTimeout, InitialBabbleTimeout)입니다.
  • 팩터리 인스턴스를 만들기 위한 AuthorizationToken을 지원합니다.

주요 변경 내용

  • 인식 이벤트: NoMatch 이벤트 유형이 Error 이벤트에 병합되었습니다.
  • C#의 SpeechOutputFormat이 C++에 맞게 OutputFormat으로 이름이 바뀌었습니다.
  • AudioInputStream 인터페이스의 일부 메서드 반환 형식이 다음과 같이 약간 변경되었습니다.
    • Java에서 read 메서드는 이제 int 대신 long을 반환합니다.
    • C#에서 Read 메서드는 이제 int 대신 uint을 반환합니다.
    • C++에서 ReadGetFormat 메서드는 이제 int 대신 size_t를 반환합니다.
  • C++: 오디오 입력 스트림의 인스턴스가 이제 shared_ptr로만 전달될 수 있습니다.

버그 수정

  • RecognizeAsync() 시간이 초과될 때 결과의 잘못된 반환 값이 수정되었습니다.
  • Windows에서 미디어 파운데이션 라이브러리에 대한 종속성이 제거되었습니다. SDK에 이제 Core Audio API가 사용됩니다.
  • 설명서 수정 사항: 지원되는 지역을 설명하는 지역 페이지가 추가되었습니다.

알려진 이슈

  • Android용 Speech SDK에서는 번역에 대한 음성 합성 결과를 보고하지 않습니다. 이 문제는 다음 릴리스에서 해결될 예정입니다.

Azure AI 음성 SDK 0.4.0: 2018년 6월 릴리스

기능 변경 내용

  • AudioInputStream

    이제 인식기가 스트림을 오디오 원본으로 사용할 수 있습니다. 자세한 내용은 관련 방법 가이드를 참조하세요.

  • 자세한 출력 형식

    SpeechRecognizer를 만들 때 Detailed 또는 Simple 출력 형식을 요청할 수 있습니다. DetailedSpeechRecognitionResult에는 신뢰도 점수, 인식된 텍스트, 원시 어휘 형식, 정규화된 형식 및 마스킹된 욕설이 포함된 정규화된 형식이 포함됩니다.

주요 변경 내용

  • C#의 SpeechRecognitionResult.RecognizedTextSpeechRecognitionResult.Text로 변경되었습니다.

버그 수정

  • 종료하는 동안 USP 계층에서 발생할 수 있는 콜백 문제가 해결되었습니다.
  • 인식기가 오디오 입력 파일을 사용한 경우, 필요한 것보다 더 긴 파일 핸들을 사용하고 있었습니다.
  • 메시지 펌프와 인식기 간에 여러 가지 교착 상태가 제거되었습니다.
  • 서비스 응답 시간이 초과되면 NoMatch 결과를 실행합니다.
  • Windows의 미디어 파운데이션 라이브러리는 지연 로드됩니다. 이 라이브러리는 마이크 입력에만 필요합니다.
  • 오디오 데이터의 업로드 속도는 원본 오디오 속도의 두 배 정도로 제한됩니다.
  • Windows에서 C# .NET 어셈블리에 이제 강력한 이름이 지정됩니다.
  • 설명서 수정: Region은 인식기를 만드는 데 필요한 정보입니다.

추가 샘플이 추가되었고 지속적으로 업데이트되고 있습니다. 최신 샘플 집합은 Speech SDK 샘플 GitHub 리포지토리를 참조하세요.

Azure AI 음성 SDK 0.2.12733: 2018년 5월 릴리스

이 릴리스는 Azure AI 음성 SDK의 첫 번째 공개 미리 보기 릴리스입니다.