Azure AI 音声の新機能

[アーティクル]
04/22/2024

Azure AI 音声は、継続的に更新されます。常に最新の開発情報を把握していただけるよう、この記事では新しいリリースと機能に関する情報を提供します。

リリースノート

サービスまたはリソースを選択してください

Linux および Android ユーザー向けの今後のプラン:

注意

この記事では、間もなくサポート終了 (EOL) 状態になる Linux ディストリビューションである CentOS について説明します。適宜、使用と計画を検討してください。詳細については、「CentOS のサポート終了に関するガイダンス」を参照してください。

Ubuntu 18.04 も 2023 年 4 月に終了しました。そのため、ユーザーは、最小バージョンを Ubuntu 20.04 に移行する準備をする必要があります。

Speech SDK 1.37.0: 2024 年 4 月リリース

新機能

音声合成での入力テキストストリーミングのサポートを追加します。
既定の音声合成の音声を en-US-AvaMultilingualNeural に変更します。
OpenSSL 3.x を使用するように Android ビルドを更新します。

バグ修正

MAS の使用時に SpeechRecognizer の破棄中に不定期に発生する JVM のクラッシュを修正します。 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Linux 上の既定のオーディオデバイスの検出を改善します。 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

サンプル

新機能用に更新されました。

Speech SDK 1.36.0: 2024 年 3 月のリリース

新機能

AutoDetectSourceLanguageConfig::FromOpenRange() を使用して、v2 エンドポイントの多言語翻訳での言語識別のサポートを追加します。

バグ修正

SynthesisStarted イベント中に停止が呼び出された場合に、SynthesisCanceled イベントが発生しない問題を修正します。
埋め込み音声合成のノイズの問題を修正します。
複数の認識エンジンを並列で実行した場合に、埋め込み音声認識でクラッシュが発生する問題を修正します。
v1/v2 エンドポイントのフレーズ検出モード設定を修正します。
Microsoft Audio Stack に関するさまざまな問題を修正します。

サンプル

新機能に対する更新プログラム。

Speech SDK 1.35.0: 2024 年 2 月のリリース

新機能

既定のテキスト読み上げ音声を en-US-JennyMultilingualNeural から en-US-AvaNeural に変更。
詳細な出力形式を使用して、埋め込み音声翻訳結果での単語レベルの詳細をサポート。

バグ修正

Python の AudioDataStream 位置ゲッター API を修正。
言語検出なしで v2 エンドポイントを使用する音声翻訳を修正。
埋め込みのテキスト読み上げでのランダムなクラッシュとワード境界イベントの重複を修正。
WebSocket 接続の内部サーバーエラーについて正確なキャンセルエラーコードを返す。
C# で MAS を使用する場合に発生する FPIEProcessor.dll ライブラリの読み込みエラーを修正。

サンプル

埋め込み認識サンプルの書式のマイナー更新。

Speech SDK 1.34.1: 2024 年 1 月のリリース

重大な変更

バグ修正のみ

新機能

バグ修正のみ

バグ修正

複数の中国リージョンのユーザーについて不適切なロケール情報でサービスエンドポイント URL が作成される、1.34.0 で発生した回帰を修正しました。

Speech SDK 1.34.0: 2023 年 11 月リリース

重大な変更

SpeechRecognizer は、既定で (つまり URL を明示的に指定しない場合) 新しいエンドポイントを使用するように更新され、ほとんどのプロパティでクエリ文字列パラメーターがサポートされなくなりました。 ServicePropertyChannel.UriQueryParameter でクエリ文字列パラメーターを直接設定するのではなく、対応する API 関数を代わりに使用してください。

新機能

.NET 8 との互換性 (centos7-x64 に関する警告を除く、https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 の修正)
埋め込み音声を実行するデバイスの機能を評価するために使用できる埋め込み音声パフォーマンスメトリックのサポート。
埋め込み多言語翻訳でのソース言語識別のサポート。
iOS および Swift/Objective-C 向けの埋め込み音声テキスト変換、テキスト読み上げ、翻訳のサポートをプレビューでリリース。
埋め込みサポートは、MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod で提供されています。

バグ修正

iOS SDK でバイナリサイズが 2 倍に増加する問題を修正 · イシュー #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Azure Speech to Text API からワードレベルのタイムスタンプを取得できない問題を修正 · イシュー #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
DialogServiceConnector 破棄フェーズでイベントが正しく切断されるように修正しました。これが原因で時々クラッシュが発生していました。
MAS が使用されている場合の認識エンジンの作成時に例外が発生する問題を修正しました。
Windows UWP x64 および ARM64 用 Microsoft.CognitiveServices.Speech.Extension.MAS NuGet パッケージの FPIEProcessor.dll は、ネイティブ C++ の VC ランタイムライブラリに依存していました。この問題は、依存関係を更新して VC ランタイムライブラリを修正することで修正されました (UWP の場合)。
[MAS] の修正: MAS 使用時に SPXERR_ALREADY_INITIALIZED につながる recognizeOnceAsync への繰り返し呼び出しの修正 · イシュー #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
フレーズリスト使用時、埋め込み音声認識がクラッシュする問題を修正しました。

サンプル

音声テキスト変換、テキスト読み上げ、翻訳の iOS サンプルを埋め込み。

Speech CLI 1.34.0: 2023 年 11 月リリース

新機能

音声合成時の単語境界イベント出力をサポートします。

バグ修正

JMESPath 依存関係を最新リリースに更新し、文字列の評価を改善しました

Speech SDK 1.33.0: 2023 年 10 月リリース

破壊的変更の通知

Microsoft Audio Stack (MAS) 向けに追加された新しい NuGet パッケージは、MAS を使用するアプリケーションのパッケージ構成ファイルに含めることが必要になりました。

新機能

新しい NuGetパッケージ Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg が追加され、Microsoft Audio Stack 使用時のエコーキャンセルのパフォーマンスが向上しました
発音評価: 韻律とコンテンツ評価のサポートが追加され、話し言葉を韻律、語彙、文法、トピックの観点から評価できます。

バグ修正

キーワード認識結果のオフセットを修正し、入力オーディオストリームの先頭から正しく一致するようにしました。この修正は、単独のキーワード認識とキーワードをトリガーする音声認識の両方に適用されます。
Synthesizer stopSpeaking が即座に返されない問題を修正しました iOS 17 で SPXSpeechSynthesizer stopSpeaking() メソッドが即座に返されない - イシュー #2081
Apple シリコンを使用した Mac Catalyst の Swift モジュールにおけるインポートの問題を修正しました。イシュー #1948
JS: AudioWorkletNode モジュールの読み込みでは、CDN ブラウザーに含まれるフォールバックを含む信頼できる URL を使用するようになりました。
JS: パックされた lib ファイルは ES6 JS をターゲットにするようになり、ES5 JS のサポートは削除されました。
JS: v2 エンドポイントをターゲットとする翻訳シナリオの中間イベントは正しく処理されます
JS: TranslationRecognitionEventArgs の言語プロパティが translation.hypothesis イベントに設定されました。
音声合成: SynthesisCompleted イベントは、すべてのメタデータイベント後に発行されることが保証されているため、イベントの終了を示すために使用できます。口形素が完全に受信されたことを検知するにはどうすればいいですか? イシュー #2093 Azure-Samples/cognitive-services-speech-sdk

サンプル

Python を使用した MULAW ストリーミングのデモ用サンプルを追加しました)
音声テキスト変換 NAudio サンプルの修正

Speech CLI 1.33.0: 2023 年 10 月リリース

新機能

音声合成時の単語境界イベント出力をサポートします。

バグ修正

なし

Speech SDK 1.32.1: 2023 年 9 月リリース

バグ修正

OpenSSL1.1.1v からの最新のセキュリティ修正プログラムを使用した Android パッケージの更新
JS – タイムアウトワーカーのデータ URL 読み込みをバイパスできるように WebWorkerLoadType プロパティが追加されました
JS – 10 分後の会話翻訳の切断を修正
JS – 会話からの会話翻訳認証トークンが翻訳サービス接続に伝達されるようになりました

サンプル

Swift API を使用した会話の文字起こし

Speech SDK 1.31.0: 2023 8 月リリース

新機能

リアルタイムのダイアライゼーションのサポートは、Speech SDK 1.31.0 のパブリックプレビューで利用できます。この機能は、C#、C++、Java、JavaScript、Python、Objective-C/Swift の SDK で使用できます。
音声合成ワード境界および口形素イベントとオーディオ再生の同期

破壊的変更

以前の "会話の文字起こし" シナリオの名前が "会議の文字起こし" に変更されました。たとえば、ConversationTranscriber の代わりに MeetingTranscriber を使用し、CreateConversationAsync の代わりに CreateMeetingAsync を使用します。 SDK オブジェクトとメソッドの名前は変更されましたが、名前の変更による機能自体への変更はありません。ユーザープロファイルと音声署名を使用した会議の文字起こしには、会議の文字起こしオブジェクトを使用します。詳細については、会議の文字起こしに関するページを参照してください。 "会話翻訳" オブジェクトと方法は、これらの変更の影響を受けません。会議翻訳シナリオには引き続き ConversationTranslator オブジェクトとそのメソッドを使用できます。

リアルタイムのダイアライゼーションでは、新しい ConversationTranscriber オブジェクトが導入されています。新しい "会話の文字起こし" オブジェクトモデルと呼び出しパターンは、SpeechRecognizer オブジェクトを使用した継続的な認識に似ています。主な違いは、ConversationTranscriber オブジェクトは、複数の話者を区別する (ダイアライゼーション) 会話シナリオで使用するように設計されていることです。ユーザープロファイルと音声署名は適用されません。詳細については、リアルタイムのダイアライゼーションのクイックスタートを参照してください。

次の表は、リアルタイムのダイアライゼーションと会議の文字起こしの以前のオブジェクト名と新しいオブジェクト名を示しています。シナリオ名は最初の列に、前のオブジェクト名は 2 番目の列に、新しいオブジェクト名は 3 番目の列に示されています。

シナリオ名	以前のオブジェクト名	新しいオブジェクト名
リアルタイムのダイアライゼーション	該当なし	`ConversationTranscriber`
会議の文字起こし	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹Participant、ParticipantChangedReason、User オブジェクトは、会議の文字起こしと会議翻訳の両方のシナリオに適用できます。

²Meeting は新しいオブジェクトであり、MeetingTranscriber オブジェクトと共に使用されます。

バグ修正

macOS でサポートされている最小バージョンを修正しました (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017)
次の発音評価のバグを修正しました。
- 音素精度スコアの問題に対処し、特定の誤って発音された音素のみを正確に反映するようになりました。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- 特に、単語に複数の有効な発音が含まれる可能性がある状況で、発音評価機能で完全に正しい発音が誤っていると不正確に識別される問題を解決しました。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

サンプル

Speech SDK 1.30.0: 2023 年 7 月リリース

新機能

C++、C#、Java - 埋め込み音声認識の詳細な結果での DisplayWords のサポートが追加されました。
Objective-C/Swift - Objective-C/Swift での ConnectionMessageReceived イベントのサポートが追加されました。
Objective-C/Swift - iOS のキーワード認識モデルが改善されました。この変更により、iOS バイナリを含む特定のパッケージ (NuGet、XCFramework など) のサイズが大きくなりました。 Microsoft では、今後のリリースに向けて、サイズの縮小に取り組んでいます。

バグ修正

PhraseListGrammar で音声認識エンジンを使用するときのメモリリークを修正しました (GitHub の問題)。
テキスト読み上げオープン接続 API のデッドロックを修正。

追加メモ

Java - 内部的に使用される一部の public Java API メソッドが、パッケージ internal、protected、または private に変更されました。アプリケーションでこれらが使用されることは想定されていないため、この変更は開発者に影響しません。透明性のためにここに示されています。

サンプル

独自のアプリケーションで学習言語を指定する方法に関する新しい発音評価のサンプル
- C#: サンプルコードを参照してください。
- C++: サンプルコードを参照してください。
- JavaScript: サンプルコードを参照してください。
- Objective-C: サンプルコードを参照してください。
- Python: サンプルコードを参照してください。
- Swift: サンプルコードを参照してください。

Speech SDK 1.29.0: 2023 年 6 月リリース

新機能

C++、C#、Java - 埋め込み音声翻訳 API のプレビュー。これで、クラウドに接続されていなくても音声翻訳を行うことができます。
JavaScript - 音声翻訳用の継続的言語識別 (LID) が使用可能になりました。
JavaScript - VoiceInfo クラスに LocaleName プロパティを追加するためのコミュニティのコントリビューション。 pull request に関して GitHub ユーザー shivsarthak に感謝します。
C++、C#、Java - サンプルレートが 16 kHz から 48 kHz の埋め込みテキスト読み上げ出力の再サンプリングのサポートを追加。
単純なパターンマッチングを使用した意図認識エンジンでの hi-IN ロケールのサポートが追加されました。

バグの修正

Android テストの一部で見られたような、オブジェクトの破棄中に音声認識エンジンの競合状態によって発生するクラッシュを修正しました
シンプルなパターンマッチャーを使用した意図認識エンジンで発生する可能性があるデッドロックを修正しました

サンプル

新しい埋め込み音声翻訳サンプル

Speech SDK 1.28.0: 2023 年 5 月のリリース

互換性に影響する変更点

JavaScript SDK: オンライン証明書状態プロトコル (OCSP) が削除されました。これにより、クライアントは証明書の処理に関するブラウザーとノードの標準に、より適切に準拠できます。バージョン 1.28 以降には、カスタム OCSP モジュールが含まれなくなっています。

新機能

発話の最後に無音タイムアウトが発生すると、埋め込み音声認識で NoMatchReason::EndSilenceTimeout が返されるようになりました。これは、リアルタイム音声サービスを使用して認識を行う場合の動作と一致します。
JavaScript SDK: PropertyId 列挙値を使用して SpeechTranslationConfig にプロパティを設定します。

バグの修正

Windows 上の C# - Windows Audio 拡張機能で起こる可能性のある競合状態またはデッドロックを修正しています。オーディオレンダラーを迅速に破棄し、さらにシンセサイザー方式を使用して読み上げを停止するというシナリオでは、基になるイベントが停止によってリセットされておらず、レンダラーオブジェクトが破棄されない原因となる可能性があり、その間に、破棄のグローバルロックが保持され、dotnet GC スレッドが凍結する可能性があります。

サンプル

MAUI 用の埋め込み音声サンプルを追加しました。
テキスト読み上げを含むように Android Java 用の埋め込み音声サンプルを更新。

音声 SDK 1.27.0: 2023 年 4 月のリリース

今後の変更に関する通知

次の JavaScript SDK リリースで、オンライン証明書状態プロトコル (OCSP) を削除する予定です。これにより、クライアントは証明書の処理に関するブラウザーとノードの標準に、より適切に準拠できます。バージョン 1.27 は、カスタム OCSP モジュールを含む最後のリリースです。

新機能

JavaScript - 話者識別と検証を使用した、ブラウザーからのマイク入力のサポートが追加されました。
埋め込み音声認識 - PropertyId::Speech_SegmentationSilenceTimeoutMs 設定サポートの更新。

バグの修正

全般 - サービス再接続ロジックの信頼性を更新 (JavaScript を除く、すべてのプログラミング言語)。
全般 - Windows で文字列変換のメモリリークを修正 (JavaScript を除く、関連するすべてのプログラミング言語)。
埋め込み音声認識 - 特定の文法リストエントリを使用する場合のフランス語音声認識のクラッシュを修正。
ソースコードドキュメント - サービスのオーディオログに関連する SDK リファレンスドキュメントのコメントを修正。
意図認識 - リストエンティティに関連するパターンマッチャーの優先順位を修正。

サンプル

C# 会話の文字起こし (CTS) サンプルで認証エラーを適切に処理します。
Python、JavaScript、Objective-C、Swift のストリーミング発音評価の例を追加しました。

Speech SDK 1.26.0: 2023 年 3 月のリリース

重大な変更

ビットコードは、xcframework を使用した Cocoapod、NuGet (Xamarin および MAUI 用)、Unity の各パッケージ内のすべての iOS ターゲットで無効になりました。この変更は、Xcode 14 以降のビットコードサポートが Apple で廃止されたことによるものです。この変更は、Xcode 13 バージョンを使用している場合、または Speech SDK を使用してアプリケーションでビットコードを明示的に有効にしている場合は、"フレームワークにビットコードが含まれていないため、再構築する必要があります" というエラーが発生する可能性があることも意味します。この問題を解決するには、ターゲットでビットコードが無効になっていることを確認します。
このリリースでは、最小の iOS デプロイターゲットが 11.0 にアップグレードされています。つまり、armv7 HW はサポートされなくなりました。

新機能

(デバイス上の) 埋め込み音声認識では、8 kHz と 16 kHz の両方のサンプリングレート入力オーディオ (サンプルあたり 16 ビット、モノラル PCM) がサポートされるようになりました。
音声合成では、エンドツーエンドの待機時間の最適化を助けるために、接続、ネットワーク、サービスの待機時間が結果に報告されるようになりました。
単純なパターンマッチングを使用した音声意図認識の新しいタイブレークルール。一致する文字バイト数が多い方が、文字バイト数が少ないパターンマッチより優先されます。例: パターン "Select {something} in the top right" は、"Click {something}" より優先されます

バグ修正

音声合成: ワード境界イベントで絵文字が正しくないバグを修正しました。
会話言語理解 (CLU) を使用した意図認識:
- CLU オーケストレーターワークフローの意図が正しく表示されるようになりました。
- プロパティ ID LanguageUnderstandingServiceResponse_JsonResult を使用して JSON の結果を入手できるようになりました。
キーワードのアクティブ化を使用した音声認識: キーワード認識後に最大 150 ミリ秒の音声が欠落する問題を修正しました。
(お客様から報告された) Speech SDK NuGet iOS MAUI リリースビルド (GitHub の問題) の修正

サンプル

お客様から報告された Swift iOS サンプル (GitHub の問題) の修正

Speech SDK 1.25.0: 2023 年 1 月のリリース

互換性に影響する変更

言語識別 (プレビュー) API が簡略化されました。 Speech SDK 1.25 に更新してビルドの中断が発生した場合は、「言語識別」ページにアクセスして、新しいプロパティ SpeechServiceConnection_LanguageIdMode について確認してください。この 1 つのプロパティは、2 つの以前のプロパティ SpeechServiceConnection_SingleLanguageIdPriority と SpeechServiceConnection_ContinuousLanguageIdPriority を置き換えます。最近のモデルの改善により、低待機時間と高精度の優先順位付けは不要になりました。現在必要なのは、継続的な音声認識または翻訳を行うときに、開始時または継続的な言語識別のどちらを実行するかを選択することだけです。

新機能

C#/C++/Java: Embedded Speech SDK が、限定的なパブリックプレビューでリリースされました。「埋め込み音声 (プレビュー)」のドキュメントを参照してください。クラウド接続が断続的または利用できない場合に、デバイス上で音声テキスト変換とテキスト読み上げを実行できるようになりました。 Android、Linux、macOS、Windows の各プラットフォームでサポートされます
C# MAUI: Speech SDK NuGet で iOS および Mac Catalyst ターゲット向けのサポートが追加されました (お客様の問題)
Unity: Android x86_64 アーキテクチャが Unity パッケージに追加されました (お客様の問題)
Go:
- 音声認識用に ALAW/MULAW ダイレクトストリーミングのサポートが追加されました (お客様の問題)
- PhraseListGrammar のサポートが追加されました。 GitHub ユーザー czkoko によるコミュニティへの貢献に感謝します。
C#/C++: Intent Recognizer で、Microsoft サービスでのオーケストレーションを使用した C++ および C# の会話言語理解モデルがサポートされるようになりました

バグの修正

KeywordRecognizer を停止しようとしたときにハングすることがある問題の修正
Python:
- PronunciationAssessmentGranularity.FullText が設定されている場合の発音評価結果の取得に関する修正 (お客様の問題)
- 合成音声を取得するときに男性音声の性別プロパティが取得されない問題の修正
JavaScript
- iOS デバイスで録音された一部の WAV ファイルの解析に関する修正 (お客様の問題)
- JS SDK が npm-force-resolutions を使用せずにビルドされるようになりました (お客様の問題)
- SpeechConfig.fromEndpoint() を使用して作成された speechConfig インスタンスの使用時に、Conversation Translator によってサービスエンドポイントが正しく設定されるようになりました

サンプル

埋め込み音声の使用方法を示すサンプルを追加しました
MAUI 用の音声テキスト変換サンプルを追加しました

Speech SDK サンプルリポジトリを参照してください。

Speech SDK 1.24.2: 2022 年 11 月リリース

新機能

新機能はなく、新しいモデルファイルをサポートするための埋め込みエンジンが修正されただけです。

バグの修正

すべてのプログラミング言語
- 埋め込み音声認識モデルの暗号化に関する問題が修正されました。

Speech SDK 1.24.1: 2022 年 11 月リリース

新機能

埋め込み音声プレビュー用のパッケージを公開しました。詳細については、「 https://aka.ms/embedded-speech 」を参照してください。

バグの修正

すべてのプログラミング言語
- 音声フォントがサポートされていないときの埋め込み TTS のクラッシュを修正
- Linux で stopSpeaking() を使用して再生を停止できない問題 (#1686) を修正
JavaScript SDK
- 会話の文字起こしでオーディオがゲートされる方法の回帰を修正しました。
Java
- ドキュメントパイプラインでオンライン参照ドキュメントを更新できるように、更新された POM ファイルと Javadocs ファイルを Maven Central に一時的に公開しました。
Python
- Python の speak_text(ssml) から void が返される回帰を修正しました。

Speech SDK 1.24.0: 2022 年 10 月リリース

新機能

すべてのプログラミング言語: AMR-WB (16khz) が、サポートされているテキスト読み上げオーディオ出力形式の一覧に追加されました
Python: サポートされている Linux ディストリビューション向けに Linux ARM64 用のパッケージが追加されました。
C#/C++/Java/Python: AudioStreamWaveFormat を使用した音声サービスへの ALAW & MULAW ダイレクトストリーミングのサポートが (既存の PCM ストリームに加えて) 追加されました。
C# MAUI: .NET MAUI 開発者向けに、NuGet パッケージが Android ターゲットをサポートするように更新されました (お客様の問題)
Mac: iOS バイナリを含まない、独立した XCframework for Mac を追加しました。これにより、比較的小さな XCframework パッケージを使用する Mac バイナリのみを必要とする開発者向けのオプションが提供されます。
Microsoft Audio Stack (MAS):
- ビーム形成角度を指定すると、指定範囲外の音がより効果的に抑制されます。
- Linux ARM32 および Linux ARM64 の libMicrosoft.CognitiveServices.Speech.extension.mas.so のサイズが約 70% 削減されます。
パターンマッチングを使用した意図認識:
- fr、de、es、jp 言語の正書法のサポートを追加しました
- es 言語の事前構築済みの整数サポートが追加されました。

バグ修正

iOS: 圧縮された音声のデコードエラーによって起こる、iOS 16 での音声合成エラーを修正しました (お客様の問題)。
JavaScript:
- 音声合成の音声リストを取得するときに認証トークンが機能しない問題を修正しました (お客様の問題)。
- ワーカーの読み込みにデータ URL が使用されます (お客様の問題)。
- AudioWorklet がブラウザーでサポートされている場合にのみ、オーディオプロセッサワークレットが作成されます (お客様の問題)。これには、William Wong さんがコミュニティで貢献されました。 William さん、ありがとうございました。
- LUIS 応答 connectionMessage が空の場合に認識されるコールバックを修正しました (お客様の問題)。
- 音声セグメント化のタイムアウトを適切に設定しました。
パターンマッチングを使用した意図認識:
- モデル内の json 以外の文字が正しく読み込まれるようになりました。
- 継続的な認識時に recognizeOnceAsync(text) が呼び出されるとハングする問題を修正しました。

Speech SDK 1.23.0: 2022 年 7 月リリース

新機能

C#、C++、Java: パターンマッチングを使用した意図認識で言語 zh-cn と zh-hk のサポートが追加されました。
C#: AnyCPU .NET Framework ビルドのサポートを追加しました

バグの修正

Android: OpenSSL を 1.1.1q に更新することで、OpenSSL の脆弱性 CVE-2022-2068 を修正しました
Python: PushAudioInputStream を使用したときのクラッシュを修正します
iOS: iOS で報告された "EXC_BAD_ACCESS: null ポインターを逆参照しようとしました" を修正しました (GitHub の問題)

Speech SDK 1.22.0: 2022 年 6 月リリース

新機能

Java: "単純なパターンマッチング" エンジンをサポートするために、getEntities()、applyLanguageModels()、recognizeOnceAsync(text) 用の IntentRecognitionResult API が追加されました。
Unity: Mac M1 (Apple Silicon) for Unity パッケージのサポートを追加しました (GitHub 問題)
C#: Xamarin Android の x86_64 のサポートを追加しました (GitHub 問題)
C#: v4.6.1 が廃止されたため、SDK C# パッケージ用の .NET Framework の最小バージョンが v4.6.2 に更新されました (Microsoft .NET Framework コンポーネントライフサイクルポリシーに関するページを参照)
Linux:Debian 11 および Ubuntu 22.04 LTS のサポートを追加しました。 Ubuntu 22.04 LTS では、ここからバイナリパッケージ (例: x64 の場合は libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb 以降) として、またはソースからコンパイルして libssl1.1 を手動でインストールする必要があります。

バグの修正

UWP: セキュリティコンプライアンスを満たしてバイナリ占有領域を減らすために、OpenSSL の依存関係が UWP ライブラリから削除され、WinRT WebSocket と HTTP API で置き換えられました。
Mac: macOS プラットフォームをターゲットとする Swift プロジェクトを使用する場合の "MicrosoftCognitiveServicesSpeech モジュールが見つかりません" の問題を修正しました
Windows、Mac: リアルタイムの速度でストリーミングするようにプロパティを介して構成されたオーディオソースが遅れて、最終的には容量を超えることがあるというプラットフォーム固有の問題を修正しました

サンプル (GitHub)

C#: v4.6.2 を使用するように .NET Framework サンプルが更新されました
Unity: Android および UWP 用に仮想アシスタントのサンプルが修正されました
Unity: Unity 2020 LTS バージョン用に Unity サンプルが更新されました

Speech SDK 1.21.0: 2022 年 4 月のリリース

新機能

Java および JavaScript: SpeechRecognizer オブジェクトを使用するときの継続的な言語識別のサポートが追加されました
JavaScript: コンソールログレベルと (ノードのみの) ファイルログを有効にする診断 API が追加されました。これは、Microsoft がお客様から報告された問題のトラブルシューティングを行うときに役立ちます。
Python: 会話の文字起こしのサポートが追加されました。
Go: 話者認識のサポートが追加されました。
C++ および C#: 意図認識エンジン (単純なパターンマッチング) での必須単語グループのサポートが追加されました。例: "(set|start|begin) a timer" では、意図が認識されるために "set"、"start"、"begin" のいずれかが存在している必要があります。
すべてのプログラミング言語、音声合成: ワード境界イベントに duration プロパティが追加されました。句読点の境界と文の境界のサポートが追加されました。
Objective-C/Swift/Java: 発音評価結果オブジェクトに単語レベルの結果が追加されました (C# と同様)。アプリケーションで、単語レベルの情報を取得するために JSON 結果文字列を解析する必要がなくなりました (GitHub の問題)。
iOS プラットフォーム: ARMv7 アーキテクチャの実験的なサポートが追加されました。

バグの修正

iOS プラットフォーム: CocoaPod 使用時に "任意の iOS デバイス" を対象とした構築を可能にする修正が行われました (GitHub の問題)
Android プラットフォーム: セキュリティの脆弱性 CVE-2022-0778 を修正するために、OpenSSL のバージョンが 1.1.1n に更新されました。
JavaScript: WAV ヘッダーでファイルサイズが更新されない問題が修正されました (GitHub の問題)
JavaScript: 翻訳シナリオを中断させる要求 ID の同期解除の問題が修正されました (GitHub の問題)。
JavaScript: ストリームのない SpeakerAudioDestination をインスタンス化するときの問題が修正されました (GitHub の問題)。
C++: C++17 以降でコンパイルするときの警告を取り除くように C++ ヘッダーが修正されました。

サンプル GitHub

言語識別を使用する音声認識に関する新しい Java サンプル
会話の文字起こしに関する新しい Python と Java のサンプル
話者認識に関する新しい Go サンプル
デバイス ID を検出するためにすべてのオーディオキャプチャおよびレンダリングデバイスを列挙する、Windows 用の新しい C++ および C# ツール。この ID は、既定以外のデバイスとの間でオーディオのキャプチャやレンダリングを行う場合に Speech SDK で必要となります。

Speech SDK 1.20.0: 2022 年 1 月のリリース

新機能

Objective-C、Swift、および Python: 音声アシスタントのシナリオで使用される DialogServiceConnector のサポートが追加されました。
Python: Python 3.10 のサポートが追加されました。 Python 3.6 のサポートは、Python の 3.6 のサポート終了に従って削除されました。
Unity: Speech SDK が Linux 上の Unity アプリケーションでサポートされるようになりました。
C++、C#: パターンマッチングを使用した IntentRecognizer が C# でサポートされるようになりました。さらに、カスタムエンティティ、オプションのグループ、およびエンティティの役割を使用するシナリオが、C++ および C# でサポートされるようになりました。
C++、C#: 新しいクラス Filelogger、MemoryLogger、および EventLogger を使用した診断トレースログが改善されました。 SDK のログは、お客様から報告された問題を診断するための重要なツールです。これらの新しいクラスにより、お客様は Speech SDK のログを独自のログ記録システムに簡単に統合できます。
すべてのプログラミング言語: PronunciationAssessmentConfig に、目的の音素アルファベット (IPA または SAPI) と N 最適な音素カウントを設定するプロパティが用意されました (GitHub の問題 1284 に従って構成 JSON を作成する必要がありません)。また、音節レベルの出力がサポートされるようになりました。
Android、iOS、macOS (すべてのプログラミング言語): 限られた帯域幅のネットワークをサポートするための GStreamer は不要になりました。 SpeechSynthesizer は、オペレーティングシステムのオーディオデコード機能を使用して、テキスト読み上げサービスからストリーミングされた圧縮オーディオをデコードするようになりました。
すべてのプログラミング言語: SpeechSynthesizer は、ライブストリーミングのシナリオで広く使用されている 3 つの新しい未加工出力 Opus 形式 (コンテナーなし) をサポートするようになりました。
JavaScript: サポートされている合成音声の一覧を取得する getVoicesAsync () API を SpeechSynthesizer に追加しました (GitHub の問題 1350)
JavaScript: PCM 以外の Wave 形式をサポートする getWaveFormat () API を AudioStreamFormat に追加しました (GitHub の問題 452)
JavaScript: volume getter/setter と mute()/unmute() API を SpeakerAudioDestination に追加しました (GitHub の問題 463)

バグ修正

C++、C#、Java、JavaScript、Objective-C、Swift: PushAudioInputStream を使用する音声認識エンジンの停止中の 10 秒の遅延を削除する修正。これは、StopContinuousRecognition の呼び出し後に新しいオーディオがプッシュされない場合が対象です (GitHub の問題 1318、331)。
Android および UWP での Unity: UWP、Android ARM64、および Windows Subsystem for Android (WSA) ARM64 での Unity メタファイルが修正されました (GitHub の問題 1360)
iOS: CocoaPods を用しているときに、任意の iOS デバイスで Speech SDK アプリケーションをコンパイルできるようになりました (GitHub の問題 1320)
iOS: SpeechSynthesizer がスピーカーに直接オーディオを出力するように構成されている場合、まれに先頭で再生が停止します。これは修正されました。
JavaScript: オーディオワークレットが見つからない場合にマイク入力にスクリプトプロセッサフォールバックを使用します (GitHub の問題 455)
JavaScript: Sentry 統合によって検出されたバグを軽減するために、エージェントにプロトコルを追加します (GitHub の問題 465)

サンプル GitHub

詳細な認識結果を取得する方法を示す C++、C#、Python、Java のサンプル。詳細には、別の認識結果、信頼度スコア、字句形成、正規化された形式、マスクされた正規化形式、それぞれに対するワードレベルのタイミングが含まれます。
外部オーディオソースとして AVFoundation を使用する iOS サンプルが追加されました。
WordBoundary イベントを使用して SRT (SubRip テキスト) 形式を取得する方法を示す Java サンプルが追加されました。
発音評価のための Android サンプル。
新しい診断ログクラスの使用方法を示す C++、C#。

Speech SDK 1.19.0: 2021 年 11 月のリリース

ハイライト

Speaker Recognition サービスの一般提供 (GA) が開始されました。 Speech SDK API は、C++、C#、Java、および Javascript で利用できます。 Speaker Recognition を使用すると、話者固有の音声特性により、正確に検証および識別することができます。このトピックの詳細については、ドキュメントを参照してください。
Ubuntu 16.04 のサポートは Azure DevOps および GitHub とともに終了しました。 Ubuntu 16.04 の有効期間は、2021 年 4 月に終了しました。 Ubuntu 16.04 のワークフローは、Ubuntu 18.04 以降に移行してください。
Linux バイナリの OpenSSL リンクは動的に変更されました。 Linux バイナリサイズが約 50% 削減されました。
Mac M1 ARM ベースのシリコンのサポートが追加されました。

新機能

C++/C#/Java: Microsoft Audio Stack を使用した音声入力のオーディオ処理のサポートを有効にする新しい API が追加されました。こちらのドキュメントを参照してください。
C++ : より高度なパターンマッチングを容易にするための、意図認識用の新しい API が追加されました。これには List や Prebuilt Integer エンティティのほか、意図やエンティティをモデルとしてグループ化することに対応しています (ドキュメント、アップデート、サンプルは現在開発中で、今後公開される予定です)。
Mac: GitHub の Issue 番号 1244 に関連して、CocoaPod、Python、Java、NuGet パッケージの ARM64 (M1) ベースのシリコンがサポートされるようになりました。
iOS/Mac: GitHub の Issue 番号 919 に関連して、iOS と macOS のバイナリが xcframework にパッケージされるようになりました。
iOS/Mac: GitHub の Issue 番号 1171 に関連して、Mac catalyst がサポートされるようになりました。
Linux: Speech SDK について、CentOS7 向けの新しい tar パッケージが追加されました。 Linux .tar パッケージに、lib/centos7-x64 のRHEL/CentOS 7 用の特定のライブラリが含まれるようになりました。 lib/x64 の Speech SDK ライブラリは、サポートされている他のすべての Linux x64 ディストリビューション (RHEL/CentOS 8 を含む) に引き続き適用され、RHEL/CentOS 7 では機能しません。
Javascript: VoiceProfile と SpeakerRecognizer の API が非同期または待避可能になりました。
Javascript: US Government Azure リージョンのがサポートされるようになりました。
Windows: ユニバーサル Windows プラットフォーム (UWP) で再生がサポートされるようになりました。

バグの修正

Android: Android パッケージの OpenSSL のセキュリティアップデート (バージョン 1.1.1l に更新)
Python: python でスピーカーデバイスを選択できないバグを修正しました。
Core: 接続の試行が失敗したときに自動的に再接続するようになりました。
iOS: GStreamer を使用する際の不安定さとビットコードビルドの問題により、iOS パッケージでのオーディオ圧縮を無効にしました。詳細については、GitHub の Issue 番号 1209 を参照してください。

サンプル GitHub

Mac/iOS: xcframework パッケージを使用するようサンプルとクイックスタートが更新されました。
.NET: .NET core 3.1 バージョンを使用するようにサンプルが更新されました。
Javascript: 音声アシスタントのサンプルが追加されました。

Speech SDK 1.18.0: 2021 年 7 月リリース

注: こちらから Speech SDK を開始してください。

要点の概要

Ubuntu 16.04 の有効期間は、2021 年 4 月に終了しました。 Azure DevOps および GitHub とともに、16.04 のサポートは 2021 年 9 月をもって終了します。その前に、ubuntu-16.04 のワークフローを ubuntu-18.04 以降に移行してください。

新機能

C++ : 単純な言語パターンマッチングと意図認識エンジンにより、単純な意図認識シナリオの実装がいっそう容易になりました。
C++/C#/Java: 独立した認識シナリオの Speaker Recognition 登録フェーズで有効なアクティブ化フレーズの一覧を受け取る新しい API GetActivationPhrasesAsync() が VoiceProfileClient クラスに追加されました。
- 重要: Speaker Recognition 機能はプレビュー段階です。プレビューで作成された音声プロファイルはすべて、Speaker Recognition 機能がプレビューから一般提供に移行してから 90 日後に廃止されます。その時点で、プレビューの音声プロファイルは機能しなくします。
Python: 既存の SpeechRecognizer および TranslationRecognizer オブジェクトに、継続的な言語識別 (LID) のサポートが追加されました。
Python: 1 回限りまたは継続的な LID (認識または翻訳はなし) を行うための SourceLanguageRecognizer という名前の新しい Python オブジェクトが追加されました。
JavaScript: 独立した認識シナリオの Speaker Recognition 登録フェーズで有効なアクティブ化フレーズの一覧を受け取るための getActivationPhrasesAsync API が VoiceProfileClient クラスに追加されました。
JavaScript: VoiceProfileClient の enrollProfileAsync API が非同期で待機できるようになりました。使用例については、こちらの独立した識別コードを参照してください。

改善

Java: 多くの Java オブジェクトに AutoCloseable のサポートが追加されました。これで、リソースの解放に try-with-resources モデルがサポートされるようになります。 try-with-resources を使用するこちらのサンプルを参照してください。また、このパターンの詳細については、try-with-resources ステートメントに関する Oracle Java ドキュメントのチュートリアルも参照してください。
ディスクフットプリントが、多くのプラットフォームとアーキテクチャで大幅に削減されました。 Microsoft.CognitiveServices.Speech.core バイナリの例: x64 Linux は 475 KB 減少 (8.0% 削減)、ARM64 Windows UWP は 464 KB 減少 (11.5% 削減)、x86 Windows は 343 KB 減少 (17.5% 削減)、x64 Windows は 451 KB 減少 (19.4% 削減)。

バグの修正

Java: 合成テキストにサロゲート文字が含まれている場合の合成エラーを修正しました。詳細については、こちらを参照してください。
JavaScript: ブラウザーマイクのオーディオ処理で、非推奨の ScriptProcessorNode ではなく AudioWorkletNode が使用されるようになりました。詳細については、こちらを参照してください。
JavaScript: 実行時間の長い会話翻訳シナリオで、会話が正しく維持されるようになりました。詳細については、こちらを参照してください。
JavaScript: 認識エンジンが継続的な認識で mediastream に再接続する問題を修正しました。詳細については、こちらを参照してください。
JavaScript: 認識エンジンが継続的な認識で pushStream に再接続する問題を修正しました。詳細については、こちらを参照してください。
JavaScript: 詳細な認識結果での単語レベルのオフセット計算を修正しました。詳細については、こちらを参照してください。

サンプル

こちらの Java クイックスタートサンプルが更新されました。
enrollProfileAsync() の新しい使用方法を示すように、JavaScript の Speaker Recognition サンプルが更新されました。こちらでサンプルを参照してください。

Speech SDK 1.17.0: 2021 年 5 月のリリース

Note

こちらから Speech SDK を開始します。

要点の概要

フットプリントの削減 - Speech SDK とそのコンポーネントのメモリとディスクのフットプリントを引き続き削減します。
新しいスタンドアロン言語識別 API を使用して、話されている言語を認識することができます。
macOS で Unity を使用して、音声対応の複合現実とゲームアプリケーションを開発します。
これで、Go プログラミング言語の音声認識に加えて、テキスト読み上げを使用できるようになりました。
重要なお客様が GitHub でフラグを設定した問題に対処するためのいくつかのバグ修正。ご協力ありがとうございます。ぜひフィードバックをお寄せください。

新機能

C++/C#: SourceLanguageRecognizer API を介した新しいスタンドアロンの開始時および継続的な言語検出。オーディオコンテンツで話されている言語のみを検出する場合は、この API で可能です。 C++ および C# の詳細を参照してください。
C++/C#: 音声認識と翻訳認識で、開始時と継続的の両方の言語識別がサポートされるようになったため、文字起こしや翻訳が行われる前に、どの言語が話されているかをプログラムで判断できます。音声認識と Speech Translation のドキュメントを参照してください。
C#: macOS (x64) に Unity のサポートを追加しました。これにより、複合現実とゲームにおける音声認識と音声合成のユースケースのロックが解除されます。
Go: Go プログラミング言語に音声合成およびテキスト読み上げのサポートを追加して、さらに多くのユースケースで音声合成が利用できるようになりました。クイックスタートまたは Microsoft のリファレンスドキュメントを参照してください。
C++/C#/Java/Python/Objective-C/Go: 音声シンセサイザーで connection オブジェクトがサポートされるようになりました。これは、音声サービスへの接続を管理および監視するのに役立ち、待機時間を短縮するための事前接続に特に役立ちます。こちらのドキュメントを参照してください。
C++/C#/Java/Python/Objective-C/Go: 音声合成の待機時間の問題を監視および診断できるように、SpeechSynthesisResult で待機時間とアンダーラン時間を公開するようにしました。 C++、C#、Java、Python、Objective-C、Go のそれぞれの詳細を参照してください。
C++/C#/Java/Python/Objective-C: テキスト読み上げでは、使用する音声を指定しない場合、既定でニューラル音声が使用されるようになりました。これにより、既定でより忠実度の高い出力が得られますが、既定の価格も値上がりします。 70 以上の標準音声または 130 以上のニューラル音声を指定することで、既定を変更できます。
C++/C#/Java/Python/Objective-C/Go: 性別に基づいて音声を選択しやすくするために、音声合成情報に Gender (性別) プロパティを追加しました。これは、GitHub イシュー #1055 に対応するものです。
C++、C#、Java、JavaScript: 特定のアカウントのすべての音声プロファイルのユーザー管理を容易するために、Speaker Recognition で retrieveEnrollmentResultAsync、getAuthorizationPhrasesAsync、getAllProfilesAsync() がサポートされるようになりました。 C++、C#、Java、JavaScript のそれぞれのドキュメントを参照してください。これは、GitHub イシュー #338 に対応するものです。
JavaScript: 接続エラーの再試行を追加しました。これにより、JavaScript ベースの音声アプリケーションの堅牢性が高まります。

機能強化

Linux および Android の Speech SDK バイナリは、最新バージョンの OpenSSL (1.1.1k) を使用するように更新されました。
コードサイズの改善:
- Language Understanding が別の "lu" ライブラリに分割されるようになりました。
- Windows x64 コアバイナリサイズが 14.4% 減少しました。
- Android ARM64 コアバイナリサイズが 13.7% 減少しました。
- その他のコンポーネントもサイズが減少しました。

バグの修正

すべて: ServiceTimeout の GitHub イシュー #842 を修正しました。このエラーで終了するサービスに接続しなくても、Speech SDK を使用して長いオーディオファイルの文字起こしができるようになりました。ただし、長いファイルに対しては、引き続きバッチ文字起こしを使用することをお勧めします。
C# : GitHub イシュー #947: 音声入力がないと、アプリが正常な状態でなくなる可能性がある問題を修正しました。
Java: GitHub イシュー #997: ネットワーク接続なしで DialogServiceConnector を使用したり、無効なサブスクリプションキーを使用すると、Speech SDK for Java 1.16 がクラッシュする問題を修正しました。
(コンソールアプリで CTRL + C キーを使用するなどして) 音声認識を突然停止したときのクラッシュを修正しました。
Java: Speech SDK for Java を使用しているときに、Windows 上の一時ファイルを削除する修正プログラムを追加しました。
Java: GitHub イシュー #994: DialogServiceConnector.stopListeningAsync を呼び出すとエラーになる可能性がある問題を修正しました。
Java: 仮想アシスタントのクイックスタートにおけるお客様の問題を修正しました。
JavaScript: GitHub イシュー #366: ConversationTranslator で "'this.cancelSpeech isn't a function" (this.cancelSpeech は関数ではありません) というエラーがスローされる問題を修正しました。
JavaScript: GitHub イシュー #298: "結果をインメモリストリームとして取得する" のサンプルが大音量で再生される問題を修正しました。
JavaScript: GitHub イシュー #350: AudioConfig を呼び出すと "ReferenceError: MediaStream isn't defined" (MediaStream が定義されていません) という結果になる場合がある問題を修正しました。
JavaScript: Node.js で長時間実行されているセッションに対する UnhandledPromiseRejection 警告を修正しました。

サンプル

更新された macOS 用の Unity サンプルのドキュメントは、こちらにあります。
Azure AI 音声認識サービスの React Native サンプルは、こちらから入手できるようになりました。

Speech SDK 1.16.0: 2021 年 3 月のリリース

Note

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。こちらでダウンロードできます。

新機能

C++/C#/Java/Python: 最新バージョンの GStreamer (1.18.3) に移行し、Windows、Linux、および Android のあらゆるメディア形式の文字起こしのサポートが追加されました。こちらのドキュメントを参照してください。
C++、C#、Java、Objective-C、Python: 圧縮された TTS または合成オーディオのデコードのサポートが SDK に追加されました。出力オーディオ形式を PCM に設定し、システムで GStreamer を使用できる場合、SDK は圧縮されたオーディオをサービスに自動的に要求して、帯域幅を節約し、クライアントのオーディオをデコードします。 SpeechServiceConnection_SynthEnableCompressedAudioTransmission を false に設定し、この機能を無効にできます。 C++、C#、Java、Objective-C、Python の詳細。
JavaScript: Node.js ユーザーが AudioConfig.fromWavFileInput API を使用できるようになりました。これは、GitHub イシュー #252 に対応するものです。
C++、C#、Java、Objective-C、Python: 利用可能なすべての合成音声を返す、TTS 用の GetVoicesAsync() メソッドが追加されました。 C++、C#、Java、Objective-C、Python の詳細。
C++/C#/Java/JavaScript/Objective-C/Python: 同期口形素アニメーションを返す TTS または音声合成用に VisemeReceived イベントが追加されました。こちらのドキュメントを参照してください。
C++/C#/Java/JavaScript/Objective-C/Python: TTS 用に BookmarkReached イベントが追加されました。入力 SSML でブックマークを設定し、各ブックマークのオーディオオフセットを取得することができます。こちらのドキュメントを参照してください。
Java: Speaker Recognition API のサポートが追加されました。詳細については、こちらを参照してください。
C++/C#/Java/JavaScript/Objective-C/Python: TTS 用 WebM コンテナー (Webm16Khz16BitMonoOpus および Webm24Khz16BitMonoOpus) の 2 つの新しい出力オーディオ形式が追加されました。これらは、Opus コーデックを使用したオーディオのストリーミングに適した形式です。 Details for C++, C#, Java、JavaScript、Objective-C、Python の詳細。
C++、C#、Java: Speaker Recognition シナリオの音声プロファイルを取得するためのサポートが追加されました。 C++、C#、Java の詳細。
C++、C#、Java、Objective-C、Python: オーディオマイクとスピーカーコントロール用の別個の共有ライブラリのサポートが追加されました。これにより、開発者は、必要なオーディオライブラリの依存関係がない環境で、SDK を使用できるようになります。
Objective-C/Swift: アンブレラヘッダーを持つモジュールフレームワークのサポートが追加されました。これにより、開発者は、iOS/Mac Objective-C/Swift アプリで Speech SDK をモジュールとしてインポートできます。これは、GitHub イシュー #452 に対応するものです。
Python: Python 3.9 のサポートが追加され、Python の 3.5 のサポート終了に伴って Python 3.5 のサポートが停止しました。

既知の問題

C++/C#/Java: DialogServiceConnector は CustomCommandsConfig を使用して Custom Commands アプリケーションにアクセスすることはできません。代わりに、接続エラーが発生します。これは、config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter) を使用してアプリケーション ID を要求に手動で追加することで回避できます。 CustomCommandsConfig の予期される動作は、次のリリースで復元されます。

機能強化

Speech SDK のメモリ使用量とディスクフットプリントを削減するための複数リリースの取り組みの一環として、Android バイナリのサイズが 3% から 5% 小さくなりました。
C# リファレンスドキュメント (こちらを参照) の正確性、読みやすさ、および関連項目のセクションが改善されました。

バグの修正

JavaScript: 大きな WAV ファイルヘッダーが正しく解析されるようになりました (ヘッダースライスが 512 バイトに増えます)。これは、GitHub イシュー #962 に対応するものです。
JavaScript: マイクのタイミングの問題を修正しました。これは、認識が停止する前にマイクのストリームが終了した場合に、Firefox で動作しない音声認識に関する問題を解決します。
JavaScript: turnOn が完了する前にブラウザーがマイクを強制的にオフにしたときに、初期化の Promise が正しく処理されるようになりました。
JavaScript: URL の依存関係を URL 解析に置き換えました。これは、GitHub イシュー #264 に対応するものです。
Android: minifyEnabled が true に設定されている場合、コールバックが機能しない問題を解決しました。
C++/C#/Java/Objective-C/Python: TTS が待ち時間を短縮するために、TCP_NODELAY は基になるソケット IO に正しく設定されるようになります。
C++/C#/Java/Python/Objective-C/Go: 認識エンジンが認識を開始した直後に破壊された場合に時々発生するクラッシュを修正しました。
C++/C#/Java: スピーカー認識エンジンが破壊された場合に時々発生するクラッシュを修正しました。

サンプル

JavaScript: ブラウザーのサンプルでは、別個の JavaScript ライブラリファイルのダウンロードは不要になりました。

Speech SDK 1.15.0: 2021 年 1 月のリリース

Note

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。こちらでダウンロードできます。

要点の概要

メモリとディスクの占有領域を小さくすることによる SDK の効率向上。
カスタムニューラル音声のプライベートプレビューで使用できる再現性の高い出力形式。
意図認識エンジンで最上位の意図以外を返すことができるようになり、顧客の意図について個別の評価を行うことができます。
音声アシスタントやボットの設定が簡単になりました。リスニングを直ちに停止できるほか、エラーへの対処方法をより細かく制御できます。
圧縮をオプションにすることで向上したデバイスのパフォーマンス。
Windows ARM と ARM64 で Speech SDK を使用します。
改善された低レベルのデバッグ。
発音評価機能をより広く利用できるようになりました。
重要なお客様が GitHub でフラグを設定した問題に対処するためのいくつかのバグ修正。ご協力ありがとうございます。ぜひフィードバックをお寄せください。

機能強化

Speech SDK がより効率的で軽量になりました。 Speech SDK のメモリ使用量とディスク占有領域を削減するための複数リリースの取り組みが開始されました。最初のステップとして、ほとんどのプラットフォームで共有ライブラリのファイルサイズを大幅に削減しました。 1.14 リリースと比較すると次のようになります。
- 64 ビット UWP 互換 Windows ライブラリは、約 30% 小さくなります。
- 32 ビット Windows ライブラリは、まだサイズが改善されていません。
- Linux ライブラリは、20 から 25% 小さくなります。
- Android ライブラリは、3 から 5% 小さくなります。

新機能

すべて: TTS 音声合成 API を介したカスタムニューラル音声のプライベートプレビューで使用できる新しい 48KHz 出力形式: Audio48Khz192KBitRateMonoMp3、audio-48khz-192kbitrate-mono-mp3、Audio48Khz96KBitRateMonoMp3、audio-48khz-96kbitrate-mono-mp3、Raw48Khz16BitMonoPcm、raw-48khz-16bit-mono-pcm、Riff48Khz16BitMonoPcm、riff-48khz-16bit-mono-pcm。
[すべて] : カスタム音声も使いやすくなっています。 EndpointId によるカスタム音声の設定のサポートが追加されました (EndpointId、C#、Java、JavaScript、Objective-C、Python)。この変更の前は、カスタム音声ユーザーは FromEndpoint メソッドを使用してエンドポイント URL を設定する必要がありました。現在お客様は、事前構築済み音声と同様に FromSubscription メソッドを使用でき、EndpointId を設定することによりデプロイ ID を指定できます。これにより、カスタム音声の設定が簡単になります。
CC++/C#/Java/Objective-C/Python: IntentRecognizer から最上位の意図以外を取得します。 LanguageUnderstandingModel FromEndpoint メソッドで verbose=true URI パラメーターを使用することにより、トップスコアの意図だけでなく、すべての意図が含まれる JSON 結果の構成がサポートされるようになりました。これは、GitHub イシュー #880 に対応するものです。こちらで更新されたドキュメントを参照してください。
C++、C#、Java: 音声アシスタントまたはボットのリスニングをすぐに停止します。 DialogServiceConnector (C++、C#、Java) に、ListenOnceAsync() に付随する StopListeningAsync() メソッドが用意されました。これにより、オーディオキャプチャが直ちに停止され、結果が適切に待機されるので、"今すぐ停止" ボタンがクリックされたときのシナリオに最適です。
C++、C#、Java、JavaScript: 音声アシスタントまたはボットによる基になるシステムのエラーへの対応が向上します。 DialogServiceConnector (C++、C#、Java、JavaScript) に、新しい TurnStatusReceived イベントハンドラーが追加されました。これらのオプションイベントは、ボットでのすべての ITurnContext の解決に対応し、ターン実行エラーが発生したときに報告されます。たとえば、ハンドルされない例外、タイムアウト、または Direct Line Speech とボットの間のネットワーク切断の結果などです。 TurnStatusReceived により、エラー状態への対応が簡単になります。たとえば、ボットによるバックエンドデータベースクエリ (製品の検索など) の時間が長すぎる場合、TurnStatusReceived を使用することにより、クライアントで "申し訳ありません、よく聞き取れませんでした。もう一度試していただけますか" といったメッセージを再表示できます。
C++、C# : Speech SDK を使用できるプラットフォームが増えます。 Speech SDK NuGet パッケージで、Windows ARM および ARM64 デスクトップネイティブバイナリがサポートされるようになり (UWP は既にサポートされています)、より多くのマシンの種類で Speech SDK を使用できるようになります。
Java: DialogServiceConnector に、以前に言語から意図せずに除外された setSpeechActivityTemplate() メソッドが含まれるようになりました。これは、Conversation_Speech_Activity_Template プロパティを設定することと同じであり、Direct Line Speech サービスによって生成される将来のすべての Bot Framework アクティビティで、提供されたコンテンツを JSON ペイロードにマージするよう要求されます。
Java: 改善された低レベルのデバッグ。 Connection クラスに、他のプログラミング言語 (C++、C#) と同様の MessageReceived イベントが追加されました。このイベントにより、サービスからの受信データへの低レベルのアクセスが提供され、診断やデバッグに役立ちます。
JavaScript: BotFrameworkConfig による音声アシスタントとボットのセットアップが簡単になりました。手動でのプロパティの設定と比べて、カスタムサービスの場所を簡単に使用できる fromHost() および fromEndpoint() ファクトリメソッドが追加されました。また、構成ファクトリ全体で既定以外のボットを使用するための、botId のオプションの指定が標準化されました。
JavaScript:WebSocket 圧縮のための文字列制御プロパティが追加されたことで、デバイスのパフォーマンスが向上しました。パフォーマンス上の理由から、WebSocket の圧縮は既定では無効になりました。低帯域幅のシナリオでは、これを再び有効にすることができます。詳細については、こちらをご覧ください。これは、GitHub イシュー #242 に対応するものです。
JavaScript: 音声の発音を評価できるように、発音評価のサポートが追加されました。こちらのクイックスタートを参照してください。

バグの修正

すべて (JavaScript を除く): 認識エンジンによって割り当てられるメモリが多すぎる、バージョン 1.14 での回帰を修正しました。
C++: DialogServiceConnector でのガベージコレクションの問題を修正し、GitHub イシュー #794 に対処しました。
C# : オブジェクトが破棄されるときに約 1 秒間ブロックされる原因となったスレッドのシャットダウンに関する問題を修正しました。
C++/C#/Java: アプリケーションが DialogServiceConnector で音声認証トークンまたはアクティビティテンプレートを複数回設定できない例外を修正しました。
C++、C#、Java: 破棄での競合状態による認識エンジンのクラッシュを修正しました。
JavaScript: 以前は、DialogServiceConnector により、BotFrameworkConfig のファクトリで指定されたオプションの botId パラメーターが適用されていませんでした。このため、既定以外のボットを使用するには、botId クエリ文字列パラメーターを手動で設定する必要がありました。このバグが修正され、BotFrameworkConfig のファクトリに提供された botId 値が適用され、新しい fromHost() と fromEndpoint() の追加が含まれるようになります。これは、CustomCommandsConfig の applicationId パラメーターにも適用されます。
JavaScript: GitHub のイシュー #881 が修正され、認識エンジンのオブジェクトを再利用できるようになりました。
JavaScript: SKD により 1 つの TTS セッションで speech.config が複数回送信され、帯域幅が浪費されていた問題を修正しました。
JavaScript:マイク認証でのエラー処理が簡略化され、ユーザーがブラウザーでマイク入力を許可していないときに、よりわかりやすいメッセージが表示されるようになりました。
JavaScript: ConversationTranslator および ConversationTranscriber での型エラーが TypeScript ユーザーのコンパイルエラーを引き起こしていた GitHub のイシュー #249 を修正しました。
Objective-C:Xcode 11.4 の iOS で GStreamer のビルドが失敗する問題を修正し、GitHub のイシュー #911 に対処しました。
Python: GitHub の issue #870 が修正され、"DeprecationWarning: the imp module is deprecated in favour of importlib" (DeprecationWarning: imp モジュールは非推奨であり、代わりに importlib を使用します) が削除されました。

サンプル

JavaScript ブラウザー用の From-file サンプルで、音声認識にファイルが使用されるようになりました。これは、GitHub イシュー #884 に対応するものです。

Speech SDK 1.14.0: 2020-October リリース

Note

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。こちらでダウンロードできます。

新機能

Linux:Debian 10 および Ubuntu 20.04 LTS のサポートを追加しました。
Python/Objective-C: KeywordRecognizer API のサポートを追加しました。ドキュメントはこちらです。
C++/Java/C#: ServicePropertyChannel::HttpHeader を使用して任意の HttpHeader のキーと値を設定するためのサポートを追加しました。
JavaScript: ConversationTranscriber API のサポートを追加しました。こちらのドキュメントを参照してください。
C++/C#: 新しい AudioDataStream FromWavFileInput メソッド (.WAV ファイル読み取り用) をこちら (C++) とこちら (C#) に追加しました。
C++/C#/Java/Python/Objective-C/Swift: テキスト読み上げ合成を停止する stopSpeakingAsync() メソッドを追加。こちら (C++)、こちら (C#)、こちら (Java)、こちら (Python)、およびこちら (Objective-C、Swift) のリファレンスドキュメントを参照してください。
C#, C++, Java: DialogServiceConnector の接続および切断イベントを監視するために使用できる FromDialogServiceConnector() 関数を Connection クラスに追加しました。こちら (C#)、こちら (C++)、およびこちら (Java) のリファレンスドキュメントを参照してください。
C++、C#、Java、Python、Objective-C、Swift: 発音評価のサポートが追加されました。これはスピーチの発音を評価し、話された音声の正確性と流暢性に関するフィードバックを話者に提供します。こちらのドキュメントをお読みください。

互換性に影響する変更点

JavaScript:PullAudioOutputStream.read() の戻り値の型が、内部の Promise からネイティブな JavaScript の Promise に変更されました。

バグ修正

すべて: 特定の特殊文字を含む値が無視される 1.13 の SetServiceProperty での回帰を修正しました。
C# : ネイティブ DLL を見つけることができない Visual Studio 2019 の Windows コンソールのサンプルを修正しました。
C#: ストリームが KeywordRecognizer 入力として使用されている場合のメモリ管理でのクラッシュを修正しました。
ObjectiveC、Swift: ストリームがレコグナイザー入力として使用されている場合のメモリ管理でのクラッシュを修正しました。
Windows: UWP 上の BT HFP/A2DP との共存に関する問題を修正しました。
JavaScript:ログ記録を改善し、内部のデバッグとサービスの関連付けを支援するために、セッション ID のマッピングを修正しました。
JavaScript: 最初の呼び出しが行われた後に ListenOnce 呼び出しが無効になる DialogServiceConnector に対して修正を追加しました。
JavaScript:結果の出力が "単純" にしかならないという問題を修正しました。
JavaScript:macOS 上の Safari での継続的な認識の問題を修正しました。
JavaScript:要求スループットが高いシナリオでの CPU 負荷の軽減。
JavaScript:音声プロファイル登録結果の詳細へのアクセスを許可します。
JavaScript: IntentRecognizer での継続的な認識のための修正を追加しました。
C++/C#/Java/Python/Swift/ObjectiveC: IntentRecognizer の australiaeast と brazilsouth の不適切な URL を修正しました。
C++/C#: VoiceProfile オブジェクト作成時の引数として VoiceProfileType を追加しました。
C++/C#/Java/Python/Swift/ObjectiveC: 指定された位置から AudioDataStream を読み取ろうとしたときに発生する可能性がある SPX_INVALID_ARG を修正しました。
iOS: Unity 上の音声認識でのクラッシュを修正しました

サンプル

ObjectiveC: キーワード認識のサンプルをこちらに追加しました。
C#、JavaScript: 会話の文字起こしのクイックスタートをこちら (C#) とこちら (JavaScript) に追加しました。
C++、C#、Java、Python、Swift、ObjectiveC: 発音評価のサンプルをこちらに追加しました。
Xamarin:クイックスタートを最新の Visual Studio テンプレートにこちらで更新しました。

既知の問題

DigiCert Global Root G2 証明書は、HoloLens 2 および Android 4.4 (KitKat) によって既定ではサポートされておらず、Speech SDK を機能させるためにシステムに追加する必要があります。この証明書は、近い将来に HoloLens 2 の OS イメージに追加されます。 Android 4.4 のお客様は、更新された証明書をシステムに追加する必要があります。

COVID-19 の影響によるテストの短縮

過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。
皆様の健康をお祈りします！

Speech SDK 1.13.0:2020 年 7 月リリース

Note

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。こちらからダウンロードしてインストールします。

新機能

C# : 非同期での会話の文字起こしのサポートが追加されました。こちらのドキュメントを参照してください。
JavaScript: ブラウザーと Node.js の両方で、話者認識のサポートが追加されました。
JavaScript: 言語識別/言語 ID のサポートが追加されました。こちらのドキュメントを参照してください。
Objective-C: マルチデバイスの会話と会話の文字起こしのサポートが追加されました。
Python: Windows および Linux での Python 用圧縮オーディオサポートが追加されました。こちらのドキュメントを参照してください。

バグ修正

[すべて] : KeywordRecognizer で認識後にストリームが送られない原因となっていた問題が修正されました。
[すべて] : KeywordRecognitionResult から取得したストリームにキーワードが含まれていない原因となっていた問題が修正されました。
[すべて]: SendMessageAsync で、ユーザーがその待機を終えた後に、実際にネットワーク経由でメッセージが送信されないという問題が修正されました。
すべて: ユーザーが VoiceProfileClient::SpeakerRecEnrollProfileAsync メソッドを複数回呼び出し、呼び出しの完了を待機しなかった場合の、Speaker Recognition API のクラッシュが修正されました。
[すべて] : VoiceProfileClient クラスと SpeakerRecognizer クラスでのファイルログの有効化が修正されました。
JavaScript:ブラウザーが最小化されたときの調整の問題が修正されました。
JavaScript:ストリームでのメモリリークの問題が修正されました。
JavaScript:NodeJS からの OCSP 応答のキャッシュが追加されました。
Java: BigInteger フィールドが常に 0 を返す原因となっていた問題が修正されました。
iOS: iOS App Store で Speech SDK ベースのアプリを発行する場合の問題が修正されました。

サンプル

C++ :話者認識のサンプルコードがここに追加されました。

COVID-19 の影響によるテストの短縮

Speech SDK 1.12.1:2020 年 6 月リリース

新機能

C#、C++: Speaker Recognition プレビュー: この機能により、話者識別 (だれが話しているか) と話者認証 (話者が要求した本人か) が可能になります。概要から始めて、話者認識の基本の記事、または API リファレンスドキュメントを参照してください。

バグの修正

C#, C++: Speaker Recognition 1.12 で機能していなかったマイクの録音を修正しました。
JavaScript:FireFox および macOS と iOS 上の Safari でのテキスト読み上げが修正されました。
8 チャネルストリーム使用時の、会話の文字起こしでの Windows アプリケーション検証ツールのアクセス違反クラッシュの修正。
マルチデバイス会話翻訳での Windows アプリケーション検証ツールのアクセス違反クラッシュの修正。

サンプル

C#: Speaker Recognition のコードサンプル。
C++: Speaker Recognition のコードサンプル。
Java: Android での意図認識のコードサンプル。

COVID-19 の影響によるテストの短縮

Speech SDK 1.12.0:2020-May リリース

新機能

Go: 音声認識とカスタム音声アシスタントのための新しい Go 言語サポート。開発環境をここでセットアップします。サンプルコードについては、以下の「サンプル」セクションを参照してください。
JavaScript: テキスト読み上げのためのブラウザーサポートを追加。こちらのドキュメントを参照してください。
C++、C#、Java: 新しい KeywordRecognizer オブジェクトと API が Windows、Android、Linux、および iOS プラットフォームでサポートされています。こちらのドキュメントをお読みください。サンプルコードについては、以下の「サンプル」セクションを参照してください。
Java: 翻訳サポートを含むマルチデバイスの会話機能を追加しました。こちらの参照ドキュメントを参照してください。

強化および最適化

JavaScript:ブラウザーマイクの実装を最適化し、音声認識の精度が向上しています。
Java: SWIG なしで直接 JNI 実装を使用するバインディングをリファクターしました。この変更により、Windows、Android、Linux、Mac で使用されるすべての Java パッケージのバインディングサイズが 10 分の 1 に縮小され、Speech SDK Java 実装のさらなる開発が容易になります。
Linux:最新の RHEL 7 固有の記載を含むようにサポートドキュメントを更新しました。
サービスエラーやネットワークエラーが発生した場合に接続を複数回試行するための接続ロジックを改善しました。
portal.azure.com の音声機能のクイックスタートページを更新して、開発者が Azure AI 音声体験の次のステップに進むことができるようになりました。

バグの修正

C#、Java:Linux ARM への SDK ライブラリの読み込みに関する問題を修正しました (32 ビットと 64 ビットの両方)。
C#: TranslationRecognizer、IntentRecognizer、および Connection オブジェクトのネイティブハンドルの明示的な破棄を修正しました。
C# : ConversationTranscriber オブジェクトのオーディオ入力の有効期間の管理を修正しました。
単純な語句から意図を認識するときに、IntentRecognizer の結果の理由が適切に設定されない問題を修正しました。
SpeechRecognitionEventArgs 結果のオフセットが正しく設定されない問題を修正しました。
WebSocket 接続を開く前に SDK がネットワークメッセージを送信しようとする際の競合状態を修正しました。参加者の追加中に TranslationRecognizer で再現されていました。
キーワード認識エンジンのメモリリークを修正しました。

サンプル

Go: 音声認識とカスタム音声アシスタントのクイックスタートを追加しました。サンプルコードはこちらを参照してください。
JavaScript: テキスト読み上げ、翻訳、および意図認識のクイックスタートを追加しました。
C# および Java (Android) のキーワード認識サンプル。

COVID-19 の影響によるテストの短縮

過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。何らかの問題が発生した場合には、GitHub にてお知らせください。
皆様の健康をお祈りします！

Speech SDK 1.11.0:2020年 3月リリース

新機能

Linux: Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 のサポートを追加しました。Speech SDK 向けのシステム構成方法のインストラクションも付いています。
Linux: Linux ARM32 と ARM64 での C.NET Core C# のサポートを追加しました。詳細については、こちらをご覧ください。
C# および C++:ConversationTranscriptionResult で UtteranceId を追加しました。これは、すべての中間および最終的な音声認識の結果にわたる一貫性のある ID です。 C# および C++ の詳細。
Python: Language ID のサポートを追加しました。 GitHub リポジトリの speech_sample.py を参照してください。
Windows: すべての win32 コンソールアプリケーション向けに、Windows プラットフォームでの圧縮されたオーディオ入力形式のサポートを追加しました。詳細については、こちらを参照してください。
JavaScript: NodeJS で音声合成 (テキスト読み上げ) をサポートします。こちらをご覧ください。
JavaScript: 新しい API を追加して、すべての送受信メッセージを検査できるようにします。こちらをご覧ください。

バグの修正

C# および C++:SendMessageAsync がバイナリ型としてバイナリメッセージを送信するよう、問題を修正しました。 C# および C++ の詳細。
C# および C++:Connection オブジェクトの前に Recognizer が破棄された場合に Connection MessageReceived イベントを使用するとクラッシュが発生する問題を修正しました。 C# および C++ の詳細。
Android: マイクからのオーディオバッファーサイズが 800ms から 100ms に減少し、待機時間が短縮されます。
Android:Android Studio の x86 Android emulator に関する問題を修正しました。
JavaScript:fromSubscription API の中国のリージョン向けのサポートが追加されました。詳細については、こちらを参照してください。
JavaScript:NodeJS からの接続失敗のエラー情報を追加します。

サンプル

Unity:意図認識パブリックサンプルで LUIS json インポートに失敗する問題が修正されました。詳細については、こちらを参照してください。
Python: Language ID 向けに追加されたサンプル。詳細については、こちらを参照してください。

Covid19 により、テストの短縮を余儀なくされました過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動によるデバイス検証テストを行うことができませんでした。たとえば、Linux、iOS、macOS でのマイクの入力とスピーカー出力のテストができませんでした。これらのプラットフォームにおいては、問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。
今後とも、どうぞよろしくお願いいたします。これまでと同様、GitHub や Stack Overflow での質問やフィードバックの投稿をお待ちしています。
皆様の健康をお祈りします！

Speech SDK 1.10.0: 2020 年 2 月リリース

新機能

Python の新しい 3.8 リリースをサポートするために Python パッケージが追加されしました。
Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 のサポート (C++、C#、Java、Python)。

Note

ユーザーは、こちらの手順に従って OpenSSL を構成する必要があります。
Debian および Ubuntu に対する Linux ARM32 のサポート。
DialogServiceConnector で、BotFrameworkConfig の省略可能な "ボット ID" パラメーターがサポートされるようになりました。このパラメーターを使用すると、単一の Speech リソースで複数の Direct Line Speech ボットを使用できます。パラメーターの指定がない場合は、既定のボット ([Direct Line Speech チャネルの構成] ページによって決まります) が使用されます。
DialogServiceConnector に SpeechActivityTemplate プロパティが含まれるようになりました。この JSON 文字列の内容は Direct Line Speech によって使用され、Direct Line Speech ボットに達するすべてのアクティビティでサポートされているさまざまなフィールドに事前設定されます。これには、音声認識などのイベントの応答で自動的に生成されるアクティビティも含まれます。
TTS で認証にサブスクリプションキーが使用されるようになり、シンセサイザーを作成した後の最初の合成結果の最初のバイト待機時間が短縮されました。
19 のロケールの音声認識モデルが更新され、平均ワードエラー率が 18.6% 下がりました (es-ES、es-MX、fr-CA、fr-FR、it-IT、ja-JP、ko-KR、pt-BR、zh-CN、zh-HK、nb-NO、fi-FL、ru-RU、pl-PL、ca-ES、zh-TW、th-TH、pt-PT、tr-TR)。新しいモデルでは、ディクテーション、コールセンターの文字起こし、ビデオのインデックス作成を含む複数の領域にわたる大幅な機能強化が行われています。

バグの修正

JAVA API で会話の文字起こし機能が適切に待機しなかったバグが修正されました
Xamarin GitHub 問題に対する Android x86 エミュレーターの修正が行われました
欠落していた (Get|Set)Property メソッドが AudioConfig に追加されました
接続に失敗したときに audioDataStream を停止できない TTS バグが修正されました
リージョンなしでエンドポイントを使用すると、会話の翻訳で USP エラーが発生します
ユニバーサル Windows アプリケーションでの ID の生成で、適切に一意の GUID アルゴリズムが使用されるようになりました。これまでは、大規模なインタラクションでしばしば競合を発生させるスタブ実装に意図せずに既定で設定されていました。

サンプル

Unity マイクとプッシュモードストリーミングで Speech SDK を使用するための Unity サンプル

その他の変更点

Linux 用の OpenSSL 構成ドキュメントが更新されました

Speech SDK 1.9.0:2020 年 1 月のリリース

新機能

マルチデバイスの会話: 複数のデバイスを同じ音声またはテキストベースの会話に接続し、それらの間で送信されるメッセージを必要に応じて翻訳します。詳しくは、こちらの記事をご覧ください。
Android の .aar パッケージ用のキーワード認識サポートが追加され、x86 と x64 のフレーバーのサポートが追加されました。
Objective-C: SendMessage および SetMessageProperty メソッドが Connection オブジェクトに追加されました。こちらのドキュメントを参照してください。
TTS C++ api で、合成テキスト入力として std::wstring がサポートされるようになり、SDK に渡す前に wstring を string に変換する必要がなくなりました。詳細については、こちらを参照してください。
C#:言語 ID とソース言語構成を使用できるようになりました。
JavaScript:カスタムメッセージをコールバック Connection として音声サービスからパススルーする機能を receivedServiceMessage オブジェクトに追加しました。
JavaScript: オンプレミスのコンテナーとソブリンクラウドでの使用を容易にするために、FromHost API のサポートが追加されました。こちらのドキュメントを参照してください。
JavaScript: NODE_TLS_REJECT_UNAUTHORIZED からの投稿により、NODE_TLS_REJECT_UNAUTHORIZED が適用されるようになりました。詳細については、こちらを参照してください。

重大な変更

OpenSSL はバージョン 1.1.1b に更新され、Linux の Speech SDK コアライブラリに静的にリンクされています。これにより、システムの /usr/lib/ssl ディレクトリに受信トレイ OpenSSL がインストールされていない場合に、中断が発生する可能性があります。この問題を回避するには、Speech SDK ドキュメントにあるドキュメントを確認してください。
音声データが 2 分を超えた場合に WordLevelTimingResults にアクセスできるように、C# WordLevelTimingResult.Offset に返されるデータ型を int から long に変更しました。
PushAudioInputStream および PullAudioInputStream は、作成時にオプションで指定された AudioStreamFormat に基づいて wav ヘッダー情報を音声サービスに送信するようになりました。お客様は、サポートされるオーディオ入力の形式を使用する必要があります。他の形式では、最適な認識結果が得られないか、その他の問題が発生する可能性があります。

バグ修正

上記の「重大な変更」にある OpenSSL の更新情報を参照してください。 Linux と Java の断続的なクラッシュとパフォーマンスの問題 (高負荷でのロックの競合) の両方を修正しました。
Java:コンカレンシーの高いシナリオでのオブジェクトクロージャが改善されました。
NuGet パッケージを再構築しました。 lib フォルダーの下にある Microsoft.CognitiveServices.Speech.core.dll と Microsoft.CognitiveServices.Speech.extension.kws.dll の 3 つのコピーを削除し、NuGet パッケージを小さく、速くダウンロードできるようにし、いくつかの C++ ネイティブアプリをコンパイルするために必要なヘッダーを追加しました。
こちらのクイックスタートサンプルを修正しました。これらは、Linux、macOS、Windows で「microphone not found」(マイクが見つかりません) という例外を表示せずに終了していました。
こちらのサンプルのような特定のコードパスでの長い音声認識結果による SDK のクラッシュを修正しました。
こちらのお客様の問題に対処するために、Azure Web アプリ環境の SDK デプロイエラーを修正しました。
<voice>に対処するために、複数の <voice> タグまたは <audio> タグを使用したときの TTS エラーを修正しました。
SDK が中断から回復されたときの TTS 401 エラーを修正しました。
JavaScript:euirim からの投稿により、オーディオデータの循環インポートを修正しました。
JavaScript: 1.7 で追加されたサービスプロパティの設定のサポートが追加されました。
JavaScript: 接続エラーにより WebSocket の再接続試行が連続して失敗する可能性がある問題を修正しました。

サンプル

Android 用のキーワード認識サンプルをこちらに追加しました。
サーバーシナリオ用の TTS サンプルをこちらに追加しました。
C# と C++ 用のマルチデバイス会話のクイックスタートをこちらに追加しました。

その他の変更点

Android の SDK コアライブラリのサイズが最適化されています。
1\.9.0 以降の SDK で、会話の文字起こしの声紋バージョンフィールドで int と string の両方の型がサポートされます。

Speech SDK 1.8.0: 2019-November リリース

新機能

オンプレミスコンテナーとソブリンクラウドでの使用を容易にするために FromHost() API を追加しました。
音声認識のソース言語識別 (Java および C++) を追加しました
音声認識でしかるべきソース言語を指定するための SourceLanguageConfig オブジェクトを追加しました (Java および C++)
NuGet パッケージと Unity パッケージを通じて、Windows (UWP)、Android、iOS で新たに KeywordRecognizer を使用できるようになりました
非同期バッチで会話の文字起こしを行うための Remote Conversation Java API を追加しました。

重大な変更

会話の文字起こし機能が名前空間 Microsoft.CognitiveServices.Speech.Transcription の下に移動されました。
会話の文字起こし機能の一部のメソッドが、新しい Conversation クラスに移されました。
32 ビット (ARMv7 および x86) iOS のサポートが終了しました。

バグ修正

有効な音声サービスのサブスクリプションキーなしでローカル KeywordRecognizer を使用した場合に発生するクラッシュを修正しました

サンプル

KeywordRecognizer の Xamarin サンプル
KeywordRecognizer の Unity サンプル
自動ソース言語識別の C++ および Java サンプル

Speech SDK 1.7.0: 2019-September リリース

新機能

ユニバーサル Windows プラットフォーム (UWP)、Android、iOS での Xamarin のベータサポートが追加されました
Unity の iOS サポートが追加されました
Android、iOS、Linux での ALaw、Mulaw、FLAC に対する Compressed 入力のサポートが追加されました
メッセージをサービスに送信するための SendMessageAsync が Connection クラスに追加されました
メッセージのプロパティを設定するための SetMessageProperty が Connection クラスに追加されました
TTS で Java (JRE と Android)、Python、Swift、Objective-C に対するバインドが追加されました
TTS で macOS、iOS、Android に対する再生のサポートが追加されました。
TTS に対する "ワード境界" の情報が追加されました。

バグの修正

Unity 2019 for Android での IL2CPP のビルドの問題が修正されました
wav ファイルの入力が正しく処理されない、間違った形式のヘッダーに関する問題が修正されました
一部の接続プロパティで UUID が一意ではない問題が修正されました
Swift バインドでの NULL 値許容指定子に関するいくつかの警告が修正されました (小さなコード変更が必要な場合があります)
ネットワークに負荷がかかると WebSocket 接続が異常終了する原因となっていたバグが修正されました
DialogServiceConnector によって使用される印象 ID が重複することがある原因であった Android の問題が修正されました
複数ターン相互作用を通した接続の安定性と、DialogServiceConnector でエラーが発生したときの (Canceled イベント経由による) エラーの報告が向上しました
DialogServiceConnector セッションの開始により、アクティブな StartKeywordRecognitionAsync() の間に ListenOnceAsync() を呼び出すなど、イベントが正しく提供されるようになりました
DialogServiceConnector アクティビティの受信に関連するクラッシュが対処されました

サンプル

Xamarin のクイックスタート
Linux ARM64 の情報で CPP のクイックスタートを更新しました
iOS の情報で Unity のクイックスタートを更新しました

Speech SDK 1.6.0: 2019-June リリース

サンプル

UWP および Unity 上の Text to Speech 用のクイックスタートサンプル
iOS 上の Swift 用のクイックスタートサンプル
音声および意図の認識と翻訳用の Unity サンプル
DialogServiceConnector のクイックスタートサンプルが更新されました

機能強化/変更

Dialog 名前空間:
- SpeechBotConnector の名前が DialogServiceConnector に変更されました
- BotConfig の名前が DialogServiceConfig に変更されました
- BotConfig::FromChannelSecret() は DialogServiceConfig::FromBotSecret() に再マッピングされました
- 既存のすべての Direct Line Speech クライアントは、名前の変更後も引き続きサポートされます
TTS REST アダプターが更新され、プロキシ、固定接続がサポートされるようになりました
無効なリージョンが渡されたときのエラーメッセージを改善しました
Swift/Objective-C:
- エラー報告の改善: エラーが発生する可能性のあるメソッドが、2 つのバージョンで存在するようになりました。エラー処理のために NSError オブジェクトを公開するものと、例外を発生させるものです。前者は Swift に公開されます。この変更を既存の Swift コードに適応させる必要があります。
- イベント処理を改善しました

バグの修正

オーディオがレンダリングを完了するまで待たずに、SpeakTextAsync が制御を戻していた TTS の問題を修正しました
言語の完全サポートを可能にするために、C# での文字列のマーシャリングを修正しました
サンプルで net461 ターゲットフレームワークを使用してコアライブラリを読み込むときの .NET Core アプリの問題を修正しました
サンプルでネイティブライブラリを出力フォルダーに展開するときに発生する場合がある問題を修正しました
Web ソケットを確実に閉じるための修正を行いました
Linux で高負荷時に接続を開いたときに発生する可能性があるクラッシュを修正しました
macOS 用のフレームワークバンドルの欠落しているメタデータを修正しました
Windows での pip install --user に関する問題を修正しました

Speech SDK 1.5.1

これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。 JavaScript バージョンの SDK には影響しません。

バグ修正

会話の文字起こしで使用する FromSubscription を修正しました。
音声アシスタントのキーワードスポッティングのバグを修正しました。

Speech SDK 1.5.0:2019-May リリース

新機能

キーワードスポッティング機能 (KWS) が Windows と Linux で利用できるようになりました。 KWS の機能は任意の種類のマイクでも動作する可能性がありますが、公式の KWS サポートは、現時点では Azure Kinect DK ハードウェアまたは Speech Devices SDK 内のマイクアレイに限定されています。
フレーズヒント機能は、この SDK を介して利用できます。詳細については、このページを参照してください。
会話の文字起こし機能は、この SDK を介して利用できます。
Direct Line Speech チャネルを使用する音声アシスタントのサポートを追加します。

サンプル

SDK でサポートされている新機能または新サービスのサンプルを追加しました。

機能強化/変更

サービスの動作やサービスの結果を調整するさまざまなレコグナイザープロパティを追加しました (冒涜的な表現やその他のマスクなど)。
レコグナイザー FromEndpoint を作成した場合でも、標準の構成プロパティを使用してレコグナイザーを構成できるようになりました。
Objective-C: OutputFormat プロパティが SPXSpeechConfiguration に追加されました。
SDK は、Linux ディストリビューションとして Debian 9 をサポートするようになりました。

バグ修正

テキスト読み上げでスピーカーリソースの破棄が早すぎる問題を修正。

Speech SDK 1.4.2

これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。 JavaScript バージョンの SDK には影響しません。

Speech SDK 1.4.1

これは、JavaScript のみのリリースです。機能は追加されていません。以下の修正が行われました。

Web パックでHTTPS プロキシエージェントが読み込まれないようにしました。

Speech SDK 1.4.0: 2019 年 4 月リリース

新機能

SDK で、ベータ版としてテキスト読み上げサービスがサポートされるようになりました。 Windows および Linux デスクトップの C++ および C# からサポートされます。詳細については、テキスト読み上げの概要に関する記事を参照してください。
SDK は、ストリーム入力ファイルとして MP3 および Opus/OGG オーディオファイルをサポートするようになりました。この機能は、Linux の C++ と C# からのみ使用でき、現在はベータ版です (詳しくはこちら)。
Java、.NET Core、C++、Objective-C 用の Speech SDK で、macOS がサポートされるようになりました。 Objective-C での MacOS のサポートは、現在ベータ版です。
iOS:iOS (Objective-C) 用の Speech SDK が、CocoaPod としても公開されるようになりました。
JavaScript:入力デバイスとしての既定以外のマイクのサポート。
JavaScript:Node.js に対するプロキシのサポート。

サンプル

macOS の C++ および Objective-C での Speech SDK の使用のサンプルが追加されました。
テキスト読み上げサービスの使用方法を示すサンプルが追加されました。

機能強化/変更

Python: 認識結果の追加のプロパティが、properties プロパティで公開されるようになりました。
開発とデバッグの追加サポートでは、SDK のログ記録と診断情報をログファイルにリダイレクトすることができます (詳細についてはこちら)。
JavaScript:オーディオ処理のパフォーマンスが向上しました。

バグの修正

Mac/iOS: 音声サービスへの接続を確立できないときに、長時間待機が発生するバグを修正しました。
Python: Python コールバックでの引数のエラー処理が向上しました。
JavaScript:RequestSession で終了した音声の正しくない状態レポートが修正されました。

Speech SDK 1.3.1:2019 年 2 月更新

これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。 JavaScript バージョンの SDK には影響しません。

バグ修正

マイク入力を使用する際のメモリリークを修正しました。ストリームベースの入力やファイル入力には影響しません。

Speech SDK 1.3.0: 2019-February リリース

新機能

Speech SDK では、AudioConfig クラスによって入力マイクの選択がサポートされます。これにより、既定以外のマイクから、Speech サービスに、音声データをストリーミングできます。詳しくは、オーディオ入力デバイスの選択に関する記事をご覧ください。この機能は、JavaScript からはまだ使用できません。
Speech SDK では、ベータ版で Unity がサポートされるようになりました。 GitHub サンプルリポジトリの問題セクションでフィードバックをお送りください。このリリースでは、Windows x86 と x64 (デスクトップまたはユニバーサル Windows プラットフォームアプリケーション) および Android (ARM32/64、x86) での Unity がサポートされています。詳しくは、Unity のクイックスタートに関する記事をご覧ください。
(以前のリリースで提供されていた) Microsoft.CognitiveServices.Speech.csharp.bindings.dll ファイルは不要になりました。この機能はコア SDK に統合されました。

サンプル

サンプルリポジトリで次の新しいコンテンツを利用できます。

AudioConfig.FromMicrophoneInput のその他のサンプル
意図認識と翻訳に関する追加の Python サンプル。
iOS での Connection オブジェクトの使用に関する追加サンプル。
オーディオ出力での翻訳に関する追加の Java サンプル。
Batch Transcription REST API の使用に関する新しいサンプル。

機能強化/変更

Python
- SpeechConfig でのパラメーター検証とエラーメッセージが強化されました。
- Connection オブジェクトのサポートを追加します。
- Windows での 32 ビット Python (x86) のサポート。
- Python 用 Speech SDK がベータ版ではなくなりました。
iOS
- SDK のビルド対象が iOS SDK バージョン 12.1 になりました。
- SDK が、iOS バージョン 9.2 以降をサポートするようになりました。
- リファレンスドキュメントが改善され、いくつかのプロパティ名が修正されました。
JavaScript
- Connection オブジェクトのサポートを追加します。
- バンドルされている JavaScript の型定義ファイルが追加されました
- 語句ヒントの最初のサポートと実装。
- 認識に対するサービス JSON でプロパティのコレクションが返されます
Windows の DLL に、バージョンリソースが含まれるようになりました。
認識エンジン FromEndpoint を作成する場合は、エンドポイント URL に直接パラメーターを追加できます。 FromEndpoint を使用した場合、標準の構成プロパティを通じて認識エンジンを構成することはできません。

バグ修正

空のプロキシユーザー名とプロキシパスワードが、正しく処理されていませんでした。このリリースでは、プロキシユーザー名とプロキシパスワードを空の文字列に設定した場合、プロキシに接続したときにそれらが送信されません。
SDK によって作成された SessionId が、一部の言語/環境で本当にランダムではないことがありました。乱数ジェネレーターの初期化を追加してこの問題を解決しました。
認可トークンの処理が向上します。認可トークンを使用する場合、SpeechConfig で指定し、サブスクリプションキーを空のままにします。その後、通常どおり認識エンジンを作成します。
場合によっては、Connection オブジェクトが正しく解放されませんでした。この問題は修正されています。
翻訳合成も Safari 上にある場合にオーディオ出力をサポートするよう、JavaScript のサンプルが修正されました。

Speech SDK 1.2.1

これは、JavaScript のみのリリースです。機能は追加されていません。以下の修正が行われました。

speech.end ではなく turn.end でストリームの終了が発生します。
現在の送信が失敗した場合に、次の送信がスケジュールされなかった、オーディオポンプのバグを修正しました。
認証トークンでの継続的な認識を修正しました。
別の認識エンジン/エンドポイントのバグ修正。
ドキュメントの改善。

Speech SDK 1.2.0:2018-December リリース

新機能

Python
- このリリースで、Python サポート (3.5 以降) のベータ版を使用できるようになりました。詳しくは、こちら (../../quickstart-python.md) をご覧ください。
JavaScript
- Speech SDK for JavaScript はオープンソースで提供されています。ソースコードは GitHubから入手できます。
- Node.js のサポートを開始しました。詳細については、こちらを参照してください。
- 音声セッションの長さの制限がなくなり、再接続は背後で自動的に実行されるようになります。
Connection オブジェクト
- Recognizer から、Connection オブジェクトにアクセスできます。このオブジェクトを使用すると、サービスの接続を明示的に開始し、接続イベントと切断イベントをサブスクライブすることができます (この機能は、JavaScript と Python からはまだ使用できません)。
Ubuntu 18.04 のサポート。
Android
- APK 生成時の ProGuard サポートが有効になりました。

機能強化

内部スレッドの使用方法を改善し、スレッド、ロック、相互排他の数を減らしました。
エラー報告や情報を改善しました。一部のケースでは、エラーメッセージがまったく伝達されていませんでした。
最新のモジュールを使用するように JavaScript の開発依存関係を更新しました。

バグの修正

RecognizeAsync の型の不一致によるメモリリークを修正しました。
場合によっては、例外がリークしていました。
翻訳イベント引数のメモリリークを修正しました。
長時間実行中のセッションでの再接続に関するロックの問題を修正しました。
翻訳が失敗した場合に最終的な結果が失われる可能性がある問題を修正しました。
C#:メインスレッドで async 操作が待機されていない場合、非同期タスクが完了する前に認識機能が破棄される可能性がありました。
Java:Java VM がクラッシュする原因となる問題を修正しました。
Objective-C: RecognizingIntent ではなく RecognizedIntent が返されるという列挙型のマッピングを修正しました。
JavaScript:SpeechConfig で既定の出力形式を 'simple' に設定します。
JavaScript:JavaScript と他の言語の config オブジェクトのプロパティ間にある不整合を解消しました。

サンプル

いくつかのサンプルを更新および修正しました (たとえば、翻訳のための出力音声など)。
サンプルリポジトリに Node.js サンプルを追加しました。

Speech SDK 1.1.0

新機能

Android x86 または x64 のサポート。
プロキシのサポート: SpeechConfig オブジェクトで、プロキシ情報 (ホスト名、ポート、ユーザー名、パスワード) を設定する関数を呼び出せるようになりました。この機能は iOS ではまだ利用できません。
強化されたエラーコードとメッセージ。認識でエラーが返された場合、これは既に Reason (取り消されたイベントの場合) またはCancellationDetails (認識結果) を Error に設定します。取り消されたイベントに、2 つのメンバー ErrorCode と ErrorDetails が含まれるようになりました。サーバーによって、報告されたエラーと一緒に追加のエラー情報が返された場合、これを新しいメンバーで使用できるようになります。

機能強化

認識エンジンの構成に検証が追加され、エラーメッセージが追加されました。
オーディオファイル中の長時間のサイレント状態の処理が強化されました。
NuGet パッケージ: .NET Framework プロジェクトの場合、AnyCPU 構成でビルドされることを防ぎます。

バグの修正

認識エンジンで見つかったいくつかの例外を修正しました。さらに例外がキャッチされ、Canceled イベントに変換されます。
プロパティ管理のメモリリークを修正しました。
オーディオ入力ファイルが認識エンジンをクラッシュする可能性があるバグを修正しました。
セッションがイベントを停止した後でイベントが受信されることがあるバグを修正しました。
スレッド処理の一部の競合状態を修正しました。
クラッシュの原因となる iOS の互換性の問題を修正しました。
Android のマイクのサポートのための安定性の向上。
JavaScript の認識エンジンが認識言語を無視するバグを修正しました。
JavaScript で (場合によっては) EndpointId の設定を妨げるバグを修正しました。
JavaScript の AddIntent のパラメーターの順序を変更し、不足している AddIntent JavaScript 署名を追加します。

サンプル

プルおよびプッシュストリームの使用のための C++ と C# のサンプルをサンプルリポジトリに追加しました。

Speech SDK 1.0.1

信頼性の向上とバグ修正

認識エンジンの破棄での競合状態によって致命的なエラーが発生する可能性を修正しました
未設定のプロパティによって致命的なエラーが発生する可能性を修正しました。
新しいエラーとパラメーターのチェックを追加しました。
Objective-C: NSString での名前のオーバーライドによって致命的なエラーが発生する可能性を修正しました。
Objective-C: API の可視性を調整しました
JavaScript:イベントとそのペイロードに関して修正しました。
ドキュメントの改善。

サンプルリポジトリに、JavaScript の新しいサンプルを追加しました。

Azure AI Speech SDK 1.0.0: 2018 年 9 月リリース

新機能

iOS での Objective-C のサポート。 iOS での Objective-C のクイックスタートに関するページをご覧ください。
ブラウザーでの JavaScript のサポート。 JavaScript のクイックスタートに関するページをご覧ください。

重大な変更

このリリースでは、重大な変更がいくつか行われています。詳細については、こちらのページを参照してください。

Azure AI Speech SDK 0.6.0: 2018 年 8 月リリース

新機能

Speech SDK で構築された UWP アプリは、Windows アプリ認定キット (WACK) に合格できるようになりました。 UWP のクイックスタートに関するページをご覧ください。
Linux (Ubuntu 16.04 x 64) 上の .NET Standard 2.0 のサポート。
試験段階: Windows (64 ビット) および Linux (Ubuntu 16.04 x 64) での Java 8 サポート。 Java ランタイム環境のクイックスタートに関するページをご覧ください。

機能の変更点

接続エラーに関する追加エラーの詳細情報が公開されました。

重大な変更

Java (Android) で、SpeechFactory.configureNativePlatformBindingWithDefaultCertificate 関数にパスパラメーターが不要になりました。サポートされているすべてのプラットフォームでパスが自動的に検出されるようになりました。
Java および C# のプロパティ EndpointUrl の get-accessor が削除されました。

バグの修正

Java で、翻訳認識エンジンの音声合成結果が実装されるようになりました。
非アクティブなスレッドの原因となったり、未使用の開いたソケット数の増加の原因となったりするバグが修正されました。
実行時間の長い認識が伝送の途中で終了する問題が修正されました。
認識エンジンのシャットダウン時の競合状態を修正しました。

Azure AI Speech SDK 0.5.0: 2018 年 7 月リリース

新機能

Android プラットフォーム (API 23: Android 6.0 Marshmallow 以降) をサポートします。 Android クイックスタートをチェックアウトします。
Windows 上の .NET Standard 2.0 をサポートします。 .NET Core クイックスタートをチェックアウトします。
試験段階: Windows 上での UWP のサポート (バージョン 1709 以降)。
- UWP のクイックスタートに関するページをご覧ください。
- Speech SDK で構築された UWP アプリは、まだ Windows アプリ認定キット (WACK) に合格していないことに注意してください。
自動再接続を使用して、実行時間の長い認識をサポートします。

機能の変更点

StartContinuousRecognitionAsync() は、実行時間の長い認識をサポートします。
認識結果に含まれるフィールドが増えました。認識されたテキストのオーディオの開始からのオフセットと期間 (どちらも単位はティック)、および認識状態を表す追加の値 (InitialSilenceTimeout や InitialBabbleTimeout など) です。
ファクトリインスタンスを作成するための AuthorizationToken をサポートします。

重大な変更

認識イベント: NoMatch のイベントの種類は、Error イベントにマージされました。
C# での SpeechOutputFormat は、C++ との整合性を維持するために OutputFormat に名前が変更されました。
AudioInputStream インターフェイスのいくつかのメソッドの戻り値の型が若干変更されました。
- Java では、read メソッドが int の代わりに long を返すようになりました。
- C# では、Read メソッドが int の代わりに uint を返すようになりました。
- C++ では、Read および GetFormat メソッドが int の代わりに size_t を返すようになりました。
C++: オーディオ入力ストリームのインスタンスを shared_ptr としてのみ渡すことができるようになりました。

バグ修正

RecognizeAsync() がタイムアウトしたときの結果にある正しくない戻り値が修正されました。
Windows 上のメディアファンデーションライブラリへの依存関係が削除されました。 SDK で Core Audio API が使用されるようになりました。
ドキュメントの修正: サポートされるリージョンを説明するためのリージョンページが追加されました。

既知の問題

Android 用の Speech SDK では、翻訳のための音声合成の結果が報告されません。この問題は次のリリースで修正される予定です。

Azure AI Speech SDK 0.4.0: 2018 年 8 月リリース

機能の変更点

AudioInputStream

認識エンジンでは、オーディオソースとしてストリームを利用できるようになりました。詳細については、関連するハウツーガイドを参照してください。
出力形式の詳細

SpeechRecognizer を作成するときに、Detailed または Simple 出力形式を要求できます。 DetailedSpeechRecognitionResult には、信頼度スコア、認識されるテキスト、生の語彙形式、正規化形式、および不適切な内容がマスクされた正規化形式が含まれます。

互換性に影響する変更点

C# で SpeechRecognitionResult.Text から SpeechRecognitionResult.RecognizedText に変更されました。

バグ修正

シャットダウン中に USP レイヤーで発生する可能性のあるコールバックの問題を修正しました。
認識エンジンでオーディオ入力ファイルが使用されると、必要以上に長くファイルハンドルが保持されていました。
メッセージポンプと認識エンジンの間の複数のデッドロックが削除されました。
サービスからの応答がタイムアウトすると、結果は NoMatch になります。
Windows のメディアファンデーションライブラリは、遅延読み込みされます。このライブラリは、マイク入力の場合のみ必要です。
オーディオデータのアップロードの速度が、元の音声速度の約 2 倍に制限されます。
Windows では、C# .NET アセンブリには厳密な名前が指定されるようになりました。
ドキュメントの修正: Region は、認識エンジンを作成するための必須情報です。

他のサンプルも追加されており、常に更新されます。最新のサンプルセットについては、Speech SDK のサンプルの GitHub リポジトリを参照してください。

Azure AI Speech SDK 0.2.12733: 2018 年 5 月リリース

このリリースは、Azure AI Speech SDK の最初のパブリックプレビューリリースです。

Speech CLI 1.37.0: 2024 年 4 月リリース

Speech SDK 1.37.0 を使用するように更新されました

新機能

なし

バグ修正

なし

Speech CLI 1.36.0: 2024 年 3 月リリース

Speech SDK 1.36.0 を使用するように更新されました

新機能

なし

バグ修正

なし

Speech CLI 1.35.0: 2024 年 2 月のリリース

Speech SDK 1.35.0 を使用するように更新されました

新機能

なし

バグ修正

JMESPath 依存関係を最新バージョンに更新

Speech CLI 1.34.0: 2023 年 11 月リリース

Speech SDK 1.34.0 を使用するように更新されました

Speech CLI 1.33.0: 2023 年 10 月リリース

Speech SDK 1.34.0 を使用するように更新されました

Speech CLI 1.31.0: 2023 年 8 月リリース

Speech SDK 1.31.0 を使用するように更新されました

Speech CLI 1.30.0: 2023 年 7 月リリース

音声 SDK 1.30.0 を使用するように更新されました

Speech CLI 1.29.0: 2023 年 6 月リリース

音声 SDK 1.29.0 を使用するように更新されました

Speech CLI 1.28.0: 2023 年 5 月のリリース

音声 SDK 1.28.0 を使用するように更新されました

音声 CLI 1.27.0: 2023 年 4 月のリリース

更新プログラム

音声 SDK 1.27.0 を使用するように更新されました
カスタム音声認識とバッチ音声認識で v3.1 REST API を使用するように、既定のエンドポイントを更新。

バグの修正

クエリパラメーターの解析/構成方法に関連する修正。

Speech CLI 1.26.0: 2023 年 3 月リリース

Speech SDK 1.26.0 を使用するように更新されました。

Speech CLI 1.25.0: 2023 年 1 月のリリース

Speech SDK 1.25.0 を使用するように更新されました。

Speech CLI 1.24.0: 2022 年 10 月リリース

Speech SDK 1.24.0 が使用されます。

新機能

すべての spx イベントに対して JMESPath クエリをサポートするように "spx check" が拡張されました

バグ修正

JMESPath クエリの評価に対する堅牢性のための、さまざまな機能強化
リソースに制約があるマシンで発生する可能性がある、ファイル書き込みの切り捨てに関する修正

Speech CLI 1.23.0: 2022 年 7 月リリース

Speech SDK 1.23.0 を使用します。

新機能

キャプションの改善 (--output vtt および --output srt) 大きな結果の分割(最大 37 文字、3 行)
文書化された spx synthesize--format オプション (spx help synthesize format を参照)
spx csr コマンド/オプションの大部分を文書化しました (spx help csr をご覧ください)
spx csr model copy コマンドを追加しました (spx help csr model copy を参照)
JMES クエリを使用した --check result オプションを追加しました (spx help check result 参照)
無効なコマンドオプションを指定したときのエラーメッセージを改善しました
.NET Core 3.1 から .NET 6.0 に移行しました。音声 CLI を実行するには、.NET 6.0 ランタイム (またはそれ以上) をインストールする必要があります。

バグの修正

すべての URL を更新して言語を削除しました (例: "en-US")
すべてのケースで正しく報告されるようにバージョン情報を修正しました (以前は空白の場合がありました)

Speech CLI 1.22.0: 2022 年 6 月リリース

Speech SDK 1.22.0 を使用します。

新機能

ユーザーが Azure Web ポータルに移動せずに Speech リソースキーを作成するのを支援する spx init コマンドを追加しました。
音声 Docker コンテナーに Azure CLI が含まれるようになったため、spx init コマンドがそのまま動作します。
待機時間の計算時に SPX をより便利にするために、タイムスタンプをイベント出力オプションとして追加しました。

Speech CLI 1.21.0: 2022 年 4 月のリリース

Speech SDK 1.21.0 を使用します。

新機能

WEBVTT キャプションの生成
- spx translate に --output vtt のサポートを追加しました
- 既定の VTT ファイル名をオーバーライドする --output vtt file FILENAME がサポートされます。
- 標準出力に書き込みを行う --output vtt file - がサポートされます。
- 対象言語ごとに個別の VTT ファイルが作成されます (例: --target en;de;fr)
SRT キャプションの生成
- spx recognize、spx intent、spx translate に対して --output srt のサポートが追加されました
- 既定の SRT ファイル名をオーバーライドする --output srt file FILENAME がサポートされます。
- 標準出力に書き込みを行う --output srt file - がサポートされます。
- spx translate で、対象言語ごとに個別の SRT ファイルが作成されます (例: --target en;de;fr)

バグの修正

WEBVTT 期間出力で hh:mm:ss.fff 形式が正しく使用されるように修正されました。

Speech CLI 1.20.0: 2022 年 1 月のリリース

新機能

話者認識
- spx profile enroll と spx speaker [identify/verify] で、マイク入力をサポートするようになりました
意図認識 (spx intent)
- --keyword FILE.table
- --pattern および --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once、--once+、--continuous (現在は continuous が既定値)
- --output all/each connection EVENT
- --output all/each connection message (例: text、path)
CLI コンソールの出力予想チェック/作成:
- すべてのコマンドでの --expect PATTERN と --not expect PATTERN のサポート
- 予想されるパターンの作成を支援する --auto expect
SDK ログの出力予想チェック/作成
- すべてのコマンドでの --log expect PATTERN と --not log expect PATTERN のサポート
- すべてのコマンドでの --log auto expect [FILTER] のサポート
- spx profile および spx speaker での --log FILE のサポート
オーディオファイル入力
- すべてのコマンドでの --format ANY のサポート
- --file - のサポート (標準入力からの読み取り、パイプシナリオの有効化)
オーディオファイル出力
- --audio output - 標準出力への書き込み、パイプシナリオの有効化
出力ファイル
- --output all/each file - 標準出力への書き込み
- --output batch file - 標準出力への書き込み
- --output vtt file - 標準出力への書き込み
- --output json file -spx csr コマンドと spx batch コマンドでの標準出力への書き込み
出力プロパティ
- --output […] result XXX property (PropertyId または文字列)
- --output […] connection message received XXX property (PropertyId または文字列)
- --output […] recognizer XXX property (PropertyId または文字列)
Azure WebJob の統合
- spx webjob がサブコマンドパターンに従うようになりました
- サブコマンドのパターンを反映するように Web ob のヘルプを更新しました (spx help webjob を参照)

バグ修正

--output vtt FILE と --output batch FILE の両方が同時に使用されたときのバグを修正しました
spx [...] --zip ZIPFILENAME に、すべてのシナリオに必要なすべてのバイナリが含まれるようになりました (存在する場合)
spx profile および spx speaker コマンドが、キャンセル時に詳細なエラー情報を返すようになりました

2021 年 5 月リリース

新機能

プロファイル、話者 ID、話者認証のサポートが追加されました - コマンドラインから spx profile と spx speaker を試してください。
また、ダイアログのサポートも追加しました - コマンドラインから spx dialog を試してください。
spx のヘルプを改善しました。 GitHub イシューを開いて、これがどのように機能しているかについてのフィードバックをお寄せください。
.NET ツールのインストールのサイズを減らしました。

COVID-19 の影響によるテストの短縮

パンデミックが続いており、エンジニアは自宅で作業する必要があるため、パンデミック前の手動検証スクリプトは大幅に削減されています。テスト対象のデバイスと構成が少なくなっており、環境固有のバグが漏れる可能性が高くなる場合があります。大きな自動化のセットを使用して、厳格な検証をまだ行っています。しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。
皆様の健康をお祈りします！

2021年 3月リリース

新機能

意図認識用の spx intent コマンドを追加し、spx recognize intent が置き換わります。
意図認識で Azure 関数を使用できるようになり、spx recognize --wer url <URL> を使用して単語エラー率を計算できるようになりました。
認識では、spx recognize --output vtt file <FILENAME> を使用して、結果を VTT ファイルとして出力できるようになりました。
重要なキー情報がデバッグまたは詳細出力で伏字で表示されるようになりました。
バッチ文字起こし作成で、コンテンツフィールドの URL チェックとエラーメッセージを追加しました。

COVID-19 の影響によるテストの短縮

2021 年 1 月のリリース

新機能

Speech CLI が NuGet パッケージとして使用できるようになり、シェルやコマンドラインから呼び出すことができる .NET グローバルツールとして .NET CLI を使用してインストールできます。
Custom Speech DevOps テンプレートリポジトリが、Custom Speech ワークフローに Speech CLI を使用するように更新されました。

COVID-19 の影響によるテストの短縮

2020-October リリース

SPX は、コードを記述せずに Speech サービスを使用するためのコマンドラインインターフェイスです。最新バージョンは、こちらからダウンロードできます。

新機能

spx csr dataset upload --kind audio|language|acoustic – URL からだけではなく、ローカルデータからデータセットを作成します。
spx csr evaluation create|status|list|update|delete – 新しいモデルを正しいベースラインおよびその他のモデルと比較します。
spx * list – 非ページ操作をサポートします (top X --skip X は不要)。
spx * --http header A=B – カスタムヘッダーをサポートします (カスタム認証用として Office に追加済み)。
spx help – 改良されたテキストとバックティックテキストの色分け (青)。

2020 年 6 月リリース

CLI 内ヘルプ検索機能が追加されました。
- spx help find --text TEXT
- spx help find --topic NAME
新しくデプロイされた v3.0 Batch および Custom Speech API と連携するように更新されました。
- spx help batch examples
- spx help csr examples

COVID-19 の影響によるテストの短縮

Speech CLI (別名 SPX): 2020 年 5 月のリリース

SPX は、コマンドラインから認識、合成、翻訳、バッチ文字起こし、およびカスタム音声管理を実行するための新しいコマンドラインツールです。これを使用して、音声サービスをテストしたり、実行する必要がある音声サービスタスクをスクリプト化したりできます。ツールをダウンロードし、こちらのドキュメントを参照してください。

2024 年 4 月リリース

テキスト読み上げアバター

これで自分のアバターに静的な背景画像を設定できるようになりました。この機能を利用するには、avatarConfig.backgroundImage プロパティを使用し、目的のイメージを指す URL を指定するだけです。詳細については、「背景を編集する方法」を参照してください。

2024 年 3 月のリリース

あらかじめ構築されたニューラル音声

en-US-AvaMultilingualNeural、en-US-AndrewMultilingualNeural、en-US-EmmaMultilingualNeural、en-US-BrianMultilingualNeural、de-DE-FlorianMultilingualNeural、de-DE-SeraphinaMultilingualNeural、fr-FR-RemyMultilingualNeural、fr-FR-VivienneMultilingualNeural、zh-CN-XiaoxiaoMultilingualNeuralの 9 つの多言語音声がすべてのリージョンで一般公開されています。詳しくは、言語と音声の完全な一覧をご覧ください。
パブリックプレビュー用に新しい多言語音声である ja-JP-MasaruMultilingualNeural が導入されました。詳しくは、言語と音声の完全な一覧をご覧ください。
追加の更新:
- en-US-RyanMultilingualNeural がすべてのリージョンで一般公開されています。
- en-US-JennyMultilingualV2Neural がすべてのリージョンで一般公開されており、en-US-JennyMultilingualNeural と統合されます。
- 米国東部、西ヨーロッパ、東南アジアの 3 つの新しいスタイルを使用して、更新された en-IN-NeerjaNeural と hi-IN-SwaraNeural でプレビューを利用できます。
- インド中部で利用可能な新しい女性の声のプレビュー: en-IN-KavyaNeural、en-IN-AnanyaNeural、en-IN-AashiNeural、hi-IN-KavyaNeural、および hi-IN-AnanyaNeural。

テキスト読み上げアバター

リアルタイムアバターに対する Azure Communication Services (ACS) TURN の依存関係を削除しました。この変更を反映するようにサンプルコードも更新されました。
テキスト読み上げアバターの価格を公開しました。詳細については、価格に関するページをご覧ください。アバターの価格は、米国西部 2、西ヨーロッパ、東南アジアなど、この機能が利用可能なサービス地域でのみ表示されます。

2024 年 2 月のリリース

OpenAI の音声

Azure AI 音声サービスは、米国中北部およびスウェーデン中部のリージョンで OpenAI テキスト読み上げの音声がサポートしています。 Azure AI 音声の音声と同様、OpenAI テキスト読み上げの音声は高品質の音声合成を実現し、書かれたテキストを自然な音声に変換します。これにより、没入型で対話形式のユーザーエクスペリエンスの可能性が広がります。詳細については、「OpenAI テキスト読み上げの音声とは」を参照してください。

Note

OpenAI テキスト読み上げの音声は、Azure OpenAI Service でも使用できます。
この更新では、Azure AI 音声を使用して事前構築済みのニューラル音声の価格を調整しました。更新された価格については、こちらをご覧ください。

Personal Voice

パーソナル音声機能で DragonLatestNeural および PhoenixLatestNeural モデルがサポートされるようになりました。これらの新しいモデルでは、合成音声の自然さが向上し、プロンプトの音声が持つ音声の特徴により似たものになります。詳細については、「アプリケーションに Personal Voice を統合する」を参照してください。

2023 年 12 月のリリース

Custom Voice API

Custom Voice API は、プロフェッショナルおよび個人用のカスタムニューラル音声モデルを作成および管理するために使用できます。

カスタムニューラル音声

新しくトレーニングされた音声モデルでモデルのバージョンに関係なく 48 kHz のサンプルレートがサポートされるようになりました。以前にトレーニング済みの音声モデルでは、サンプルレートを 48 kHz に強化するには、エンジンのバージョンを少なくとも 2023.11.13.0 バージョンにアップグレードする必要があります。

あらかじめ構築されたニューラル音声

パブリックプレビュー用に新しい多言語音声が導入されました。

ロケール (BCP-47)	言語	テキスト読み上げ音声
`de-DE`	ドイツ語 (ドイツ)	`de-DE-FlorianMultilingualNeural` (男性)
`de-DE`	ドイツ語 (ドイツ)	`de-DE-SeraphinaMultilingualNeural` (女性)
`en-US`	英語 (米国)	`en-US-AvaMultilingualNeural` (女性)
`en-US`	英語 (米国)	`en-US-EmmaMultilingualNeural` (女性)
`fr-FR`	フランス語 (フランス)	`fr-FR-RemyMultilingualNeural` (男性)
`en-US`	英語 (米国)	`en-US-BrianMultilingualNeural` (男性)
`en-US`	英語 (米国)	`en-US-AndrewMultilingualNeural` (男性)
`fr-FR`	フランス語 (フランス)	`fr-FR-VivienneMultilingualNeural` (女性)
`zh-CN`	中国語 (標準、簡体字)	`zh-CN-XiaoxiaoMultilingualNeural` (女性)
`zh-CN`	中国語 (標準、簡体字)	`zh-CN-XiaochenMultilingualNeural` (女性)
`zh-CN`	中国語 (標準、簡体字)	`zh-CN-YunyiMultilingualNeural` (男性)

いくつかの中国語の方言とアクセントをサポートするパブリックプレビュー用の新しい zh-CN-XiaoxiaoDialectsNeural 音声を紹介します。

音声名	第 2 言語	方言/アクセント
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	中国語 (中原官話陝西、簡体)
	`zh-CN-sichuan`	中国語 (南西部標準中国語、簡体字)
	`zh-CN-shanxi`	中国語 (山西アクセントの標準中国語、簡体字)
	`nan-CN`	中国語 (福建、簡体字)
	`zh-CN-anhui`	中国語 (江淮標準中国語安徽、簡体字)
	`zh-CN-hunan`	中国語 (湖南アクセントの標準中国語、簡体字)
	`zh-CN-gansu`	中国語 (蘭銀標準中国語甘粛、簡体字)
	`zh-CN-shandong`	中国語 (冀魯官話、簡体)
	`zh-CN-henan`	中国語 (中原官話河南、簡体) 河南アクセント
	`zh-CN-liaoning`	中国語 (東北官話、簡体)
	`zh-TW`	中国語 (台湾標準中国語、繁体字)

2023 年 11 月のリリース

Personal Voice

Personal Voice は次のリージョンでプレビュー段階です: 西ヨーロッパ、米国東部、東南アジア。 Personal Voice (プレビュー) を使用すると、AI が生成したユーザー (またはアプリケーションのユーザー) の音声のレプリケーションを数秒で取得できます。音声プロンプトとして 1 分間のスピーチサンプルを提供すると、それを使用し、100 以上のロケールで 90 以上の言語に対応した音声が生成されます。

詳細については、「Personal Voice」を参照してください。

テキスト読み上げアバター

テキスト読み上げアバターは、次のリージョンでプレビュー段階です: 米国西部 2、西ヨーロッパ、東南アジア。

テキスト読み上げアバターは、テキストをフォトリアリスティックな人間 (事前ビルド済みのアバターまたはカスタムテキスト読み上げアバター) が自然な音声で話すデジタルビデオに変換します。テキスト読み上げアバターのビデオは、非同期またはリアルタイムで合成できます。開発者は、API 経由でのテキスト読み上げアバターと統合されたアプリケーションのビルドや、Speech Studio のコンテンツ作成ツールを使用したコーディングなしでのビデオコンテンツの作成ができます。

詳細については、「テキスト読み上げアバター」、「透明性のためのメモ」、「音声とアバターのタレント」に関する開示を参照してください。

カスタムニューラル音声

クロス言語音声用の 24 個の新しいロケールのサポートが追加されました。詳しくは、言語の完全な一覧をご覧ください。

あらかじめ構築されたニューラル音声

パブリックプレビュー用に新しい音声が導入されました。

ロケール (BCP-47)	言語	テキスト読み上げ音声
`de-DE`	ドイツ語 (ドイツ)	`SeraphinaNeural` (女性)
`es-ES`	スペイン語 (スペイン)	`XimenaNeural` (女性)
`fr-CA`	フランス語 (カナダ)	`ThierryNeural` (男性)
`fr-FR`	フランス語 (フランス)	`VivienneNeural` (女性)
`it-IT`	イタリア語 (イタリア)	`GiuseppeNeural` (男性)
`ko-KR`	韓国語 (韓国)	`HyunsuNeural` (男性)
`pt-BR`	ポルトガル語 (ブラジル)	`ThalitaNeural` (女性)

バグ修正および品質の向上を含むモデルの更新:

ロケール (BCP-47)	言語	テキスト読み上げ音声
`es-ES`	スペイン語 (スペイン)	`AlvaroNeural` (男性)
`en-GB`	英語 (イギリス)	`RyanNeural` (男性)
`ko-KR`	韓国語 (韓国)	`InjoonNeural` (男性)

詳しくは、言語と音声の完全な一覧をご覧ください。

2023 年 10 月のリリース

カスタムニューラル音声

カスタムニューラル音声 Pro で 12 個の新しいロケールのサポートが追加されました。詳しくは、言語の完全な一覧をご覧ください。

2023 年 9 月のリリース

あらかじめ構築されたニューラル音声

パブリックプレビュー用に新しい音声が導入されました。

ロケール (BCP-47)	言語	テキスト読み上げ音声
`en-US`	英語 (米国)	`en-US-EmmaNeural` (女性)
`en-US`	英語 (米国)	`en-US-AndrewNeural` (男性)
`en-US`	英語 (米国)	`en-US-BrianNeural` (男性)

詳しくは、言語と音声の完全な一覧をご覧ください。

埋め込みニューラル音声

こちらの 147 個すべてのロケール (fa-IR、ペルシャ語 (イラン) を除く) は、選択した 1 つの女性または 1 つの男性の音声ですぐに使用できます。

2023 年 8 月リリース

カスタムニューラル音声

最新の CNV Lite トレーニングレシピバージョンがリリースされました。このリリースでは、言語モジュールの品質についていくつかの機能強化が行われています。 Speech Studio をお試しください。

2023 年 7 月リリース

カスタムニューラル音声

マルチスタイルの音声は一般提供されています。
マルチスタイルの音声用のパブリックプレビューで、2 つの新しいロケール (ja-JP と zh-CN) が追加されました。詳しくは、言語と音声の完全な一覧をご覧ください。さまざまな言語のプリセットスタイルリストを参照してください。
クロス言語音声は一般提供されています。
クロス言語音声用の 2 つの新しいロケール (id-ID と nl-NL) が追加されました。詳しくは、言語と音声の完全な一覧をご覧ください。

事前構築済みニューラル TTS 音声

パブリックプレビュー用の新しい en-US 性別に依存しない音声の導入:

ロケール (BCP-47)	言語	テキスト読み上げ音声
`en-US`	英語 (米国)	`en-US-BlueNeural` (ニュートラル)

パブリックプレビュー用に新しい多言語音声が導入されました。

ロケール (BCP-47)	言語	テキスト読み上げ音声
`en-US`	英語 (米国)	`en-US-JennyMultilingualV2Neural` (女性)
`en-US`	英語 (米国)	`en-US-RyanMultilingualNeural` (男性)

多言語音声 en-US-JennyMultilingualV2Neural および en-US-RyanMultilingualNeural は、入力テキストの言語を自動検出します。ただし、<lang> 要素を使用して、これらの音声の読み上げ言語を調整することはできます。

これらの新しい多言語音声では、41 の言語およびアクセント (Arabic (Egypt)、Arabic (Saudi Arabia)、Catalan、Czech (Czechia)、Danish (Denmark)、German (Austria)、German (Switzerland)、German (Germany)、English (Australia)、English (Canada)、English (United Kingdom)、English (Hong Kong SAR)、English (Ireland)、English (India)、English (United States)、Spanish (Spain)、Spanish (Mexico)、Finnish (Finland)、French (Belgium)、French (Canada)、French (Switzerland)、French (France)、Hindi (India)、Hungarian (Hungary)、Indonesian (Indonesia)、Italian (Italy)、Japanese (Japan)、Korean (Korea)、Norwegian Bokmål (Norway)、Dutch (Belgium)、Dutch (Netherlands)、Polish (Poland)、Portuguese (Brazil)、Portuguese (Portugal)、Russian (Russia)、Swedish (Sweden)、Thai (Thailand)、Turkish (Türkiye)、Chinese (Mandarin, Simplified)、Chinese (Cantonese, Traditional)、Chinese (Taiwanese Mandarin, Traditional)) で読み上げることができます。

これらの多言語音声では、break、emphasis、silence、sub などの特定の SSML 要素は完全にサポートされていません。

重要

en-US-JennyMultilingualV2Neural 音声は、パブリックプレビューで評価目的のためにのみ一時的に提供されています。これは、今後削除される予定です。

英語以外の言語で読み上げるには、en-US-JennyMultilingualNeural 音声の現在の実装で <lang xml:lang> 要素を設定する必要があります。 en-US-JennyMultilingualNeural 音声は、2023 年第 4 四半期中に、<lang xml:lang> 要素を設定しなくても入力テキストの言語で読み上げるように更新される予定です。これは、en-US-JennyMultilingualV2Neural 音声と同等になります。

次の音声のパブリックプレビューに新機能が導入されました。

セルビア語 (セルビア) sr-RS の音声のラテン語入力を追加: sr-latn-RS-SophieNeural および sr-latn-RS-NicholasNeural。
アルバニア語 (アルバニア) sq-AL の音声の英語発音のサポートを追加: sq-AL-AnilaNeuralおよび sq-AL-IlirNeural.

2023 年 5 月リリース

Audio Content Creation

読み上げスタイルとマルチスタイルのカスタム音声を備えた事前構築済みの音声ではすべて、話し方の強度の調整がサポートされます。
単語を読み上げて録音することで、単語の発音を修正できるようになりました。音素は録音から自動的に認識できます。 読み上げによる認識機能は、パブリックプレビュー段階です。

2023 年 4 月のリリース

事前構築済みニューラル TTS 音声

これらの音声の次の機能は、パブリックプレビューから GA に移行されました。

スタイル	テキスト読み上げ音声
style="chat"	`en-GB-RyanNeural`、`es-MX-JorgeNeural`、`it-IT-IsabellaNeural`
style="cheerful"	`en-GB-RyanNeural`、`en-GB-SoniaNeural`、`es-MX-JorgeNeural`、`fr-FR-DeniseNeural`、`fr-FR-HenriNeural`、`it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`、`fr-FR-DeniseNeural`、`fr-FR-HenriNeural`

hi-IN、ta-IN、te-IN の音声の英語の発音を改善し、パブリックプレビューリージョンでフライト化しています

詳細については、言語と音声の一覧を参照してください。

2023 年 3 月のリリース

新機能

音声合成マークアップ言語 (SSML) が更新され、デバイス上の特定のシナリオに合わせて合成音声出力の品質を最適化するオーディオ効果プロセッサ要素がサポートされるようになりました。音声合成マークアップに関するページで詳細を確認してください。

カスタムニューラル音声

カスタムニューラル音声 Pro で nl-BE ロケールのサポートが追加されました。詳しくは、言語と音声の完全な一覧をご覧ください。

事前構築済みニューラル TTS 音声

次の音声が新しく一般提供になりました。詳しくは、言語と音声の完全な一覧をご覧ください。

ロケール (BCP-47)	言語	テキスト読み上げ音声
`en-AU`	英語 (オーストラリア)	`en-AU-AnnetteNeural` (女性) `en-AU-CarlyNeural` (女性) `en-AU-DarrenNeural` (男性) `en-AU-DuncanNeural` (男性) `en-AU-ElsieNeural` (女性) `en-AU-FreyaNeural` (女性) `en-AU-JoanneNeural` (女性) `en-AU-KenNeural` (男性) `en-AU-KimNeural` (女性) `en-AU-NeilNeural` (男性) `en-AU-TimNeural` (男性) `en-AU-TinaNeural` (女性) `en-AU-WilliamNeural` (男性)
`en-GB`	英語 (イギリス)	`en-GB-RyanNeural` (男性) `en-GB-SoniaNeural` (女性)
`es-ES`	スペイン語 (スペイン)	`es-ES-AbrilNeural` (女性) `es-ES-ArnauNeural` (男性) `es-ES-DarioNeural` (男性) `es-ES-EliasNeural` (男性) `es-ES-EstrellaNeural` (女性) `es-ES-IreneNeural` (女性) `es-ES-LaiaNeural` (女性) `es-ES-LiaNeural` (女性) `es-ES-NilNeural` (男性) `es-ES-SaulNeural` (男性) `es-ES-TeoNeural` (男性) `es-ES-TrianaNeural` (女性) `es-ES-VeraNeural` (女性)
`es-MX`	スペイン語 (メキシコ)	`es-MX-JorgeNeural` (男性)
`fr-FR`	フランス語 (フランス)	`fr-FR-HenriNeural` (男性)
`it-IT`	イタリア語 (イタリア)	`it-IT-IsabellaNeural` (女性)
`ja-JP`	日本語 (日本)	`ja-JP-AoiNeural` (女性) `ja-JP-DaichiNeural` (男性) `ja-JP-MayuNeural` (女性) `ja-JP-NaokiNeural` (男性) `ja-JP-ShioriNeural` (女性)

de-DE-ConradNeural 音声を使用した cheerful スタイルのサポートが追加されました。

2023 年 2 月のリリース

事前構築済みニューラル TTS 音声

次の音声が新しく一般提供になりました。詳しくは、言語と音声の完全な一覧をご覧ください。

ロケール (BCP-47)	言語	テキスト読み上げ音声
`zh-CN`	中国語 (標準、簡体字)	`zh-CN-XiaomengNeural` (女性) `zh-CN-XiaoyiNeural` (女性) `zh-CN-XiaozhenNeural` (女性) `zh-CN-YunfengNeural` (男性) `zh-CN-YunhaoNeural` (男性) `zh-CN-YunjianNeural` (男性) `zh-CN-YunxiaNeural` (男性) `zh-CN-YunzeNeural` (男性)
`zh-CN-henan`	中国語 (中原官話河南、簡体) 河南アクセント	`zh-CN-henan-YundengNeural` (男性)

2022 年 12 月のリリース

バッチ合成 REST API (プレビュー)

バッチ合成 API は現在パブリックプレビュー段階です。その一般提供が開始された後、Long Audio API は非推奨となります。詳細については、バッチ合成 API への移行に関する記事を参照してください。

2022 年 11 月のリリース

事前構築済みニューラル TTS 音声 (GA)

次の音声が新しく一般提供になりました。詳しくは、言語と音声の完全な一覧をご覧ください。

ロケール (BCP-47)	言語	テキスト読み上げ音声
`es-MX`	スペイン語 (メキシコ)	`es-MX-BeatrizNeural` (女性) `es-MX-CandelaNeural` (女性) `es-MX-CarlotaNeural` (女性) `es-MX-CecilioNeural` (男性) `es-MX-GerardoNeural` (男性) `es-MX-LarissaNeural` (女性) `es-MX-LibertoNeural` (男性) `es-MX-LucianoNeural` (男性) `es-MX-MarinaNeural` (女性) `es-MX-NuriaNeural` (女性) `es-MX-PelayoNeural` (男性) `es-MX-RenataNeural` (女性) `es-MX-YagoNeural` (男性)
`it-IT`	イタリア語 (イタリア)	`it-IT-BenignoNeural` (男性) `it-IT-CalimeroNeural` (男性) `it-IT-CataldoNeural` (男性) `it-IT-FabiolaNeural` (女性) `it-IT-FiammaNeural` (女性) `it-IT-GianniNeural` (男性) `it-IT-ImeldaNeural` (女性) `it-IT-IrmaNeural` (女性) `it-IT-LisandroNeural` (男性) `it-IT-PalmiraNeural` (女性) `it-IT-PierinaNeural` (女性) `it-IT-RinaldoNeural` (男性)
`pt-BR`	ポルトガル語 (ブラジル)	`pt-BR-BrendaNeural` (女性) `pt-BR-DonatoNeural` (男性) `pt-BR-ElzaNeural` (女性) `pt-BR-FabioNeural` (男性) `pt-BR-GiovannaNeural` (女性) `pt-BR-HumbertoNeural` (男性) `pt-BR-JulioNeural` (男性) `pt-BR-LeilaNeural` (女性) `pt-BR-LeticiaNeural` (女性) `pt-BR-ManuelaNeural` (女性) `pt-BR-NicolauNeural` (男性) `pt-BR-ValerioNeural` (男性) `pt-BR-YaraNeural` (女性)

カスタムニューラル音声

カスタムニューラル音声では、次のロケールのサポートが追加されています。詳しくは、言語と音声の完全な一覧をご覧ください。

カスタムニューラル音声 Pro で fr-BE ロケールのサポートが追加されました。
カスタムニューラル音声 Lite で es-ES ロケールのサポートが追加されました。

2022 年 10 月のリリース

事前構築済みニューラル TTS 音声 (GA)

次の音声が新しく一般提供になりました。詳しくは、言語と音声の完全な一覧をご覧ください。

ロケール (BCP-47)	言語	テキスト読み上げ音声
`eu-ES`	バスク語	`eu-ES-AinhoaNeural` (女性) `eu-ES-AnderNeural` (男性)
`hy-AM`	アルメニア語 (アルメニア)	`hy-AM-AnahitNeural` (女性) `hy-AM-HaykNeural` (男性)

事前構築済みニューラル TTS 音声 (プレビュー)

次の音声が、パブリックプレビューで使用できるようになりました。詳しくは、言語と音声の完全な一覧をご覧ください。

ロケール (BCP-47)	言語	テキスト読み上げ音声
`en-AU`	英語 (オーストラリア)	`en-AU-AnnetteNeural` (女性) `en-AU-CarlyNeural` (女性) `en-AU-DarrenNeural` (男性) `en-AU-DuncanNeural` (男性) `en-AU-ElsieNeural` (女性) `en-AU-FreyaNeural` (女性) `en-AU-JoanneNeural` (女性) `en-AU-KenNeural` (男性) `en-AU-KimNeural` (女性) `en-AU-NeilNeural` (男性) `en-AU-TimNeural` (男性) `en-AU-TinaNeural` (女性)
`es-ES`	スペイン語 (スペイン)	`es-ES-AbrilNeural` (女性) `es-ES-AlvaroNeural` (男性) `es-ES-ArnauNeural` (男性) `es-ES-DarioNeural` (男性) `es-ES-EliasNeural` (男性) `es-ES-EstrellaNeural` (女性) `es-ES-IreneNeural` (女性) `es-ES-LaiaNeural` (女性) `es-ES-LiaNeural` (女性) `es-ES-NilNeural` (男性) `es-ES-SaulNeural` (男性) `es-ES-TeoNeural` (男性) `es-ES-TrianaNeural` (女性) `es-ES-VeraNeural` (女性)
`ja-JP`	日本語 (日本)	`ja-JP-AoiNeural` (女性) `ja-JP-DaichiNeural` (男性) `ja-JP-MayuNeural` (女性) `ja-JP-NaokiNeural` (男性) `ja-JP-ShioriNeural` (女性)
`ko-KR`	韓国語 (韓国)	`ko-KR-BongJinNeural` (男性) `ko-KR-GookMinNeural` (男性) `ko-KR-JiMinNeural` (女性) `ko-KR-SeoHyeonNeural` (女性) `ko-KR-SoonBokNeural` (女性) `ko-KR-YuJinNeural` (女性)
`wuu-CN`	中国語 (呉語、簡体字)	`wuu-CN-XiaotongNeural` (女性) `wuu-CN-YunzheNeural` (男性)
`yue-CN`	中国語 (広東語、簡体字)	`yue-CN-XiaoMinNeural` (女性) `yue-CN-YunSongNeural` (男性)

TTS 音声の一般的な更新

fil-PH-AngeloNeural と fil-PH-BlessicaNeural の音声の品質が向上しました。
es-CL スペイン語 (チリ) と uz-UZ ウズベク語 (ウズベキスタン) ロケールの音声についてテキスト正規化ルールが更新されます。
sq-AL アルバニア語 (アルバニア) と az-AZ アゼルバイジャン語 (アゼルバイジャン) ロケールの音声について英語文字のスペルが追加されました。
zh-HK-WanLungNeural 音声の英語発音が改善されました。
nl-NL-MaartenNeural と pt-BR-AntonioNeural の音声の質問のトーンが改善されました。
次の音声で英語の発音を向上させる <lang ="en-US"> タグのサポートを追加しました: de-DE-ConradNeural、de-DE-KatjaNeural、es-ES-AlvaroNeural、es-MX-DaliaNeural、es-MX-JorgeNeural、fr-CA-SylvieNeural、fr-FR-DeniseNeural、fr-FR-HenriNeural、it-IT-DiegoNeural、it-IT-IsabellaNeural。
次の音声での style="chat" タグのサポートが追加されました: en-GB-RyanNeural、es-MX-JorgeNeural、it-IT-IsabellaNeural。
次の音声での style="cheerful" タグのサポートが追加されました: en-GB-RyanNeural、en-GB-SoniaNeural、es-MX-JorgeNeural、fr-FR-DeniseNeural、fr-FR-HenriNeural、it-IT-IsabellaNeural。
次の音声での style="sad" タグのサポートが追加されました: en-GB-SoniaNeural、fr-FR-DeniseNeural、fr-FR-HenriNeural。

2022 年 9 月のリリース

事前構築済みニューラル TTS 音声

事前構築済みのすべてのニューラル音声が、48kHz サンプルレートで忠実度の高い音声にアップグレードされました。

2022 年 8 月のリリース

事前構築済みニューラル TTS 音声

パブリックプレビューで新しい音声をリリースしました。

英語 (米国) の音声: en-US-AIGenerate1Neural および en-US-AIGenerate2Neural。
中国語のリージョン言語に対応した音声: zh-CN-henan-YundengNeural、zh-CN-shaanxi-XiaoniNeural、および zh-CN-shandong-YunxiangNeural。

詳細については、言語と音声の一覧を参照してください。

2022 年 7 月のリリース

事前構築済みニューラル TTS 音声

パブリックプレビューで、zh-CN 中国語 (標準中国語、簡体字) の新しい 5 つの音声と en-US 英語 (米国) の新しい音声 1 つを追加しました。言語と音声の完全な一覧を参照してください。

Language	Locale	性別	音声名	スタイルのサポート
中国語 (標準、簡体字)	`zh-CN`	Female	`zh-CN-XiaomengNeural`^新規	SSML の使用により、全般、複数のスタイルを使用可能
中国語 (標準、簡体字)	`zh-CN`	Female	`zh-CN-XiaoyiNeural`^新規	SSML の使用により、全般、複数のスタイルを使用可能
中国語 (標準、簡体字)	`zh-CN`	Female	`zh-CN-XiaozhenNeural`^新規	SSML の使用により、全般、複数のスタイルを使用可能
中国語 (標準、簡体字)	`zh-CN`	Male	`zh-CN-YunxiaNeural`^新規	SSML の使用により、全般、複数のスタイルを使用可能
中国語 (標準、簡体字)	`zh-CN`	Male	`zh-CN-YunzeNeural`^新規	SSML の使用により、全般、複数のスタイルを使用可能
英語 (米国)	`en-US`	Male	`en-US-RogerNeural`^新規	全般

追加されたニューラル音声でサポートされているスタイルとロール。

音声	スタイル	話し方の強度	ロール
zh-CN-XiaomengNeural ^{パブリックプレビュー}	`chat`	サポートされています
zh-CN-XiaoyiNeural ^{パブリックプレビュー}	`affectionate`, `angry`, `cheerful`, `disgruntled`, `embarrassed`, `fearful`, `gentle`, `sad`, `serious`	サポートされています
zh-CN-XiaozhenNeural ^{パブリックプレビュー}	`angry`、`cheerful`、`disgruntled`、`fearful`、`sad`、`serious`	サポートされています
zh-CN-YunxiaNeural ^{パブリックプレビュー}	`angry`、`calm`、`cheerful`、`fearful`、`sad`	サポートされています
zh-CN-YunzeNeural ^{パブリックプレビュー}	`angry`, `calm`, `cheerful`, `depressed`, `disgruntled`, `documentary-narration`, `fearful`, `sad`, `serious`	サポートされています	サポートされています

口形素を使用して顔の位置を取得する

デザインした 3D キャラクターの顔を動かすためのブレンドシェイプのサポートが追加されました。詳細については、口形素を使用して顔の位置を取得する方法に関する記事をご覧ください。
口形素要素をサポートするように SSML が更新されました。「音声合成マークアップ」をご覧ください。

2022 年 6 月のリリース

事前構築済みニューラル TTS 音声

ニューラルテキスト読み上げ用に 9 の新しい言語とバリアントを追加しました。

Language	Locale	性別	音声名	スタイルのサポート
アラビア語 (レバノン)	`ar-LB`	Female	`ar-LB-LaylaNeural`^新規	全般
アラビア語 (レバノン)	`ar-LB`	Male	`ar-LB-RamiNeural`^新規	全般
アラビア語 (オマーン)	`ar-OM`	Female	`ar-OM-AyshaNeural`^新規	全般
アラビア語 (オマーン)	`ar-OM`	Male	`ar-OM-AbdullahNeural`^新規	全般
アゼルバイジャン語 (アゼルバイジャン)	`az-AZ`	Female	`az-AZ-BabekNeural`^新規	全般
アゼルバイジャン語 (アゼルバイジャン)	`az-AZ`	Male	`az-AZ-BanuNeural`^新規	全般
ボスニア語 (ボスニア・ヘルツェゴビナ)	`bs-BA`	Female	`bs-BA-VesnaNeural`^新規	全般
ボスニア語 (ボスニア・ヘルツェゴビナ)	`bs-BA`	Male	`bs-BA-GoranNeural`^新規	全般
グルジア語 (グルジア)	`ka-GE`	Female	`ka-GE-EkaNeural`^新規	全般
グルジア語 (グルジア)	`ka-GE`	Male	`ka-GE-GiorgiNeural`^新規	全般
モンゴル語 (モンゴル)	`mn-MN`	Female	`mn-MN-YesuiNeural`^新規	全般
モンゴル語 (モンゴル)	`mn-MN`	Male	`mn-MN-BataaNeural`^新規	全般
ネパール語 (ネパール)	`ne-NP`	Female	`ne-NP-HemkalaNeural`^新規	全般
ネパール語 (ネパール)	`ne-NP`	Male	`ne-NP-SagarNeural`^新規	全般
アルバニア語 (アルバニア)	`sq-AL`	Female	`sq-AL-AnilaNeural`^新規	全般
アルバニア語 (アルバニア)	`sq-AL`	Male	`sq-AL-IlirNeural`^新規	全般
タミール語 (マレーシア)	`ta-MY`	Female	`ta-MY-KaniNeural`^新規	全般
タミール語 (マレーシア)	`ta-MY`	Male	`ta-MY-SuryaNeural`^新規	全般

en-GB 英語 (イギリス)、fr-FR フランス語 (フランス)、de-DE ドイツ語 (ドイツ) の 36 の音声がパブリックプレビューから一般提供へ:

Language	Locale	性別	音声名	スタイルのサポート
英語 (イギリス)	`en-GB`	Female	`en-GB-AbbiNeural`	全般
英語 (イギリス)	`en-GB`	Female	`en-GB-BellaNeural`	全般
英語 (イギリス)	`en-GB`	Female	`en-GB-HollieNeural`	全般
英語 (イギリス)	`en-GB`	Female	`en-GB-MaisieNeural`	全般、子供の声
英語 (イギリス)	`en-GB`	Female	`en-GB-OliviaNeural`	全般
英語 (イギリス)	`en-GB`	Female	`en-GB-SoniaNeural`	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-AlfieNeural`	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-ElliotNeural`	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-EthanNeural`	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-NoahNeural`	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-OliverNeural`	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-ThomasNeural`	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-BrigitteNeural`	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-CelesteNeural`	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-CoralieNeural`	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-EloiseNeural`	全般、子供の声
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-JacquelineNeural`	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-JosephineNeural`	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-YvetteNeural`	全般
フランス語 (フランス)	`fr-FR`	Male	`fr-FR-AlainNeural`	全般
フランス語 (フランス)	`fr-FR`	Male	`fr-FR-ClaudeNeural`	全般
フランス語 (フランス)	`fr-FR`	Male	`fr-FR-JeromeNeural`	全般
フランス語 (フランス)	`fr-FR`	Male	`fr-FR-MauriceNeural`	全般
フランス語 (フランス)	`fr-FR`	Male	`fr-FR-YvesNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-AmalaNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-ElkeNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-GiselaNeural`	全般、子供の声
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-KlarissaNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-LouisaNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-MajaNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-TanjaNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-BerndNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-ChristophNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-KasperNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-KillianNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-KlausNeural`	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-RalfNeural`	全般

es-MX スペイン語 (メキシコ)、it-IT イタリア語 (イタリア)、pt-BR ポルトガル語 (ブラジル) の 40 の新しい音声、および zh-CN 中国語 (標準中国語、簡体字中国語) の 2 つのアクセントをパブリックプレビューで追加:

Language	Locale	性別	音声名	スタイルのサポート
スペイン語 (メキシコ)	`es-MX`	Female	`es-MX-BeatrizNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Female	`es-MX-CarlotaNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Female	`es-MX-NuriaNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Female	`es-MX-RenataNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Female	`es-MX-LarissaNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Female	`es-MX-CandelaNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Female	`es-MX-MarinaNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Female	`it-IT-FiammaNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Female	`it-IT-IrmaNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Female	`it-IT-FabiolaNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Female	`it-IT-PalmiraNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Female	`it-IT-ImeldaNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Female	`it-IT-PierinaNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Female	`pt-BR-ElzaNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Female	`pt-BR-ManuelaNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Female	`pt-BR-BrendaNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Female	`pt-BR-LeilaNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Female	`pt-BR-YaraNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Female	`pt-BR-GiovannaNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Female	`pt-BR-LeticiaNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Male	`es-MX-CecilioNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Male	`es-MX-LibertoNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Male	`es-MX-LucianoNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Male	`es-MX-PelayoNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Male	`es-MX-YagoNeural`^新規	全般
スペイン語 (メキシコ)	`es-MX`	Male	`es-MX-GerardoNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Male	`it-IT-BenignoNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Male	`it-IT-CataldoNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Male	`it-IT-LisandroNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Male	`it-IT-CalimeroNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Male	`it-IT-RinaldoNeural`^新規	全般
イタリア語 (イタリア)	`it-IT`	Male	`it-IT-GianniNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Male	`pt-BR-DonatoNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Male	`pt-BR-HumbertoNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Male	`pt-BR-FabioNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Male	`pt-BR-JulioNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Male	`pt-BR-ValerioNeural`^新規	全般
ポルトガル語 (ブラジル)	`pt-BR`	Male	`pt-BR-NicolauNeural`^新規	全般
中国語 (標準、簡体字)	`zh-CN-sichuan`	Male	`zh-CN-sichuan-YunxiSichuanNeural`^新規	一般、四川アクセント
中国語 (標準、簡体字)	`zh-CN-liaoning`	Female	`zh-CN-liaoning-XiaobeiNeural`^新規	一般、遼寧アクセント

en-SG-LunaNeural と en-SG-WayneNeural の品質向上
en-US-JennyNeural、en-US-AriaNeural、zh-CN-XiaoxiaoNeural に関して 48kHz の出力をサポート (パブリックプレビュー)

カスタムニューラル音声

データの問題をオンラインで修正できるようになりました。「Speech Studio でデータの問題を解決する方法」の詳細を確認してください。
トレーニングレシピバージョンが追加されました。詳細については、音声モデルのトレーニングレシピバージョンの選択に関するページを参照してください。

Audio Content Creation ツール

改ページがサポートされるようになりました。
作業ファイルページで、名前、ファイルの種類、更新時刻によるグローバルな並べ替えが可能になりました。

2022 年 5 月のリリース

事前構築済みニューラル TTS 音声

英語 (米国) の多様性を強化するために、パブリックプレビューで複数のスタイルで 5 つの新しい音声をリリースしました。言語と音声の完全な一覧を参照してください。
en-US-AriaNeural のパブリックプレビューで、これらの新しいスタイル Angry、Excited、Friendly、Hopeful、Sad、Shouting、Unfriendly、Terrified および Whispering をサポートします。
en-US-GuyNeural、en-US-JennyNeural のパブリックプレビューで、これらの新しいスタイル Angry、Cheerful、Excited、Friendly、Hopeful、Sad、Shouting、Unfriendly、Terrified および Whispering をサポートします。
en-US-SaraNeural のパブリックプレビューで、これらの新しいスタイル Excited、Friendly、Hopeful、Shouting、Unfriendly、Terrified および Whispering をサポートします。「音声のスタイルと役割」を参照してください。
パブリックプレビューで新しい音声 zh-CN-YunjianNeural、zh-CN-YunhaoNeural、zh-CN-YunfengNeural をリリースしました。言語と音声の完全な一覧を参照してください。
zh-CN-YunjianNeural のパブリックプレビューで 2 つの新しいスタイル sports-commentary、sports-commentary-excited をサポートします。「音声のスタイルと役割」を参照してください。
zh-CN-YunhaoNeural のパブリックプレビューで 1 つの新しいスタイル advertisement-upbeat をサポートします。「音声のスタイルと役割」を参照してください。
fr-FR-DeniseNeural のスタイル cheerful と sad はすべてのリージョンで一般提供されています。
SSML は、en-US および en-AU の音声の MathML 要素をサポートするように更新されました。音声合成マークアップに関するページで詳細を確認してください。

カスタムニューラル音声

音声モデルのトレーニング中にトレーニングを取り消すことができるようになりました。詳細については、トレーニングを取り消す方法に関するページを参照してください。
モデルを複製 (音声モデルの名前を変更) できるようになりました。詳細については、音声モデルの名前を変更する方法に関するページを参照してください。
独自のテストスクリプトを追加して音声モデルをテストできるようになりました。詳細については、テストスクリプトをアップロードする方法に関するページを参照してください。
音声モデルのエンジンバージョンを更新できるようになりました。詳細については、モデルのエンジンバージョンを更新する方法に関するページを参照してください。
サポートされるトレーニングリージョンが増えました。リージョンのサポートに関するページを参照してください。
カスタムニューラル音声 Lite で 10 個のロケールがサポートされるようになりました (プレビュー)。言語のサポートに関するページを参照してください。

Audio Content Creation ツール

Audio Content Creation ツールをサインインせずに試すことができるようになりました。
音素を調整するためのレイアウトが改良されました。
パフォーマンスの強化: 一度にアップロードされるファイルの最大数 (200) が指定されました。
パフォーマンスの強化: ディレクトリの最大階層レベル (5 レベル) が指定されました。

2022 年 3 月のリリース

事前構築済みニューラル TTS 音声

パブリックプレビューで、fr-FR-DeniseNeural を使った Cheerful および Sad スタイルのサポートが追加されました。「音声のスタイルと役割」を参照してください。
パブリックプレビューで事前構築済みニューラル TTS 音声用の切断されたコンテナーをリリースしました。「切断された環境での Docker コンテナーの使用」を参照してください。

カスタムニューラル音声

ロールベースのアクセス制御をサポートしました。詳細については、「Speech Studio での Azure ロールベースのアクセス制御」を参照してください。
プライベートエンドポイントと仮想ネットワークサービスエンドポイントをサポートしました。詳細については、「Speech サービスでプライベートエンドポイントを使用する方法」を参照してください。

Audio Content Creation ツール

Free レベル (F0) リソースのファイルサイズとコンカレンシー制限を更新し、エクスペリエンスが Speech SDK および API と一致するようにしました。「Speech サービスのクォータと制限」を参照してください。

2022 年 2 月のリリース

カスタムニューラル音声

パブリックプレビューでカスタムニューラル音声 Lite をリリースしました。詳細については、カスタムニューラル音声 Lite に関するページを参照してください。
言語のサポートを 49 ロケールに拡張しました。言語のサポートに関するページを参照してください。
サポートされるリージョンとデータセンターの数が増えました。リージョンのサポートに関するページを参照してください。

Audio Content Creation ツール

音声をダウンロードする場合の出力の長さの制限を削除しました。

2022 年 1 月のリリース

新しい言語と音声

ニューラルテキスト読み上げ用に 10 の新しい言語とバリアントを追加しました。

Language	Locale	性別	音声名	スタイルのサポート
ベンガル語 (インド)	`bn-IN`	Female	`bn-IN-TanishaaNeural`^新規	全般
ベンガル語 (インド)	`bn-IN`	Male	`bn-IN-BashkarNeural`^新規	全般
アイスランド語 (アイスランド)	`is-IS`	Female	`is-IS-GudrunNeural`^新規	全般
アイスランド語 (アイスランド)	`is-IS`	Male	`is-IS-GunnarNeural`^新規	全般
カンナダ語 (インド)	`kn-IN`	Female	`kn-IN-SapnaNeural`^新規	全般
カンナダ語 (インド)	`kn-IN`	Male	`kn-IN-GaganNeural`^新規	全般
カザフ語 (カザフスタン)	`kk-KZ`	Female	`kk-KZ-AigulNeural`^新規	全般
カザフ語 (カザフスタン)	`kk-KZ`	Male	`kk-KZ-DauletNeural`^新規	全般
ラオス語 (ラオス)	`lo-LA`	Female	`lo-LA-KeomanyNeural`^新規	全般
ラオス語 (ラオス)	`lo-LA`	Male	`lo-LA-ChanthavongNeural`^新規	全般
マケドニア語 (北マケドニア共和国)	`mk-MK`	Female	`mk-MK-MarijaNeural`^新規	全般
マケドニア語 (北マケドニア共和国)	`mk-MK`	Male	`mk-MK-AleksandarNeural`^新規	全般
マラヤーラム語 (インド)	`ml-IN`	Female	`ml-IN-SobhanaNeural`^新規	全般
マラヤーラム語 (インド)	`ml-IN`	Male	`ml-IN-MidhunNeural`^新規	全般
パシュトゥー語 (アフガニスタン)	`ps-AF`	Female	`ps-AF-LatifaNeural`^新規	全般
パシュトゥー語 (アフガニスタン)	`ps-AF`	Male	`ps-AF-GulNawazNeural`^新規	全般
セルビア語 (セルビア、キリル文字)	`sr-RS`	Female	`sr-RS-SophieNeural`^新規	全般
セルビア語 (セルビア、キリル文字)	`sr-RS`	Male	`sr-RS-NicholasNeural`^新規	全般
シンハラ語 (スリランカ)	`si-LK`	Female	`si-LK-ThiliniNeural`^新規	全般
シンハラ語 (スリランカ)	`si-LK`	Male	`si-LK-SameeraNeural`^新規	全般

利用可能なすべての音声の一覧については、言語サポートに関するページを参照してください。

プレビュー段階の新しい音声

プレビューで、en-GB、fr-FR、および de-DE の新しい音声を追加しました。

Language	Locale	性別	音声名	スタイルのサポート
英語 (イギリス)	`en-GB`	Female	`en-GB-AbbiNeural`^新規	全般
英語 (イギリス)	`en-GB`	Female	`en-GB-BellaNeural`^新規	全般
英語 (イギリス)	`en-GB`	Female	`en-GB-HollieNeural`^新規	全般
英語 (イギリス)	`en-GB`	Female	`en-GB-OliviaNeural`^新規	全般
英語 (イギリス)	`en-GB`	Girl	`en-GB-MaisieNeural`^新規	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-AlfieNeural`^新規	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-ElliotNeural`^新規	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-EthanNeural`^新規	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-NoahNeural`^新規	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-OliverNeural`^新規	全般
英語 (イギリス)	`en-GB`	Male	`en-GB-ThomasNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-BrigitteNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-CelesteNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-CoralieNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-JacquelineNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-JosephineNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Female	`fr-FR-YvetteNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Girl	`fr-FR-EloiseNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Male	`fr-FR-AlainNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Male	`fr-FR-ClaudeNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Male	`fr-FR-JeromeNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Male	`fr-FR-MauriceNeural`^新規	全般
フランス語 (フランス)	`fr-FR`	Male	`fr-FR-YvesNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-AmalaNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-ElkeNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-KlarissaNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-LouisaNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-MajaNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Female	`de-DE-TanjaNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Girl	`de-DE-GiselaNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-BerndNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-ChristophNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-KasperNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-KillianNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-KlausNeural`^新規	全般
ドイツ語 (ドイツ)	`de-DE`	Male	`de-DE-RalfNeural`^新規	全般

利用可能なすべての音声の一覧については、言語サポートに関するページを参照してください。

発音の正確性

すべて he-IL の音声で、英語の単語の発音が改善されました。
cs-CZ と da-DK の単語レベルの発音の正確性が向上しました。
アラビア語の分音記号とヘブライ語の母音記号の処理が改善されました。
ja-JP のエンティティの読み取りが改善されました。

Speech Studio

カスタムニューラル音声: バッチ API (長いオーディオ API) を使用した追加のモデルテストを有効にしました
Audio Content Creation: より多くの出力形式を有効にしました。

2021 年 10 月のリリース

新しい言語と音声

ニューラルテキスト読み上げ用に 49 の新しい言語と 98 個の音声を追加しました。

af-ZA アフリカーンス語 (南アフリカ) の Adri、af-ZA アフリカーンス語 (南アフリカ) の Willem、am-ET アムハラ語 (エチオピア) の Mekdes、am-ET アムハラ語 (エチオピア) の Ameha、ar-AE アラビア語 (アラブ首長国連邦) の Fatima、ar-AE アラビア語 (アラブ首長国連邦) の Hamdan、ar-BH アラビア語 (バーレーン) の Laila、ar-BH アラビア語 (バーレーン) の Ali、ar-DZ アラビア語 (アルジェリア) の Amina、ar-DZ アラビア語 (アルジェリア) の Ismael、ar-IQ アラビア語 (イラク) の Rana、ar-IQ アラビア語 (イラク) の Bassel、ar-JO アラビア語 (ヨルダン) の Sana、ar-JO アラビア語 (ヨルダン) の Taim、ar-KW アラビア語 (クウェート) の Noura、ar-KW アラビア語 (クウェート) の Fahed、ar-LY アラビア語 (リビア) の Iman、ar-LY アラビア語 (リビア) の Omar、ar-MA アラビア語 (モロッコ) の Mouna、ar-MA アラビア語 (モロッコ) の Jamal、ar-QA アラビア語 (カタール) の Amal、ar-QA アラビア語 (カタール) の Moaz、ar-SY アラビア語 (シリア) の Amany、ar-SY アラビア語 (シリア) の Laith、ar-TN アラビア語 (チュニジア) の Reem、ar-TN アラビア語 (チュニジア) の Hedi、ar-YE アラビア語 (イエメン) の Maryam、ar-YE アラビア語 (イエメン) の Saleh、bn-BD バングラ語 (バングラデシュ) の Nabanita、bn-BD バングラ語 (バングラデシュ) の Pradeep、en-KE 英語 (ケニア) の Asilia、en-KE 英語 (ケニア) の Chilemba、en-NG 英語 (ナイジェリア) の Ezinne、en-NG 英語 (ナイジェリア) の Abeo、en-TZ 英語 (タンザニア) の Imani、en-TZ 英語 (タンザニア) の Elimu、es-BO スペイン語 (ボリビア) の Sofia、es-BO スペイン語 (ボリビア) の Marcelo、es-CL スペイン語 (チリ) の Catalina、es-CL スペイン語 (チリ) の Lorenzo、es-CR スペイン語 (コスタリカ) の Maria、es-CR スペイン語 (コスタリカ) の Juan、es-CU スペイン語 (キューバ) の Belkys、es-CU スペイン語 (キューバ) の Manuel、es-DO スペイン語 (ドミニカ共和国) の Ramona、es-DO スペイン語 (ドミニカ共和国) の Emilio、es-EC スペイン語 (エクアドル) の Andrea、es-EC スペイン語 (エクアドル) の Luis、es-GQ スペイン語 (赤道ギニア) の Teresa、es-GQ スペイン語 (赤道ギニア) の Javier、es-GT スペイン語 (グアテマラ) の Marta、es-GT スペイン語 (グアテマラ) の Andres、es-HN スペイン語 (ホンジュラス) の Karla、es-HN スペイン語 (ホンジュラス) の Carlos、es-NI スペイン語 (ニカラグア) の Yolanda、es-NI スペイン語 (ニカラグア) の Federico、es-PA スペイン語 (パナマ) の Margarita、es-PA スペイン語 (パナマ) の Roberto、es-PE スペイン語 (ペルー) の Camila、es-PE スペイン語 (ペルー) の Alex、es-PR スペイン語 (プエルトリコ) の Karina、es-PR スペイン語 (プエルトリコ) の Victor、es-PY スペイン語 (パラグアイ) の Tania、es-PY スペイン語 (パラグアイ) の Mario、es-SV スペイン語 (エルサルバドル) の Lorena、es-SV スペイン語 (エルサルバドル) の Rodrigo、es-UY スペイン語 (ウルグアイ) の Valentina、es-UY スペイン語 (ウルグアイ) の Mateo、es-VE スペイン語 (ベネズエラ) の Paola、es-VE スペイン語 (ベネズエラ) の Sebastian、fa-IR ペルシャ語 (イラン) の Dilara、fa-IR ペルシャ語 (イラン) の Farid、fil-PH フィリピン語 (フィリピン) の Blessica、fil-PH フィリピン語 (フィリピン) の Angelo、gl-ES ガリシア語の Sabela、gl-ES ガリシア語の Roi、jv-ID ジャワ語 (インドネシア) の Siti、jv-ID ジャワ語 (インドネシア) の Dimas、km-KH クメール語 (カンボジア) の Sreymom、km-KH クメール語 (カンボジア) の Piseth、my-MM ミャンマー語 (ミャンマー) の Nilar、my-MM ミャンマー語 (ミャンマー) の Thiha、so-SO ソマリ語 (ソマリア) の Ubax、so-SO ソマリ語 (ソマリア) の Muuse、su-ID スンダ語 (インドネシア) の Tuti、su-ID スンダ語 (インドネシア) の Jajang、sw-TZ スワヒリ語 (タンザニア) の Rehema、sw-TZ スワヒリ語 (タンザニア) の Daudi、ta-LK タミル語 (スリランカ) の Saranya、ta-LK タミル語 (スリランカ) の Kumar、ta-SG タミル語 (シンガポール) の Venba、ta-SG タミル語 (シンガポール) の Anbu、ur-IN ウルドゥー語 (インド) の Gul、ur-IN ウルドゥー語 (インド) の Salman、uz-UZ ウズベク語 (ウズベキスタン) の Madina、uz-UZ ウズベク語 (ウズベキスタン) の Sardor、zu-ZA ズールー語 (南アフリカ) の Thando、zu-ZA ズールー語 (南アフリカ) の Themba。

2021 年 9 月のリリース

en-US 英語 (米国) の新しいチャットボット音声: よりくだけた話し方をする若い女性を表わす Sara は、チャットボットのシナリオに最適です。
ja-JP 日本語音声 Nanami の新しいスタイルを追加: Nanami では、3 つの新しいスタイルとしてチャット、カスタマーサービス、陽気な雰囲気を使用できるようになりました。
発音全般の改善: id-ID の Ardi、th-TH の Premwadee、da-DK の Christel、vi-VN の HoaiMy と NamMinh。
プレビューの zh-CN 中国語 (北京官話、中国) に 2 つの新しい音声: 自然な音声とカスタマーサービスのシナリオに最適化された Xiaochen と Xiaoyan。

2021 年 7 月のリリース

ニューラルテキスト読み上げの更新

ヘブライ語での発音エラーが 20% 減りました。

Speech Studio の更新

カスタムニューラル音声: トレーニングパイプラインが UniTTSv3 に更新されたことにより、モデルの品質が向上する一方で、音響モデルのトレーニング時間は 50% 短縮されました。
Audio Content Creation: "エクスポート" のパフォーマンスの問題と、カスタムニューラル音声選択のバグを修正しました。

2021 年 6 月のリリース

Speech Studio の更新

カスタムニューラル音声: カスタムニューラル音声のトレーニングが、東南アジアをサポートするように拡張されました。データのアップロード状態チェックをサポートする新機能がリリースされました。
Audio Content Creation: カスタム辞書をサポートする新しい機能がリリースされました。この機能を使用すると、ユーザーは辞書ファイルを簡単に作成し、オーディオ出力用にカスタマイズされた発音を定義できます。

2021 年 5 月のリリース

ニューラル TTS 用に追加された新しい言語と音声

10 個の新しい言語の導入 - ニューラル TTS 言語の一覧に、次の 10 個の新しいロケールの 20 個の新しい音声が追加されています。en-HK 英語 (香港) の Yan、en-HK 英語 (香港) の Sam、en-NZ 英語 (ニュージーランド) の Molly、en-NZ 英語 (ニュージーランド) の Mitchell、en-SG 英語 (シンガポール) の Luna、en-SG 英語 (シンガポール) の Wayne、en-ZA 英語 (南アフリカ) の Leah、en-ZA 英語 (南アフリカ) の Luke、gu-IN グジャラート語 (インド) の Dhwani、gu-IN グジャラート語 (インド) の Niranjan、mr-IN マラーティー語 (インド) の Aarohi、mr-IN マラーティー語 (インド) の Manohar、es-AR スペイン語 (アルゼンチン) の Elena、es-AR スペイン語 (アルゼンチン) の Tomas、es-CO スペイン語 (コロンビア) の Salome、es-CO スペイン語 (コロンビア) の Gonzalo、es-US スペイン語 (米国) の Paloma、es-US スペイン語 (米国) の Alonso、sw-KE スワヒリ語 (ケニア) の Zuri、sw-KE スワヒリ語 (ケニア) の Rafiki。
11 個の新しい en-US 音声 (プレビュー段階) - 11 個の新しいen-US 音声 (プレビュー段階) が米国英語に追加されています。これらは、Ashley、Amber、Ana、Brandon、Christopher、Cora、Elizabeth、Eric、Michelle、Monica、Jacob です。
5 つの zh-CN 中国語 (標準、簡体字) の音声が一般公開に - 5 つの中国語 (標準、簡体字) の音声がプレビューから一般公開に変更されました。これらは、Yunxi、Xiaomo、Xiaoman、Xiaoxuan、Xiaorui です。これで、これらの音声がすべてのリージョンで利用できるようになりました。 Yunxi には、チャットボットや音声エージェントに適した新しい "アシスタント" スタイルが追加されています。 Xiaomo の音声スタイルは、より自然で特徴的なものになるように洗練されています。

2021 年 4 月のリリース

ニューラルテキスト読み上げが 21 のリージョンで利用可能に

12 の新しいリージョンが追加 - ニューラルテキスト読み上げは、Japan East、Japan West、Korea Central、North Central US、North Europe、South Central US、Southeast Asia、UK South、west Central US、West Europe、West US、West US 2 の 12 の新しいリージョンで利用できるようになりました。サポートされている 21 のリージョンの完全な一覧については、こちらをご覧ください。

2021 年 3 月のリリース

ニューラル TTS 用に追加された新しい言語と音声

6 つの新しい言語の導入 - ニューラル TTS 言語の一覧に、次の 6 つの新しいロケールの 12 個の新しい音声が追加されています。cy-GB ウェールズ語 (イギリス) の Nia、cy-GB ウェールズ語 (イギリス) の Aled、en-PH英語 (フィリピン) の Rosa、en-PH 英語 (フィリピン) の James、fr-BE フランス語 (ベルギー) の Charline、fr-BE フランス語 (ベルギー) の Gerard、nl-BE オランダ語 (ベルギー) の Dena、nl-BE オランダ語 (ベルギー) の Arnaud、uk-UA ウクライナ語 (ウクライナ) の Polina、uk-UA ウクライナ語 (ウクライナ) の Ostap、ur-PK ウルドゥー語 (パキスタン) の Uzma、ur-PK、ウルドゥー語 (パキスタン) の Asad。
5 つの言語がプレビューから GA へ - 11 月に導入された次の 5 つのロケールの 10 個の音声が一般提供になりました。et-EE エストニア語 (エストニア) の Kert、ga-IE アイルランド語 (アイルランド) の Colm、lv-LV ラトビア語 (ラトビア) の Nils、lt-LT リトアニア語 (リトアニア) の Leonas、mt-MT マルタ語 (マルタ) の Joseph。
フランス語 (カナダ) の新しい男性の音声の追加 - fr-CA フランス語 (カナダ) で新しい音声 Antoine が利用できます。
品質向上 - hu-HU ハンガリー語で 48.17%、nb-NO ノルウェー語で 52.76%、nl-NL オランダ語 (オランダ) で 22.11% の発音エラー率の低減。

このリリースでは、60 言語またはロケールの計 142 個のニューラル音声がサポートされています。さらに、49 言語/ロケールの 70 を超える標準音声を使用できます。完全なリストについては、言語サポートに関するページを参照してください。

キャラクターをアニメーション化するための表情イベントの取得

ニューラルテキスト読み上げに口形素イベントが含まれるようになりました。口形素イベントを使用すると、ユーザーは、合成された音声と共に頭部姿勢のシーケンスを取得できます。口形素は、2D および 3D のアバターモデルの動きを制御するために使用でき、合成された音声に口の動きを一致させます。現在、口形素イベントは en-US-AriaNeural 音声でのみ使用できます。

音声合成マークアップ言語 (SSML) に bookmark 要素を追加

bookmark 要素を使用すると、SSML にカスタムマーカーを挿入して、オーディオストリーム内の各マーカーのオフセットを取得できます。これは、テキストまたはタグのシーケンス内の特定の場所を参照するために使用できます。

2021 年 2 月のリリース

カスタムニューラル音声の GA

カスタムニューラル音声は、2 月に次の 13 言語で一般提供されています。中国語 (標準、簡体字)、英語 (オーストラリア)、英語 (インド)、英語 (英国)、英語 (米国)、フランス語 (カナダ)、フランス語 (フランス)、ドイツ語 (ドイツ)、イタリア語 (イタリア)、日本語 (日本)、韓国語 (韓国)、ポルトガル語 (ブラジル)、スペイン語 (メキシコ)、スペイン語 (スペイン)。カスタムニューラル音声とは何かと、責任を持ってそれを使用する方法について詳細を確認してください。カスタムニューラル音声機能の利用には登録が必要です。Microsoft の適格性基準に基づき、Microsoft がアクセスを制限することがあります。制限付きアクセスの詳細を確認してください。

2020 年 12 月のリリース

GA とプレビュー段階の新しいニューラル音声

以下の 51 の音声が新しくリリースされ、54 言語/ロケールのニューラル音声の合計が 129 になりました。

GA ロケールの 46 の新しい音声: ar-EG アラビア語 (エジプト) の Shakir、ar-SA アラビア語 (サウジアラビア) の Hamed、bg-BG ブルガリア語 (ブルガリア) の Borislav、ca-ES カタロニア語の Joana、cs-CZ チェコ語 (チェコ共和国) の Antonin、da-DK デンマーク語 (デンマーク) の Jeppe、de-AT ドイツ語 (オーストリア) の Jonas、de-CH ドイツ語 (スイス) の Jan、el-GR ギリシャ語 (ギリシャ) の Nestoras、en-CA 英語 (カナダ) の Liam、en-IE 英語 (アイルランド) の Connor、en-IN ヒンディー語 (インド) の Madhur、en-IN テルグ語 (インド) の Mohan、en-IN 英語 (インド) の Prabhat、en-IN タミル語 (インド) の Valluvar、es-ES カタロニア語の Enric、et-EE エストニア語 (エストニア) の Kert、fi-FI フィンランド語 (フィンランド) の Harri、fi-FI フィンランド語 (フィンランド) の Selma、fr-CH フランス語 (スイス) の Fabrice、ga-IE アイルランド語 (アイルランド) の Colm、he-IL ヘブライ語 (イスラエル) の Avri、hr-HR クロアチア語 (クロアチア) の Srecko、hu-HU ハンガリー語 (ハンガリー) の Tamas、id-ID インドネシア語 (インドネシア) の Gadis、lt-LT リトアニア語 (リトアニア) の Leonas、lv-LV ラトビア語 (ラトビア) の Nils、ms-MY マレー語 (マレーシア) の Osman、mt-MT マルタ語 (マルタ) の Joseph、nb-NO ノルウェー語 (ブークモール、ノルウェー) の Finn、nb-NO ノルウェー語 (ブークモール、ノルウェー) の Pernille、nl-NL オランダ語 (オランダ) の Fenna、nl-NL オランダ語 (オランダ) の Maarten、pl-PL ポーランド語 (ポーランド) の Agnieszka、pl-PL ポーランド語 (ポーランド) の Marek、pt-BR ポルトガル語 (ブラジル) の Duarte、pt-PT ポルトガル語 (ポルトガル) の Raquel、ro-RO ルーマニア語 (ルーマニア) の Emil、ru-RU ロシア語 (ロシア) の Dmitry、ru-RU ロシア語 (ロシア) の Svetlana、sk-SK スロバキア語 (スロバキア) の Lukas、sl-SI スロベニア語 (スロベニア) の Rok、sv-SE スウェーデン語 (スウェーデン) の Mattias、sv-SE スウェーデン語 (スウェーデン) の Sofie、th-TH タイ語 (タイ) の Niwat、tr-TR トルコ語 (トルコ) の Ahmet、vi-VN ベトナム語 (ベトナム) の NamMinh、zh-TW 台湾標準中国語 (台湾) の HsiaoChen、zh-TW 台湾標準中国語 (台湾) の YunJhe、zh-HK 広東語 (香港特別行政区) の HiuMaan、zh-HK 広東語 (香港特別行政区) の WanLung。
プレビュー段階のロケールの 5 つの新しい音声: et-EE エストニア語 (エストニア) の Kert、ga-IE アイルランド語 (アイルランド) の Colm、lv-LV ラトビア語 (ラトビア) の Nils、lt-LT リトアニア語 (リトアニア) の Leonas、mt-MT マルタ語 (マルタ) のJoseph。

このリリースでは、54 言語/ロケールの計 129 のニューラル音声がサポートされています。さらに、49 言語/ロケールの 70 を超える標準音声を使用できます。完全なリストについては、言語サポートに関するページを参照してください。

Audio Content Creation の更新

音声選択の UI が改良され、音声カテゴリと音声の詳細な説明が表示されるようになりました。
さまざまな言語のすべてのニューラル音声でイントネーションのチューニングが有効になりました。
ブラウザーの言語に基づいて UI の言語が自動的に設定されます。
zh-CN のすべてのニューラル音声に対して StyleDegree コントロールが有効になりました。 Audio Content Creation ツールのページにアクセスして、新機能をご確認ください。

zh-CN の音声の更新

zh-CN のすべてのニューラル音声が更新され、英語の読み上げがサポートされました。
zh-CN のすべてのニューラル音声において、イントネーションの調整が有効になりました。 SSML または Audio Content Creation ツールを使用して、最適なイントネーションに調整できます。
zh-CN のすべてのマルチスタイルニューラル音声が更新され、StyleDegree コントロールがサポートされました。感情の強さ (弱または強) を調整できます。
zh-CN-YunyeNeural が更新され、さまざまな感情を表現する複数のスタイルがサポートされました。

2020 年 11 月のリリース

プレビュー段階の新しいロケールと音声

ニューラルテキスト読み上げポートフォリオに、5 つの新しい音声と言語が導入されています。これらは次のとおりです。Grace マルタ語 (マルタ)、Ona リトアニア語 (リトアニア)、Anu エストニア語 (エストニア)、Orla アイルランド語 (アイルランド)、Everita ラトビア語 (ラトビア)
複数のスタイルとロールがサポートされている zh-CN の新しい 5 つの音声: Xiaohan、Xiaomo、Xiaorui、Xiaoxuan、および Yunxi。

これらの音声は、次の 3 つの Azure リージョンにおいてパブリックプレビューで利用できます: EastUS、SouthEastAsia、WestEurope

ニューラルテキスト読み上げコンテナーの GA

ニューラルテキスト読み上げコンテナーを使用すると、開発者は、特定のセキュリティとデータガバナンスの要件に応じて、独自の環境で最も自然なデジタル音声を使用して音声合成を行うことができます。 Speech コンテナーのインストール方法を確認してください。

新機能

Custom Voice: ユーザーは、一方のリージョンから他方へ音声モデルをコピーできます。エンドポイントの中断と再開がサポートされています。こちらから、ポータルに移動します。
SSML の silence タグがサポートされています。
一般的な TTS 音声品質の改良点: nb-NO の単語レベルの発音精度が向上しました。発音エラーが 53% 削減されました。

詳細については、こちらの技術ブログを参照してください。

2020 年 10 月のリリース

新機能

Jenny は、新しい newscast スタイルをサポートしています。 SSML での読み上げスタイルの使用方法を参照してください。
ニューラル音声が HiFiNet ボコーダーにアップグレードされ、オーディオの忠実度が向上し合成速度が速くなりました。これは、ビデオのダビング、オーディオブック、またはオンライン教材など、ハイファイオーディオまたは長時間の対話に依存するシナリオを使用するお客様に役立ちます。 Tech コミュニティブログで、ストーリーの詳細を確認し、音声のサンプルをお聴きください。
Custom Voice と Audio Content Creation Studio が 17 ロケールにローカライズされました。ユーザーは、操作しやすくするために、UI をローカル言語に簡単に切り替えることができます。
Audio Content Creation: XiaoxiaoNeural のスタイルレベルのコントロールが追加されました。カスタマイズされた中断機能を改良して、50 ミリ秒の増分中断が含まれるようにしました。

一般的な TTS 音声品質の改善

pl-PL での単語レベルの発音精度が向上しました。(エラー率の低減: 51%) および fi-FI (エラー率の低下: 58%)
辞書シナリオに対して、ja-JP での 1 つの単語の読み取りを改善しました。発音エラーが 80% 削減されました。
zh-CN-XiaoxiaoNeural:センチメント/CustomerService/Newscast/Cheerful/Angry スタイルの音声品質を改善しました。
zh-CN:児化 (アルか) の発音と明るい声色を改善し、空間韻律を改良しました。これにより、明瞭度が大幅に向上します。

2020 年 9 月のリリース

新機能

ニューラルテキスト読み上げ
- 新たに 18 言語/ロケールにサポートを拡張しました。 対象となるのは、ブルガリア語、チェコ語、ドイツ語 (オーストリア)、ドイツ語 (スイス)、ギリシャ語、英語 (アイルランド)、フランス語 (スイス)、ヘブライ語、クロアチア語、ハンガリー語、インドネシア語、マレー語、ルーマニア語、スロバキア語、スロベニア語、タミール語、テルグ語、およびベトナム語です。
- 既存の言語を充実させるために、新たに 14 音声をリリースしました。 言語と音声の完全な一覧を参照してください。
- en-US と zh-CN の音声での新しい読み上げスタイル 英語 (米国) の新しい音声である Jenny は、チャットボット、カスタマーサービス、およびアシスタントの各スタイルをサポートしています。 zh-CN の音声である XiaoXiao では、新たに 10 の読み上げスタイルを使用できます。さらに、XiaoXiao ニューラル音声では、StyleDegree チューニングがサポートされています。 SSML での読み上げスタイルの使用方法を参照してください。
コンテナー: ニューラルテキスト読み上げコンテナーがパブリックプレビューでリリースされました。14 言語で 16 音声を使用できます。 詳細については、ニューラルテキスト読み上げ用の音声コンテナーのデプロイ方法に関する記事を参照してください

Ignite 2020 での TTS 更新プログラムの発表の全内容を参照してください。

2020 年 8 月のリリース

新機能

ニューラルテキスト読み上げ: en-US の Aria の音声に新しいスタイルの話し方が追加。 AriaNeural は、ニュースを読むときのニュースキャスターのように聞こえます。 'newscast-formal' スタイルの方がより真面目に聞こえるのに対し、'newscast-casual' スタイルの方はよりリラックスしてくだけた感じです。 SSML での読み上げスタイルの使用方法を参照してください。
Custom Voice: トレーニングデータの品質を自動的にチェックするための新機能がリリースされました。データをアップロードすると、システムによってオーディオとトランスクリプトデータのさまざまな側面が調べられ、問題が自動的に修正またはフィルター処理されて、音声モデルの品質が向上します。ここでは、オーディオとスクリプトの形式に加え、オーディオの音量、ノイズレベル、音声の発音の正確さ、音声と正規化されたテキスト間の調整、オーディオのサイレント状態についても説明します。
Audio Content Creation: より強力な音声チューニングとオーディオ管理機能を可能にする一連の新機能。
- 発音: 発音チューニング機能は、最新の音素セットに更新されています。ライブラリから適切な音素要素を選択し、選択した単語の発音を洗練することができます。
- ダウンロード:オーディオの "ダウンロード" または "エクスポート" 機能は、段落によるオーディオ生成をサポートするように強化されています。複数のオーディオ出力を生成しながら、同じファイルまたは SSML でコンテンツを編集することができます。 "ダウンロード" のファイル構造も改良されています。すべてのオーディオファイルを 1 つのフォルダーに簡単に取り込むことができるようになりました。
- タスクの状態: 複数ファイルのエクスポートエクスペリエンスが向上しました。これまでは、複数のファイルをエクスポートするときに、いずれかのファイルにエラーが発生すると、タスク全体が失敗していました。しかし今は、他のすべてのファイルが正常にエクスポートされます。タスクレポートは、より詳細で構造化された情報で拡充されています。すべての失敗したファイルと文のログをレポートで確認できるようになりました。
- SSML ドキュメント: すべてのチューニング機能の使用方法に関するルールを確認できるように、SSML ドキュメントにリンクされています。
Voice List API が更新され、ユーザーフレンドリな表示名と、ニューラル音声でサポートされている読み上げスタイルが含まれるようになりました。

一般的な TTS 音声品質の改善

単語レベルの発音エラー率が低減しました。ru-RU はエラーが 56% 減少し、sv-SE はエラーが 49% 減少しました。
en-US ニューラル音声のポリフォニーの単語の読み上げが 40% 改良されました。ポリフォニー単語の例には、"read"、"live"、"content"、"record"、"object" などがあります。
fr-FR での質問口調がより自然になりました。 MOS (Mean Opinion Score) の向上: +0.28
次の音声のボコーダーを更新したことで、忠実性が向上し、全体のパフォーマンスが 40% 向上しました。

Locale 音声

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Locale	音声
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

バグ修正

Audio Content Creation ツールのいくつかのバグを修正しました
- 自動更新に関する問題を修正しました。
- 東南アジアリージョンの zh-CN の音声スタイルに関する問題を修正しました。
- "break" タグによるエクスポートエラー、句読点のエラーなど、安定性の問題を修正しました。

2024 年 4 月リリース

自動多言語音声翻訳 (プレビュー)

自動多言語音声翻訳は、パブリックプレビューで利用できます。この革新的な機能は、言語の壁を克服する方法に革命を起こし、多様な言語環境間のシームレスなコミュニケーションのための比類のない機能を提供しています。

キーハイライト

未指定の入力言語: 多言語の音声翻訳では、さまざまな言語でオーディオを受信できます。また、想定される入力言語を指定する必要はありません。これは、事前設定を必要とせずに、グローバルコンテキスト間で理解し、共同作業を行う貴重な機能になります。
言語の切り替え: 多言語音声翻訳を使用すると、同じセッション中に複数の言語を話すことができ、それをすべて同じターゲット言語に翻訳できます。入力言語が変更された場合に、セッションを再起動したり、他のアクションを実行したりする必要はありません。

しくみ

旅行通訳: 多言語音声翻訳は、外国の目的地を訪れる観光客の優先言語で情報と支援を提供することで、経験を向上させることができます。ホテルのコンシェルジュサービス、ガイド付きツアー、ビジターセンターでは、このテクノロジを利用して、多様な言語的ニーズに対応できます。
国際会議: 多言語音声翻訳は、ライブ翻訳されたキャプションを使用してさまざまな言語を話す可能性のある異なる地域の参加者間のコミュニケーションを容易にすることができます。出席者は、自分の母国語で話すことができます。指定しなくても、シームレスな理解とコラボレーションを実現できます。
教育会議: 多文化教室やオンライン学習環境では、多言語音声翻訳が学生と教師の言語の多様性をサポートできます。各学生またはインストラクターの言語を指定しなくても、シームレスなコミュニケーションと参加が可能になります。

アクセス方法

詳細な概要については、「音声翻訳の概要」を参照してください。また、「音声を翻訳する方法」のコードサンプルを参照できます。この新機能は、1.37.0 以降のすべての SDK バージョンで完全にサポートされています。

ダイアライゼーション (GA) を使用したリアルタイム音声テキスト変換

ダイアライゼーションを使用したリアルタイム音声テキスト変換が一般提供されるようになりました。

ダイアライゼーションを使用して会話に参加するさまざまな話者を区別する音声テキスト変換アプリケーションを作成できます。リアルタイムの diarization の詳細については、「リアルタイムダイアライゼーションのクイックスタート」を参照してください。

音声テキスト変換モデルの更新

リアルタイム音声テキスト変換で、二か国語機能を備えた新しいモデルがリリースされました。 en-IN モデルでは、英語とヒンディー語の両方の二か国語シナリオがサポートされ、精度が向上しました。アラビア語ロケール (ar-AE、ar-BH、ar-DZ、ar-IL、ar-IQ、ar-KW、ar-LB、ar-LY、ar-MA、ar-OM、ar-PS、ar-QA、ar-SA、ar-SY、ar-TN、ar-YE) には英語の二か国語サポートが追加されました。精度が向上しており、コールセンターのサポートが受けられます。

バッチ文字起こしは、以下のロケールに新しいアーキテクチャのモデルを提供しています: es-ES、es-MX、fr-FR、it-IT、ja-JP、ko-KR、pt-BR、zh-CN。これらのモデルでは、読みやすさとエンティティ認識が大幅に強化されています。

2024 年 3 月のリリース

Whisper 一般提供 (GA)

Azure AI 音声を使用した Whisper 音声テキスト変換モデルが一般公開になりました。

Azure AI 音声と Azure OpenAI Service の使い分けの詳細については、「Whisper モデルとは」を参照してください。

2024 年 2 月のリリース

発音評価

音声発音評価で、一般提供されている 23 個の言語がサポートされるようになりました (5 つの新しい言語が追加されました)。パブリックプレビューではさらに 3 つの言語を利用できます。詳細については、発音評価の完全な言語リストを参照してください。

Language	ロケール (BCP-47)
アラビア語 (エジプト)	`ar-EG`¹
アラビア語 (サウジアラビア)	`ar-SA`
中国語 (繁体字)	`zh-HK`¹
中国語 (標準、簡体字)	`zh-CN`
オランダ語 (オランダ)	`nl-NL`¹
英語 (オーストラリア)	`en-AU`
英語 (カナダ)	`en-CA`
英語 (インド)	`en-IN`
英語 (イギリス)	`en-GB`
英語 (米国)	`en-US`
フランス語 (カナダ)	`fr-CA`
フランス語 (フランス)	`fr-FR`
ドイツ語 (ドイツ)	`de-DE`
ヒンディー語 (インド)	`hi-IN`
イタリア語 (イタリア)	`it-IT`
日本語 (日本)	`ja-JP`
韓国語 (韓国)	`ko-KR`
マレー語 (マレーシア)	`ms-MY`
ノルウェー語 (ブークモール) (ノルウェー)	`nb-NO`
ポルトガル語 (ブラジル)	`pt-BR`
ロシア語 (ロシア)	`ru-RU`
スペイン語 (メキシコ)	`es-MX`
スペイン語 (スペイン)	`es-ES`
スウェーデン語 (スウェーデン)	`sv-SE`
タミール語 (インド)	`ta-IN`
ベトナム語 (ベトナム)	`vi-VN`

¹ 言語は発音評価のパブリックプレビュー段階です。

フレーズリスト

次のロケールにフレーズリストのサポートを追加しました: ar-SA、de-CH、en-IE、en-ZA、es-US、id-ID、nl-NL、pl-PL、pt-PT、ru-RU、sv-SE、th-TH、vi-VN、zh-HK、zh-TW。

2023 年 11 月のリリース

二か国語の音声モデリングを紹介します。

私たちは、リアルタイム音声モデリングである二か国語音声モデリングへの画期的な追加機能を発表できることを嬉しく思います。この大幅な機能強化により、音声モデルは、英語やスペイン語、英語、フランス語などの二か国語ペアをシームレスにサポートできます。この機能を使用すると、ユーザーはリアルタイムの対話中に言語を簡単に切り替え、コミュニケーションエクスペリエンスの向上に取り組む上で重要な瞬間を示すことができます。

主な特長は以下のとおりです。

二か国語サポート: 最新のリリースでは、ユーザーはリアルタイムの音声操作中に、英語とスペイン語をシームレスに切り替えることができます。この機能は、これら 2 つの言語間で頻繁に移行する二か国語の話者に対応するように調整されています。
強化されたユーザーエクスペリエンス: 職場、自宅、またはさまざまなコミュニティ設定で、二か国語の話者はこの機能を便利にお使いいただけます。リアルタイムで英語とスペイン語の両方を理解し、対応するモデルの能力は、効果的で流動的なコミュニケーションのための新たな可能性を開きます。

使用方法:

Speech Service API を呼び出すとき、または Speech Studio で試す場合は、es-US (スペイン語と英語) または fr-CA (フランス語と英語) を選択します。言語を自由に話すか、それらを組み合わせて自由に話すことができます。モデルは動的に適応するように設計されており、両方の言語で正確でコンテキストに対応した応答を提供します。

最新の機能リリースであるシームレスで多言語のコミュニケーションをすぐに利用して、コミュニケーションゲームを強化しましょう。

音声テキスト変換モデルの更新

Microsoft は、弊社の音声モデルにおいて、精度の向上、読みやすさの改善、洗練されたエンティティの認識を約束する重要な更新プログラムを紹介できることを嬉しく思います。このアップグレードでは、拡張されたトレーニングデータセットによって強化された堅牢な新しい構造が採用されているため、全体的なパフォーマンスが著しく向上しています。新しくリリースされた en-US、zh-CN、ja-JP、it-IT、pt-BR、es-MX、es-ES、fr-FR、de-DE、ko-KR、tr-TR、sv-SE、he-IL のモデルが含まれています。

ハイライト:

新しいモデル構造による精度の向上: 再定義されたモデル構造は、より豊富なトレーニングデータセットと組み合わせて、精度レベルを向上し、より正確な音声出力を約束します。
読みやすさの向上: 弊社の最新のモデルは読みやすさを大幅に向上させ、音声コンテンツの一貫性と明瞭性を高めています。
高度なエンティティの認識: エンティティの認識が大幅にアップグレードされ、より正確でニュアンスを汲み取った結果が得られます。

潜在的な影響: 音声モデルの機能は向上しておりますが、次のような潜在的な影響に対して注意を向けることは極めて重要です。

カスタム無音タイムアウト機能: カスタム無音タイムアウトを採用しているユーザー (特に設定が低い場合) は、過剰なセグメント化が発生し、単一単語のフレーズが省略される可能性があります。
新しいモデルでは、キーワードプレフィックス機能との互換性の問題が発生する可能性があり、ユーザーは特定のアプリケーションでそのパフォーマンスを評価することをお勧めします。
不要な単語またはフレーズの減少: ユーザーは、音声出力の「ええと」や「えー」などの不要な単語やフレーズが減少していることに気付くかもしれません。
単語のタイムスタンプ期間の不正確さ: 一部の不要な単語にはタイムスタンプ期間が不正確に表示される可能性があり、正確なタイミングに依存するアプリケーションでは注意が必要です。
信頼度スコア分布の変性: 信頼度スコアと関連するしきい値に依存しているユーザーは、分布の潜在的な変性に注意する必要があり、最適なパフォーマンスを得るためには調整が必要です。
フレーズリスト機能の精度の向上は、特定のフレーズの誤認識に影響される可能性があります。

シームレスな移行のために、これらの改善点を確認し、潜在的な問題を考慮することをお勧めします。また、お客様からのフィードバックは、サービスの改善と向上に役立たせていただきます。

発音評価

音声発音評価では、一般提供される 18 個の追加言語がサポートされるようになりました。パブリックプレビューでは 6 つの追加言語がで利用できます。詳細については、発音評価の完全な言語リストを参照してください。
2023 年 11 月 1 日より、発音評価に次の新機能が追加されます: 韻律、文法、語彙、トピック。これらの機能強化は、読み取りと読み上げの両方の評価において、より包括的な言語学習エクスペリエンスを提供することを目的としています。 SDK バージョン 1.35.0 以降にアップグレードして、「発音評価の使用方法」と「Speech Studio での発音評価」の詳細をご覧ください。

2023 年 9 月のリリース

Whisper パブリックプレビュー

Azure AI 音声は現在、バッチ文字起こし API を介した OpenAI の Whisper モデルをサポートしています。詳細については、「バッチ文字起こしを作成する」ガイドを参照してください。

Note

Azure OpenAI Service では、同期 REST API を使用した音声テキスト変換用の OpenAI の Whisper モデルもサポートしています。詳細については、クイックスタートを参照してください。

Azure AI 音声と Azure OpenAI Service の使い分けの詳細については、「Whisper モデルとは」を参照してください。

Speech to Text REST API v3.2パブリックプレビュー

Speech to Text REST API v3.2 はプレビューで利用できます。 Speech to Text REST API v3.1 は一般提供されています。 Speech to Text REST API v3.0 は、2026 年 4 月 1 日に廃止されます。詳細については、Speech to Text REST API v3.0 から v3.1、v3.1 から v3.2 への移行ガイドを参照してください。

2023 年 8 月リリース

新しい音声テキスト変換ロケール:

音声テキスト変換では、次の表に示す 2 つの新しいロケールがサポートされるようになりました。言語の完全な一覧については、こちらを参照してください。

Locale	言語
`pa-IN`	パンジャーブ語 (インド)
`ur-IN`	ウルドゥー語 (インド)

発音評価

音声発音評価では、英語 (カナダ)、英語 (インド)、フランス語 (カナダ) で一般提供される 3 つの追加言語がサポートされるようになり、プレビューでは 3 つの追加言語を利用できます。詳細については、発音評価の完全な言語リストを参照してください。

2023 年 5 月リリース

発音評価

音声発音評価では、ドイツ語 (ドイツ)、日本語 (日本)、スペイン語 (メキシコ) で一般提供される 3 つの追加言語がサポートされるようになりました。プレビューでは 4 つの追加言語がで利用できます。詳細については、発音評価の完全な言語リストを参照してください。
すべてのパブリックリージョンで発音評価に標準の音声テキスト変換コミットメントレベルを使用できるようになりました。標準の Speech to text のコミットメントレベルを購入した場合、発音評価の支出はコミットメントを満たす方向に向けられます。コミットメントレベルの価格に関するページを参照してください。

2023 年 2 月のリリース

発音評価

音声発音評価では、英語 (英国)、英語 (オーストラリア)、フランス語 (フランス)、スペイン語 (スペイン)、中国語 (標準、簡体字) の 5 つの追加言語が一般提供でサポートされるようになりました。その他の言語はプレビューで利用できます。
ストリーミングモードでの発音評価を独自のアプリケーションで使用する方法を示すサンプルコードが追加されました。
- C#: サンプルコードを参照してください。
- C++: サンプルコードを参照してください。
- java: サンプルコードを参照してください。
- javascript: サンプルコードを参照してください。
- Objective-C: サンプルコードを参照してください。
- Python: サンプルコードを参照してください。
- Swift: サンプルコードを参照してください。

Custom Speech

de-AT ロケールに対して音声 + 人間がラベル付けしたトランスクリプトのサポートが追加されます。

2023 年 1 月のリリース

Custom Speech

追加のロケール (ar-BH、ar-DZ、ar-EG、ar-MA、ar-SA、ar-TN、ar-YE、ja-JP) に対して音声 + 人間がラベル付けしたトランスクリプトのサポートが追加されます。

ロケール de-AT に対して構造化テキストの適応のサポートが追加されました。

2022 年 12 月のリリース

Speech to text REST API

Speech-to-text REST API バージョン 3.1 が一般提供になりました。 Speech to text REST API のバージョン 3.0 は廃止される予定です。移行方法について詳しくは、ガイドに関するページを参照してください。

2022 年 10 月のリリース

新しい音声テキスト変換ロケール

ml-IN ロケールでのマラヤーラム語 (インド) のサポートを追加しました。言語の完全な一覧については、こちらを参照してください。

2022 年 7 月のリリース

新しい音声テキスト変換ロケール:

次の表に示す 7 個のロケールを新たに追加しました。言語の完全な一覧については、こちらを参照してください。

Locale	Language
`bs-BA`	ボスニア語 (ボスニア・ヘルツェゴビナ)
`yue-CN`	中国語 (広東語、簡体字)
`zh-CN-sichuan`	中国語 (南西部標準中国語、簡体字)
`wuu-CN`	中国語 (呉語、簡体字)
`ps-AF`	パシュトゥー語 (アフガニスタン)
`so-SO`	ソマリ語 (ソマリア)
`cy-GB`	ウェールズ語 (イギリス)

2022 年 6 月のリリース

新しい音声テキスト変換ロケール:

次の表に示す 10 個のロケールを新たに追加しました。言語の完全な一覧については、こちらを参照してください。

Locale	Language
`sq-AL`	アルバニア語 (アルバニア)
`hy-AM`	アルメニア語 (アルメニア)
`az-AZ`	アゼルバイジャン語 (アゼルバイジャン)
`eu-ES`	バスク語
`gl-ES`	ガリシア語
`ka-GE`	グルジア語 (グルジア)
`it-CH`	イタリア語 (スイス)
`kk-KZ`	カザフ語 (カザフスタン)
`mn-MN`	モンゴル語 (モンゴル)
`ne-NP`	ネパール語 (ネパール)

2022 年 4 月のリリース

新しい音声テキスト変換ロケール:

新しいロケールの一覧を次に示します。言語の完全な一覧については、こちらを参照してください。

Locale	Language
`bn-IN`	ベンガル語 (インド)

2022 年 1 月のリリース

新しい音声テキスト変換ロケール:

新しいロケールの一覧を次に示します。言語の完全な一覧については、こちらを参照してください。

Locale	Language
`af-ZA`	アフリカーンス語 (南アフリカ)
`am-ET`	アムハラ語 (エチオピア)
`de-CH`	ドイツ語 (スイス)
`fr-BE`	フランス語 (ベルギー)
`is-IS`	アイスランド語 (アイスランド)
`jv-ID`	ジャワ語 (インドネシア)
`km-KH`	クメール語 (カンボジア)
`kn-IN`	カンナダ語 (インド)
`lo-LA`	ラオス語 (ラオス)
`mk-MK`	マケドニア語 (北マケドニア)
`my-MM`	ビルマ語 (ミャンマー)
`nl-BE`	オランダ語 (ベルギー)
`si-LK`	シンハラ語 (スリランカ)
`sr-RS`	セルビア語 (セルビア)
`sw-TZ`	スワヒリ語 (タンザニア)
`uk-UA`	ウクライナ語 (ウクライナ)
`uz-UZ`	ウズベク語 (ウズベキスタン)
`zu-ZA`	ズールー語 (南アフリカ)

2021 年 7 月のリリース

新しい音声テキスト変換ロケール:

新しいロケールの一覧を次に示します。言語の完全な一覧については、こちらを参照してください。

Locale	Language
`ar-DZ`	アラビア語 (アルジェリア)
`ar-LY`	アラビア語 (リビア)
`ar-MA`	アラビア語 (モロッコ)
`ar-TN`	アラビア語 (チュニジア)
`ar-YE`	アラビア語 (イエメン)
`bg-BG`	ブルガリア語 (ブルガリア)
`el-GR`	ギリシャ語 (ギリシャ)
`et-EE`	エストニア語 (エストニア)
`fa-IR`	ペルシア語 (イラン)
`ga-IE`	アイルランド語 (アイルランド)
`hr-HR`	クロアチア語 (クロアチア)
`lt-LT`	リトアニア語 (リトアニア)
`lv-LV`	ラトビア語 (ラトビア)
`mt-MT`	マルタ語 (マルタ)
`ro-RO`	ルーマニア語 (ルーマニア)
`sk-SK`	スロバキア語 (スロバキア)
`sl-SI`	スロベニア語 (スロベニア)
`sw-KE`	スワヒリ語 (ケニア)

2021 年 1 月のリリース

新しい音声テキスト変換ロケール:

新しいロケールの一覧を次に示します。言語の完全な一覧については、こちらを参照してください。

Locale	Language
`ar-AE`	アラビア語 (アラブ首長国連邦)
`ar-IL`	アラビア語 (イスラエル)
`ar-IQ`	アラビア語 (イラク)
`ar-OM`	アラビア語 (オマーン)
`ar-PS`	アラビア語 (パレスチナ自治政府)
`de-AT`	ドイツ語 (オーストリア)
`en-GH`	英語 (ガーナ)
`en-KE`	英語 (ケニア)
`en-NG`	英語 (ナイジェリア)
`en-TZ`	英語 (タンザニア)
`es-GQ`	スペイン語 (赤道ギニア)
`fil-PH`	フィリピノ語 (フィリピン)
`fr-CH`	フランス語 (スイス)
`he-IL`	ヘブライ語 (イスラエル)
`id-ID`	インドネシア語 (インドネシア)
`ms-MY`	マレー語 (マレーシア)
`vi-VN`	ベトナム語 (ベトナム)

2020 年 8 月のリリース

新しい音声テキスト変換ロケール:

音声テキスト変換では、8 月に 26 個の新しいロケールがリリースされました。2 つのヨーロッパ言語 (cs-CZ と hu-HU) と 5 つの英語のロケール、および南米のほとんどの国/地域をカバーする 19 個のスペイン語のロケールです。新しいロケールの一覧を次に示します。言語の完全な一覧については、こちらを参照してください。

Locale	Language
`cs-CZ`	チェコ語 (チェコ共和国)
`en-HK`	英語 (香港特別行政区)
`en-IE`	英語 (アイルランド)
`en-PH`	英語 (フィリピン)
`en-SG`	英語 (シンガポール)
`en-ZA`	英語 (南アフリカ)
`es-AR`	スペイン語 (アルゼンチン)
`es-BO`	スペイン語 (ボリビア)
`es-CL`	スペイン語 (チリ)
`es-CO`	スペイン語 (コロンビア)
`es-CR`	スペイン語 (コスタリカ)
`es-CU`	スペイン語 (キューバ)
`es-DO`	スペイン語 (ドミニカ共和国)
`es-EC`	スペイン語 (エクアドル)
`es-GT`	スペイン語 (グアテマラ)
`es-HN`	スペイン語 (ホンジュラス)
`es-NI`	スペイン語 (ニカラグア)
`es-PA`	スペイン語 (パナマ)
`es-PE`	スペイン語 (ペルー)
`es-PR`	スペイン語 (プエルトリコ)
`es-PY`	スペイン語 (パラグアイ)
`es-SV`	スペイン語 (エルサルバドル)
`es-US`	スペイン語 (米国)
`es-UY`	スペイン語 (ウルグアイ)
`es-VE`	スペイン語 (ベネズエラ)
`hu-HU`	ハンガリー語 (ハンガリー)

2024 年 2 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 4.6.0
音声テキスト変換 4.6.0
ニューラルテキスト読み上げ 3.1.0

音声テキスト変換コンポーネントを最新にアップグレードします。すべての es ロケールのモデルを最新にアップグレードします。音声テキスト変換のユースケース用のメディア変換バッファーを増やします。

2023-November リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 4.5.0
音声テキスト変換 4.5.0
ニューラルテキスト読み上げ 2.19.0

2023-October リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 4.4.0
音声テキスト変換 4.4.0
ニューラルテキスト読み上げ 2.18.0

リスクの高い脆弱性の問題を多数修正します。

コンテナー内の冗長ログを削除します。

内部メディアコンポーネントを最新のバージョンにアップグレードします。

voiceen-IN-NeerjaNeural のサポートを追加します。

2023-September リリース

以下の最新のモデルバージョンのサポートが追加されました。

音声言語識別 1.12.0
カスタム音声テキスト変換 4.3.0
音声テキスト変換 4.3.0
ニューラルテキスト読み上げ 2.17.0

カスタム音声テキスト変換と音声テキスト変換を最新のフレームワークにアップグレードします。

脆弱性の問題が修正されました。

voicear-AE-FatimaNeural のサポートを追加します。

2023 年 7 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 4.1.0
音声テキスト変換 4.1.0
ニューラルテキスト読み上げ 2.15.0

ローカルのカスタムモデルファイルで docker マウントオプションを使用して音声テキスト変換コンテナーを実行する問題が修正されました。

場合によっては、Speech SDK を介した応答で RECOGNIZING イベントが表示されない問題が修正されました。

脆弱性の問題が修正されました。

2023-June リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 4.0.0
音声テキスト変換 4.0.0
ニューラルテキスト読み上げ 2.14.0

オンプレミスの音声テキスト変換イメージが .NET 6.0 にアップグレードされました

en-us、ar-eg、ar-bh、ja-jp、ko-kr などのロケールの表示モデルがアップグレード:されました。

音声テキスト変換のコンテナーコンポーネントをアップグレードして、脆弱性の問題に対処します。

ロケールの音声 de-DE-AmalaNeural、de-AT-IngridNeural、de-AT-JonasNeural、en-US-JennyMultilingualNeural のサポートを追加します。

2023 年 5 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.14.0
音声テキスト変換 3.14.0
ニューラルテキスト読み上げ 2.13.0

he-IL の句読点の問題を修正しました

脆弱性の問題を修正しました

新しいロケール音声 en-US-MichelleNeural と es-MX-CandelaNeural を追加しました

2023 年 4 月リリース

セキュリティ更新プログラム

脆弱性の問題を修正しました

2023 年 3 月リリース

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.12.0
音声テキスト変換 3.12.0
音声言語識別 1.11.0
ニューラルテキスト読み上げ 2.11.0

脆弱性の問題を修正しました

tr-TR の大文字化の問題を修正しました

音声テキスト変換の en-US 表示モードをアップグレードしました

事前構築済みニューラルニューラルテキスト読み上げのロケール音声 ar-AE-HamdanNeural のサポートが追加されました

2023 年 2 月リリース

新しいコンテナーバージョン

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.11.0
音声テキスト変換 3.11.0
ニューラルテキスト読み上げ 2.10.0

脆弱性の問題を修正しました

音声モデルの定期的なアップグレード

新しい Abraic ロケールが追加されました。

ar-IL
ar-PS

ヘブライ語とトルコ語の表示モデルがアップグレードされました

2023 年 1 月のリリース

新しいコンテナーバージョン

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.10.0
音声テキスト変換 3.10.0
ニューラルテキスト読み上げ 2.9.0

仮説モードの問題を修正

HTTP プロキシの問題を修正

カスタム音声テキスト変換コンテナーの切断モード

CNV 切断コンテナーのサポートを TTS フロントエンドに追加

次のロケールの音声を追加:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

2022-December リリース

新しいコンテナーバージョン

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.9.0
音声テキスト変換 3.9.0
ニューラルテキスト読み上げ 2.8.0

IPv4/IPv6 の問題を修正しました

脆弱性の問題を修正しました

2022-November リリース

新しいコンテナーバージョン

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.8.0
音声テキスト変換 3.8.0
ニューラルテキスト読み上げ 2.7.0

2022-October リリース

新しいコンテナーバージョン

以下の最新のモデルバージョンのサポートが追加されました。

カスタム音声テキスト変換 3.7.0
音声テキスト変換 3.7.0
ニューラルテキスト読み上げ 2.6.0

2022 年 9 月リリース

音声テキスト変換 3.6.0-amd64

最新のモデルバージョンのサポートを追加しました。

次のロケールのサポートを追加しました。

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

セキュリティのアップグレードと脆弱性の修正プログラムを含む、定期的な月次更新プログラム。

カスタム音声テキスト変換 3.6.0-amd64

セキュリティのアップグレードと脆弱性の修正プログラムを含む、定期的な月次更新プログラム。

ニューラルニューラルテキスト読み上げ v2.5.0

次の事前構築済みニューラル音声のサポートが追加されました。

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

セキュリティのアップグレードと脆弱性の修正プログラムを含む、定期的な月次更新プログラム。

2022 年 5 月リリース

音声言語検出コンテナー v1.9.0-amd64-preview

音声言語検出のバグ修正。

2022 年 3月リリース

カスタム音声テキスト変換コンテナー v3.1.0

表示モデルの取得のサポートを追加しました。

2022 年 1 月のリリース

音声テキスト変換コンテナー v3.0.0

切断された環境でのコンテナー使用のサポートが追加されました。

音声テキスト変換コンテナー v2.18.0

セキュリティのアップグレードと脆弱性の修正プログラムを含む、定期的な月次更新プログラム。

ニューラルニューラルテキスト読み上げコンテナー v1.12.0

次の事前構築済みニューラル音声のサポートが追加されました: am-et-amehaneural、am-et-mekdesneural、so-so-muuseneural、so-so-ubaxneural。

セキュリティのアップグレードと脆弱性の修正プログラムを含む、定期的な月次更新プログラム。

Azure AI 音声の新機能

最近のハイライト

リリース ノート

Linux および Android ユーザー向けの今後のプラン:

Speech SDK 1.37.0: 2024 年 4 月リリース

新機能

バグ修正

サンプル

Speech SDK 1.36.0: 2024 年 3 月のリリース

新機能

バグ修正

サンプル

Speech SDK 1.35.0: 2024 年 2 月のリリース

新機能

バグ修正

サンプル

Speech SDK 1.34.1: 2024 年 1 月のリリース

重大な変更

新機能

バグ修正

Speech SDK 1.34.0: 2023 年 11 月リリース

重大な変更

新機能

バグ修正

サンプル

Speech CLI 1.34.0: 2023 年 11 月リリース

新機能

バグ修正

Speech SDK 1.33.0: 2023 年 10 月リリース

破壊的変更の通知

新機能

バグ修正

サンプル

Speech CLI 1.33.0: 2023 年 10 月リリース

新機能

バグ修正

Speech SDK 1.32.1: 2023 年 9 月リリース

バグ修正

サンプル

Speech SDK 1.31.0: 2023 8 月リリース

新機能

破壊的変更

バグ修正

サンプル

Speech SDK 1.30.0: 2023 年 7 月リリース

新機能

バグ修正

追加メモ

サンプル

Speech SDK 1.29.0: 2023 年 6 月リリース

新機能

バグの修正

サンプル

Speech SDK 1.28.0: 2023 年 5 月のリリース

互換性に影響する変更点

新機能

バグの修正

サンプル

音声 SDK 1.27.0: 2023 年 4 月のリリース

今後の変更に関する通知

新機能

バグの修正

サンプル

Speech SDK 1.26.0: 2023 年 3 月のリリース

重大な変更

新機能

バグ修正

サンプル

Speech SDK 1.25.0: 2023 年 1 月のリリース

互換性に影響する変更

新機能

バグの修正

サンプル

Speech SDK 1.24.2: 2022 年 11 月リリース

新機能

バグの修正

Speech SDK 1.24.1: 2022 年 11 月リリース

新機能

バグの修正

Speech SDK 1.24.0: 2022 年 10 月リリース

リリースノート

Speech SDK 1.11.0:2020年 3月リリース