音声変換の概要

この概要では、Azure Cognitive Services に含まれる Speech サービスの音声テキスト変換の利点と機能について説明します。

音声テキスト変換 (音声認識とも呼ばれる) を使用すると、オーディオ ストリームをテキストにリアルタイムまたはオフラインで文字起こしできます。 利用できる音声テキスト変換言語の完全一覧については、「音声サービスの言語と音声のサポート」を参照してください。

注意

Microsoft では、Cortana や Office 製品で同じ認識テクノロジを使用しています。

作業開始

開始するには、音声テキスト変換のクイックスタートを試してください。 音声テキスト変換は、Speech SDKREST API、および Speech CLI を介して利用できます。

詳細なサンプルは、GitHub の Azure-Samples/cognitive-services-speech-sdk リポジトリにあります。 C# (UWP、Unity、Xamarin を含む)、C++、Java、JavaScript (Browser と Node.js を含む)、Objective-C、Python、Swift のサンプルがあります。 Go のコード サンプルは、GitHub の Microsoft/cognitive-services-speech-sdk-go リポジトリにあります。

バッチ文字起こし

バッチ文字起こしは、ストレージ内の大量のオーディオを文字起こしできる一連の音声テキスト変換 REST API 操作です。 Shared Access Signatures (SAS) URI でオーディオ ファイルを示して、非同期に文字起こしの結果を受け取ることができます。 バッチ文字起こし API の使用方法の詳細については、「バッチ文字起こしの使用方法」および「バッチ文字起こしのサンプル (REST)」を参照してください。

Custom Speech

Azure 音声テキスト変換サービスでは、音声をリアルタイムまたはバッチで分析し、音声をテキストに文字起こしします。 音声テキスト変換では、Microsoft が所有するデータを使用してトレーニングされ、一般的に使用される音声言語を反映する基本モデルとしてユニバーサル言語モデルが活用されます。面倒な設定はありません。 この基本モデルは、さまざまな一般的領域を表す方言と発音で事前にトレーニングされています。 基本モデルは、ほとんどのシナリオで適切に機能します。

音声に周囲の雑音が含まれている場合や、多くの業界や分野固有の専門用語が含まれている場合、基本モデルでは不十分な場合があります。 そのような場合、その特定のドメインに関連付けられている追加のデータをトレーニングすることで、カスタム音声モデルの構築が理にかないます。 カスタムの音響モデル、言語モデル、発音モデルを作成し、トレーニングできます。 詳細については、「Custom Speech」と「音声テキスト変換 REST API」を参照してください。

カスタマイズ オプションは言語またはロケールによって異なります。 サポートを確認するには、「音声サービスの言語と音声のサポート」を参照してください。

次のステップ