音声サービスとは

音声サービスでは、Azure 音声リソースを使用して、音声テキスト変換とテキスト読み上げの機能が提供されます。 音声を高い精度でテキストに文字起こしし、自然に聞こえるテキスト読み上げ音声を生成し、音声を翻訳し、会話中に話者認識を使用することができます。

音声サービス機能の一部を強調したタイルのイメージ。

カスタム音声を作成したり、ベース ボキャブラリに特定の単語を追加したり、独自のモデルを構築したりできます。 音声サービスは、クラウドやコンテナーのエッジの任意の場所で実行できます。 Speech CLISpeech SDKSpeech Studio、または REST API を使用して、アプリケーション、ツール、デバイスを簡単に音声対応にできます。

音声サービスは、多くの言語地域価格で使用できます。

音声のシナリオ

音声サービスの一般的なシナリオは次のとおりです。

  • キャプション: キャプションを入力オーディオと同期する方法、不適切表現フィルターを適用する方法、部分的な結果を取得する方法、カスタマイズを適用する方法、多言語シナリオで音声言語を識別する方法について学習します。
  • Audio Content Creation: ニューラル音声を使用すると、チャットボットや音声アシスタントとの対話をより自然で魅力的なものにすることができます。また、電子書籍などのデジタル テキストをオーディオブックに変換したり、カーナビゲーション システムを強化したりすることもできます。
  • コール センター: 通話をリアルタイムで文字起こしするか、通話をバッチ処理して、個人を識別する情報を編集し、感情などの分析情報を抽出して、コール センターのユース ケースに役立てます。
  • 音声アシスタント: アプリケーションとエクスペリエンスのための自然で人間のような会話型インターフェイスを作成できます。 音声アシスタント機能は、デバイスとアシスタントの実装の間で高速かつ信頼性の高い対話機能を提供します。

Microsoft では、Teamsでのキャプション、Office 365でのディクテーション、Edge ブラウザーでの音声読み上げなど、多くのシナリオで Speech を使用します。

音声サービスが利用されている Microsoft 製品のロゴを表示した画像。

音声機能

音声機能の概要については、以下のリンクを参照してください。

音声テキスト変換

音声テキスト変換を使用して、リアルタイムまたは非同期で音声をテキストに文字起こしします。

ヒント

Speech Studio では、サインアップやコードの記述を行わずに、音声テキスト変換を試すことができます。

マイク、オーディオ ファイル、BLOB ストレージなど、さまざまなソースからオーディオをテキストに変換します。 話者のダイアリゼーションを使用して、誰がいつ何を言ったかを判断します。 自動での書式設定と句読点を使用して、読み取り可能なトランスクリプトを取得します。

音声に周囲の雑音が含まれている場合や、多くの業界や分野固有の専門用語が含まれている場合、基本モデルでは不十分な場合があります。 このような場合は、音響、言語、および発音データを使用して、カスタム音声モデルを作成してトレーニングできます。 カスタム音声モデルは非公開であり、競争上の優位性を提供できます。

テキスト読み上げ

テキスト読み上げを使用すると、入力テキストを人間のような合成音声に変換できます。 ディープ ニューラル ネットワークを利用した、人間に似た音声であるニューラル音声を使用します。 音声合成マークアップ言語 (SSML) を使用して、ピッチ、発音、読み上げ速度、ボリュームなどを調整します。

  • 事前構築済みのニューラル音声: 非常に自然で、すぐに使用できる音声です。 事前構築済みのニューラル音声のサンプルを音声ギャラリーで確認して、ビジネス ニーズに適した音声を決定してください。
  • カスタム ニューラル音声: すぐに利用できる事前構築済みのニューラル音声に加えて、認識可能でユーザーのブランドや製品に固有のカスタム ニューラル音声 を作成することもできます。 カスタム ニューラル音声は非公開であり、競争上の優位性を提供できます。 カスタム ニューラル音声のサンプルについては、こちらをご覧ください。

音声翻訳

音声翻訳を使用すると、音声のリアルタイムの多言語翻訳がアプリケーション、ツール、デバイスで可能になります。 音声間翻訳や音声テキスト翻訳にはこの機能を使用します。

言語識別

言語識別は、サポートされている言語の一覧と照合する際に、オーディオで話されている言語を識別するために使用されます。 言語識別は、単独で、または音声テキスト変換や音声翻訳と一緒に使用します。

話者認識

話者認識は、固有の音声特性によって話者を検証および識別するアルゴリズムを提供します。 話者認識は、"誰が話しているのか" という質問に回答するために使用されます。

発音評価

発音評価ではスピーチの発音を評価し、話された音声の正確性と流暢性に関するフィードバックを話者に提供します。 言語学習者は、発音評価を使用して練習を行い、即座にフィードバックを得て、発音を改善することができます。そのため、自信を持って話し、発表することができます。

意図認識

意図認識: 音声テキスト変換を Language Understanding (LUIS) で使用し、文字起こしされた音声からユーザーの意図を抽出して、音声コマンドで対応します。

配信とプレゼンス

Azure Cognitive Services Speech 機能は、クラウドまたはオンプレミスにデプロイできます。

コンテナーを使用すると、コンプライアンス、セキュリティ、またはその他の運用上の理由により、データにいっそう近いところにサービスを持ってくることができます。

ソブリン クラウドでの音声サービスのデプロイは、一部の政府機関とそのパートナーで利用できます。 たとえば、Azure Government クラウドは、米国政府のエンティティとそのパートナーが利用できます。 Azure China クラウドは、中国で事業を展開している組織で利用できます。 詳細については、ソブリン クラウドを参照してください。

音声サービスの設置場所とアクセス方法を示した図。

アプリケーションで Speech を使用する

Speech Studio は、アプリケーションで Azure Cognitive Services 音声サービスの機能を構築および統合するための UI ベースのツールのセットです。 コーディングなしのアプローチを使用して Speech Studio でプロジェクトを作成し、Speech SDKSpeech CLI、または REST API を使用して、アプリケーション内のアセットを参照します。

Speech CLI は、コードを記述せずに Speech サービスを使用するためのコマンドライン ツールです。 Speech SDK の主な機能は、Speech CLI で利用できます。また、Speech CLI では、一部の高度な機能とカスタマイズが簡略化されています。

Speech SDK には、Speech サービスの各種機能が多数公開されており、これを使用して音声認識対応アプリケーションを開発できます。 Speech SDK は、多くのプログラミング言語と、すべてのプラットフォームで使用できます。

Speech SDK は使用できない場合や使用するべきではない場合があります。 そのような場合は、REST API を使用して Speech サービスにアクセスできます。 たとえば、バッチ文字起こし話者認識のための REST API を使用します。

はじめに

多くの一般的なプログラミング言語でのクイックスタートを提供します。 それぞれのクイックスタートは、基本的な設計パターンを学び、10 分もかからずにコードを実行できるように作られています。 それぞれの機能のクイックスタートについては、次の記事を参照してください。

コード サンプル

Speech サービスのサンプル コードは、GitHub 上で入手できます。 これらのサンプルでは、ファイルやストリームからの音声の読み取り、連続的な認識と単発の認識、カスタム モデルの使用など、一般的なシナリオについて説明されています。 SDK と REST のサンプルを見るには、次のリンクを使用してください。

次のステップ