Azure AI サービスを使用したインジェスト クライアント

インジェスト クライアントは、コードを使用しない方法でコール センターの文字起こしソリューションを Azure に迅速にデプロイするのに役立つ、Microsoft によって GitHub でリリースされたツールです。

ヒント

ツールおよび結果として得られるソリューションを運用環境で使用して、大量のオーディオを処理することができます。

インジェスト クライアントでは、Azure AI LanguageAzure AI 音声Azure StorageAzure Functions が使用されます。

インジェスト クライアントでの作業を開始する

インジェスト クライアントを実行するには、Azure アカウントとマルチサービスの Azure AI サービス リソースが必要です。

このツールを設定して使用する方法については、GitHub 上のインジェスト クライアントの入門ガイドを参照してください。

インジェスト クライアントの機能

インジェスト クライアントは、サーバーレス方式で専用の Azure Storage アカウントをカスタム Azure Functions に接続し、サービスに文字起こし要求を渡すことによって機能します。 文字起こしされたオーディオ ファイルは、専用の Azure Storage コンテナーに配置されます。

重要

価格は、選択した Azure Function SKU と操作モード (バッチまたはリアルタイム) によって異なります。 このツールでは、大量のボリュームを処理するための Premium Azure Function SKU が既定で作成されます。 詳細については、価格に関するページを参照してください。

内部的には、このツールでは、音声および言語サービスを使用し、スケールアップ、再試行、フェールオーバーを処理するためのベスト プラクティスに従っています。 次の図は、リソースと接続について説明しています。

Diagram that shows the Ingestion Client Architecture.

インジェスト クライアントでは、次の音声サービス機能が使用されます。

  • バッチ音声テキスト変換: 話者のダイアライゼーションを含む大量の音声ファイルを非同期で文字起こしします。通常は通話後の分析シナリオで使用されます。 ダイアライゼーションとは、話者を認識し、モノラル チャンネルのオーディオ データに分離するプロセスです。

インジェスト クライアントで使用される言語サービス機能の一部を次に示します。

Azure AI サービスに加えて、次の Azure 製品を使用してソリューションを完了します。

  • Azure ストレージ: テレフォニー データと、バッチ文字起こし API から返されるトランスクリプトを格納するために使用されます。 このストレージ アカウントでは通知を利用する必要があります。特に、新しいファイルが追加されたときに通知する必要があります。 通知は文字起こしプロセスのトリガーに利用されます。
  • Azure Functions: 録音ごとに Shared Access Signature (SAS) の URI を作成し、HTTP POST 要求をトリガーして文字起こしを開始するために使用されます。 また、Azure Functions は、バッチ文字起こし API で文字起こしを回収し、削除するための要求の作成に使用します。

ツールのカスタマイズ

このツールは、顧客に結果をすばやく表示するように構築されています。 好みの SKU と設定に合わせて、ツールをカスタマイズできます。 SKU は Azure portal から編集でき、コード自体は GitHub で入手できます

注意

コストをより簡単に把握して追跡するために、同じ専用リソース グループにリソースを作成することをお勧めします。

次のステップ