音声テキスト変換の文字起こしパイプラインを構築して、録音された会話を分析する

Azure AI 音声
Azure AI Language
Azure AI サービス
Azure Synapse Analytics
Azure Logic Apps

顧客との通話録音データに対する音声認識と分析機能を使えば、現在の傾向や製品の欠陥、さらには成功に関するビジネスに有益な情報を得ることができます。

この記事では、会話データを文字起こしして分析するための反復可能なパイプラインについて、ソリューションの例を通じて概説します。

アーキテクチャ

このアーキテクチャは、音声をテキストに変換するための文字起こしパイプラインと、エンリッチメントと視覚化パイプラインの 2 つのパイプラインで構成されています。

文字起こしパイプライン

Azure AI サービスを使用して音声を取り込み、テキストに変換する方法を示した図。

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

  1. 音声ファイルは、サポートされている任意の方法で Azure Storage アカウントにアップロードされます。 Azure Storage Explorer のような UI ベースのツールを使用することも、ストレージ SDK やストレージ API を使用することもできます。
  2. Azure Storage へのアップロードによって、Azure ロジック アプリがトリガーされます。 ロジック アプリは、Azure Key Vault 内の必要な資格情報にアクセスし、Speech サービスのバッチ文字起こし API に対して要求を行います。
  3. ロジック アプリが、音声ファイルの呼び出しを音声サービスに送信します。これには、話者のダイアライゼーションに関するオプション設定が含まれます。
  4. Speech サービスがバッチ文字起こしを完了し、文字起こしの結果をストレージ アカウントに読み込みます。

エンリッチメントと視覚化のパイプライン

エンリッチメントと視覚化のパイプラインを示した図。

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

  1. Azure Synapse Analytics パイプラインが実行され、文字起こしされた音声テキストが取得されて処理されます。
  2. 処理済みのテキストが、API 呼び出しを介してパイプラインから Language サービスに送信されます。 このサービスでは、センチメントとオピニオンのマイニング、要約、カスタムおよび事前構築済みの固有表現認識など、さまざまな自然言語処理 (NLP) エンリッチメントが実行されます。
  3. 処理されたデータが Azure Synapse Analytics SQL プールに格納され、Power BI などの視覚化ツールに提供できるようになります。

コンポーネント

  • Azure Blob Storage 。 クラウドネイティブのワークロード、アーカイブ、データ レイク、ハイパフォーマンス コンピューティング、機械学習に対応した、高度にスケーラブルで安全なオブジェクト ストレージです。 このソリューションは、音声ファイルと文字起こしの結果を格納する、ダウンストリーム分析用のデータ レイクとして利用できます。
  • Azure Logic Apps。 コンテナー化されたランタイム上に構築された、サービスとしての統合プラットフォーム (iPaaS)。 このソリューションでは、ストレージと音声 AI サービスが統合されます。
  • AI 音声サービス。 音声テキスト変換、テキスト読み上げ、音声翻訳、話者認識などの音声機能を提供する AI ベースの API。 このソリューションでは、バッチ文字起こし機能が使用されます。
  • AI 言語。 感情分析、エンティティ抽出、自動質問応答などの自然言語機能を提供する、AI ベースの管理サービス。
  • Azure Synapse Analytics. データ統合、エンタープライズ データ ウェアハウス、ビッグ データ分析を提供する一連のサービス。 このソリューションでは、文字起こしデータを変換して強化し、ダウンストリームの視覚化ツールにデータを提供できます。
  • Power BI。 データ モデリングおよびビジュアル分析ツール。 このソリューションでは、文字起こしされた音声分析情報がユーザーと意思決定者に提示されます。

代替

このソリューション アーキテクチャの代替アプローチを次に示します。

  • Blob Storage アカウントで、階層型名前空間を使用するように構成することを検討してください。 このように構成すると、アクセス コントロール リスト (ACL) ベースのセキュリティ制御を提供し、一部のビッグ データ ワークロードでパフォーマンスを向上させることができます。
  • ワークロードのサイズとスケールによっては、Logic Apps や Azure Synapse のパイプラインの代わりに、Azure Functions をコードファーストの統合ツールとして使用できる場合があります。

シナリオの詳細

カスタマー ケア センターは、さまざまな業種の多くの企業にとって成功に不可欠な要素です。 このソリューションでは、録音された顧客通話の音声文字起こしとダイアライゼーションに、Azure AI サービス の Speech API が使用されます。 Azure Synapse Analytics は、AI Language への API 呼び出しを通じて、感情分析やカスタム固有表現認識などの NLP タスクを処理および実行するために使用されます。

ここで説明されているサービスとパイプラインを使用すると、文字起こしされたテキストを処理して機密情報を認識および削除したり、センチメント分析を実行したりすることができます。 サービスとパイプラインは、記録されたデータの量に応じてスケーリングできます。

考えられるユース ケース

このソリューションでは、通信、金融サービス、政府など、多くの業界の組織に価値を提供できます。 これは、会話を記録するすべての組織に適用できます。 特に、顧客向けまたは内部のコール センターやサポート デスクでは、このソリューションから抽出された分析情報によってメリットを得ることができます。

考慮事項

これらの考慮事項は、ワークロードの品質向上に使用できる一連の基本原則である Azure Well-Architected Framework の要素を組み込んでいます。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。 詳細については、「セキュリティの重要な要素の概要」を参照してください。

  • Speech API への要求には、Azure Storage 内の宛先コンテナーの Shared Access Signature (SAS) URI を含めることができます。 SAS URI を使用すると、Speech サービスで文字起こしファイルをコンテナーの場所に直接出力できます。 ストレージに SAS URI を使用することが組織で許可されていない場合は、完了したアセットを対象に、Speech API を定期的にポーリングする関数を実装する必要があります。
  • アカウント キーや API キーなどの資格情報は、シークレットとして Azure Key Vault に格納する必要があります。 マネージド ID を使用してキー コンテナーにアクセスするように Logic Apps と Azure Synapse のパイプラインを構成し、アプリケーションの設定やコードにシークレットが格納されないようにしてください。
  • BLOB に格納されている音声ファイルには、顧客の機密データが含まれている場合があります。 複数のクライアントがこのソリューションを使用している場合は、これらのファイルへのアクセスを制限することが重要です。 ストレージ アカウントで階層型名前空間を使用し、フォルダー レベルとファイル レベルのアクセス許可を適用して、必要な Microsoft Entra インスタンスのみにアクセスを制限してください。

コストの最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

このアーキテクチャで説明されているすべての Azure サービスでは、従量課金制のオプションが提供されているため、ソリューションのコストを直線的にスケーリングできます。

Azure Synapse では、サーバーレス SQL プールのオプションが提供されているため、データ ウェアハウス ワークロードのコンピューティングをオンデマンドでスピンアップできます。 Azure Synapse を他のダウンストリームのユース ケースに対応する目的で使用してしていない場合は、サーバーレスを使用してコストを削減することを検討してください。

その他のコスト最適化戦略については、コスト最適化の柱の概要に関するページを参照してください。

ここで提案されているサービスの価格については、Azure 料金計算ツールでの見積もりを参照してください。

パフォーマンス効率

パフォーマンス効率とは、ユーザーによって行われた要求に合わせて効率的な方法でワークロードをスケーリングできることです。 詳細については、「パフォーマンス効率の柱の概要」を参照してください。

バッチ音声 API は大量の処理に対応するように設計されていますが、他の Azure AI サービスではサブスクリプション レベルごとに要求制限が設定されている場合があります。 大量の処理の調整を行わずに済むように、これらの API をコンテナー化することを検討してください。 クラウドでもオンプレミスでも、コンテナーを使用すると、柔軟なデプロイを行うことができます。 また、新しいバージョンのロールアウトに伴う副作用も、コンテナーを使って軽減することができます。 詳細については、「Azure AI サービスでのコンテナーのサポート」を参照してください。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

その他の共同作成者:

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ