ドキュメント要約と会話要約とは

重要

プレビュー リージョンであるスウェーデン中部では、GPT モデルに基づいた最新かつ常に進化し続けている LLM の微調整の手法を確認できます。 スウェーデン中部リージョンの Langauge リソースを使用してそれらをぜひお試しください。

会話の概要作成は、以下を使用した場合にのみ利用可能です。

  • REST API
  • Python
  • C#

要約は、Azure AI Language に用意されている機能の 1 つであり、書き表された言語が関係するインテリジェントなアプリケーションを開発するためのクラウド内の機械学習と AI アルゴリズムのコレクションです。 この記事を使って、この機能の詳細と、アプリケーションでの使用方法について学習します。

サービスはドキュメントと会話の要約と呼ばれていますが、ドキュメント要約ではプレーンテキスト ブロックのみを受け入れ、モデルでさらに学習するために会話要約ではさまざまなスピーチ成果物を受け入れます。 会話を処理するがテキストのみを扱うシナリオでは、ドキュメント要約を使用できます。

このドキュメントには、次の種類の記事が含まれています。

  • クイックスタートは、サービスへの要求の実行方法を説明する概要手順です。
  • 攻略ガイドには、より具体的またはカスタマイズした方法でサービスを使用するための手順が記載されています。

ドキュメント要約では、自然言語処理手法を使ってドキュメントの概要が生成されます。 自動要約については、抽出、抽象化、クエリ重視という 3 種類の API アプローチがサポートされています。

抽出要約は、元のコンテンツ内で最も重要な情報または関連性が高い情報をまとめて表す文を抽出します。 抽象要約では、簡潔でコヒーレントな文や、元のドキュメントからのそっくりそのままの抽出文ではない単語を含む要約が生成されます。 これらの機能は、ユーザーが読むには長すぎると考えられる可能性があるコンテンツを短縮するように設計されています。

ネイティブ ドキュメントのサポート

ネイティブ ドキュメントとは、Microsoft Word (docx) やポータブル ドキュメント ファイル (pdf) などの元のドキュメントを作成するために使われるファイル形式のことです。 ネイティブ ドキュメントのサポートにより、Azure AI Language リソースの機能を使う前に、テキストの前処理を行う必要がなくなります。 現在、ネイティブ ドキュメントのサポートは、AbstractiveSummarizationExtractiveSummarization の両方の機能で使用できます。

現在、ドキュメント要約では、次のネイティブ ドキュメント形式がサポートされています。

ファイルの種類 [ファイル拡張子] 説明
テキスト .txt 書式設定のないテキスト ドキュメント。
Adobe PDF .pdf 移植可能なドキュメント ファイル形式のドキュメント。
Microsoft Word .docx Microsoft Word 文書ファイル。

詳細については、「言語処理にネイティブ ドキュメントを使用する」を参照してください

主要な機能

この API で提供されるドキュメント要約には、以下のアスペクトがあります。

  • 抽出要約: ドキュメント内の重要な文を抽出することにより、概要を生成します。

    • 抽出された複数の文: これらの文は、ドキュメントの主要なアイデアをまとめて伝えます。 これらは、入力ドキュメントのコンテンツから抽出された元の文です。
    • ランク スコア: ランク スコアは、文がドキュメントのメイン トピックにどの程度の関連性を持つのかを示します。 ドキュメントの概要作成では、抽出された文がランク付けされ、表示順に返されるのか、順位に従って返されるのかを判断できます。
    • 返される複数の文: 返される文の最大数を決定します。 たとえば、3 つの文の要約を要求した場合、抽出要約からはスコアが最も高い 3 つの文が返されます。
    • 位置情報: 抽出された文の開始位置と長さ。
  • 抽象要約: ドキュメントと同じ単語が使われなくても主要なアイデアをキャプチャする要約を生成します。

    • 概要テキスト: 抽象要約は、ドキュメント内のコンテキスト入力範囲ごとに概要を返します。 長いドキュメントはセグメント化されることがあるため、概要テキストの複数のグループがコンテキスト入力範囲で返される可能性があります。
    • コンテキスト入力範囲: 概要テキストの生成に使われた入力ドキュメント内の範囲。
  • クエリ重視要約: クエリに基づいて要約を生成します

例として、次のテキストの段落について考えてみます。

"At Microsoft, we are on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there's magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. 私たちは、XYZ コードは、さまざまなモダリティと言語にまたがるクロスドメイン転移学習という長期的なビジョンを実現できると信じています。 The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we achieve human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."

ドキュメント要約 API 要求は、要求を受信した時点で API バックエンド用のジョブを作成することにより処理されます。 ジョブが成功すると、API の出力が返されます。 出力は 24 時間取得できます。 この時間が過ぎると、出力は消去されます。 多言語と絵文字のサポートにより、応答にはテキスト オフセットが含まれる場合があります。 詳細についてはオフセットの処理方法に関するページを参照してください。

上記の例を使用する場合、API から次のような要約された文が返される可能性があります。

抽出要約:

  • "Microsoft では、学習と解釈に対してより包括的で人間中心のアプローチを行うことで、既存の手法を超えて AI を発展させることを目指しています。"
  • "私たちは、XYZ コードは、さまざまなモダリティと言語にまたがるクロスドメイン転移学習という長期的なビジョンを実現できると信じています。"
  • "目標は、さまざまなダウンストリーム AI タスクをサポートするために、現在人間が行っているのとほぼ同様の方法で、表現を共同で学習できる一連の事前トレーニング済みモデルを獲得することです。"

抽象要約:

  • "Microsoft is taking a more holistic, human-centric approach to learning and understanding. 私たちは、XYZ コードは、さまざまなモダリティと言語にまたがるクロスドメイン転移学習という長期的なビジョンを実現できると信じています。 過去 5 年間で、会話音声認識のベンチマークで人的パフォーマンスを達成しました。"

概要作成の使用を開始する

概要作成を使用するには、分析のために送信し、お使いのアプリケーションで API 出力を処理します。 分析はそのままの状態で行われ、データに使用されるモデルに対して追加のカスタマイズは行われません。 概要作成を使用するには、次の 2 つの方法があります。

開発オプション 説明
Language Studio Language Studio は Web ベースのプラットフォームであり、Azure アカウントがなければテキストの例で、サインアップしたら独自のデータで、エンティティ リンクを試すことができます。 詳しくは、Language Studio の Web サイトまたは Language Studio のクイックスタートに関する記事をご覧ください。
REST API またはクライアント ライブラリ (Azure SDK) さまざまな言語で使用できる REST API ライブラリ、またはクライアント ライブラリを使用して、ドキュメント要約をお使いのアプリケーションに統合します。 詳しくは、概要作成のクイックスタートに関する記事をご覧ください。

入力要件とサービスの制限

  • 概要作成では、分析のためにテキストが使用されます。 詳細については、攻略ガイドのデータとサービスの制限に関する記事を参照してください。
  • 概要作成は、さまざまな書記言語で動作します。 詳細については、「言語サポート」を参照してください。

リファレンス ドキュメントとコード サンプル

アプリケーションでドキュメント要約を使用する場合は、次の Azure AI Language のリファレンス ドキュメントとサンプルをご覧ください。

開発オプション/言語 リファレンス ドキュメント サンプル
C# C# 関連のドキュメント C# のサンプル
Java Java のドキュメント Java のサンプル
JavaScript JavaScript のドキュメント JavaScript のサンプル
Python Python のドキュメント Python のサンプル

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、デプロイ環境も含まれます。 システムでの責任ある AI の使用とデプロイについては、概要作成の透過性のためのメモに関するページをご覧ください。 詳細については、次の記事をご覧ください。