要約とは

[アーティクル]
09/03/2024

重要

プレビューリージョンであるスウェーデン中部では、GPT モデルに基づいた最新かつ常に進化し続けている LLM の微調整の手法を確認できます。スウェーデン中部リージョンの Langauge リソースを使用してそれらをぜひお試しください。

会話の概要作成は、以下を使用した場合にのみ利用可能です。

REST API
Python
C#

要約は、Azure AI Language によって提供される機能の 1 つです。これは、生成型の大規模言語モデルとタスク最適化エンコーダーモデルの組み合わせであり、より高品質でコスト効率が高く、待機時間が短い要約ソリューションを提供します。この記事を使って、この機能の詳細と、アプリケーションでの使用方法について学習します。

このサービスは、プレーンテキスト、会話、ネイティブドキュメントの 3 種類のジャンルの要約ソリューションを提供します。テキストの要約はプレーンテキストブロックのみを受け付け、会話の要約は会話入力 (モデルが効果的にセグメント化および要約するためのさまざまな音声オーディオ信号を含む) を受け付け、ネイティブドキュメントは Word、PDF などのネイティブ形式のドキュメントを直接要約できます。

このドキュメントには、次の種類の記事が含まれています。

クイックスタートは、サービスへの要求の実行方法を説明する概要手順です。
攻略ガイドには、より具体的またはカスタマイズした方法でサービスを使用するための手順が記載されています。

これらの機能は、ユーザーが読むには長すぎると考えられる可能性があるコンテンツを短縮するように設計されています。

テキスト要約の主な機能

テキストの要約は、自然言語処理手法を使用してプレーンテキスト (ソースとしてドキュメントや会話、または任意のテキストを使用可能) の要約を生成します。この API が提供する要約には、次の 2 つのアプローチがあります。

抽出要約: ドキュメント内の重要な文を抽出することにより、それらの文の位置情報とともに要約を生成します。
- 抽出された複数の文: これらの文は、ドキュメントの主要なアイデアをまとめて伝えます。これらは、入力ドキュメントのコンテンツから抽出された元の文です。
- ランクスコア: ランクスコアは、文がメイントピックと関連している度合いを示します。テキストの概要作成では、抽出された文がランク付けされ、表示順に返されるのか、順位に従って返されるのかを判断できます。たとえば、3 つの文の要約を要求した場合、抽出要約からはスコアが最も高い 3 つの文が返されます。
- 位置情報: 抽出された文の開始位置と長さ。
抽象要約: 簡潔で一貫性がある文や単語を使用して、元のドキュメントそのままの抽出文ではない要約を生成します。
- 要約テキスト: 抽象要約は、コンテキスト入力範囲ごとに要約を返します。長い入力はセグメント化される可能性があるため、コンテキスト入力範囲に対して要約テキストの複数のグループが返される可能性があります。
- コンテキスト入力範囲: 要約テキストの生成に使われた入力内の範囲。

例として、次のテキストの段落について考えてみます。

"At Microsoft, we are on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there's magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. 私たちは、XYZ コードは、さまざまなモダリティと言語にまたがるクロスドメイン転移学習という長期的なビジョンを実現できると信じています。 The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we achieve human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."

ドキュメント要約 API 要求は、要求を受信した時点で API バックエンド用のジョブを作成することで処理されます。ジョブが成功すると、API の出力が返されます。出力は 24 時間取得できます。この時間が過ぎると、出力は消去されます。多言語と絵文字のサポートにより、応答にはテキストオフセットが含まれる場合があります。詳細についてはオフセットの処理方法に関するページを参照してください。

上記の例を使用すると、API から次のような要約が返される可能性があります。

抽出要約:

"Microsoft では、学習と解釈に対してより包括的で人間中心のアプローチを行うことで、既存の手法を超えて AI を発展させることを目指しています。"
"私たちは、XYZ コードは、さまざまなモダリティと言語にまたがるクロスドメイン転移学習という長期的なビジョンを実現できると信じています。"
"目標は、さまざまなダウンストリーム AI タスクをサポートするために、現在人間が行っているのとほぼ同様の方法で、表現を共同で学習できる一連の事前トレーニング済みモデルを獲得することです。"

抽象要約:

"Microsoft is taking a more holistic, human-centric approach to learning and understanding. 私たちは、XYZ コードは、さまざまなモダリティと言語にまたがるクロスドメイン転移学習という長期的なビジョンを実現できると信じています。過去 5 年間で、会話音声認識のベンチマークで人的パフォーマンスを達成しました。"

このドキュメントには、次の種類の記事が含まれています。

クイックスタートは、サービスへの要求の実行方法を説明する概要手順です。
攻略ガイドには、より具体的またはカスタマイズした方法でサービスを使用するための手順が記載されています。

会話要約の主な機能

会話要約では、次の機能がサポートされています。

まとめ: 会話を簡単な段落にまとめます。
問題と解決策の要約: コールセンター固有の機能であり、顧客サービスエージェントと顧客との間の会話の問題と解決策の要約を提供します。
章のタイトルの概要: 会話で説明したトピックに基づいて会話を章に分割し、入力会話の推奨される章のタイトルを提供します。
物語要約: 入力会話の詳細な通話メモ、会議メモ、またはチャット概要を生成します。

例として、次の会話の例を考えます。

エージェント: "こんにちは、Rene と申します。どのようなご用件ですか?"

顧客: "こんにちは、Smart Brew 300 エスプレッソマシンの WiFi 接続を設定しようとしましたが、うまくいきませんでした。"

エージェント: "申し訳ありません。問題解決のためにできることをお調べします。WiFi 接続ボタンを押して、3 秒待ってから、電源ライトがゆっくりと点滅しているかどうかをお知らせください。"

顧客: "はい、Wifi 接続ボタンを押したら、電源ライトがゆっくりと点滅しています。"

エージェント: "わかりました。ありがとうございます。次に、Contoso Coffee アプリを確認してください。マシンに接続するように求めるメッセージが表示されますか?"

顧客: "いいえ。何も起こりませんでした。"

エージェント: "そうですか。よろしくお願いいたします。ファクトリリセットで問題を解決できるか試してみましょう。センターボタンを 5 秒間長押しして、ファクトリリセットを開始してください。"

顧客: "ファクトリリセットを試し、上記の手順をもう一度実行しましたが、やはりうまくいきませんでした。"

エージェント: "申し訳ありません。他に問題の解決方法があるかどうか確認いたします。少々お待ちください。"

会話要約機能を使用すると、テキストが次のように簡略化されます。

概要の例	注釈	会話の側面
顧客が Smart Brew 300 エスプレッソマシンの WiFi 接続を設定できません	顧客とエージェントの会話での顧客の問題	イシュー
エージェントは、WiFi 接続の確認、Contoso Coffee アプリの確認、出荷時の設定へのリセットの実行などの、いくつかのトラブルシューティング手順を提案しました。しかし、これらのどの手順でも問題が解決しませんでした。次にエージェントは、顧客との会話を保留して別の解決策を探します。	顧客とエージェントの会話で試行された解決策	resolution
顧客は、Smart Brew 300 エスプレッソマシンの WiFi 接続の設定に関するサポートをエージェントに依頼しました。エージェントは、WiFi 接続の確認、電源ライトの確認、出荷時の設定へのリセットなどの、いくつかのトラブルシューティング手順を顧客に案内しました。これらの手順に従ったにもかかわらず、問題が解決しません。次にエージェントは、他の潜在的な解決策を調査することにしました	会話を 1 つの段落に要約します	recap
SmartBrew 300 エスプレッソマシンのトラブルシューティング	会話をセグメント化し、セグメントごとにタイトルを生成します。通常、`narrative` 側面と連携します	chapterTitle
顧客は、Smart Brew 300 エスプレッソマシンの WiFi 接続について問題を抱えています。エージェントは、出荷時の設定へのリセットを含む複数の解決策を提案しますが、問題が解決しません。	会話をセグメント化し、セグメントごとに要約を生成します。通常、`chapterTitle` 側面と連携します	説明

このドキュメントには、次の種類の記事が含まれています。

クイックスタートは、サービスへの要求の実行方法を説明する概要手順です。
攻略ガイドには、より具体的またはカスタマイズした方法でサービスを使用するための手順が記載されています。

ドキュメント要約では、自然言語処理手法を使ってドキュメントの概要が生成されます。

ネイティブドキュメントとは、Microsoft Word (docx) やポータブルドキュメントファイル (pdf) などの元のドキュメントを作成するために使われるファイル形式のことです。ネイティブドキュメントのサポートにより、Azure AI Language リソースの機能を使う前に、テキストの前処理を行う必要がなくなります。現在、ネイティブドキュメントのサポートは、次の 2 種類の要約で利用できます。

抽出要約: ドキュメント内の重要な文を抽出することにより、それらの文の位置情報とともに要約を生成します。
- 抽出された複数の文: これらの文は、ドキュメントの主要なアイデアをまとめて伝えます。これらは、入力ドキュメントのコンテンツから抽出された元の文です。
- ランクスコア: ランクスコアは、文がメイントピックと関連している度合いを示します。テキストの概要作成では、抽出された文がランク付けされ、表示順に返されるのか、順位に従って返されるのかを判断できます。たとえば、3 つの文の要約を要求した場合、抽出要約からはスコアが最も高い 3 つの文が返されます。
- 位置情報: 抽出された文の開始位置と長さ。
抽象要約: 簡潔で一貫性がある文や単語を使用して、元のドキュメントそのままの抽出文ではない要約を生成します。
- 要約テキスト: 抽象要約は、コンテキスト入力範囲ごとに要約を返します。長い入力はセグメント化される可能性があるため、コンテキスト入力範囲に対して要約テキストの複数のグループが返される可能性があります。
- コンテキスト入力範囲: 要約テキストの生成に使われた入力内の範囲。

現在、ドキュメント要約では、次のネイティブドキュメント形式がサポートされています。

ファイルの種類	[ファイル拡張子]	説明
テキスト	`.txt`	書式設定のないテキストドキュメント。
Adobe PDF	`.pdf`	移植可能なドキュメントファイル形式のドキュメント。
Microsoft Word	`.docx`	Microsoft Word 文書ファイル。

詳細については、「言語処理にネイティブドキュメントを使用する」を参照してください

概要作成の使用を開始する

概要作成を使用するには、分析のために送信し、お使いのアプリケーションで API 出力を処理します。分析はそのままの状態で行われ、データに使用されるモデルに対して追加のカスタマイズは行われません。概要作成を使用するには、次の 2 つの方法があります。

開発オプション	説明
Language Studio	Language Studio は Web ベースのプラットフォームであり、Azure アカウントがなければテキストの例で、サインアップしたら独自のデータで、エンティティリンクを試すことができます。詳しくは、Language Studio の Web サイトまたは Language Studio のクイックスタートに関する記事をご覧ください。
REST API またはクライアントライブラリ (Azure SDK)	さまざまな言語で使用できる REST API ライブラリ、またはクライアントライブラリを使用して、テキスト要約をアプリケーションに統合します。詳しくは、概要作成のクイックスタートに関する記事をご覧ください。

開発オプション	説明	リンク
REST API	REST API を使用して、会話の概要作成をアプリケーションに統合します。	クイックスタート: 会話の概要作成を使用する

開発オプション	説明
Language Studio	Language Studio は Web ベースのプラットフォームであり、Azure アカウントがなければテキストの例で、サインアップしたら独自のデータで、エンティティリンクを試すことができます。詳しくは、Language Studio の Web サイトまたは Language Studio のクイックスタートに関する記事をご覧ください。
REST API またはクライアントライブラリ (Azure SDK)	さまざまな言語で使用できる REST API ライブラリ、またはクライアントライブラリを使用して、テキスト要約をアプリケーションに統合します。詳しくは、概要作成のクイックスタートに関する記事をご覧ください。

入力要件とサービスの制限

概要作成では、分析のためにテキストが使用されます。詳細については、攻略ガイドのデータとサービスの制限に関する記事を参照してください。
概要作成は、さまざまな書記言語で動作します。詳細については、「言語サポート」を参照してください。

リファレンスドキュメントとコードサンプル

アプリケーションでテキスト要約を使用する場合は、Azure AI Language の次のリファレンスドキュメントとサンプルを参照してください。

開発オプション/言語	リファレンスドキュメント	サンプル
C#	C# 関連のドキュメント	C# のサンプル
Java	Java のドキュメント	Java のサンプル
JavaScript	JavaScript のドキュメント	JavaScript のサンプル
Python	Python のドキュメント	Python のサンプル

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、デプロイ環境も含まれます。システムでの責任ある AI の使用とデプロイについては、概要作成の透過性のためのメモに関するページをご覧ください。詳細については、次の記事をご覧ください。

次の方法で共有

要約とは

テキスト要約の主な機能

会話要約の主な機能

概要作成の使用を開始する

入力要件とサービスの制限

リファレンスドキュメントとコードサンプル

責任ある AI

フィードバック

その他のリソース

次の方法で共有

要約とは

テキスト要約の主な機能

概要作成の使用を開始する

入力要件とサービスの制限

リファレンス ドキュメントとコード サンプル

責任ある AI

フィードバック

その他のリソース

リファレンスドキュメントとコードサンプル