次の方法で共有


キー フレーズ抽出の透過性に関するメモ

Von Bedeutung

英語以外の翻訳は便宜上のみ提供されています。 バインドのバージョンについては、このドキュメントの EN-US バージョンを参照してください。

透明度に関するメモとは

Von Bedeutung

この記事では、Azure AI 言語のガイドラインとベスト プラクティスについて理解していることを前提としています。 詳細については、「 Azure AI 言語の透明性に関するメモ」を参照してください。

AI システムには、テクノロジだけでなく、それを使う人、それによって影響を受ける人、それが展開される環境も含まれています。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。 Microsoft の透明性に関するメモは、当社の AI テクノロジのしくみ、システム所有者がシステムのパフォーマンスと動作に影響を与える選択肢、テクノロジ、ユーザー、環境を含むシステム全体について考えることの重要性を理解するのに役立つものです。 独自のシステムを開発または展開するときに透過性のためのメモを使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。

Microsoft の透明性に関するメモは、AI の原則を実践するための Microsoft の広範な取り組みの一環です。 詳細については、Microsoft の責任ある AI 原則を参照してください。

キー フレーズ抽出の概要

Azure AI 言語 キー フレーズ抽出 機能を使用すると、テキスト内の主要な概念をすばやく識別できます。 たとえば、「食べ物は美味しく、素晴らしいスタッフがいました」というテキストでは、キーフレーズ抽出は主な話し合いポイントである「食べ物」と「素晴らしいスタッフ」を返します。 必須でない単語は除外され、文の主語または目的語と思われる単一の用語や語句が返されます。

他の Azure AI 言語機能とは異なり、この機能に対する信頼度スコアは返されません。

利用事例の例

キー フレーズ抽出は、さまざまな業界の複数のシナリオで使用されます。 いくつかの例を次に示します。

  • 検索の強化。 キー フレーズを使用して、検索結果を強化できる検索インデックスを作成できます。 たとえば、顧客は何千ものドキュメントを提供し、その上に組み込みの Azure Search スキルを使用してキー フレーズ抽出を実行できます。 この結果は、入力データセットのキー フレーズであり、インデックスの作成に使用できます。 このインデックスは、使用可能な新しいドキュメント セットがある場合は常にスキルをもう一度実行することで更新できます。
  • テキスト データの集計傾向を表示します。 たとえば、テキスト コメントやフィードバックの主要な概念を視覚化するのに役立つキー フレーズを使用してワード クラウドを生成できます。 たとえば、ホテルでは、コメントで識別されたキー フレーズに基づいて単語クラウドを生成し、ユーザーが場所、清潔さ、便利なスタッフについて最も頻繁にコメントしていることがわかります。

ユース ケースを選択するときの考慮事項

使用しない

  • リスクの高いシナリオでは、人間の介入なしに自動アクションに使用しないでください。 他の人の経済状況、健康、または安全に影響を受けた場合は、常にソース データを確認する必要があります。

法的および規制上の考慮事項: 組織は、AI サービスとソリューションを使用する際に、潜在的な特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用に適していない可能性があります。 さらに、AI サービスまたはソリューションは、該当するサービス利用規約と関連する行動規範で禁止されている方法のために設計されておらず、そのような方法で使うこともできません。

特性と制限

シナリオと入力データに応じて、さまざまなレベルのパフォーマンスが発生する可能性があります。 次の情報は、Azure AI 言語キー フレーズ抽出機能の使用に適用されるパフォーマンスに関する主要な概念を理解するのに役立ちます。

パフォーマンスを向上するためのシステムの制限事項とベスト プラクティス

他の Azure AI 言語機能のモデルとは異なり、キー フレーズ抽出モデルは教師なしモデルであり、人間のラベル付けされた地上真実データでトレーニングされていません。 サービスに送信されるテキスト内のすべての名詞句が検出され、頻度と同時発生に基づいてランク付けされます。 したがって、モデルによって返されるものは、人間が最も重要なフレーズとして選択するものとは一致しない可能性があります。 場合によっては、モデルが部分的に正しいように見えることがあります。つまり、名詞は、それを変更する形容詞なしで返されます。

  • 長いテキストの方がパフォーマンスが向上します。 ソース テキストを文や段落などの部分に分割しないでください。 完全な顧客レビューや論文の要約など、テキスト全体を送信します。
  • テキストに、分析しようとしている実際のコンテンツに対して局所的な関連性がない定型文またはその他のテキストが含まれている場合、このテキスト内の単語が結果に影響します。 たとえば、メールのテキストに "Subject:"、"Body:"、"Sender:"などが含まれている場合があります。 サービスに送信する前に、分析しようとしている実際のコンテンツの一部ではない既知のテキストを削除することをお勧めします。

こちらも参照ください