Von Bedeutung
英語以外の翻訳は便宜上のみ提供されています。 バインドのバージョンについては、このドキュメントの EN-US
バージョンを参照してください。
透明度に関するメモとは
Von Bedeutung
この記事では、Azure AI 言語のガイドラインとベスト プラクティスについて理解していることを前提としています。 詳細については、「 Azure AI 言語の透明性に関するメモ」を参照してください。
AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それが展開される環境も含まれています。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。 Microsoft の透明性に関するメモは、AI テクノロジの機能のしくみ、システムのパフォーマンスと動作に影響を与えるシステム所有者の選択肢、およびテクノロジ、人、環境などのシステム全体について検討することの重要性を理解するためのものです。 独自のシステムを開発または展開するときに透明性に関するメモを使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。
Microsoft の透明性に関するメモは、AI の原則を実践するための Microsoft の広範な取り組みの一環です。 詳細については、Microsoft AI の原則に関するページを参照してください。
感情分析の基本
イントロダクション
Azure AI Language の感情分析機能は、テキストを評価し、各文のセンチメント スコアとラベルを返します。 これは、ソーシャル メディア、顧客レビュー、ディスカッション フォーラム、その他の製品やサービスのシナリオで肯定的、中立的、否定的な感情を検出するのに役立ちます。
能力
システムの動作
センチメント分析では、文とドキュメント レベルでサービスによって検出された最も高い信頼度スコアに基づいて、センチメント ラベル ("負"、"ニュートラル"、"肯定的"など) が提供されます。 この機能は、ドキュメントと文ごとに0から1の信頼度スコアを返し、肯定的、中立的、および否定的なセンチメントに対する評価を提供します。 スコアが 1 に近いほど、ラベルの分類の信頼度が高いことを示し、スコアが低いほど信頼度が低いことを示します。 既定では、センチメント ラベル全体が 3 つの信頼度スコアの中で最も大きいものになりますが、シナリオに最適な内容に応じて、個々のセンチメント信頼度スコアのしきい値を定義できます。 各ドキュメントまたは各文について、ラベルに関連付けられた予測スコア (正、負、中立) は最大 1 を加算します。 センチメント ラベルとスコアについて詳しくは、こちらをご覧ください。
さらに、オプションのオピニオン マイニング機能は、側面 (製品やサービスの属性など) とそれに関連する意見の単語を返します。 各側面について、肯定的および否定的なセンチメントの信頼度スコアと共に、全体的なセンチメント ラベルが返されます。 たとえば、"The restaurant had great food and our waiter was friendly" という文には、"food" と "waiter" という 2 つの側面があり、それに対応する意見の単語は "素晴らしい" と "フレンドリー" です。したがって、2 つの側面はセンチメント分類 positive
を受け取り、信頼度スコアは 0 から 1.0 です。 オピニオン マイニングの詳細を参照してください。
活用事例
感情分析は、さまざまな業界の複数のシナリオで使用できます。 いくつかの例を次に示します。
- 肯定的および否定的なフィードバックの傾向を集計で監視します。 新しい製品を導入した後、小売業者はセンチメント サービスを使用して、製品とその関連するセンチメントに関するメンションについて複数のソーシャル メディア アウトレットを監視できます。 トレンドセンチメントは、製品会議で新しい製品に関するビジネス上の決定を行うために使用できます。
- アンケートの生テキスト結果に対して感情分析を実行して、分析の分析情報を得て、参加者 (顧客、従業員、消費者など) とのフォローアップを行います。 24 時間以内に顧客の否定的なレビューをフォローアップし、1 週間以内に肯定的なレビューをフォローアップするポリシーを持つストアでは、センチメント サービスを使用してレビューを分類し、簡単かつタイムリーにフォローアップできます。
- カスタマー サービス スタッフが、相互作用のリアルタイム分析から得られた分析情報を通じて顧客エンゲージメントを向上させます。 文字起こしされた顧客サービスの呼び出しから分析情報を抽出して、顧客エージェントの相互作用と傾向をより深く理解し、顧客エンゲージメントを向上させます。
ユース ケース選択時の考慮事項
- 影響の大きいシナリオでは、人間の介入なしに自動アクションを回避します。 たとえば、従業員のボーナスは、顧客サービスの対話テキストからのセンチメント スコアに基づいて自動的に行われるべきではありません。 人の経済的状況、健康、または安全に影響を受けた場合は、ソース データを常に確認する必要があります。
- 製品およびサービス レビュー ドメイン以外のシナリオを慎重に検討してください。 モデルは製品とサービスのレビューでトレーニングされるため、システムは他のドメインのセンチメントに重点を置いた言語を正確に認識できない場合があります。 必要なパフォーマンスが得られるように、運用テスト データセットでシステムを必ずテストしてください。 運用テスト データセットには、製品のデプロイ時にシステムに表示される実際のデータと、製品のデプロイ時に持つすべての特性とバリエーションが反映されている必要があります。 エンドツーエンドのシナリオを反映していない合成データとテストでは十分ではない可能性があります。
- コンテンツをフィルター処理または削除するための自動アクションを実行するシナリオを慎重に検討してください。 コンテンツがコミュニティ標準を確実に満たすことを目標にしている場合は、(完全にフィルター処理するのではなく) ヒューマン レビュー サイクルや再ランク付けコンテンツを追加できます。
- 法的および規制上の考慮事項: 組織は、AI サービスとソリューションを使用する際に、潜在的な特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用に適していない可能性があります。 さらに、AI サービスまたはソリューションは、該当するサービス使用条件および関連する行動規範で禁止されている方法で設計されておらず、そのような方法で使用することはできません。
制限事項
シナリオと入力データに応じて、さまざまなレベルのパフォーマンスが発生する可能性があります。 次の情報は、感情分析に適用されるパフォーマンスに関するシステムの制限事項と主要な概念を理解するのに役立ちます。
考慮すべき主な制限事項:
センチメントの予測に使用される機械学習モデルは、製品とサービスのレビューでトレーニングされました。 つまり、サービスは同様のシナリオで最も正確に実行され、製品とサービスのレビューの範囲外のシナリオでは精度が低くなります。 たとえば、人事レビューでは異なる言語を使用してセンチメントを記述する場合があるため、予想される結果やパフォーマンスが得られない可能性があります。 "Shafali was a strong leader" という語句における "strong" のような単語は、製品やサービスのレビューにおいて "strong" という単語が明確な肯定的な感情を持つとは限らないため、肯定的な感情が得られない可能性があります。
モデルは製品とサービスのレビューでトレーニングされるため、データセットで表現されていない方言や言語の精度が低くなる可能性があります。
このモデルは、一緒に送信されるさまざまな文の相対的な重要性を理解しません。 全体的なセンチメントは文の単純な集計スコアであるため、全体的なセンチメント スコアは、一部の文が全体的なセンチメントを決定する際により重要であるという事実を考慮する人間の解釈に一致しない可能性があります。
モデルは皮肉を認識しない可能性があります。 音声のトーン、表情、テキストの作成者、テキストの対象ユーザー、または前の会話などのコンテキストは、多くの場合、センチメントを理解するために重要です。 皮肉を含む場合、テキストが肯定的か否定的かを判断するには、追加の文脈が必要になることが多いです。 サービスでテキスト入力のみが表示されることを考えると、皮肉なセンチメントの分類の精度が低い場合があります。 たとえば、「最高だったね」という言葉は、文脈、声のトーン、表情、話し手や聞き手に応じて、肯定的にも否定的にも捉えることができます。
信頼度スコアの大きさには、センチメントの強度は反映されません。 これは、特定のセンチメント (肯定的、中立的、否定的) に対するモデルの信頼度に基づいています。 したがって、システムがセンチメントの強度に依存している場合は、個々の意見スコアまたは元のテキストに対して人間のレビュー担当者または後処理ロジックを使用して、センチメントの強度をランク付けすることを検討してください。
モデルによって示される偏りを減らす努力をしてきましたが、言語モデルに伴う制限事項 (不正確で信頼性が低く、偏った出力が生成される可能性を含む) は、Azure AI 言語感情分析モデルに適用されます。 現時点では、このモデルにはいくつかの誤った否定と肯定的な情報が含まれていると予想されますが、このサービスを改善するために進行中の作業を支援するために、ユーザーフィードバックを収集したいと思っています。
システム パフォーマンスを向上させるためのベスト プラクティス
センチメントはやや主観的であるため、モデルのパフォーマンスを汎用的に適用できる見積もりを提供することはできません。 最終的に、パフォーマンスは、サブジェクト ドメイン、処理されるテキストの特性、システムのユース ケース、システムの出力の解釈方法など、さまざまな要因によって異なります。
肯定的、否定的、中立的なセンチメントの信頼度スコアは、シナリオによって異なる場合があります。 完全なドキュメントまたは文に対して全体的な文レベルのセンチメントを使用する代わりに、シナリオに最適な個々のセンチメント信頼度スコアのしきい値を定義できます。 たとえば、否定的なセンチメントのすべての潜在的なインスタンスを特定することが重要な場合は、全体的なセンチメント ラベルを見るのではなく、負のセンチメントに対してより低いしきい値を使用できます。 つまり、偽陽性 (中立または肯定的なテキストが否定的な感情として認識される) が増えるものの、偽陰性 (否定的なテキストが否定的な感情として認識されない) が少なくなります。 たとえば、製品の改善のためのアイデアに対して否定的な感情が生じる可能性があるすべての製品フィードバックを読む必要がある場合があります。 その場合は、負のセンチメント スコアのみを使用し、より低いしきい値を設定できます。 否定的ではないレビューをいくつか読むことになる可能性がありますが、その結果、改善の機会をより多く特定できるかもしれないため、余分な作業につながるかもしれません。 システムが真の負のテキストのみを認識することがより重要な場合は、より高いしきい値を使用するか、全体的なセンチメント ラベルを使用できます。 たとえば、否定的な製品レビューに返信できます。 否定的なレビューを読んで応答する作業を最小限に抑える場合は、全体的なセンチメント予測のみを使用し、個々のセンチメント スコアを無視できます。 否定的な感情が見逃されることが予測される可能性がある一方で、真に否定的なレビューのほとんどを取得する可能性があります。 しきい値は、シナリオ間で一貫した動作を持たない可能性があります。 そのため、運用環境で処理される実際のデータを使用してシステムをテストすることが重要です。