次の方法で共有


Azure OpenAI サービスの透明性に関する注意

Von Bedeutung

英語以外の翻訳は便宜上のみ提供されています。 バインドのバージョンについては、このドキュメントの EN-US バージョンを参照してください。

透過性のためのメモとは

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。 意図した用途に合ったシステムを作成するには、テクノロジがどのように機能するか、その機能と制限事項は何か、どのように最適なパフォーマンスを実現するかを理解する必要があります。 Microsoft の透過性のためのメモは、AI テクノロジの機能のしくみ、システムのパフォーマンスと動作に影響を与えるシステム所有者の選択肢、およびテクノロジ、人、環境などのシステム全体について検討することの重要性を理解するためのものです。 独自のシステムを開発または展開するときに透過性のためのメモを使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。

Microsoft の透過性のためのメモは、AI の原則を実践に移すための Microsoft の広範な取り組みの一環です。 詳細については、 Microsoft の AI 原則を参照してください

Azure OpenAI モデルの基本

Azure OpenAI は、開発者とデータ サイエンティストが自然言語、コード、画像を生成できるモデルを含む OpenAI の強力なモデルを適用できるフル マネージドの AI サービスを顧客に提供します。 Azure OpenAI サービス内では、OpenAI モデルは、Microsoft が開発したコンテンツ フィルタリングおよび不正使用検出モデルと統合されています。 コンテンツのフィルター処理の詳細については、 こちらをご覧 ください。不正使用の検出 については、こちらをご覧ください

イントロダクション

モデル グループ テキスト/コード 視覚 オーディオ/音声
GPT-3 と Codex
DALL-E 2 & 3
GPT-image-1
Whisper
GPT-4 ターボ ウィズ ビジョン
GPT-4o
GPT-4o-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4.5
o1 シリーズ
o3
o3-mini
o4-mini
コンピューター利用プレビュー

タブを選択すると、関連するモデルの種類のコンテンツが表示されます。

フル マネージドの Azure OpenAI サービスの一部として、 GPT-3 モデルは自然言語を分析して生成し、Codex モデルはコードとプレーン テキスト コード解説を分析して生成し、 GPT-4 および o シリーズの推論モデル は自然言語とコードを理解して生成できます。 これらのモデルでは、自動回帰アーキテクチャが使用されます。つまり、以前の観測のデータを使用して、最も可能性の高い次の単語を予測します。 このプロセスは、新しく生成されたコンテンツを元のテキストに追加して、生成された完全な応答を生成することによって繰り返されます。 応答は入力テキストに対して条件付けされるため、入力テキストを変更するだけで、これらのモデルをさまざまなタスクに適用できます。

GPT-3 シリーズのモデルは、一般に公開されている幅広いフリー テキスト データで事前トレーニングされています。 このデータは、Web クロール (具体的には、インターネットからの幅広いテキストを含み、加重された事前トレーニング データセットの 60% を含む、フィルター処理されたバージョンの Common Crawl) と、WebText データセットの拡張バージョン、2 つのインターネット ベースの書籍コーパス、英語 Wikipedia などの高品質のデータセットの組み合わせから取得されます。 GPT-4 基本モデルは、公開されているデータ (インターネット データなど) と OpenAI によってライセンスされたデータを使用してトレーニングされました。 このモデルは、強化学習と人間のフィードバック (RLHF) を使用して微調整されました。

Computer Use (Preview) モデルは、最初のターンでテキスト入力を受け入れ、2 番目以降のターンのスクリーンショット画像を受け取り、キーボードとマウスにコマンドを出力します。 Computer Use モデルと Computer Use Tool を使用すると、開発者はエージェント AI システムを構築できます。

OpenAI の GPT-3、GPT-4Codex の研究論文のトレーニングとモデリングの手法の詳細について説明します。

微調整 とは、 教師あり微調整 を使用して基本モデルの重みを調整し、提供されたトレーニング セットに基づいてより適切な応答を提供することを指します。 大規模言語モデルのすべてのユース ケースと考慮事項は、微調整されたモデルにも適用されますが、追加の考慮事項もあります。

Von Bedeutung

微調整は、視覚モデルや音声モデルではなく、テキスト モデルとコード モデルでのみ使用できます。

キーワード

用語 定義
プロンプト API 呼び出しでサービスに送信するテキスト。 次に、このテキストがモデルに入力されます。 たとえば、次のプロンプトを入力できます。

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg 'find constance' Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:
完了または生成 応答として Azure OpenAI が出力するテキスト。 たとえば、サービスは上記のプロンプトに対して次の回答で応答する場合があります。 send-msg 'find greg' figure out if things are ready for Wednesday.
トークン Azure OpenAI では、テキストをトークンに分割して処理します。 トークンには、単語または文字のチャンクのみを指定できます。 たとえば、 hamburger という単語はトークン hamburgerに分割されますが、 pear のような短くて一般的な単語は 1 つのトークンです。 多くのトークンは、 hello byeなど、空白で始まります。
微調整 大規模な言語モデルにおける教師あり微調整 (SFT)、強化微調整 (RFT)、および直接的な選好最適化 (DPO、または選好微調整) は、事前トレーニングされた言語モデルを用い、そのモデルをラベル付きデータに基づいて、より特定のタスクに対してさらにトレーニングするプロセスを指します。 これには、この小さい特定のデータセットを使用してモデルの重みを調整し、モデルが実行できるタスクをより特殊化し、パフォーマンスと精度を向上させる必要があります。
モデルの重み モデルの重みは、トレーニング プロセス中にデータから学習されるモデル内のパラメーターです。 指定された入力のモデルの出力を決定します。 これらの重みは、この誤差を最小限に抑えることを目的として、モデルが予測で行ったエラーに応じて調整されます。
根拠のないコンテンツ モデルによって生成されたコンテンツで、ソースマテリアルに存在していた内容から非事実または不正確であるコンテンツ。
エージェント型 AI システム 目標を達成するために環境を感知し、行動する自律的な AI システム。
自律性 限られた、または直接的な人間の監督なしで、独立してアクションを実行し、システムの動作に対する制御を実行する機能。
コンピューター使用ツール Computer Use モデルで使用すると、モードによって生成されたマウスとキーボードの操作がキャプチャされ、実行可能コマンドに直接変換されるツールです。 これにより、開発者はコンピューターの使用タスクを自動化できます。

能力

O シリーズの推論モデル、GPT-4、GPT-3、Codex モデル、Azure OpenAI 評価では、プロンプトの自然言語の指示と例を使用してタスクを識別します。 次に、最も可能性の高い次のテキストを予測して、モデルによってタスクが完了します。 この手法は、"コンテキスト内" 学習と呼ばれます。 これらのモデルは、この手順では再トレーニングされません。代わりに、プロンプトに含めるコンテキストに基づいて予測を行います。

コンテキスト内学習には、主に 3 つのアプローチがあります。 これらの方法は、モデルに与えられるタスク固有のデータの量によって異なります。

少数のショット : この場合、ユーザーは、予想される回答の形式と内容を示すいくつかの例をプロンプトに含めます。 次の例は、複数の例を提供する few-shot プロンプトを示しています。

Convert the questions to a command: 
Q: Ask Constance if we need some bread 
A: send-msg `find constance` Do we need some bread? 
Q: Send a message to Greg to figure out if things areready for Wednesday. 
A: send-msg `find greg` Is everything ready forWednesday? 
Q: Ask Ilya if we're still having our meeting thisevening 
A: send-msg `find ilya` Are we still having a meetingthis evening? 
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday 
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday? 
Q: Thank Nicolas for lunch 
A: send-msg `find nicolas` Thank you for lunch! 
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting. 
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move. 
Q: Tell John that I need to book an appointment at10:30 
A:  

通常、1 つのプロンプトの最大入力長に収まる数に応じて、例の数は 0 から 100 の範囲です。 少数のショット学習により、正確な予測に必要なタスク固有のデータの量を大幅に削減できます。

ワンショット : このケースは、1 つの例のみを提供するという点を除いて、少ショットアプローチと同じです。 次の例は、ワンショット プロンプトを示しています。

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:

ゼロショット: この場合、モデルに例は提供されておらず、タスク要求のみが提供されます。 次の例は、ゼロショット プロンプトを示しています。

Convert the question to a command:
Q: Ask Constance if we need some bread
A:

考え方の連鎖 : Azure OpenAI の o シリーズ推論モデルには、考え方チェーン (CoT) 手法を使用した新しい高度な推論機能があります。 CoT 手法は、応答を提供する前に中間的な推論手順を生成し、段階的な問題解決を通じてより複雑な課題に対処できるようにします。 o1は、研究、戦略、科学、コーディング、数学などの推論が多い分野のベンチマークの改善を示しています。 これらのモデルには高度な推論機能による安全性の向上があり、安全規則をより効果的に推論して適用することができます。 その結果、安全性ベンチマーク (不正なアドバイスの生成、ステレオタイプ的な応答の選択、既知の脱獄プロンプトへの脆弱性など) に沿ってパフォーマンスが向上します。

モデルの機能のこのファミリの詳細については、 OpenAI o1 システム カードo3 ミニ システム カードを参照してください。

Azure OpenAI の評価

大規模な言語モデルの評価は、さまざまなタスクとディメンションのパフォーマンスを測定する上で重要なステップです。 このタスクは、トレーニングによるパフォーマンスの向上 (または損失) を評価することが重要な、微調整されたモデルでは特に重要です。 徹底的な評価がなければ、モデルのさまざまなバージョンが特定のアプリケーションに与える影響を理解することが困難になる可能性があります。

Azure OpenAI Evaluation は、Azure OpenAI デプロイから生成されたデータセットやその他の手動でキュレーションされたファイルなど、データを評価するための UI ベースのエクスペリエンスです。

Azure OpenAI Evaluation には、応答を生成するオプションの手順があります。 ユーザーがこの手順を選択すると、応答を生成する方法をモデルに指示するプロンプト (システム/ユーザー メッセージ) が表示されます。

Azure OpenAI 評価には、結果をスコア付けするための 9 つのカテゴリのテストが含まれています。 一部のデータには(事実性のような) 地上の真理データが必要ですが、そうでないものがあります (スキーマの検証)。 グレーデラーは、CPU ベースとモデル ベースの組み合わせです。 テスト基準の一覧は次のとおりです。事実性、感情分析、有効なJSONまたはXML、一致基準、カスタムプロンプト、意味的類似性、文字列を含む、一致するスキーマ、テキスト品質。

テキストからアクションへ

コンピューターの使用 (プレビュー) モデルを使用すると、テキストからアクションへの機能が可能になり、ユーザーはモデルがグラフィカル ユーザー インターフェイス内で実行可能なステップに変換する自然言語命令を提供できます。 "顧客サポート フォームにこの情報を入力する" などのコマンドを指定すると、モデルは関連するフィールドを識別し、正しいデータを入力して、フォームを送信します。 Web インターフェイス間の移動、構造化データまたは非構造化データの抽出と入力、ワークフローの自動化、セキュリティ ポリシーへのコンプライアンスの適用を行うことができます。 意図を理解し、それに応じてアクションを実行することで、ビジネス運用を効率化し、自動化のアクセシビリティと効率を高めます。

活用事例

使用目的

o シリーズ、GPT-4、GPT-3、Codex モデル、および Azure OpenAI 評価は、複数のシナリオで使用できます。 次の一覧は包括的ではありませんが、適切な軽減策を持つモデルでサポートできるタスクの多様性を示しています。

  • チャットと会話の対話 : ユーザーは、社内ドキュメントやテクニカル サポート ドキュメントなどの信頼できるドキュメントから得た応答で応答する会話エージェントと対話できます。 会話は、範囲指定された質問への回答に限定する必要があります。
  • チャットと会話の作成 : ユーザーは、社内ドキュメントやテクニカル サポート ドキュメントなどの信頼できるドキュメントから得た応答で応答する会話エージェントを作成できます。 会話は、範囲指定された質問への回答に限定する必要があります。
  • コード生成または変換のシナリオ : たとえば、あるプログラミング言語を別のプログラミング言語に変換し、関数の docstring を生成し、自然言語を SQL に変換します。
  • ジャーニシングコンテンツ :新しいジャーニシングコンテンツを作成したり、事前定義されたトピックの書き込み支援としてユーザーによって送信されたジャーニックなコンテンツを書き換えるために使用されます。 ユーザーは、すべてのトピックの一般的なコンテンツ作成ツールとしてアプリケーションを使用することはできません。
  • 質問への回答 : ユーザーは質問をしたり、社内ドキュメントなどの信頼できるソース ドキュメントから回答を受け取ることができます。 アプリケーションは、信頼できる資料に基づかない回答を生成しません。
  • 構造化データと非構造化データに対する理由 : ユーザーは、分類、テキストのセンチメント分析、またはエンティティ抽出を使用して入力を分析できます。 たとえば、製品フィードバックのセンチメントの分析、サポートの呼び出しとトランスクリプトの分析、埋め込みを使用したテキスト ベースの検索の絞り込みなどがあります。
  • 検索 : ユーザーは、社内ドキュメントなどの信頼できるソース ドキュメントを検索できます。 アプリケーションは、信頼できるソースドキュメントに基づかずに結果を生成することはありません。
  • 要約 : ユーザーは、アプリケーションに組み込まれている定義済みのトピックについて要約するコンテンツを送信でき、アプリケーションをオープンエンドのサマライザーとして使用することはできません。 たとえば、社内ドキュメントの概要、コール センターのトランスクリプト、技術レポート、製品レビューなどがあります。
  • 特定のトピックに関するサポートの作成 : ユーザーは、ビジネス コンテンツまたは定義済みのトピックの作成支援として、新しいコンテンツを作成したり、ユーザーによって送信されたコンテンツを書き換えたりできます。 ユーザーは、特定のビジネス目的または定義済みのトピックに対してのみコンテンツを書き換えたり作成したりすることができ、すべてのトピックの一般的なコンテンツ作成ツールとしてアプリケーションを使用することはできません。 ビジネス コンテンツの例としては、提案やレポートなどがあります。 ジャーカニックな使用については、上記 のジャーニシング コンテンツ のユース ケースを参照してください。
  • 微調整のためのデータ生成: ユーザーは、Azure OpenAI のモデルを使用して、(i) Azure OpenAI の微調整機能を使用して(i) 別の Azure OpenAI モデルを微調整するためにのみ使用されるデータを生成し、(ii) Azure AI サービスの微調整機能を使用して別の Azure AI カスタム モデルを生成できます。 データの生成とモデルの微調整は、内部ユーザーのみに限定されます。微調整されたモデルは、該当する Azure AI サービスでの推論にのみ使用でき、Azure OpenAI サービスの場合は、このフォームで許可されている顧客のユース ケースに対してのみ使用できます。

微調整されたユースケース

微調整されたモデルに推奨されるその他のユース ケースを次に示します。 微調整は、次の場合に最も適しています。

  • 目的の応答の例を使用して、応答のスタイル、形式、トーン、または定性的な側面をステアリングします。
  • 特定の形式で応答を提供したり、プロンプトの情報に基づいている応答を確認するなど、モデルが望ましい出力を確実に生成するようにします。
  • 複雑な自然言語からコード例など、プロンプトの例では説明できない多くのエッジ ケースを含むユース ケース。
  • 特定のスキルやタスク(分類、要約、書式設定など)のパフォーマンスを向上させることは、それをプロンプト内で説明するのが難しい場合があります。
  • 短いプロンプトを利用したり、より汎用的なモデル (GPT-4 用に微調整された GPT-3.5-Turbo など) に対して、より小さい/高速なモデルの微調整されたバージョンをスワップしたりして、コストや待機時間を削減します。

基本モデルと同様に、 Azure OpenAI の行動規範 に記載されているユース ケースの禁止事項は、微調整されたモデルにも適用されます。

モデルを拡張してドメイン外の情報を含めるシナリオ、説明可能性や接地が重要なシナリオ、または基になるデータが頻繁に更新されるシナリオでは、微調整は推奨されません。

o シリーズのユース ケース

o シリーズ推論モデルの高度な推論機能は、科学、コーディング、数学、および同様の分野での推論が多い用途に最適な場合があります。 特定のユース ケースには、次のようなものがあります。

  • 複雑なコード生成、分析、最適化: 開発者がマルチステップ ワークフローを実行し、コード開発で実行される手順をより深く理解するのに役立つ、アルゴリズムの生成と高度なコーディング タスク。
  • 高度な問題解決: 包括的なブレーンストーミング セッション、戦略の開発、多面的な問題の分解。
  • 複雑なドキュメント比較: コントラクト、ケース ファイル、または法的ドキュメントを分析して、ドキュメントの内容の微妙な違いを識別します。
  • 以下の手順とワークフロー管理: より短いコンテキストを必要とするワークフローの処理。

用途の詳細については、 OpenAI o1システムカードo3ミニシステムカードを参照してください。

Azure OpenAI 評価のユース ケース

Azure OpenAI の評価はテキストのみの機能であり、テキスト以外の入力をサポートするモデルでは使用できません。 Evals は、次のような複数のシナリオで使用できます。これらに限定されません。

  • テキスト照合/比較の評価: これは、ユーザーが出力が予想される文字列と一致するかどうかを確認するシナリオに役立ちます。 ユーザーは、2 つの値セットを比較し、リレーションシップにスコアを付けることもできます。 たとえば、回答が回答キーと比較される複数選択の質問や、文字列の検証などがありますが、これに限定されません。
  • テキスト品質: テキスト品質は、Bleu、Rouge、コサイン アルゴリズムなどのメソッドを使用して応答品質を評価し、機械翻訳、テキスト要約、テキスト生成などのさまざまな自然言語処理タスクで広く使用されています。
  • 分類ベースの評価: 分類ベースの評価では、定義済みのカテゴリまたはラベルに応答を割り当てるか、モデルの出力を正しい回答の参照セットと比較することで、モデルのパフォーマンスを評価します。 自動採点、センチメント分析、製品分類は、一般的なユース ケースの 1 つです。
  • 会話品質評価: 会話品質評価では、詳細な考え方チェーン (CoT) プロンプトを使用して、定義済みの基準と応答を比較します。 一般的なユース ケースには、カスタマー サポート、チャットボット開発、教育評価などがあります。
  • 抽出条件ベースの評価: 条件ベースの評価の一般的なシナリオの 1 つは、事実性です。 事実の正確性を評価するには、提出された回答を専門家の回答と比較し、事実に基づくコンテンツのみに焦点を当てます。 これは、LLM によって提供される回答の精度を向上させる教育ツールや、学術的な設定で LLM によって生成された応答の実際の精度を評価するための研究支援ツールで役立ちます。
  • 文字列の有効性の評価: 一般的なシナリオの 1 つは、モデルの応答が特定のスキーマに従っているか、有効な JSON または XML コンテンツであるかどうかを確認することです。

コンピューターの使用 (プレビュー) のユース ケース

Computer Use の機能は、GUI と自律的に対話できるエージェント AI システムの開発に最適です。 特定のユース ケースには、次のようなものがあります。

  • Web ナビゲーションと対話の自動化: Web ベースのインターフェイスのナビゲーションを自律的に移動して、社内リソースや構造化データベースなどの信頼できるソースから情報を取得して提示します。 このモデルは、定義済みのナビゲーション ルールに従って関連データを抽出し、セキュリティ ポリシーに準拠していることを確認します。

  • Web-Based タスク自動化: フォームへの入力、データの送信、Web アプリケーションとの対話など、Web ベースの繰り返しのタスクを自動化します。 Computer Use は、ボタンのクリック、テキストの入力、構造化データの処理を行うことができますが、承認されたワークフローとドメイン内でのみ動作します。

  • 構造化データ抽出と非構造化データ抽出: テーブルやスプレッドシートなどの構造化されたソースや、PDF、スキャンされたドキュメント、メールなどの非構造化ソースから関連するデータを抽出します。 この機能は、財務データ処理、契約分析、カスタマー サポート チケットの分類などのタスクに役立ちます。

  • 自動フォーム入力とデータ入力: 構造化されたデータベースまたはユーザー入力から情報を抽出し、それを使用して Web ベースのフォームを設定します。 これは、データ処理の正確性と一貫性を確保しながら、顧客サービス要求、人事プロセス、または CRM の更新を自動化する場合に役立ちます。

  • Web-Based 画像分析: Web ページで見つかった画像を分析して、オブジェクト、シーン、または関連するパターンを検出してタグ付けします。 Computer Use では、ビジュアル情報を抽出して、在庫管理、ドキュメント処理、オブジェクト分類などのアプリケーションをサポートできます。

  • 対話型のビジュアル検索と識別: 構造化された検索を通じて関連するビジュアル コンテンツを検索するユーザーを支援します。 たとえば、Computer Use では、eコマース カタログ内の製品を識別したり、旅行アプリケーションのランドマークを認識したり、定義済みの条件に基づいてデジタル アーカイブから特定の画像を取得したりできます。

  • コンプライアンスとポリシーの自動チェック: アップロードされたファイル、コントラクト、内部ドキュメントなどの Web ベースのコンテンツをスキャンして、定義済みのコンプライアンス規則に準拠します。 Computer Use では、不足している情報、不整合、または潜在的な違反にフラグを設定して、組織内の規制基準を適用できます。

  • ビジネス アプリケーション向けの自動化されたワークフロー実行: レポートの生成、レコードの更新、分析の取得など、エンタープライズ アプリケーション内を移動するためのマルチステップ ワークフローを定義します。 Computer Use は、ビジネス ツール内の定義済みの手順に従い、アクセス制御ポリシーに準拠して安全な実行を保証します。

ユース ケース選択時の考慮事項

お客様には、 制限付きアクセス登録フォームで承認されている革新的なソリューションまたはアプリケーションで、Azure OpenAI GPT-4、GPT-3、Codex、Computer Use モデルを使用することをお勧めします。 ただし、以下にユース ケース選択時の考慮事項をいくつか示します。

  • 制限のないオープン エンドのコンテンツ生成には適していません。 ユーザーが任意のトピックでコンテンツを生成できるシナリオでは、不快なテキストや有害なテキストが生成される可能性が高くなります。 同じことが、より長い世代にも当てはまります。
  • up-toの日付や、事実に基づく正確な情報が重要なシナリオには適していません。ただし、人間の校閲者がいるか、モデルを使用して独自のドキュメントを検索し、シナリオへの適合性を確認している場合を除きます。 このサービスには、トレーニング日以降に発生するイベントに関する情報は含まれていません。また、一部のトピックに関する知識が不足している可能性があり、常に事実に基づく正確な情報が生成されるとは限りません。
  • システムを使用または誤用すると、個人に重大な身体的または精神的損傷が生じる可能性があるシナリオを避けます。 たとえば、患者を診断したり、薬を処方したりするシナリオは、重大な害を引き起こす可能性があります。 シナリオに意味のある人間のレビューと監視を組み込むことは、有害な結果のリスクを軽減するのに役立ちます。
  • システムの使用または誤用が、生命の機会や法的地位に結果的な影響を与える可能性があるシナリオは避けてください。 例としては、AI システムが個人の法的地位、法的権利、またはクレジット、教育、雇用、医療、住宅、保険、社会福祉給付、サービス、機会、またはそれらが提供される条件へのアクセスに影響を与える可能性があるシナリオが挙げられます。 シナリオに意味のある人間のレビューと監視を組み込むことは、有害な結果のリスクを軽減するのに役立ちます。
  • 害を及ぼす可能性のある高い賭け金のシナリオを避けてください。 Azure OpenAI サービスによってホストされるモデルには、トレーニング データに存在する特定の社会ビュー、バイアス、その他の望ましくないコンテンツや、プロンプトで提供される例が反映されます。 その結果、不公平、信頼性の低い、または攻撃的な行動が非常にコストがかかったり、損害を与えたりする可能性がある高いリスクのシナリオでモデルを使用することは慎重に行われます。 シナリオに意味のある人間のレビューと監視を組み込むことは、有害な結果のリスクを軽減するのに役立ちます。
  • 高いステークのドメインまたは業界のユース ケースを慎重に検討してください 。例としては、医療、医療、金融、法律などがありますが、これらに限定されません。
  • 適切な範囲のチャットボット シナリオを慎重に検討してください。 チャットボットでのサービスの使用を狭いドメインに制限すると、意図しない応答や望ましくない応答が生成されるリスクが軽減されます。
  • 生成的なユース ケースをすべて慎重に検討してください。 コンテンツ生成シナリオでは、意図しない出力が生成される可能性が高くなる可能性があり、これらのシナリオでは慎重な検討と軽減が必要です。
  • 法的および規制上の考慮事項: 組織は、AI サービスとソリューションを使用する際に、潜在的な特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用に適していない可能性があります。 さらに、AI サービスまたはソリューションは、該当するサービス利用規約と関連する行動規範で禁止されている方法のために設計されておらず、そのような方法で使うこともできません。

コンピューター使用のユース ケースを選択する場合、ユーザーは上記の考慮事項に加えて、次の考慮事項を考慮する必要があります。

  • アクションが元に戻せない、または結果が大きくないシナリオを避けます。これには、電子メールを送信する機能 (間違った受信者など)、重要なファイルを変更または削除する機能、財務取引を行う機能、外部サービスと直接やり取りする機能、機密情報をパブリックに共有すること、重要なシステムへのアクセスを許可する機能が含まれますが、これらに限定されません。 または、システムの機能またはセキュリティを変更する可能性のあるコマンドの実行。

  • 高度な用途でのパフォーマンスの低下: コンピューターの使用は、WEB サイトやコンピューター デスクトップへのアクセスなど、UI を使用したタスクの完了に関するユース ケースに最適です。 コードの編集、広範なテキストの書き込み、複雑な意思決定など、より高度なタスクの実行がうまく行えない場合があります。

  • 十分な人間の監視と管理を確保する。 ユーザーがアクションの検証、レビュー、承認を適切なタイミングで行うのに役立つコントロールを含めるとします。これには、計画されたタスクの確認や外部データ ソースへの呼び出し (システムに適した場合など) が含まれる場合があります。 特にリスクの高いシナリオやユース ケースでは、システム障害の適切なユーザー修復のためのコントロールを含める必要があります。

  • アクションと関連する要件を明確に定義します。 許可されるアクション (アクションの境界)、禁止、または明示的な承認を必要とするかを明確に定義すると、コンピューターの使用が想定どおりに適切なレベルの人間による監視を行うのに役立つ場合があります。

  • 目的の動作環境を明確に定義します。 コンピューターの使用が効果的に動作するように設計されている、目的の動作環境 (ドメイン境界) を明確に定義します。

  • 意思決定において適切な明瞭性を確保する。 アクションの実行前、実行中、および実行後にユーザーに情報を提供すると、アクションの正当な理由や、特定のアクションが実行された理由、またはアプリケーションが特定の方法で動作している理由、介入する場所、問題のトラブルシューティング方法を理解するのに役立つ場合があります。

  • 詳細については、 Generative AI への適切な依存の促進に関するガイドを参照してください。

制限事項

大規模な自然言語モデル、ビジョン モデル、音声モデルに関しては、考慮すべき公平性と責任ある AI の問題があります。 人々は言語とイメージを使って世界を表現し、自分の信念、仮定、態度、価値観を表現します。 その結果、大規模な自然言語処理と画像生成モデルのトレーニングに一般的に使用される一般に利用可能なテキストと画像データには、人種、性別、宗教、年齢、およびその他の人々のグループに関連する社会の偏り、およびその他の望ましくないコンテンツが含まれています。 同様に、音声モデルでは、人口統計グループや言語ごとに異なるレベルの精度を示すことができます。 これらの社会バイアスは、単語、フレーズ、構文構造の分布に反映されます。

技術的な制限事項、運用上の要因、範囲

注意事項

このセクションには、一部の個人が不快感を与える可能性のある用語と言語を含む例示の例が含まれていることを推奨します。

このようなデータでトレーニングされた大規模な自然言語、画像、音声モデルは、不公平、信頼性の低い、または不快な方法で動作し、損害を引き起こす可能性があります。 いくつかの方法を次に示します。 私たちは、これらの種類の害は相互に排他的ではないことを強調します。 1 つのモデルで複数の種類の損害が発生する可能性があります。これは、複数の異なるグループの人々に関連している可能性があります。 例えば次が挙げられます。

  • 割り当て: これらのモデルは、リソースまたは機会の不公平な割り当てにつながる方法で使用できます。 たとえば、自動化された履歴書スクリーニングシステムは、特定の業界における既存の性別の不均衡を反映する履歴書データに関するトレーニングを受けた場合、1つの性別からの雇用機会を差し控えることができます。 または、イメージ生成モデルを使用して、既知のアーティストのスタイルで画像を作成し、アーティストの作品やアーティストの人生機会の価値に影響を与える可能性があります。 GPT-4 ビジョン モデルを使用して、人生の機会に悪影響を及ぼす可能性のある個々の行動やパターンを特定できます。
  • サービスの品質: Azure OpenAI モデルは、主に英語のテキストと英語のテキストの説明を含む画像でトレーニングされます。 英語以外の言語では、パフォーマンスが低下します。 トレーニング データの表現が少ない英語の種類では、標準のアメリカ英語よりもパフォーマンスが低下する可能性があります。 イメージ生成モデルのトレーニングに使用される一般公開されたイメージは、パブリック バイアスやその他の望ましくないコンテンツを強化する可能性があります。 DALL·Eモデルは、現時点では理解できるテキストを一貫して生成することができません。 音声モデルでは、他の制限が生じる場合があります。たとえば、Azure OpenAI でささやきモデルを使用する翻訳は、英語の出力のみに制限されます。 大まかに言えば、音声テキスト変換モデルでは、文字起こしの精度を向上させるために、各オーディオ入力の言語 (またはロケール) を適切に指定してください。 さらに、オーディオ入力の音響品質、非音声ノイズ、重複する音声、ボキャブラリ、アクセント、挿入エラーも、文字起こしや翻訳の品質に影響する可能性があります。
  • ステレオタイプ: これらのモデルは、ステレオタイプを強化できます。 たとえば、"He is a nurse"、"She is a doctor" をトルコ語などの性別のない言語に翻訳してから英語に戻す場合、多くの機械翻訳システムでは、"She is a nurse" と "He is a doctor" というステレオタイプ(および正しくない)結果が得られます。DALL·Eでは、プロンプトに基づいて画像を生成する場合 "父がいない子" モデルは、黒人の子供たちの画像のみを生成する可能性があり、一般に公開されている画像の中に存在する可能性のある有害なステレオタイプを強化する可能性があります。 GPT-4 ビジョン モデルでは、画像のコンポーネントに依存し、常に正しいとは限らない可能性のある仮定を行うことで、入力画像の内容に基づくステレオタイプを強化することもできます。
  • 屈辱: Azure OpenAI サービスの自然言語モデルとビジョン モデルは、人々を軽蔑する可能性があります。 たとえば、不適切または不十分な軽減策を備えたオープンエンドのコンテンツ生成システムでは、特定のグループのユーザーに対して不快または軽蔑的なコンテンツが生成される可能性があります。
  • 過剰表示と過小表示: Azure OpenAI サービスの自然言語およびビジョン モデルは、ユーザーのグループを過剰または過大に表現したり、その表現を完全に消去したりすることもできます。 たとえば、「ゲイ」という単語を含む文章が、有害または不快なものとして認識されると、LGBTQIA+コミュニティによって作られた、もしくはコミュニティに関する正当な画像生成が過小評価されるか、消去される可能性があります。
  • 不適切または不快なコンテンツ: Azure OpenAI サービスの自然言語モデルとビジョン モデルでは、他の種類の不適切なコンテンツや不快なコンテンツが生成される可能性があります。 たとえば、テキストや画像プロンプトの文脈で不適切なテキストを生成する能力、ヘイトシンボルなどの有害なアーティファクトを含む可能性がある画像を作成する能力があります。さらに、有害な意味合いを持つ画像、論争やイデオロギー的に分極させるトピックに関連する画像、操作的な画像、性的な内容を含むが性的コンテンツフィルターで検出されない画像、機密性の高いトピックや感情的なトピックに関する画像なども例として挙げられます。 たとえば、クラウドや飛行機が飛んでいるニューヨークのスカイラインの画像を作成することを目的とした意図したテキスト プロンプトでは、9/11 を取り巻くイベントに関連する不適切な感情を意図せずに生成する可能性があります。
  • 機密性の高いトピックに関する情報漏えいと誤った情報: Because DALL·E および GPT-image-1 は強力な画像生成モデルであり、有害な可能性のある情報漏えいや誤った情報の生成に使用できます。 たとえば、ユーザーは、公共の抗議、政治的変化、偽ニュースなど、結果的な損害につながる可能性のある、暴力や性的 (または単に不正確) な性質の活動に関与する政治指導者の画像を生成するようにモデルに促します。 GPT-4ビジョンモデルも同様な形で使用することができます。 このモデルは、プロンプトにそのような情報が軽減されずに含まれている場合、機密性の高いトピックに関する情報漏えいや誤った情報を補強する可能性があります。
  • 情報の信頼性: 言語と視覚モデルの応答は、意味のないコンテンツを生成したり、適切に聞こえるかもしれませんが、外部の検証ソースに関しては不正確なコンテンツを作成したりする可能性があります。 信頼できるソース情報から応答を描画する場合でも、応答はそのコンテンツを誤って表示する可能性があります。 文字起こしや翻訳を行うと、テキストが不正確になる可能性があります。
  • 誤った情報: Azure OpenAI では、顧客またはユーザーによって提供されるコンテンツを事実確認したり検証したりは行っていません。 アプリケーションの開発方法によっては、軽減策が組み込まれている場合を除き、誤った情報が生成される場合があります (システム パフォーマンスを向上するためのベスト プラクティスを参照してください)。

微調整のリスクと制限事項

お客様が Azure OpenAI モデルを微調整すると、特定のタスクやドメインでモデルのパフォーマンスと精度を向上させることができますが、お客様が認識する必要がある新しいリスクや制限が生じる可能性もあります。 これらのリスクと制限は、微調整を サポートするすべての Azure OpenAI モデルに適用されます。 これらのリスクと制限事項の一部を次に示します。

  • データの品質と表現: 微調整に使用されるデータの品質と代表性は、モデルの動作と出力に影響を与える可能性があります。 データがノイズ、不完全、古い場合、またはステレオタイプなどの有害なコンテンツが含まれている場合、モデルはこれらの問題を継承し、不正確または有害な結果を生成する可能性があります。 たとえば、データに性別ステレオタイプが含まれている場合、モデルはそれらを増幅して性差別言語を生成できます。 お客様は、データを慎重に選択して前処理し、目的のタスクとドメインに対して関連性があり、多様でバランスが取れるようにする必要があります。
  • モデルの堅牢性と一般化: モデルの多様で複雑な入力とシナリオを処理する機能は、微調整後、特にデータが狭すぎる場合や特定の場合に低下する可能性があります。 モデルはデータに過剰に適合し、その一般的な知識と機能の一部を失う可能性があります。 たとえば、データがスポーツについてのみである場合、モデルは質問に答えたり、他のトピックに関するテキストを生成したりするのに苦労する可能性があります。 お客様は、さまざまな入力とシナリオでモデルのパフォーマンスと堅牢性を評価し、スコープ外のタスクまたはドメインにモデルを使用しないようにする必要があります。
  • 逆流: トレーニング データは Microsoft やサード パーティのお客様には利用できませんが、微調整が不十分なモデルでは、トレーニング データが逆流したり、直接繰り返されたりする可能性があります。 お客様は、トレーニング データから PII またはその他の方法で保護された情報を削除する責任を負い、オーバーフィットやその他の低品質の応答のために微調整されたモデルを評価する必要があります。 逆流を避けるために、顧客は大規模で多様なデータセットを提供することをお勧めします。
  • モデルの透明性と説明性: モデルのロジックと推論は、微調整後、特にデータが複雑または抽象的な場合に、より不透明になり、理解しにくくなる可能性があります。 微調整されたモデルでは、予期しない、矛盾した、または矛盾する出力が生成される可能性があり、モデルがそれらの出力に到達した方法や理由を顧客が説明できない場合があります。 たとえば、データが法的用語または医療用語に関する場合、モデルは不正確または誤解を招く出力を生成し、顧客がそれらを検証または正当化できない可能性があります。 お客様は、モデルの出力と動作を監視および監査し、モデルのエンド ユーザーに明確で正確な情報とガイダンスを提供する必要があります。

高度な微調整されたモデルに関連するリスクを軽減するために、微調整されたモデルのトレーニングと出力の有害なコンテンツを検出して防止するために、追加の 評価手順 を実装しました。 微調整されたモデル評価フィルターは定義済みのしきい値に設定され、顧客が変更することはできません。作成したカスタム コンテンツ フィルタリング構成には関連付けられません。

o シリーズの制限事項

  • o シリーズ推論モデルは、大きな推論を伴うユース ケースに最適であり、以前の AOAI モデルと比較して、個人やクリエイティブな文章作成などの一部の自然言語タスクでは適切に動作しない可能性があります。
  • この新しい推論機能により、特定の種類のリスクが増加する可能性があり、リスク管理プロトコルに対する洗練された方法とアプローチを必要とし、システムの動作を評価および監視する必要があります。 たとえば、o1 の CoT 推論機能では、説得力が向上し、単純なコンテキスト内の策略が示されています。
  • ユーザーは、モデルの推論ファミリが応答によって推論に多くの時間を要し、アプリケーションの開発における追加の時間と待機時間を考慮する必要がある場合があります。

これらの制限の詳細については、 OpenAI o1 システム カードo3 ミニ システム カードを参照してください。

4o の制限事項

  • gpt-4o-realtime-previewオーディオ翻訳機能では、英語以外の言語がネイティブでないアクセントで出力される場合があります。 これにより、オーディオ出力での言語パフォーマンスの効果が制限される可能性があります。 言語のサポートは、既存の gpt-4o モデル バージョンに沿っています。
  • ユーザーは、 gpt-4o-realtime-preview がノイズの多い環境では堅牢性が低く、アプリケーションの開発時にノイズの感度を考慮する必要がある場合があります。

その他のベスト プラクティスについては、 OpenAI 4o システム カードを参照してください。

4.1 の制限事項

  • 4.1 シリーズ モデルでは、画像を含む最大 1M のコンテキスト トークンを使用して推論要求を作成する機能が導入されています。 長さが長いため、他のモデルと比較した場合、システムの動作とリスクに違いがある可能性があります。
  • ユーザーは、この長いコンテキスト機能を活用するアプリケーションとユース ケースを徹底的に評価してテストし、アプリケーションを開発する際のこの追加作業を考慮する必要があります。

GPT-image-1 の制限事項

  • GPT-image-1 は現在、コンテンツ フィルターの構成可能性などのカスタム ポリシーをサポートしていません。

コンピューターの使用に関するリスクと制限事項 (プレビュー)

実行されたアクションを確認して確認する: コンピューターの使用は間違いを犯し、意図しないアクションを実行する可能性があります。 これは、モデルが GUI を完全に理解しておらず、命令が不明であるか、予期しないシナリオが発生したことが原因である可能性があります。

慎重に検討し、使用を監視する: コンピューターの使用は、限られた状況では、明示的な承認なしでアクションを実行する可能性があり、その一部はリスクが高い可能性があります (通信の送信など)

分離して評価する: 機密データや資格情報にアクセスせずに、分離されたコンテナーでのコンピューターの使用のみを評価することをお勧めします。

不透明な意思決定プロセス: エージェントが大規模な言語モデルを外部システムと組み合わせるにつれて、意思決定の背後にある "理由" をトレースすることが困難になる可能性があります。 コンピューター使用モデルを使用して構築されたこのようなエージェントを使用する AEnd ユーザーは、クエリに応答するために特定のツールまたはツールの組み合わせが選択された理由を理解するのが難しい場合があり、エージェントの出力またはアクションの信頼と検証が複雑になります。

進化するベスト プラクティスと標準: コンピューター使用を使用してエージェント システムを構築する場合は、エージェントが新しいテクノロジであることに注意してください。また、安全な統合、透過的なツールの使用、責任ある展開に関するガイダンスは進化し続けています。 最新のベスト プラクティスと監査手順に対応することは非常に重要です。また、適切な意図を持った使用であっても、継続的なレビューと洗練を行わなくてもリスクが高くなる可能性があります。

Azure OpenAI の評価の制限事項

  • データ品質: Azure OpenAI Evaluation を使用している場合は、品質の低いデータが誤解を招いたり、信頼性の低い評価結果を招いたりする可能性があることに注意してください。
  • 構成の品質: 顧客がプロンプトまたはエバリュエーターを不適切に定義した場合、または無効な評価データを提供した場合、Azure OpenAI 評価サービスの結果は正しく、無効になります。 評価実行を設定する方法の詳細については、 Azure OpenAI のドキュメント を参照してください。
  • 制限付きスコープ: Azure OpenAI の評価では、テキストベースの自然言語モデルのみがサポートされます。 リスクと安全性の重大度スコア (ヘイトフルおよび不公平なコンテンツ、性的コンテンツ、暴力コンテンツ、自傷行為に関連するコンテンツなど) に対する生成された対応を評価するためのリスクと安全メトリックはサポートされません。

システム パフォーマンス

多くの AI システムでは、多くの場合、精度に関連してパフォーマンスが決まります。つまり、AI システムが正しい予測または出力を提供する頻度によってパフォーマンスが決まります。 大規模な自然言語モデルとビジョン モデルでは、2 人の異なるユーザーが同じ出力を見て、それがどれだけ役に立っているか、関連性があるかについて異なる意見を持つ可能性があります。つまり、これらのシステムのパフォーマンスをより柔軟に定義する必要があります。 ここで言うパフォーマンスとは、あなたやユーザーが期待するようにアプリケーションが動作すること、特に有害な出力を生成しないことを意味すると広く考えています。

Azure OpenAI サービスは、検索、分類、コード生成、画像生成、画像の理解など、さまざまなパフォーマンス メトリックと軽減戦略を持つさまざまなアプリケーションをサポートできます。 「制限事項」に記載されている懸念事項の一部を軽減し、パフォーマンスを向上させるために、いくつかの手順を実行できます。 その他の重要な軽減手法については、「 Azure OpenAI を使用するための評価と統合」セクションで概説されています。

システム パフォーマンスを向上させるためのベスト プラクティス

  • プロンプトのデザイン時に表示と通知を行います。 自然言語モデルと音声モデルでは、命令、例、または 2 つの組み合わせを使用して、どの種類の出力が期待されるかをモデルに明確にします。 モデルで項目のリストをアルファベット順にランク付けしたり、段落をセンチメント別に分類したりする場合は、目的のモデルを表示します。
  • アプリケーションをテーマに沿ったものにしてください。 ユーザーがこの目的で使用しようとしても、望ましくないコンテンツを生成する可能性を減らすために、プロンプトと画像入力を慎重に構成します。 たとえば、プロンプトで、チャットボットが数学に関する会話にのみ関与し、それ以外の場合は「申し訳ありません、それについてはお答えできません。」と応答するように指示できます。 残念ですが、答えることができません。「丁寧」といった形容詞や必要なトーンの例をプロンプトに追加すると、出力を調整するのに役立ちます。
  • 品質データを提供します。 テキスト モデルとコード モデルを使用して、分類子を構築しようとしている場合、またはモデルをパターンに従わせようとしている場合は、十分な例があることを確認します。 例を必ず校正してください。モデルは通常、基本的なスペルミスを処理して応答を返すことができますが、エラーが意図的であると判断され、応答に影響を与える可能性もあります。 質の高いデータを提供するには、モデルに信頼性の高いデータを提供して、チャットや質問の回答システムからの応答を引き出すこともできます。
  • 信頼できるデータを提供します。 信頼されていないデータをシステムに取得またはアップロードすると、システムまたはアプリケーションのセキュリティが損なわれる可能性があります。 該当するアプリケーション (Assistants API を使用するアプリケーションを含む) でこれらのリスクを軽減するには、潜在的なプロンプトインジェクションを検出して分析し、ユーザー入力を明確に示してプロンプト挿入のリスクを最小限に抑え、LLM の機密リソースへのアクセスを制限し、その機能を最小限に制限し、重要なシステムとリソースから分離するために、LLM の対話 (入力/出力) をログに記録して監視することをお勧めします。 大規模言語モデルのセキュリティ ガイダンスの追加の軽減アプローチについて説明します |Microsoft Learn。
  • 応答の精度または接地性を向上させるためにパラメーターを構成します。 信頼できるソースから取得したデータ (Azure OpenAI の "データに対する" 機能の使用など) を使用してプロンプトを拡張すると、不正確な応答や誤った情報が生成される可能性が減少しますが、完全には排除されません。 応答の精度をさらに向上させるために実行できる手順には、信頼された関連するデータ ソースを慎重に選択し、ユース ケースやシナリオに応じて、"厳密さ"、"データ コンテンツへの応答の制限"、"考慮する取得されたドキュメントの数" などのカスタム パラメーターの構成が含まれます。 データに対する Azure OpenAI のこれらの設定の構成の詳細について説明します。
  • 入力と出力の長さ、構造、速度を制限します。 入力と出力の長さまたは構造を制限すると、アプリケーションがタスクに留まり、少なくとも部分的には、不公平、信頼性の低い、または攻撃的な行動を軽減する可能性が高くなります。 誤用のリスクを軽減するその他のオプションには、(i) 入力のソースを制限する (たとえば、インターネット上の誰にも開かるのではなく、特定のドメインまたは認証されたユーザーに入力を制限する) と (ii) 使用レート制限の実装があります。
  • 出版または普及の前に、出力の人間のレビューを奨励します。 生成 AI では、軽減策が適用されていても、攻撃的なコンテンツや、手元にあるタスクに関連しないコンテンツを生成する可能性があります。 生成された出力がユーザーのタスクを満たしていることを確認するには、広く共有する前に、ユーザーに品質の確認を促す方法を構築することを検討してください。 この方法では、攻撃的な素材、情報漏えいなど、さまざまな害を軽減できます。
  • シナリオ固有の追加の軽減策を実装します。 コンテンツ モデレーション戦略を含む 、Azure OpenAI の使用の評価と統合 に関するページで概説されている軽減策を参照してください。 これらの推奨事項は、アプリケーションに必要なすべての軽減策を表すわけではありません。 GPT-4o や o シリーズの推論モデルなどの新しいモデルは、機密性の高いシナリオで応答を提供する可能性があり、完全に応答を拒否するのではなく、応答で有害な可能性のある出力を減らそうとする可能性が高くなります。 ユース ケースのコンテンツ モデレーションを評価および統合するときは、この動作を理解することが重要です。は、ユース ケースによっては、フィルター処理の重要度の調整が必要になる場合があります。
  • o シリーズ推論モデルには、生 CoT の出力を防ぐためのセーフガードがあります。 たとえば、これらのセーフガードを回避して生の CoT を抽出しようとすると、オンライン サービスの許容される使用ポリシーに違反し、サービスへのアクセスが制限される可能性があります。 ベスト プラクティスの詳細については、 OpenAI o1 システム カードo3 ミニ システム カードを参照してください。

微調整に関するベスト プラクティスと推奨事項

Azure OpenAI の微調整モデルのリスクと制限を軽減するために、次のようないくつかのベスト プラクティスとガイドラインに従うことをお勧めします。

  • データの選択と前処理: お客様は、データを慎重に選択して前処理し、目的のタスクとドメインに対して関連性があり、多様でバランスが取れるようにする必要があります。 また、お客様は、データ主体のプライバシーとセキュリティを保護するために、名前、住所、電子メール アドレスなどの機密情報や個人情報をデータから削除または匿名化する必要があります。 また、お客様は、データの品質と読みやすさを向上させるために、スペル、文法、書式などのデータのエラーや不整合をチェックして修正する必要があります。
  • チャット完了形式のモデルのトレーニング データにシステム メッセージを含め、応答を誘導し、推論に微調整されたモデルを使用する場合は、同じシステム メッセージを使用します。 システム メッセージを空白のままにすると、精度の低い微調整されたモデルが生成される傾向があり、推論時に同じシステム メッセージを含め忘れると、微調整されたモデルが基本モデルの動作に戻る可能性があります。
  • モデルの評価とテスト: お客様は、さまざまな入力とシナリオで微調整されたモデルのパフォーマンス と堅牢性を評価してテストし、元のモデルやその他のベースラインと比較する必要があります。 また、適切なメトリックと条件を使用して、モデルの精度、信頼性、公平性を測定し、モデルの出力と動作の潜在的なエラーやバイアスを特定する必要もあります。
  • モデルのドキュメントとコミュニケーション: お客様は、モデルの目的、範囲、制限事項、前提条件を文書化して伝達し、モデルのエンド ユーザーに明確で正確な情報とガイダンスを提供する必要があります。

Azure OpenAI 評価のベスト プラクティスと推奨事項

  • 正確な基準データ: 一般に、大規模な自然言語モデルでは、お客様はデータを慎重に選択して前処理し、そのタスクと分野に関連し、多様性とバランスが取れていることを確認する必要があります。 また、お客様は、データ主体のプライバシーとセキュリティを保護するために、名前、住所、電子メール アドレスなどの機密情報や個人情報をデータから削除または匿名化する必要があります。 また、お客様は、データの品質と読みやすさを向上させるために、スペル、文法、書式などのデータのエラーや不整合をチェックして修正する必要があります。
    具体的には、Azure OpenAI の評価では、ユーザーが提供するグラウンド トゥルース データの精度が重要です。これは、不正確な地上真理値データが無意味で不正確な評価結果につながるためです。 モデルのパフォーマンスの有効な評価を得るために、このデータの品質と信頼性を確保することが不可欠です。 不正確なグラウンド・トゥルース・データは評価メトリックを歪め、その結果、モデルの機能に関する誤解を招く結論が出る可能性があります。 したがって、ユーザーは、評価プロセスがモデルの真のパフォーマンスを正確に反映するように、地上の真実データを慎重にキュレーションして検証する必要があります。 これは、実際のアプリケーションでのモデルのデプロイに関する決定を下すときに特に重要です
  • 評価のプロンプト定義: 評価で使用するプロンプトは、運用環境で使用する予定のプロンプトと一致する必要があります。 これらのプロンプトは、モデルが従う手順を示します。 OpenAI プレイグラウンドと同様に、複数の入力を作成して、プロンプトに少数の例を含めることができます。 プロンプト設計とプロンプト エンジニアリングの高度な手法の詳細については、 プロンプト エンジニアリング 手法を参照してください。
  • 多様なメトリック: メトリックの組み合わせを使用して、精度、流暢さ、関連性など、パフォーマンスのさまざまな側面をキャプチャします。
  • 人間中心のシステム: 人間のフィードバックを自動評価と統合して、主観的な微妙なニュアンスを正確に捉えるようにします。
  • 透明性: 評価基準をユーザーに明確に伝え、意思決定の方法を理解できるようにします。
  • 継続的な評価とテスト: モデルのパフォーマンスを継続的に評価して、回帰や否定的なユーザー エクスペリエンスを特定して対処します。

Azure OpenAI の自然言語モデルとビジョン モデルを利用用途に合わせて評価し統合すること

Azure OpenAI 評価を実施する手順は次のとおりです。

  1. 評価用のデータを提供する: JSONL 形式でアップロードされたフラット ファイルか、一連のプロンプトに基づいて生成されたデータ。
  2. データを評価するテスト ケースを指定する: 1 つ以上のテスト ケースを選択し、合格/不合格の成績で指定されたデータをスコア付けします。
  3. 結果の確認とフィルター処理: 各テストには、合格と失敗のスコアの定義が含まれています。 評価の実行後、ユーザーは行ごとの結果を確認して個々のテスト結果を表示したり、成功/失敗に基づいてフィルター処理したりできます。

これらのモデルを責任を持って評価および統合する方法の詳細については、 RAI の概要に関するドキュメントを参照してください。

責任ある AI の詳細を確認する

Azure OpenAI の詳細