よく寄せられる質問

[アーティクル]
2024/11/21

Azure AI Language でのカスタムテキスト分類に関する概念とシナリオについてのよくあるご質問に対する回答を示します。

サービスの使用を開始する操作方法

初めてのプロジェクトを手軽に作るには、クイックスタートに関する記事をご覧ください。詳しくは、プロジェクトの作成方法に関する記事をご覧ください。

サービスの制限とは何ですか。

サービスの制限に関する記事をご覧ください。

この機能でサポートされている言語は何ですか?

言語のサポートに関する記事をご覧ください。

タグ付けされたファイルはどれくらい必要ですか?

一般に、タグ付けが正確に、一貫して、完全に行われていれば、タグ付けされたデータが多様で代表的であるほど、良い結果が得られます。タグ付けされたクラスの数に、すべてのモデルのパフォーマンスを向上させる決まった数はありません。パフォーマンスは、スキーマと、スキーマのあいまいさに大きく依存します。あいまいなクラスには、より多くのタグが必要です。パフォーマンスは、タグ付けの質にも依存します。クラスあたりのタグ付けされたインスタンスの推奨数は 50 です。

トレーニングに長い時間がかかりますが、これは予想されることですか?

トレーニングプロセスには時間がかかる場合があります。大まかな見積もりとして、合計の長さが 12,800,000 文字のファイルの予想されるトレーニング時間は 6 時間です。

カスタムモデルをプログラムから作成するにはどうすればよいでしょうか?

REST API を使用して、カスタムモデルを構築できます。オーサリング API を呼び出す方法の例については、このクイックスタートに従って、プロジェクトの作成と API を使用したモデルの作成を開始します。

モデルを使用して予測を開始する準備ができたら、REST API またはクライアントライブラリを使用できます。

推奨される CI/CD プロセスを教えてください

同じプロジェクト内の同じデータセットで複数のモデルをトレーニングできます。モデルをうまくトレーニングしたら、その評価を表示できます。 Language Studio 内でモデルをデプロイしてテストできます。データに対してタグを追加または削除し、新しいモデルをトレーニングしてテストすることもできます。同じプロジェクトを使用したトレーニング済みモデルの最大数については、サービスの制限を参照してください。データにタグを付けるときに、データセットをトレーニングセットとテストセットに分割する方法を決定できます。

モデルスコアの高さまたは低さは、実稼働環境でのパフォーマンスの高さや低さを保証しますか?

モデルの評価が常に包括的とは限りない場合があります。次に基づきます。

テストセットが小さすぎる場合、良いスコアと悪いスコアはモデルの実際のパフォーマンスを示す値にはなりません。また、テストセットで特定のクラスが欠落しているか、表されていない場合は、モデルのパフォーマンスに影響します。
データの多様性は、データが実稼働環境で予想されるテキストのシナリオや例の一部のみを対象とし、モデルが可能性があるすべてのシナリオの影響を受けなかった場合、トレーニング対象でなかったシナリオではパフォーマンスが低い可能性があります。
データ表現は、モデルのトレーニングに使用されるデータセットが、実稼働環境でモデルに導入されるデータを表すものでない場合、モデルのパフォーマンスは大きく影響を受ける可能性があります。

詳細については、データの選択とスキーマ設計に関する記事を参照してください。

モデルのパフォーマンスを向上させるにはどうすればよいですか?

モデル混同行列を表示します。特定のクラスが誤って分類される頻度が高い場合は、このクラスにタグ付けされたインスタンスを追加する方法を検討してください。 2 つのクラスが互いに分類される頻度が高い場合は、スキーマがあいまいな場合は、両方を 1 つのクラスにマージしてパフォーマンスを向上させるのを検討してください。
データ分散を調べます。クラスの 1 つが他のクラスよりもはるかに多くのタグ付けされたインスタンスを持っている場合、モデルはこのクラスに偏っている可能性があります。他のクラスにデータを追加するか、ほとんどの例を支配クラスから削除します。
詳細については、データの選択とスキーマ設計に関する記事を参照してください。
テストセットを調べて、予測されたクラスとタグ付けされたクラスを並べて表示すると、モデルのパフォーマンスをよりよく理解し、スキーマまたはタグの変更が必要かどうかを判断できます。

モデルを再トレーニングすると、異なる結果が得られますが、なぜですか?

データにタグを付けるときに、データセットをトレーニングセットとテストセットに分割する方法を決定できます。データセットをトレーニングセットとテストセットにランダムに分割することもできます。したがって、反映されたモデル評価が同じテストセットに存在する保証はないため、結果は比較できません。
同じモデルを再トレーニングする場合、テストセットは同じですが、モデルによって行われた予測のわずかな変化に気付く場合があります。これは、トレーニング済みのモデルが十分に堅牢でないためです。これは、データの代表的な明確さ、およびタグ付けされたデータの品質の要因です。

異なる言語で予測を取得するにはどうすればよいですか?

まず、プロジェクトの作成時に多言語オプションを有効にする必要があります。または、後でプロジェクト設定ページから有効にすることもできます。モデルをトレーニングしてデプロイした後は、複数の言語でモデルのクエリを開始できます。言語によって結果が異なる場合があります。任意の言語の精度を向上させるには、その言語でプロジェクトにタグ付きインスタンスを追加して、その言語のさらに多くの構文にトレーニング済みモデルを導入します。詳細については、言語のサポートに関するページをご覧ください。

モデルをトレーニングしましたが、テストできません

テストする前に、モデルをデプロイする必要があります。

トレーニング済みのモデルを予測にどのように使用する操作方法

モデルをデプロイした後、REST API またはクライアントライブラリを使用して予測 API を呼び出します。

データのプライバシーとセキュリティ

カスタムテキスト分類は、データ処理 (GDPR) 一般データ保護規則データプロセッサです。 GDPR ポリシーに準拠するために、カスタムテキスト分類のユーザーは、Language Studio を使用するか、REST API を使用してプログラムによって、すべてのユーザーコンテンツの表示、エクスポート、削除を完全に制御できます。

データは、Azure ストレージアカウントにのみ格納されます。カスタムテキスト分類は、トレーニング中にそこから読み取るアクセス権のみを持っています。

プロジェクトを複製する方法

プロジェクトを複製するには、エクスポート API を使用してプロジェクトアセットをエクスポートし、新しいプロジェクトにインポートする必要があります。両方の操作については、REST API リファレンスを参照してください。

次のステップ

その他のリソース

ドキュメント

カスタムモデルにテキスト分類要求を送信する - Azure AI services

カスタムテキスト分類の要求を送信する方法について説明します。
カスタムテキスト分類での言語サポート - Azure AI services

カスタムテキスト分類でサポートされる言語について説明します。
カスタムテキスト分類で使用される定義 - Azure AI services

カスタムテキスト分類で使用される定義について説明します。
クイックスタート - カスタムテキスト分類 - Azure AI services

AI モデルの構築をすばやく開始して、非構造化テキストを識別してラベルを適用 (分類) します。
カスタムテキスト分類の制限 - Azure AI services

カスタムテキスト分類を使用するときのデータとレートの制限について説明します。
カスタムテキスト分類モデルをトレーニングする方法 - Azure AI サービス - Azure AI services

カスタムテキスト分類のモデルをトレーニングする方法について説明します。
カスタムテキスト分類データ形式 - Azure AI services

カスタムテキスト分類によって受け入れられるデータ形式について説明します。
カスタムテキスト分類 - Azure AI サービス - Azure AI services

Azure AI サービスを使用してドキュメントやその他のコンテンツを分類するように AI モデルをカスタマイズします。

トレーニング

モジュール

カスタムテキスト分類ソリューションを作成する - Training

Azure AI Language サービスを使用すると、自分自身のアプリ内で自然言語の処理を有効にできます。カスタムテキスト分類プロジェクトを作成する方法について説明します。

認定資格

Microsoft Certified: Azure Data Scientist Associate - Certifications

Python、Azure Machine Learning、MLflow を使用して、データのインジェストと準備、モデルのトレーニングとデプロイ、機械学習ソリューションの監視を管理します。

次の方法で共有

よく寄せられる質問

サービスの使用を開始する操作方法

サービスの制限とは何ですか。

この機能でサポートされている言語は何ですか?

タグ付けされたファイルはどれくらい必要ですか?

トレーニングに長い時間がかかりますが、これは予想されることですか?

カスタムモデルをプログラムから作成するにはどうすればよいでしょうか?

推奨される CI/CD プロセスを教えてください

モデルスコアの高さまたは低さは、実稼働環境でのパフォーマンスの高さや低さを保証しますか?

モデルのパフォーマンスを向上させるにはどうすればよいですか?

モデルを再トレーニングすると、異なる結果が得られますが、なぜですか?

異なる言語で予測を取得するにはどうすればよいですか?

モデルをトレーニングしましたが、テストできません

トレーニング済みのモデルを予測にどのように使用する操作方法

データのプライバシーとセキュリティ

プロジェクトを複製する方法

次のステップ

フィードバック

その他のリソース

次の方法で共有

よく寄せられる質問

サービスの使用を開始する操作方法

サービスの制限とは何ですか。

この機能でサポートされている言語は何ですか?

タグ付けされたファイルはどれくらい必要ですか?

トレーニングに長い時間がかかりますが、これは予想されることですか?

カスタム モデルをプログラムから作成するにはどうすればよいでしょうか?

推奨される CI/CD プロセスを教えてください

モデル スコアの高さまたは低さは、実稼働環境でのパフォーマンスの高さや低さを保証しますか?

モデルのパフォーマンスを向上させるにはどうすればよいですか?

モデルを再トレーニングすると、異なる結果が得られますが、なぜですか?

異なる言語で予測を取得するにはどうすればよいですか?

モデルをトレーニングしましたが、テストできません

トレーニング済みのモデルを予測にどのように使用する操作方法

データのプライバシーとセキュリティ

プロジェクトを複製する方法

次のステップ

フィードバック

その他のリソース

カスタムモデルをプログラムから作成するにはどうすればよいでしょうか?

モデルスコアの高さまたは低さは、実稼働環境でのパフォーマンスの高さや低さを保証しますか?