よく寄せられる質問
[アーティクル] 2024/11/21
4 人の共同作成者
フィードバック
この記事の内容
サービスの使用を開始する操作方法
サービスの制限とは何ですか。
この機能でサポートされている言語は何ですか?
タグ付けされたファイルはどれくらい必要ですか?
トレーニングに長い時間がかかりますが、これは予想されることですか?
カスタム モデルをプログラムから作成するにはどうすればよいでしょうか?
推奨される CI/CD プロセスを教えてください
モデル スコアの高さまたは低さは、実稼働環境でのパフォーマンスの高さや低さを保証しますか?
モデルのパフォーマンスを向上させるにはどうすればよいですか?
モデルを再トレーニングすると、異なる結果が得られますが、なぜですか?
異なる言語で予測を取得するにはどうすればよいですか?
モデルをトレーニングしましたが、テストできません
トレーニング済みのモデルを予測にどのように使用する操作方法
データのプライバシーとセキュリティ
プロジェクトを複製する方法
次のステップ
さらに 12 個を表示
Azure AI Language でのカスタム テキスト分類に関する概念とシナリオについてのよくあるご質問に対する回答を示します。
初めてのプロジェクトを手軽に作るには、クイックスタート に関する記事をご覧ください。詳しくは、プロジェクトの作成方法 に関する記事をご覧ください。
サービスの制限 に関する記事をご覧ください。
言語のサポート に関する記事をご覧ください。
一般に、タグ付けが正確に、一貫して、完全に行われていれば、タグ付けされたデータ が多様で代表的であるほど、良い結果が得られます。 タグ付けされたクラスの数に、すべてのモデルのパフォーマンスを向上させる決まった数はありません。 パフォーマンスは、スキーマと、スキーマのあいまいさに大きく依存します。 あいまいなクラスには、より多くのタグが必要です。 パフォーマンスは、タグ付けの質にも依存します。 クラスあたりのタグ付けされたインスタンスの推奨数は 50 です。
トレーニングに長い時間がかかりますが、これは予想されることですか?
トレーニング プロセスには時間がかかる場合があります。 大まかな見積もりとして、合計の長さが 12,800,000 文字のファイルの予想されるトレーニング時間は 6 時間です。
カスタム モデルをプログラムから作成するにはどうすればよいでしょうか?
REST API を使用して、カスタム モデルを構築できます。 オーサリング API を呼び出す方法の例については、このクイックスタート に従って、プロジェクトの作成と API を使用したモデルの作成を開始します。
モデルを使用して予測を開始 する準備ができたら、REST API またはクライアント ライブラリを使用できます。
同じプロジェクト内の同じデータセットで複数のモデルをトレーニングできます。 モデルをうまくトレーニングしたら、その評価を表示 できます。 Language Studio 内でモデルをデプロイしてテスト できます。 データに対してタグを追加または削除し、新しい モデルをトレーニングしてテストすることもできます。 同じプロジェクトを使用したトレーニング済みモデルの最大数については、サービスの制限 を参照してください。 データにタグを付ける ときに、データセットをトレーニング セットとテスト セットに分割する方法を決定できます。
モデルの評価が常に包括的とは限りない場合があります。次に基づきます。
テスト セット が小さすぎる場合、良いスコアと悪いスコアはモデルの実際のパフォーマンスを示す値にはなりません。 また、テスト セットで特定のクラスが欠落しているか、表されていない場合は、モデルのパフォーマンスに影響します。
データの多様性 は、データが実稼働環境で予想されるテキストのシナリオや例の一部のみを対象とし、モデルが可能性があるすべてのシナリオの影響を受けなかった場合、トレーニング対象でなかったシナリオではパフォーマンスが低い可能性があります。
データ表現 は、モデルのトレーニングに使用されるデータセットが、実稼働環境でモデルに導入されるデータを表すものでない場合、モデルのパフォーマンスは大きく影響を受ける可能性があります。
詳細については、データの選択とスキーマ設計 に関する記事を参照してください。
モデル混同行列 を表示します。特定のクラスが誤って分類される頻度が高い場合は、このクラスにタグ付けされたインスタンスを追加する方法を検討してください。 2 つのクラスが互いに分類される頻度が高い場合は、スキーマがあいまいな場合は、両方を 1 つのクラスにマージしてパフォーマンスを向上させるのを検討してください。
データ分散を調べ ます。クラスの 1 つが他のクラスよりもはるかに多くのタグ付けされたインスタンスを持っている場合、モデルはこのクラスに偏っている可能性があります。 他のクラスにデータを追加するか、ほとんどの例を支配クラスから削除します。
詳細については、データの選択とスキーマ設計 に関する記事を参照してください。
テスト セットを調べて 、予測されたクラスとタグ付けされたクラスを並べて表示すると、モデルのパフォーマンスをよりよく理解し、スキーマまたはタグの変更が必要かどうかを判断できます。
モデルを再トレーニングすると、異なる結果が得られますが、なぜですか?
データにタグを付ける ときに、データセットをトレーニング セットとテスト セットに分割する方法を決定できます。 データセットをトレーニング セットとテスト セットにランダムに分割することもできます。したがって、反映されたモデル評価が同じテスト セットに存在する保証はないため、結果は比較できません。
同じモデルを再トレーニングする場合、テスト セットは同じですが、モデルによって行われた予測のわずかな変化に気付く場合があります。 これは、トレーニング済みのモデルが十分に堅牢でないためです。これは、データの代表的な明確さ、およびタグ付けされたデータの品質の要因です。
異なる言語で予測を取得するにはどうすればよいですか?
まず、プロジェクトの作成 時に多言語オプションを有効にする必要があります。または、後でプロジェクト設定ページから有効にすることもできます。 モデルをトレーニングしてデプロイした後は、複数の言語でモデルのクエリを開始できます。 言語によって結果が異なる場合があります。 任意の言語の精度を向上させるには、その言語でプロジェクトにタグ付きインスタンスを追加して、その言語のさらに多くの構文にトレーニング済みモデルを導入します。 詳細については、言語のサポート に関するページをご覧ください。
テストする前に、モデルをデプロイする 必要があります。
トレーニング済みのモデルを予測にどのように使用する操作方法
モデルをデプロイした後、REST API またはクライアント ライブラリ を使用して予測 API を呼び出し ます。
カスタム テキスト分類は、データ処理 (GDPR) 一般データ保護規則データ プロセッサです。 GDPR ポリシーに準拠するために、カスタム テキスト分類のユーザーは、Language Studio を使用するか、REST API を使用してプログラムによって、すべてのユーザー コンテンツの表示、エクスポート、削除を完全に制御できます。
データは、Azure ストレージ アカウントにのみ格納されます。 カスタム テキスト分類は、トレーニング中にそこから読み取るアクセス権のみを持っています。
プロジェクトを複製するには、エクスポート API を使用してプロジェクト アセットをエクスポートし、新しいプロジェクトにインポートする必要があります。 両方の操作については、REST API リファレンスを参照してください。