英語で読む

次の方法で共有


よく寄せられる質問

Azure AI Language でのカスタム テキスト分類に関する概念とシナリオについてのよくあるご質問に対する回答を示します。

サービスの使用を開始する操作方法

初めてのプロジェクトを手軽に作るには、クイックスタートに関する記事をご覧ください。詳しくは、プロジェクトの作成方法に関する記事をご覧ください。

サービスの制限とは何ですか。

サービスの制限に関する記事をご覧ください。

この機能でサポートされている言語は何ですか?

言語のサポートに関する記事をご覧ください。

タグ付けされたファイルはどれくらい必要ですか?

一般に、タグ付けが正確に、一貫して、完全に行われていれば、タグ付けされたデータが多様で代表的であるほど、良い結果が得られます。 タグ付けされたクラスの数に、すべてのモデルのパフォーマンスを向上させる決まった数はありません。 パフォーマンスは、スキーマと、スキーマのあいまいさに大きく依存します。 あいまいなクラスには、より多くのタグが必要です。 パフォーマンスは、タグ付けの質にも依存します。 クラスあたりのタグ付けされたインスタンスの推奨数は 50 です。

トレーニングに長い時間がかかりますが、これは予想されることですか?

トレーニング プロセスには時間がかかる場合があります。 大まかな見積もりとして、合計の長さが 12,800,000 文字のファイルの予想されるトレーニング時間は 6 時間です。

カスタム モデルをプログラムから作成するにはどうすればよいでしょうか?

REST API を使用して、カスタム モデルを構築できます。 オーサリング API を呼び出す方法の例については、このクイックスタートに従って、プロジェクトの作成と API を使用したモデルの作成を開始します。

モデルを使用して予測を開始する準備ができたら、REST API またはクライアント ライブラリを使用できます。

同じプロジェクト内の同じデータセットで複数のモデルをトレーニングできます。 モデルをうまくトレーニングしたら、その評価を表示できます。 Language Studio 内でモデルをデプロイしてテストできます。 データに対してタグを追加または削除し、新しいモデルをトレーニングしてテストすることもできます。 同じプロジェクトを使用したトレーニング済みモデルの最大数については、サービスの制限を参照してください。 データにタグを付けるときに、データセットをトレーニング セットとテスト セットに分割する方法を決定できます。

モデル スコアの高さまたは低さは、実稼働環境でのパフォーマンスの高さや低さを保証しますか?

モデルの評価が常に包括的とは限りない場合があります。次に基づきます。

  • テスト セットが小さすぎる場合、良いスコアと悪いスコアはモデルの実際のパフォーマンスを示す値にはなりません。 また、テスト セットで特定のクラスが欠落しているか、表されていない場合は、モデルのパフォーマンスに影響します。
  • データの多様性は、データが実稼働環境で予想されるテキストのシナリオや例の一部のみを対象とし、モデルが可能性があるすべてのシナリオの影響を受けなかった場合、トレーニング対象でなかったシナリオではパフォーマンスが低い可能性があります。
  • データ表現は、モデルのトレーニングに使用されるデータセットが、実稼働環境でモデルに導入されるデータを表すものでない場合、モデルのパフォーマンスは大きく影響を受ける可能性があります。

詳細については、データの選択とスキーマ設計に関する記事を参照してください。

モデルのパフォーマンスを向上させるにはどうすればよいですか?

  • モデル混同行列を表示します。特定のクラスが誤って分類される頻度が高い場合は、このクラスにタグ付けされたインスタンスを追加する方法を検討してください。 2 つのクラスが互いに分類される頻度が高い場合は、スキーマがあいまいな場合は、両方を 1 つのクラスにマージしてパフォーマンスを向上させるのを検討してください。

  • データ分散を調べます。クラスの 1 つが他のクラスよりもはるかに多くのタグ付けされたインスタンスを持っている場合、モデルはこのクラスに偏っている可能性があります。 他のクラスにデータを追加するか、ほとんどの例を支配クラスから削除します。

  • 詳細については、データの選択とスキーマ設計に関する記事を参照してください。

  • テスト セットを調べて、予測されたクラスとタグ付けされたクラスを並べて表示すると、モデルのパフォーマンスをよりよく理解し、スキーマまたはタグの変更が必要かどうかを判断できます。

モデルを再トレーニングすると、異なる結果が得られますが、なぜですか?

  • データにタグを付けるときに、データセットをトレーニング セットとテスト セットに分割する方法を決定できます。 データセットをトレーニング セットとテスト セットにランダムに分割することもできます。したがって、反映されたモデル評価が同じテスト セットに存在する保証はないため、結果は比較できません。

  • 同じモデルを再トレーニングする場合、テスト セットは同じですが、モデルによって行われた予測のわずかな変化に気付く場合があります。 これは、トレーニング済みのモデルが十分に堅牢でないためです。これは、データの代表的な明確さ、およびタグ付けされたデータの品質の要因です。

異なる言語で予測を取得するにはどうすればよいですか?

まず、プロジェクトの作成時に多言語オプションを有効にする必要があります。または、後でプロジェクト設定ページから有効にすることもできます。 モデルをトレーニングしてデプロイした後は、複数の言語でモデルのクエリを開始できます。 言語によって結果が異なる場合があります。 任意の言語の精度を向上させるには、その言語でプロジェクトにタグ付きインスタンスを追加して、その言語のさらに多くの構文にトレーニング済みモデルを導入します。 詳細については、言語のサポートに関するページをご覧ください。

モデルをトレーニングしましたが、テストできません

テストする前に、モデルをデプロイする必要があります。

トレーニング済みのモデルを予測にどのように使用する操作方法

モデルをデプロイした後、REST API またはクライアント ライブラリを使用して予測 API を呼び出します。

データのプライバシーとセキュリティ

カスタム テキスト分類は、データ処理 (GDPR) 一般データ保護規則データ プロセッサです。 GDPR ポリシーに準拠するために、カスタム テキスト分類のユーザーは、Language Studio を使用するか、REST API を使用してプログラムによって、すべてのユーザー コンテンツの表示、エクスポート、削除を完全に制御できます。

データは、Azure ストレージ アカウントにのみ格納されます。 カスタム テキスト分類は、トレーニング中にそこから読み取るアクセス権のみを持っています。

プロジェクトを複製する方法

プロジェクトを複製するには、エクスポート API を使用してプロジェクト アセットをエクスポートし、新しいプロジェクトにインポートする必要があります。 両方の操作については、REST API リファレンスを参照してください。

次のステップ