カスタム テキスト分類で使用される用語と定義

この記事を使用して、カスタム テキスト分類の使用時に遭遇する可能性のあるいくつかの定義と用語について学習してください。

クラス

クラスは、テキストの全体的な分類を示すユーザー定義カテゴリです。 開発者は、トレーニングのためにモデルに渡す前に、クラスでデータにラベル付けします。

F1 スコア

F1 スコアは、精度とリコールの関数です。 精度リコールのバランスを取るときに必要です。

モデル

モデルは、特定のタスク (ここでは、テキスト分類タスク) を実行するためにトレーニングされるオブジェクトです。 モデルは、ラベル付けされたデータを提供することによってトレーニングされ、後で分類タスクに使用できます。

  • モデルのトレーニングは、ラベル付けされたデータに基づいてドキュメント分類する方法をモデルに教えるプロセスです。
  • モデルの評価は、モデルがどの程度適切に実行されるかを把握するために、トレーニングの直後に行うプロセスです。
  • デプロイは、モデルをデプロイに割り当てて、予測 API を介して使用できるようにするプロセスです。

有効桁数

モデルの精密さと正確さを測定します。 これは、正しく識別された陽性 (真陽性) と識別されたすべての陽性との比率です。 精度メトリックによって、予測クラスのうち、正しくラベル付けされている数が明らかになります。

Project

プロジェクトは、データに基づいてカスタム ML モデルを構築するための作業領域です。 プロジェクトにアクセスできるのは、自分と、使用されている Azure リソースへのアクセス権を持つユーザーのみです。 カスタム テキスト分類プロジェクトを作成するための前提条件として、新しいプロジェクトを作成するときに、データセットを含むストレージ アカウントにリソースを接続する必要があります。 プロジェクトには、コンテナー内にあるすべての .txt ファイルが自動的に組み込まれます。

プロジェクト内で、以下を実行できます。

  • データにラベル付けする: モデルのトレーニング時にそのモデルが抽出する内容を学習するように、データにラベルを付けるプロセスです。
  • モデルを構築してトレーニングする: モデルがラベル付けされたデータから学習を開始する、プロジェクトのコア ステップです。
  • モデルの評価の詳細を表示する: モデルのパフォーマンスを確認して、改善の余地があるかどうか、または結果に満足できるかどうかを判断します。
  • デプロイ: モデルのパフォーマンスを確認し、環境で使用するのに適していると判断したら、クエリを実行できるようにデプロイに割り当てる必要があります。 モデルをデプロイに割り当てると、予測 API を通じて使用できるようになります。
  • テスト モデル: モデルをデプロイした後、Language Studio でこの操作を使用してデプロイを試し、運用環境でどのように実行されるかを確認できます。

プロジェクトの種類

カスタム テキスト分類では、次の 2 種類のプロジェクトがサポートされています。

  • 単一ラベル分類 - データセットの各ドキュメントに単一のクラスを割り当てることができます。 たとえば、1 本の映画の脚本を "ロマンス" と "コメディ" のどちらかに分類できます。
  • 複数ラベル分類 - データセットの各ドキュメントに複数のクラスを割り当てることができます。 たとえば、1 本の映画の脚本を "コメディ" か、"ロマンス" かつ "コメディ" に分類できます。

呼び戻し

実際の陽性クラスを予測するモデルの能力を測定します。 これは、予測された真陽性と実際にタグ付けされたものとの比率です。 リコール メトリックによって、予測クラスのうち、正しいものの数が明らかになります。

次のステップ