クイックスタート: カスタムテキスト分類

この記事を使って、テキスト分類のカスタムモデルをトレーニングできるカスタムテキスト分類プロジェクトの作成を開始します。モデルは、特定のタスクを実行するようにトレーニングされた AI ソフトウェアです。このシステムでは、モデルによってテキストが分類され、タグ付けされたデータから学習することでモデルがトレーニングされます。

カスタムテキスト分類では、次の 2 種類のプロジェクトがサポートされています。

単一ラベル分類 - データセットの各ドキュメントに単一のクラスを割り当てることができます。たとえば、映画のスクリプトは、"ロマンス" または "コメディ" としてのみ分類できます。
複数ラベル分類 - データセットの各ドキュメントに複数のクラスを割り当てることができます。たとえば、映画のスクリプトは、"コメディ" または "ロマンス" と "コメディ" に分類できます。

このクイックスタートでは、提供されているサンプルデータセットを使用して複数のラベル分類を作成し、ムービースクリプトを 1 つ以上のカテゴリに分類できます。または、単一のラベル分類データセットを使用して、科学論文の要約を定義されたドメインのいずれかに分類することもできます。

前提条件

Azure サブスクリプション - 無料アカウントを作成します。

Foundry Tools リソースと Azure ストレージアカウントで新しい Azure 言語を作成する

カスタムテキスト分類を使用するには、プロジェクトを作成してモデルのトレーニングを開始するために必要な資格情報を提供する言語リソースを作成する必要があります。また、モデルの構築に使用されるデータセットをアップロードできる Azure ストレージアカウントも必要です。

重要

すぐに開始するには、この記事で説明する手順を使用して、新しい言語リソースを作成することをお勧めします。この記事の手順を使用すると、Azure 言語リソースとストレージアカウントを同時に作成できます。これは後で行うよりも簡単です。

使用する既存のリソースがある場合は、ストレージアカウントに接続する必要があります。

ストレージアカウントを利用するすべてのリソースを操作するには、ストレージ BLOB データ共同作成者ロールの追加が不可欠です。

Azure portal から新しいリソースを作成する

Azure portal に移動して、Foundry Tools リソースで新しい Azure 言語を作成します。
ウィンドウが表示されるので、カスタム機能から [カスタムテキスト分類とカスタム固有表現認識] を選びます。画面の下部にある [リソースの作成を続行する] を選択します。

次の詳細を使用して言語リソースを作成します。

名前	必須値
サブスクリプション	Azure サブスクリプション。
リソースグループ	リソースを含むリソースグループ。既存のものを使用するか、新しく作成することができます。
リージョン	サポートされているリージョンのいずれか。たとえば、"米国西部 2" です。
名前	リソースの名前。
価格階層	サポートされている価格レベルのいずれか。 Free (F0) レベルを利用してサービスを試用できます。

"ログインアカウントが選択したストレージアカウントのリソースグループの所有者ではない" ことを通知するメッセージが表示された場合は、言語リソースを作成する前に、アカウントでそのリソースグループに所有者ロールを割り当てる必要があります。 Azure サブスクリプションの所有者に問い合わせてください。

Azure サブスクリプションの所有者を確認するには、リソースグループを検索し、リンクに従ってそれに関連付けられているサブスクリプションに移動します。その後、以下を実行します。

[アクセス制御 (IAM)] タブを選びます
[ロールの割り当て] を選びます
Role:Owner でフィルター処理します。

[カスタムテキスト分類とカスタム固有表現認識] セクションで、既存のストレージアカウントを選択するか、[新しいストレージアカウント] を選択します。これらの値は使用を開始するためのものであり、運用環境で使用したいストレージアカウントの値である必要はないことに注意してください。プロジェクトビルド中の待機時間をなくすには、言語リソースと同じリージョンのストレージアカウントに接続します。

ストレージアカウントの値推奨値

ストレージアカウント名任意の名前

ストレージアカウントの種類標準 LRS
[責任ある AI の通知] がオンになっていることを確認します。ページ下部にある [確認と作成] を選択します。

ストレージアカウントの値	推奨値
ストレージアカウント名	任意の名前
ストレージアカウントの種類	標準 LRS

サンプルデータを BLOB コンテナーにアップロードする

Azure ストレージアカウントを作成して言語リソースに接続したら、サンプルデータセットからコンテナーのルートディレクトリにドキュメントをアップロードする必要があります。これらのドキュメントは、モデルのトレーニングに使用されます。

マルチラベル分類
単一ラベルの分類

複数ラベル分類プロジェクト用のサンプルデータセットをダウンロードします。
.zip ファイルを開き、ドキュメントが格納されているフォルダーを展開します。

用意されているサンプルデータセットには約 200 個のドキュメントが含まれており、それぞれが映画の要約です。各ドキュメントは、次のクラスの 1 つまたは複数に属します。

"ミステリー"
"ドラマ"
"スリラー"
"コメディ"
"アクション"

Azure portal で、作成したストレージアカウントに移動し、ストレージ アカウントを選択し、任意のフィールドの [フィルター] にストレージアカウント名を入力して選択します。

リソースグループが表示されない場合は、[ サブスクリプションと等しい ] フィルターが [すべて] に設定されていることを確認します。
ストレージアカウントで、左側のメニューの [データストレージ] の下にある [コンテナー] を選択します。表示された画面で、[+ コンテナー] を選択します。コンテナーに example-data という名前を付け、既定のパブリックアクセスレベルをそのまま使用します。
コンテナーが作成されたら、それを選択します。次に、[アップロード] ボタンを選択して、先ほどダウンロードした .txt および .json ファイルを選択します。

カスタムテキスト分類プロジェクトを作成する

リソースとストレージコンテナーが構成されたら、新しいカスタムテキスト分類プロジェクトを作成します。プロジェクトとは、データに基づいてカスタム ML モデルを構築するための作業領域です。プロジェクトには、使用されている Azure 言語リソースにアクセスできるユーザーと他のユーザーのみがアクセスできます。

Language Studio にサインインします。サブスクリプションと言語リソースを選択できるウィンドウが表示されます。言語リソースを選びます。
Language Studio の [テキストの分類] セクションで、[カスタムテキストの分類] を選択します。
プロジェクトページの上部メニューから、[Create new project]\(新しいプロジェクトの作成\) を選択します。プロジェクトを作成すると、データのラベル付け、モデルのトレーニング、評価、改善、デプロイを行うことができます。
[ 新しいプロジェクトの作成] を選択すると、ストレージアカウントを接続するためのウィンドウが表示されます。ストレージアカウントを既に接続している場合は、プロジェクトに接続されているのを確認できます。表示されない場合は、表示されるドロップダウンからストレージアカウントを選択し、[ ストレージアカウントの接続] を選択します。この選択により、ストレージアカウントに必要なロールが設定されます。この手順では、ストレージアカウントの 所有者 として割り当てられていない場合、エラーが返される可能性があります。
Note
- この手順は、新しい言語リソースを使用するたびに 1 回だけ行う必要があります。
- このプロセスは元に戻すことはできません。ストレージアカウントを言語リソースに接続した場合、後で切断することはできません。
- 言語リソースは 1 つのストレージアカウントにのみ接続できます。
プロジェクトタイプを選択します。各ドキュメントが 1 つまたは複数のクラスに属することができる複数ラベル分類プロジェクト、または各ドキュメントが 1 つのクラスにのみ属することができる単一ラベル分類プロジェクトのいずれかを作成できます。選択したタイプを後で変更することはできません。プロジェクトの種類の詳細
名前、説明、プロジェクト内のドキュメントの言語など、プロジェクトの情報を入力します。サンプルデータセットを使用する場合は、[英語] を選択します。後でプロジェクトの名前を変更することはできません。 [次へ]を選択します。

ヒント

データセットは、すべて同じ言語である必要はありません。サポート言語がそれぞれ異なるドキュメントを複数用意することができます。データセットに異なる言語のドキュメントが含まれている場合、または実行時に異なる言語のテキストを想定している場合は、プロジェクトの基本情報を入力するときに [多言語データセットを有効にする] オプションを選択します。このオプションは、後で [プロジェクトの設定] ページから有効にすることができます。
データセットをアップロードしたコンテナーを選択します。

Note

既にデータにラベルを付けた場合は、サポートされている形式に従っていることを確認し、[はい] を選択します。 ドキュメントには既にラベルが付いています。また、JSON ラベルファイルを書式設定 し、ドロップダウンメニューからラベルファイルを選択します。

データセットの例のいずれかを使用している場合は、含まれている webOfScience_labelsFile または json ファイル movieLabels 使用します。 [次へ]を選択します。
入力したデータを確認し、[Create Project]\(プロジェクトの作成\) を選びます。

モデルをトレーニングする

通常、プロジェクトを作成した後、先に進み、プロジェクトに接続されているコンテナーにあるドキュメントのラベル付けを開始します。このクイックスタートでは、ラベル付けされたサンプルデータセットをインポートし、サンプル JSON ラベルファイルを使用してプロジェクトを初期化しました。

Language Studio 内からモデルのトレーニングを開始するには:

左側のメニューから [トレーニングジョブ] を選びます。
上部のメニューから [トレーニングジョブの開始] を選択します。
[新しいモデルのトレーニング] を選択し、テキストボックスにモデル名を入力します。また、[既存のモデルを上書きする] オプションを選択し、ドロップダウンメニューから上書きするモデルを選択することにより、既存のモデルを上書きすることもできます。トレーニング済みモデルを上書きすると、元に戻すことはできません。ただし、新しいモデルをデプロイするまで、デプロイされているモデルには影響しません。
データの分割方法を選択します。 [トレーニング用データからテスト用セットを自動分割] を選択できます。その場合、システムにより、指定した割合に従って、ラベル付けされたデータがトレーニング用セットとテスト用セットに分割されます。または、 トレーニングデータとテストデータを手動で分割して使用することもできます。このオプションは、データのラベル付け中にテストセットにドキュメントを追加した場合にのみ有効になります。データ分割の詳細については、モデルのトレーニング方法に関するセクションを参照してください。
[トレーニング] ボタンを選択します。
一覧からトレーニングジョブ ID を選択すると、サイドペインが表示され、そのジョブの [トレーニングの進行状況]、[ジョブの状態]、その他の詳細を確認できます。
Note
- 正常に完了したトレーニングジョブでのみ、モデルが生成されます。
- モデルのトレーニングには、ラベル付けされたデータのサイズに基づいて、数分から数時間かかる場合があります。
- 一度に実行できるトレーニングジョブは 1 つだけです。実行中のジョブが完了するまで、同じプロジェクト内で他のトレーニングジョブを開始することはできません。

モデルをデプロイする

通常はモデルをトレーニングした後、その評価の詳細を確認し、必要に応じて改善を行います。このクイックスタートでは、モデルをデプロイし、Language Studio で試用できるようにするか、予測 API を呼び出すことができます。

Language Studio 内からモデルをデプロイするには、次の手順を行います。

左側のメニューから [モデルのデプロイ] を選択します。
[デプロイの追加] を選択して、新しいデプロイジョブを開始します。
[新しいデプロイの作成] を選択して新しいデプロイを作成し、下のドロップダウンからトレーニング済みモデルを割り当てます。また、[既存のデプロイを上書きする] オプションを選択し、ドロップダウンメニューからトレーニング済みモデルを選択することにより、既存のデプロイを上書きすることもできます。

Note

既存のデプロイを上書きする場合、予測 API 呼び出しを変更する必要はなく、新しく割り当てたモデルに基づいて結果が得られるようになります。
[デプロイ] を選択して、デプロイジョブを開始します。
デプロイが成功すると、その横に有効期限が表示されます。デプロイの有効期限とは、デプロイされたモデルを予測に使用できなくなるときであり、通常は、トレーニング構成の有効期限が切れる 12 か月後に発生します。

モデルのテスト

モデルがデプロイされたら、モデルの使用を開始して予測 API を使ってテキストを分類できます。このクイックスタートでは、 Language Studio を使用してカスタムテキスト分類タスクを送信し、結果を視覚化します。サンプルデータセットでは、前にダウンロードしたテストドキュメントの中から、この手順で使用できるテストドキュメントを見つけることができます。

デプロイされたモデルを Language Studio 内でテストするには、次のようにします。

画面左側のメニューから [Testing deployments](デプロイのテスト) を選択します。
テストするデプロイを選択します。テストできるのは、デプロイに割り当てられているモデルのみです。
多言語プロジェクトの場合は、言語ドロップダウンを使用してテストするテキストの言語を選択します。
ドロップダウンからクエリを実行またはテストするデプロイを選択します。
要求で送信するテキストを入力するか、使用する .txt ドキュメントをアップロードします。データセットの例のいずれかを使っている場合は、含まれている .txt ファイルのいずれかを使用できます。
上部のメニューから [テストを実行する] を選択します。
[Result]\(結果\) タブで、テキストに対して予測されたクラスを確認できます。 [JSON] タブで JSON 応答を表示することもできます。次の例は、単一ラベル分類プロジェクトの場合です。複数ラベル分類プロジェクトでは、結果に複数のクラスが返される可能性があります。

プロジェクトをクリーンアップする

プロジェクトが不要な場合は、Language Studio を使ってプロジェクトを削除できます。上部の [カスタムテキスト分類] を選択し、削除するプロジェクトを選択します。上部のメニューから [削除] を選択して、プロジェクトを削除します。

前提条件

Azure サブスクリプション - 無料アカウントを作成します。

Foundry Tools リソースと Azure ストレージアカウントで新しい Azure 言語を作成する

カスタムテキスト分類を使用する前に、言語リソースを作成する必要があります。このリソースでは、プロジェクトを作成してモデルのトレーニングを開始するために必要な資格情報が提供されます。また、モデルの構築に使用するデータセットをアップロードできる Azure ストレージアカウントも必要です。

重要

すぐに開始するには、この記事で説明する手順を使用して新しい言語リソースを作成することをお勧めします。これにより、Azure 言語リソースを作成し、ストレージアカウントの作成と接続を同時に行うことができます。これは後で行うよりも簡単です。

使用する既存のリソースがある場合は、ストレージアカウントに接続する必要があります。

Azure portal から新しいリソースを作成する

Azure portal に移動して、Foundry Tools リソースで新しい Azure 言語を作成します。
ウィンドウが表示されるので、カスタム機能から [カスタムテキスト分類とカスタム固有表現認識] を選びます。画面の下部にある [リソースの作成を続行する] を選択します。

次の詳細を使用して言語リソースを作成します。

名前	必須値
サブスクリプション	Azure サブスクリプション。
リソースグループ	リソースを含むリソースグループ。既存のものを使用するか、新しく作成することができます。
リージョン	サポートされているリージョンのいずれか。たとえば、"米国西部 2" です。
名前	リソースの名前。
価格階層	サポートされている価格レベルのいずれか。 Free (F0) レベルを利用してサービスを試用できます。

[アクセス制御 (IAM)] タブを選びます
[ロールの割り当て] を選びます
Role:Owner でフィルター処理します。

[カスタムテキスト分類とカスタム固有表現認識] セクションで、既存のストレージアカウントを選択するか、[新しいストレージアカウント] を選択します。これらの値は使用を開始するためのものであり、運用環境で使用したいストレージアカウントの値である必要はないことに注意してください。プロジェクトビルド中の待機時間をなくすには、言語リソースと同じリージョンのストレージアカウントに接続します。

ストレージアカウントの値推奨値

ストレージアカウント名任意の名前

ストレージアカウントの種類標準 LRS
[責任ある AI の通知] がオンになっていることを確認します。ページ下部にある [確認と作成] を選択します。

ストレージアカウントの値	推奨値
ストレージアカウント名	任意の名前
ストレージアカウントの種類	標準 LRS

複数ラベル分類プロジェクト用のサンプルデータセットをダウンロードします。
.zip ファイルを開き、ドキュメントが格納されているフォルダーを展開します。

"ミステリー"
"ドラマ"
"スリラー"
"コメディ"
"アクション"

Azure portal で、作成したストレージアカウントに移動し、ストレージ アカウントを選択し、任意のフィールドの [フィルター] にストレージアカウント名を入力して選択します。

リソースグループが表示されない場合は、[ サブスクリプションと等しい ] フィルターが [すべて] に設定されていることを確認します。
ストレージアカウントで、左側のメニューの [データストレージ] の下にある [コンテナー] を選択します。表示された画面で、[+ コンテナー] を選択します。コンテナーに example-data という名前を付け、既定のパブリックアクセスレベルをそのまま使用します。
コンテナーが作成されたら、それを選択します。次に、[アップロード] ボタンを選択して、先ほどダウンロードした .txt および .json ファイルを選択します。

リソースのキーとエンドポイントを取得する

Azure portal でリソースの概要ページに移動します
左側のメニューから [キーとエンドポイント] を選びます。エンドポイントとキーは API 要求に使用されます。

カスタムテキスト分類プロジェクトを作成する

リソースとストレージコンテナーが構成されたら、新しいカスタムテキスト分類プロジェクトを作成します。プロジェクトとは、データに基づいてカスタム ML モデルを構築するための作業領域です。プロジェクトにアクセスできるのは、自分と、使用されている Azure 言語リソースにアクセスできる他のユーザーだけです。

プロジェクトのインポートジョブをトリガーする

ラベルファイルをインポートするには、次の URL、ヘッダー、JSON 本文を使って POST 要求を送信します。ラベルファイルが、許容される形式に従っていることを確認してください。

同じ名前のプロジェクトが既に存在する場合は、そのプロジェクトのデータを置き換えます。

{Endpoint}/language/authoring/analyze-text/projects/{projectName}/:import?api-version={API-VERSION}

プレースホルダー	値	例
`{ENDPOINT}`	API 要求を認証するためのエンドポイント。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`{API-VERSION}`	呼び出している API のバージョン。参照される値は、リリースされた最新バージョン用です。その他の利用可能な API バージョンの詳細を確認する	`2022-05-01`

ヘッダー

要求を認証するには、次のヘッダーを使います。

鍵	値
`Ocp-Apim-Subscription-Key`	リソースへのキー。 API 要求の認証に使われます。

Body

要求では次の JSON を使います。プレースホルダーの値は、実際の値に置き換えます。

マルチラベル分類
単一ラベルの分類

{
  "projectFileVersion": "{API-VERSION}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectName": "{PROJECT-NAME}",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectKind": "customMultiLabelClassification",
    "description": "Trying out custom multi label text classification",
    "language": "{LANGUAGE-CODE}",
    "multilingual": true,
    "settings": {}
  },
  "assets": {
    "projectKind": "customMultiLabelClassification",
    "classes": [
      {
        "category": "Class1"
      },
      {
        "category": "Class2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "classes": [
          {
            "category": "Class1"
          },
          {
            "category": "Class2"
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "classes": [
          {
            "category": "Class2"
          }
        ]
      }
    ]
  }
}

鍵	プレースホルダー	値	例
api-version	`{API-VERSION}`	呼び出している API のバージョン。ここで使用するバージョンは、URL 内と同じ API バージョンである必要があります。その他の利用可能な API バージョンの詳細を確認する	`2022-05-01`
projectName	`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
プロジェクトの種類	`customMultiLabelClassification`	プロジェクトの種類。	`customMultiLabelClassification`
言語	`{LANGUAGE-CODE}`	プロジェクトで使用されるドキュメントの言語コードを指定する文字列。プロジェクトが多言語プロジェクトの場合は、ほとんどのドキュメントの言語コードを選択します。多言語サポートの詳細については、言語サポートをご覧ください。	`en-us`
multilingual	`true`	データセットで複数の言語のドキュメントを得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニングドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。多言語サポートの詳細については、言語サポートをご覧ください。	`true`
ストレージ入力コンテナ名	`{CONTAINER-NAME}`	アップロードしたドキュメントの Azure ストレージコンテナーの名前。	`myContainer`
classes	[]	プロジェクト内にあるすべてのクラスを含む配列。	[]
documents	[]	プロジェクト内のすべてのドキュメントと、このドキュメントに対してクラスでラベル付けしたものを含む配列。	[]
位置	`{DOCUMENT-NAME}`	ストレージコンテナー内のドキュメントの場所。すべてのドキュメントはコンテナーのルートに含まれるため、ドキュメント名にする必要があります。	`doc1.txt`
データセット	`{DATASET}`	トレーニング前に分割するときのこのドキュメントの移動先テストセット。モデルをトレーニングする方法を参照してください。このフィールドで使用できる値は `Train` および `Test` です。	`Train`

{
  "projectFileVersion": "{API-VERSION}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectName": "{PROJECT-NAME}",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectKind": "customSingleLabelClassification",
    "description": "Trying out custom multi label text classification",
    "language": "{LANGUAGE-CODE}",
    "multilingual": true,
    "settings": {}
  },
  "assets": {
    "projectKind": "customSingleLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "class": {
                    "category": "Class2"
                }
            },
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "class": {
                    "category": "Class1"
                }
            }
        ]
    }
}

鍵	プレースホルダー	値	例
api-version	`{API-VERSION}`	呼び出している API のバージョン。ここで使用するバージョンは、URL 内と同じ API バージョンである必要があります。	`2022-05-01`
projectName	`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
プロジェクトの種類	`customSingleLabelClassification`	プロジェクトの種類。	`customSingleLabelClassification`
言語	`{LANGUAGE-CODE}`	プロジェクトで使用されるドキュメントの言語コードを指定する文字列。プロジェクトが多言語プロジェクトの場合は、ほとんどのドキュメントの言語コードを選択します。サポートされている言語コードの詳細については、言語サポートをご覧ください。	`en-us`
multilingual	`true`	データセットで複数の言語のドキュメントを得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニングドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。多言語サポートの詳細については、言語サポートをご覧ください。	`true`
ストレージ入力コンテナ名	`{CONTAINER-NAME}`	アップロードしたドキュメントの Azure ストレージコンテナーの名前。	`myContainer`
classes	[]	プロジェクト内にあるすべてのクラスを含む配列。	[]
documents	[]	プロジェクト内のすべてのドキュメントと、このドキュメントがどのクラスに属しているかを含む配列。	[]
位置	`{DOCUMENT-NAME}`	ストレージコンテナー内のドキュメントの場所。すべてのドキュメントはコンテナーのルートに含まれるため、ドキュメント名にする必要があります。	`doc1.txt`
データセット	`{DATASET}`	トレーニング前に分割するときのこのドキュメントの移動先テストセット。データ分割の詳細については、モデルのトレーニング方法に関する記事をご覧ください。このフィールドで使用できる値は `Train` および `Test` です。	`Train`

API 要求を送信すると、ジョブが正しく送信されたことを示す 202 応答を受け取ります。応答ヘッダーで、次のように書式設定された operation-location 値を抽出します。

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/import/jobs/{JOB-ID}?api-version={API-VERSION}

この操作は非同期であるため、{JOB-ID} を使って要求が識別されます。この URL を使用して、インポートジョブの状態を取得します。

この要求で考えられるエラーシナリオ:

選択されたリソースに、ストレージアカウントに対する適切なアクセス許可がありません。
指定された storageInputContainerName が存在しません。
無効な言語コードが使用されているか、言語コードの種類が文字列でない場合。
multilingual 値は文字列であり、ブール値ではありません。

インポートジョブの状態を取得する

次の GET 要求を使用して、プロジェクトのインポートの状態を取得します。プレースホルダーの値は、実際の値に置き換えます。

要求 URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/import/jobs/{JOB-ID}?api-version={API-VERSION}

プレースホルダー	値	例
`{ENDPOINT}`	API 要求を認証するためのエンドポイント。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`{JOB-ID}`	モデルのトレーニングの状態を取得するための ID。この値は、前のステップで受け取った `location` ヘッダーの値に含まれています。	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	呼び出している API のバージョン。参照される値は、リリースされた最新バージョン用です。その他の利用可能な API バージョンの詳細を確認する	`2022-05-01`

ヘッダー

要求を認証するには、次のヘッダーを使います。

鍵	値
`Ocp-Apim-Subscription-Key`	リソースへのキー。 API 要求の認証に使われます。

モデルをトレーニングする

通常、プロジェクトを作成した後、先に進み、プロジェクトに接続されているコンテナーにあるドキュメントのタグ付けを開始します。このクイックスタートでは、サンプルのタグ付けされたデータセットをインポートし、サンプルの JSON タグファイルを使用してプロジェクトを初期化しました。

モデルのトレーニングを開始する

プロジェクトがインポートされたら、モデルのトレーニングを開始できます。

次の URL、ヘッダー、JSON 本文を使って POST 要求を送信し、トレーニングジョブを送信します。プレースホルダーの値は、実際の値に置き換えます。

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

プレースホルダー	値	例
`{ENDPOINT}`	API 要求を認証するためのエンドポイント。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`{API-VERSION}`	呼び出している API のバージョン。参照される値は、リリースされた最新バージョン用です。その他の利用可能な API バージョンの詳細を確認する	`2022-05-01`

ヘッダー

要求を認証するには、次のヘッダーを使います。

鍵	値
`Ocp-Apim-Subscription-Key`	リソースへのキー。 API 要求の認証に使われます。

要求本文

要求本文では次の JSON を使います。トレーニングが完了すると、モデルに {MODEL-NAME} が与えられます。正常に完了したトレーニングジョブでのみ、モデルが生成されます。

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

鍵	プレースホルダー	値	例
モデルラベル	`{MODEL-NAME}`	正常にトレーニングされた後にモデルに割り当てられるモデル名。	`myModel`
トレーニングコンフィグバージョン	`{CONFIG-VERSION}`	これは、モデルのトレーニングに使用されるモデルバージョンです。	`2022-05-01`
評価オプション		トレーニングセットとテストセットの間でデータを分割するオプション。	`{}`
kind	`percentage`	Split メソッド。指定できる値は `percentage` または `manual` です。詳細については、モデルのトレーニング方法に関するセクションを参照してください。	`percentage`
trainingSplitPercentage	`80`	トレーニングセットに含めるタグ付きデータの割合。推奨値は `80` です。	`80`
testingSplitPercentage	`20`	テストセットに含めるタグ付きデータの割合。推奨値は `20` です。	`20`

Note

trainingSplitPercentage と testingSplitPercentage は、Kind が percentage に設定されている場合にのみ必要であり、両方のパーセンテージの合計は 100 に等しい必要があります。

API 要求を送信すると、ジョブが正しく送信されたことを示す 202 応答を受け取ります。応答ヘッダーで、次のように書式設定された location 値を抽出します。

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

この操作は非同期であるため、{JOB ID} を使って要求が識別されます。この URL を使用してトレーニングの状態を取得できます。

トレーニングジョブの状態を取得する

トレーニングには 10 分から 30 分かかる場合があります。次の要求を使用して、トレーニングジョブが正常に完了するまで状態をポーリングし続けることができます。

モデルのトレーニングの進行状況を取得するには、次の GET 要求を使用します。プレースホルダーの値は、実際の値に置き換えます。

要求 URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

プレースホルダー	値	例
`{ENDPOINT}`	API 要求を認証するためのエンドポイント。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`{JOB-ID}`	モデルのトレーニングの状態を取得するための ID。この値は、前のステップで受け取った `location` ヘッダーの値に含まれています。	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	呼び出している API のバージョン。参照される値は、リリースされた最新バージョン用です。詳細については、「モデルのライフサイクル」を参照してください。	`2022-05-01`

ヘッダー

要求を認証するには、次のヘッダーを使います。

鍵	値
`Ocp-Apim-Subscription-Key`	リソースへのキー。 API 要求の認証に使われます。

応答本文

要求を送信すると、次の応答が返されます。

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

モデルをデプロイする

通常はモデルをトレーニングした後で、評価の詳細を確認し、必要に応じて改善を行います。このクイックスタートでは、モデルをデプロイして Language Studio で試せるようにするところまで行いますが、予測 API を呼び出すこともできます。

デプロイジョブを送信する

次の URL、ヘッダー、JSON 本文を使って PUT 要求を送信し、デプロイジョブを送信します。プレースホルダーの値は、実際の値に置き換えます。

{Endpoint}/language/authoring/analyze-text/projects/{projectName}/deployments/{deploymentName}?api-version={API-VERSION}

プレースホルダー	値	例
`{ENDPOINT}`	API 要求を認証するためのエンドポイント。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`{DEPLOYMENT-NAME}`	デプロイの名前。この値は、大文字と小文字が区別されます。	`staging`
`{API-VERSION}`	呼び出している API のバージョン。参照される値は、リリースされた最新バージョン用です。その他の利用可能な API バージョンの詳細を確認する	`2022-05-01`

ヘッダー

要求を認証するには、次のヘッダーを使います。

鍵	値
`Ocp-Apim-Subscription-Key`	リソースへのキー。 API 要求の認証に使われます。

要求本文

要求の本文で次の JSON を使います。デプロイに割り当てるモデルの名前を使います。

{
  "trainedModelLabel": "{MODEL-NAME}"
}

鍵	プレースホルダー	値	例
訓練済みモデルラベル	`{MODEL-NAME}`	デプロイに割り当てられているモデル名。正常にトレーニングされたモデルのみ割り当てることができます。この値は、大文字と小文字が区別されます。	`myModel`

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/deployments/{DEPLOYMENT-NAME}/jobs/{JOB-ID}?api-version={API-VERSION}

この操作は非同期であるため、{JOB ID} を使って要求が識別されます。この URL を使ってデプロイの状態を取得できます。

デプロイジョブの状態を取得する

次の GET 要求を使って、デプロイジョブの状態に関するクエリを実行します。前のステップで取得した URL を使うことも、プレースホルダーの値を実際の値に置き換えることもできます。

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/deployments/{DEPLOYMENT-NAME}/jobs/{JOB-ID}?api-version={API-VERSION}

プレースホルダー	値	例
`{ENDPOINT}`	API 要求を認証するためのエンドポイント。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`{DEPLOYMENT-NAME}`	デプロイの名前。この値は、大文字と小文字が区別されます。	`staging`
`{JOB-ID}`	モデルのトレーニングの状態を取得するための ID。これは、前の手順で受け取った `location` ヘッダー値にあります。	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	呼び出している API のバージョン。参照される値は、リリースされた最新バージョン用です。その他の利用可能な API バージョンの詳細を確認する	`2022-05-01`

ヘッダー

要求を認証するには、次のヘッダーを使います。

鍵	値
`Ocp-Apim-Subscription-Key`	リソースへのキー。 API 要求の認証に使われます。

応答本文

要求を送信すると、次の応答が返されます。 status パラメーターが "succeeded" に変化するまで、このエンドポイントのポーリングを続けます。要求の成功を示す 200 コードを取得します。

{
    "jobId":"{JOB-ID}",
    "createdDateTime":"{CREATED-TIME}",
    "lastUpdatedDateTime":"{UPDATED-TIME}",
    "expirationDateTime":"{EXPIRATION-TIME}",
    "status":"running"
}

テキストを分類する

モデルが正常にデプロイされたら、モデルの使用を開始して予測 API を使ってテキストを分類できます。先ほどダウンロードしたサンプルデータセットに、この手順で使用できるテストドキュメントがいくつか用意されています。

カスタムテキスト分類タスクを送信する

この POST 要求を使用して、テキスト分類タスクを開始します。

{ENDPOINT}/language/analyze-text/jobs?api-version={API-VERSION}

プレースホルダー	値	例
`{ENDPOINT}`	API 要求を認証するためのエンドポイント。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{API-VERSION}`	呼び出している API のバージョン。参照される値は、リリースされた最新バージョン用です。詳細については、「モデルのライフサイクル」を参照してください。	`2022-05-01`

ヘッダー

鍵	値
Ocp-Apim-Subscription-Key	この API へのアクセスを提供するキー。

Body

マルチラベル分類
単一ラベルの分類

{
  "displayName": "Classifying documents",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "{LANGUAGE-CODE}",
        "text": "Text1"
      },
      {
        "id": "2",
        "language": "{LANGUAGE-CODE}",
        "text": "Text2"
      }
    ]
  },
  "tasks": [
     {
      "kind": "CustomMultiLabelClassification",
      "taskName": "Multi Label Classification",
      "parameters": {
        "projectName": "{PROJECT-NAME}",
        "deploymentName": "{DEPLOYMENT-NAME}"
      }
    }
  ]
}

鍵	プレースホルダー	値	例
`displayName`	`{JOB-NAME}`	ジョブの名前。	`MyJobName`
`documents`	[{},{}]	タスクを実行するドキュメントのリスト。	`[{},{}]`
`id`	`{DOC-ID}`	ドキュメント名または ID。	`doc1`
`language`	`{LANGUAGE-CODE}`	ドキュメントの言語コードを指定する文字列。このキーを指定しない場合、サービスによって、プロジェクトの作成時に選択したプロジェクトの既定の言語と見なされます。サポートされている言語コードの一覧については、言語サポートに関するページを参照してください。	`en-us`
`text`	`{DOC-TEXT}`	タスクを実行するドキュメントタスク。	`Lorem ipsum dolor sit amet`
`tasks`		実行するタスクのリスト。	`[]`
`taskName`	カスタムマルチラベル分類	タスク名	カスタムマルチラベル分類
`parameters`		タスクに渡すパラメーターのリスト。
`project-name`	`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`deployment-name`	`{DEPLOYMENT-NAME}`	デプロイの名前。この値は、大文字と小文字が区別されます。	`prod`

{
  "displayName": "Classifying documents",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "{LANGUAGE-CODE}",
        "text": "Text1"
      },
      {
        "id": "2",
        "language": "{LANGUAGE-CODE}",
        "text": "Text2"
      }
    ]
  },
  "tasks": [
    {
      "kind": "CustomSingleLabelClassification",
      "taskName": "Single Classification Label",
      "parameters": {
        "projectName": "{PROJECT-NAME}",
        "deploymentName": "{DEPLOYMENT-NAME}"
      }
    }
  ]
}

鍵	プレースホルダー	値	例
displayName	`{JOB-NAME}`	ジョブの名前。	`MyJobName`
documents		タスクを実行するドキュメントのリスト。
`id`	`{DOC-ID}`	ドキュメント名または ID。	`doc1`
`language`	`{LANGUAGE-CODE}`	ドキュメントの言語コードを指定する文字列。このキーを指定しない場合、サービスによって、プロジェクトの作成時に選択したプロジェクトの既定の言語と見なされます。サポートされている言語コードの一覧については、言語サポートに関するページを参照してください。	`en-us`
`text`	`{DOC-TEXT}`	タスクを実行するドキュメントタスク。	`Lorem ipsum dolor sit amet`
`taskName`	カスタム単一ラベル分類	タスク名	カスタム単一ラベル分類
`tasks`	[]	実行するタスクの配列。	[]
`parameters`		タスクに渡すパラメーターのリスト。
`project-name`	`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`deployment-name`	`{DEPLOYMENT-NAME}`	デプロイの名前。この値は、大文字と小文字が区別されます。	`prod`

[応答]

成功を示す 202 応答が表示されます。応答のヘッダーから operation-location を抽出します。 operation-location は次のように書式設定されています。

{ENDPOINT}/language/analyze-text/jobs/{JOB-ID}?api-version={API-VERSION}

この URL を使用して、タスクの完了状態をクエリし、タスクが完了したときに結果を取得できます。

タスクの結果を取得する

テキスト分類タスクの状態と結果のクエリを実行するには、次の GET 要求を使います。

{ENDPOINT}/language/analyze-text/jobs/{JOB-ID}?api-version={API-VERSION}

プレースホルダー	値	例
`{ENDPOINT}`	API 要求を認証するためのエンドポイント。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{API-VERSION}`	呼び出している API のバージョン。参照される値は、リリースされた最新のモデルバージョンの値です。	`2022-05-01`

ヘッダー

鍵	値
Ocp-Apim-Subscription-Key	この API へのアクセスを提供するキー。

応答本文

応答は、次のパラメーターを含む JSON ドキュメントです

マルチラベル分類
単一ラベルの分類

{
  "createdDateTime": "2021-05-19T14:32:25.578Z",
  "displayName": "MyJobName",
  "expirationDateTime": "2021-05-19T14:32:25.578Z",
  "jobId": "xxxx-xxxxxx-xxxxx-xxxx",
  "lastUpdateDateTime": "2021-05-19T14:32:25.578Z",
  "status": "succeeded",
  "tasks": {
    "completed": 1,
    "failed": 0,
    "inProgress": 0,
    "total": 1,
    "items": [
      {
        "kind": "customMultiClassificationTasks",
        "taskName": "Classify documents",
        "lastUpdateDateTime": "2020-10-01T15:01:03Z",
        "status": "succeeded",
        "results": {
          "documents": [
            {
              "id": "{DOC-ID}",
              "classes": [
                  {
                      "category": "Class_1",
                      "confidenceScore": 0.0551877357
                  }
              ],
              "warnings": []
            }
          ],
          "errors": [],
          "modelVersion": "2020-04-01"
        }
      }
    ]
  }
}

{
  "createdDateTime": "2021-05-19T14:32:25.578Z",
  "displayName": "MyJobName",
  "expirationDateTime": "2021-05-19T14:32:25.578Z",
  "jobId": "xxxx-xxxxxx-xxxxx-xxxx",
  "lastUpdateDateTime": "2021-05-19T14:32:25.578Z",
  "status": "succeeded",
  "tasks": {
    "completed": 1,
    "failed": 0,
    "inProgress": 0,
    "total": 1,
    "items": [
      {
        "kind": "customSingleClassificationTasks",
        "taskName": "Classify documents",
        "lastUpdateDateTime": "2020-10-01T15:01:03Z",
        "status": "succeeded",
        "results": {
          "documents": [
            {
              "id": "{DOC-ID}",
              "class": [
                  {
                      "category": "Class_1",
                      "confidenceScore": 0.0551877357
                  }
              ],
              "warnings": []
            }
          ],
          "errors": [],
          "modelVersion": "2020-04-01"
        }
      }
    ]
  }
}

リソースをクリーンアップする

プロジェクトが不要になったら、次の DELETE 要求で削除できます。プレースホルダーの値は、実際の値に置き換えます。

{Endpoint}/language/authoring/analyze-text/projects/{projectName}?api-version={API-VERSION}

プレースホルダー	値	例
`{ENDPOINT}`	API 要求を認証するためのエンドポイント。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`{API-VERSION}`	呼び出している API のバージョン。参照される値は、リリースされた最新バージョン用です。その他の利用可能な API バージョンの詳細を確認する	`2022-05-01`

ヘッダー

要求を認証するには、次のヘッダーを使います。

鍵	値
Ocp-Apim-Subscription-Key	リソースへのキー。 API 要求の認証に使われます。

API 要求を送信すると、成功を示す 202 応答が返されます。これは、プロジェクトが削除されていることを意味します。呼び出しが成功すると、ジョブの状態を確認するために使用する Operation-Location ヘッダーが返されます。

次のステップ

カスタムテキスト分類モデルを作成すると、次のことができます。

ランタイム API を使用してテキストを分類する

独自のカスタムテキスト分類プロジェクトの作成を開始するときは、ハウツー記事を使用して、モデルの開発の詳細について確認してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-12-05

次の方法で共有

クイックスタート: カスタム テキスト分類

前提条件

Foundry Tools リソースと Azure ストレージ アカウントで新しい Azure 言語を作成する

Azure portal から新しいリソースを作成する

サンプル データを BLOB コンテナーにアップロードする

カスタム テキスト分類プロジェクトを作成する

モデルをトレーニングする

モデルをデプロイする

モデルのテスト

プロジェクトをクリーンアップする

前提条件

Foundry Tools リソースと Azure ストレージ アカウントで新しい Azure 言語を作成する

Azure portal から新しいリソースを作成する

サンプル データを BLOB コンテナーにアップロードする

リソースのキーとエンドポイントを取得する

カスタム テキスト分類プロジェクトを作成する

プロジェクトのインポート ジョブをトリガーする

ヘッダー

Body

インポート ジョブの状態を取得する

要求 URL

ヘッダー

モデルをトレーニングする

モデルのトレーニングを開始する

ヘッダー

要求本文

トレーニング ジョブの状態を取得する

要求 URL

ヘッダー

応答本文

モデルをデプロイする

デプロイ ジョブを送信する

ヘッダー

要求本文

デプロイ ジョブの状態を取得する

ヘッダー

応答本文

テキストを分類する

カスタム テキスト分類タスクを送信する

ヘッダー

Body

[応答]

タスクの結果を取得する

ヘッダー

応答本文

リソースをクリーンアップする

ヘッダー

次のステップ

フィードバック

その他のリソース

クイックスタート: カスタムテキスト分類

Foundry Tools リソースと Azure ストレージアカウントで新しい Azure 言語を作成する

サンプルデータを BLOB コンテナーにアップロードする

カスタムテキスト分類プロジェクトを作成する

Foundry Tools リソースと Azure ストレージアカウントで新しい Azure 言語を作成する

サンプルデータを BLOB コンテナーにアップロードする

カスタムテキスト分類プロジェクトを作成する

プロジェクトのインポートジョブをトリガーする

インポートジョブの状態を取得する

トレーニングジョブの状態を取得する

デプロイジョブを送信する

デプロイジョブの状態を取得する

カスタムテキスト分類タスクを送信する