クイックスタート: カスタム Text Analytics for health

[アーティクル]
12/19/2023

この記事では、カスタム Text Analytics for health プロジェクトの作成を開始する方法について説明します。このプロジェクトでは、カスタムエンティティ認識用の Text Analytics for health のカスタムモデルをトレーニングできます。モデルとは、特定のタスクを実行するためにトレーニングされる人工知能ソフトウェアです。このシステムでは、モデルによって医療に関する名前付きエンティティが抽出され、ラベル付けされたデータから学習することでモデルがトレーニングされます。

この記事では、Language Studio を使って、カスタム Text Analytics for health の主要な概念を示します。例としてカスタム Text Analytics for health のモデルを作成し、短い退院メモから施設または治療場所を抽出します。

前提条件

Azure サブスクリプション - 無料アカウントを作成します

名前	説明
サブスクリプション	Azure サブスクリプション。
リソースグループ	リソースが格納されるリソースグループ。既存のものを使用するか、新しく作成することができます。
リージョン	言語リソースのリージョン。たとえば "米国西部 2" にします。
名前	リソースの名前。
Pricing tier	言語リソースの価格レベル。 Free (F0) レベルを利用してサービスを試用できます。

ストレージアカウントの値	推奨値
ストレージアカウント名	任意の名前
ストレージアカウントの種類	標準 LRS

プレースホルダー	値	例
`{ENDPOINT}`	API 要求を認証するためのエンドポイント。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`{API-VERSION}`	呼び出している API のバージョン。ここで参照される値は、リリース済みの最新バージョン用です。使用可能な他の API バージョンの詳細については、モデルのライフサイクルに関するページを参照してください。	`2022-05-01`

Key	プレースホルダー	値	例
`multilingual`	`true`	データセットで複数の言語のドキュメントを得ることを可能とするブール値であり、モデルがデプロイされる場合に、サポートする任意の言語 (必ずしもトレーニングドキュメントに含まれているとは限りません) でモデルに関するクエリを実行することができます。多言語サポートの詳細については、言語サポートをご覧ください。	`true`
`projectName`	`{PROJECT-NAME}`	プロジェクト名	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	コンテナー名	`mycontainer`
`entities`		プロジェクト内にあるすべてのエンティティ型を含めた配列。これらは、ドキュメントから抽出されるエンティティ型です。
`category`		エンティティ型の名前。新しいエンティティ定義に対してユーザー定義したり、事前構築済みエンティティに対して事前定義したりすることができます。
`compositionSetting`	`{COMPOSITION-SETTING}`	エンティティ内の複数のコンポーネントを管理する方法を定義するルール。 `combineComponents` または `separateComponents` のいずれかを選択できます。	`combineComponents`
`list`		特定のエンティティのプロジェクトに含まれるすべてのサブリストを含む配列。リストは、事前構築済みエンティティまたは学習済みコンポーネントを含む新しいエンティティに追加できます。
`sublists`	`[]`	サブリストを含む配列。各サブリストは、キーとそれに関連する値です。	`[]`
`listKey`	`One`	予測でマップし直すシノニムの一覧の正規化された値。	`One`
`synonyms`	`[]`	すべてのシノニムを含む配列	シノニム
`language`	`{LANGUAGE-CODE}`	サブリスト内の同意語の言語コードを指定する文字列。プロジェクトが多言語プロジェクトで、プロジェクト内のすべての言語の同意語のリストをサポートする場合は、各言語に同意語を明示的に追加する必要があります。サポートされている言語コードの詳細については、言語サポートを参照してください。	`en`
`values`	`"EntityNumberone"`、`"FirstEntity"`	抽出用に正確に一致し、リストキーにマップされるコンマ区切り文字列の一覧。	`"EntityNumberone"`、`"FirstEntity"`
`prebuilts`	`MedicationName`	事前構築済みエンティティに設定する事前構築済みコンポーネントの名前。事前構築済みエンティティは既定でプロジェクトに自動的に読み込まれますが、ラベルファイル内のリストコンポーネントを使用して拡張できます。	`MedicationName`
`documents`		プロジェクト内のすべてのドキュメントと、各ドキュメント内でラベル付けされたエンティティのリストを含む配列。	[]
`location`	`{DOCUMENT-NAME}`	ストレージコンテナー内のドキュメントの場所。すべてのドキュメントはコンテナーのルートに含まれているので、これはドキュメント名にする必要があります。	`doc1.txt`
`dataset`	`{DATASET}`	トレーニングの前に分割する場合にこのファイルが移動するテストセット。このフィールドで使用できる値は `Train` および `Test` です。	`Train`
`regionOffset`		テキストの先頭の包括的な文字位置。	`0`
`regionLength`		UTF16 文字を基準とした場合の境界ボックスの長さ。トレーニングではこの領域のデータのみが考慮されます。	`500`
`category`		指定されたテキストのスパンに関連付けられているエンティティ型。	`Entity1`
`offset`		エンティティテキストの開始位置。	`25`
`length`		UTF16 文字を基準とした場合のエンティティの長さ。	`20`
`language`	`{LANGUAGE-CODE}`	プロジェクトで使用されるドキュメントの言語コードを指定する文字列。プロジェクトが多言語プロジェクトの場合は、ほとんどのドキュメントの言語コードを選択します。サポートされている言語コードの詳細については、言語サポートを参照してください。	`en`

キー	プレースホルダー	値	例
modelLabel	`{MODEL-NAME}`	トレーニングが正常に行われた後にモデルに割り当てられるモデル名。	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	これは、モデルをトレーニングするために使用されるモデルバージョンです。	`2022-05-01`
evaluationOptions		データをトレーニング用セットとテスト用セットに分割するオプション。	`{}`
kind	`percentage`	分割方法。指定できる値は `percentage` または `manual` です。詳細については、モデルのトレーニング方法に関する記事をご覧ください。	`percentage`
trainingSplitPercentage	`80`	トレーニングセットに含まれるタグ付きデータの割合。推奨値は `80` です。	`80`
testingSplitPercentage	`20`	テストセットに含まれるタグ付きデータの割合。推奨値は `20` です。	`20`

Key	プレースホルダー	値	例
`displayName`	`{JOB-NAME}`	ジョブの名前。	`MyJobName`
`documents`	[{}、{}]	タスクを実行するドキュメントのリスト。	`[{},{}]`
`id`	`{DOC-ID}`	ドキュメント名または ID。	`doc1`
`language`	`{LANGUAGE-CODE}`	ドキュメントの言語コードを指定する文字列。このキーが指定されていない場合、サービスではプロジェクトの作成時に選択されたプロジェクトの既定の言語を想定します。サポートされている言語コードの一覧については、言語のサポートに関するページを参照してください。	`en-us`
`text`	`{DOC-TEXT}`	タスクを実行するドキュメントタスク。	`Lorem ipsum dolor sit amet`
`tasks`		実行するタスクのリスト。	`[]`
`taskName`	`Custom Text Analytics for Health Test`	タスク名	`Custom Text Analytics for Health Test`
`kind`	`CustomHealthcare`	実行しようとしているプロジェクトまたはタスクの種類	`CustomHealthcare`
`parameters`		タスクに渡すパラメーターのリスト。
`project-name`	`{PROJECT-NAME}`	プロジェクトの名前。この値は、大文字と小文字が区別されます。	`myProject`
`deployment-name`	`{DEPLOYMENT-NAME}`	デプロイの名前。この値は、大文字と小文字が区別されます。	`prod`

Key	値の例	説明
entities	[]	抽出されたすべてのエンティティを含む配列。
entityComponentKind	`prebuiltComponent`	特定のエンティティを返したコンポーネントを示す変数。指定できる値: `prebuiltComponent`、`learnedComponent`、`listComponent`
offset	`0`	文字にインデックスを付けることで抽出されたエンティティの開始点を示す数値
length	`10`	抽出されたエンティティの長さを文字数で示す数値。
text	`first entity`	特定のエンティティに対して抽出されたテキスト。
category	`MedicationName`	抽出されたテキストに対応するエンティティ型またはカテゴリの名前。
confidenceScore	`0.9`	抽出されたエンティティのモデルの確実性レベルを示す数値。0 から 1 までの範囲で、数値が大きいほど確実性が高いことを示します。
assertion	`certainty`	抽出されたエンティティに関連付けられているアサーション。アサーションは、事前構築済みの Text Analytics for health エンティティでのみサポートされます。
name	`Ibuprofen`	抽出されたエンティティに関連付けられているエンティティリンク設定の正規化された名前。エンティティリンク設定は、事前構築済みの Text Analytics for health エンティティでのみサポートされます。
リンク	[]	抽出されたエンティティに関連付けられているエンティティリンク設定からのすべての結果を含む配列。エンティティリンク設定は、事前構築済みの Text Analytics for health エンティティでのみサポートされます。
dataSource	`UMLS`	抽出されたエンティティに関連付けられたエンティティリンク設定によって得られる参照標準。エンティティリンク設定は、事前構築済みの Text Analytics for health エンティティでのみサポートされます。
id	`C0020740`	抽出されたデータソースに属する抽出されたエンティティに関連付けられたエンティティリンク設定によって得られる参照コード。エンティティリンク設定は、事前構築済みの Text Analytics for health エンティティでのみサポートされます。
リレーションシップ	[]	抽出されたすべてのリレーションシップを含む配列。リレーションシップの抽出は、事前構築済みの Text Analytics for health エンティティでのみサポートされます。
relationType	`DosageOfMedication`	抽出されたリレーションシップのカテゴリ。リレーションシップの抽出は、事前構築済みの Text Analytics for health エンティティでのみサポートされます。
entities	`"Dosage", "Medication"`	抽出されたリレーションシップに関連付けられているエンティティ。リレーションシップの抽出は、事前構築済みの Text Analytics for health エンティティでのみサポートされます。

クイック スタート: カスタム Text Analytics for health

前提条件

新しい Azure AI Language リソースと Azure ストレージ アカウントを作成する

Azure portal から新しいリソースを作成します

サンプル データを BLOB コンテナーにアップロードする

カスタム Text Analytics for health プロジェクトを作成する

モデルをトレーニングする

モデルをデプロイする

モデルのテスト

リソースをクリーンアップする

前提条件

新しい Azure AI Language リソースと Azure ストレージ アカウントを作成する

Azure portal から新しいリソースを作成します

サンプル データを BLOB コンテナーにアップロードする

リソースのキーとエンドポイントを取得する

カスタム Text Analytics for health プロジェクトを作成する

プロジェクト ジョブのインポートをトリガーする

ヘッダー

Body

インポート ジョブの状態を取得する

要求 URL

ヘッダー

モデルをトレーニングする

トレーニング ジョブを開始する

ヘッダー

要求本文

トレーニング ジョブの状態を取得する

要求 URL

ヘッダー

応答本文

モデルをデプロイする

デプロイ ジョブを開始する

ヘッダー

要求本文

デプロイ ジョブの状態を取得する

ヘッダー

応答本文

トレーニング済みのモデルを使用して予測を行う

カスタム Text Analytics for health のタスクを送信する

ヘッダー

Body

[応答]

タスクの結果を取得する

ヘッダー

応答本文

リソースをクリーンアップする

ヘッダー

次のステップ

その他のリソース

クイックスタート: カスタム Text Analytics for health

新しい Azure AI Language リソースと Azure ストレージアカウントを作成する

サンプルデータを BLOB コンテナーにアップロードする

新しい Azure AI Language リソースと Azure ストレージアカウントを作成する

サンプルデータを BLOB コンテナーにアップロードする

プロジェクトジョブのインポートをトリガーする

インポートジョブの状態を取得する

トレーニングジョブを開始する

トレーニングジョブの状態を取得する

デプロイジョブを開始する

デプロイジョブの状態を取得する