快速入門：用於健康醫療領域的自訂文字分析

發行項
01/10/2024

使用本文開始建立用於健康醫療領域的自訂文字分析專案，您可以在健康醫療領域文字分析的基礎上為自訂模型定型，以進行自訂實體辨識。模型是經過定型以執行特定工作的人工智慧軟體。在此系統中，模型會擷取與健康醫療相關的具名實體，並從已標記的資料中學習以進行定型。

在本文中，我們會使用 Language Studio 來示範用於健康醫療領域的自訂文字分析的重要概念。例如，我們將建置用於健康醫療領域的自訂文字分析模型，以從簡短的出院記錄中擷取設施或治療地點。

名稱	描述
訂用帳戶	您的 Azure 訂閱。
資源群組	將包含您資源的資源群組。您可以使用現有的，或建立新的。
區域	語言資源的區域。例如，「美國西部 2」。
名稱	資源的名稱。
定價層	語言資源的定價層。您可以使用免費（F0）層來嘗試服務。

儲存體帳戶值	建議值
儲存體帳戶名稱	任何名稱
Storage account type	標準 LRS

預留位置	值	範例
`{ENDPOINT}`	用於驗證 API 要求的端點。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	專案名稱。此值區分大小寫。	`myProject`
`{API-VERSION}`	您正在呼叫的 API 版本。此處參考的值適用於發行的最新版本。若要深入瞭解其他可用的 API 版本，請參閱模型生命週期。	`2022-05-01`

索引鍵	預留位置	值	範例
`multilingual`	`true`	布爾值，可讓您在數據集中具有多種語言的檔，而且當您的模型部署時，您可以使用任何支援的語言查詢模型（不一定包含在定型檔中）。若要深入瞭解多語系支援，請參閱語言支援。	`true`
`projectName`	`{PROJECT-NAME}`	專案名稱	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	容器名稱	`mycontainer`
`entities`		數位，其中包含您在專案中擁有的所有實體類型。這些是從您的檔擷取到的實體類型。
`category`		實體類型的名稱，可以是針對新實體定義的使用者定義名稱，或是針對預建實體的預先定義名稱。
`compositionSetting`	`{COMPOSITION-SETTING}`	定義如何在實體中管理多個元件的規則。選項為 `combineComponents` 或 `separateComponents`。	`combineComponents`
`list`		包含專案中特定實體所有子清單的陣列。您可以將清單新增至預建實體或具有已學習元件的新實體。
`sublists`	`[]`	包含子清單的陣列。每個子清單都是索引鍵及其相關聯的值。	`[]`
`listKey`	`One`	要對應回預測中同義字清單的標準化值。	`One`
`synonyms`	`[]`	包含所有同義字的陣列	同義字
`language`	`{LANGUAGE-CODE}`	指定子清單中同義字語言代碼的字串。如果您的專案是多語系專案，而且您想要支援專案中所有語言的同義字清單，則必須明確地將同義字新增至每個語言。如需支援語言代碼的詳細資訊，請參閱語言支援。	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	將完全符合擷取並對應至清單索引鍵的逗號分隔字串清單。	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	填入預建實體的預建元件名稱。系統預設會自動將預建實體載入到您的專案，但您可以使用標籤檔案中的清單元件加以擴充。	`MedicationName`
`documents`		數位，其中包含專案中的所有檔，以及每個檔內加上標籤的實體清單。	[]
`location`	`{DOCUMENT-NAME}`	記憶體容器中檔的位置。由於所有檔都在容器的根目錄中，因此這應該是檔名稱。	`doc1.txt`
`dataset`	`{DATASET}`	此檔案在定型前分割時將會移至的測試集。此欄位`Train`的可能值為與。 `Test`	`Train`
`regionOffset`		文字開頭的內含字元位置。	`0`
`regionLength`		UTF16 字元的周框方塊長度。定型只會考慮此區域中的數據。	`500`
`category`		與指定之文字範圍相關聯的實體類型。	`Entity1`
`offset`		實體文字的開始位置。	`25`
`length`		以UTF16字元為單位的實體長度。	`20`
`language`	`{LANGUAGE-CODE}`	字串，指定專案中所用文件的語言代碼。如果您的專案是多語系專案，請選擇大部分文件的語言代碼。如需支援語言代碼的詳細資訊，請參閱語言支援。	`en`

索引鍵	預留位置	值	範例
modelLabel	`{MODEL-NAME}`	在成功定型之後指派給模型的模型名稱。	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	這是用來將模型定型的模型版本。	`2022-05-01`
evaluationOptions		在定型和測試集之間分割數據的選項。	`{}`
kind	`percentage`	分割方法。可能的值為 `percentage` 或 `manual`。如需詳細資訊，請參閱如何定型模型。	`percentage`
trainingSplitPercentage	`80`	要包含在定型集中的標記數據百分比。建議值為 `80`。	`80`
testingSplitPercentage	`20`	要包含在測試集中的標記數據百分比。建議值為 `20`。	`20`

索引鍵	預留位置	值	範例
`displayName`	`{JOB-NAME}`	您的作業名稱。	`MyJobName`
`documents`	[{}，{}]	要執行工作的檔案清單。	`[{},{}]`
`id`	`{DOC-ID}`	檔名稱或識別碼。	`doc1`
`language`	`{LANGUAGE-CODE}`	指定檔案語言代碼的字串。如果未指定此金鑰，服務會假設專案建立期間選取的專案默認語言。如需支援的語言代碼清單，請參閱語言支援。	`en-us`
`text`	`{DOC-TEXT}`	要執行工作的檔工作。	`Lorem ipsum dolor sit amet`
`tasks`		我們想要執行的工作清單。	`[]`
`taskName`	`Custom Text Analytics for Health Test`	工作名稱	`Custom Text Analytics for Health Test`
`kind`	`CustomHealthcare`	我們正在嘗試執行的專案或工作種類	`CustomHealthcare`
`parameters`		要傳遞至工作的參數清單。
`project-name`	`{PROJECT-NAME}`	專案名稱。此值區分大小寫。	`myProject`
`deployment-name`	`{DEPLOYMENT-NAME}`	部署的名稱。此值區分大小寫。	`prod`

索引鍵	範例值	描述
實體	[]	包含所有已擷取之實體的陣列。
entityComponentKind	`prebuiltComponent`	一個用來指出哪個元件傳回特定實體的變數。可能的值：`prebuiltComponent`、、 `learnedComponentlistComponent`
offset	`0`	一個藉由編制字元索引來表示已擷取實體之起點的數字
length	`10`	一個以字元數表示已擷取實體之長度的數字。
text	`first entity`	針對特定實體擷取的文字。
category	`MedicationName`	對應於已擷取之文字的實體類型或類別名稱。
confidenceScore	`0.9`	一個用來表示已擷取實體之模型確定程度的數字，範圍從 0 到 1，數字愈大表示確定程度愈高。
assertion	`certainty`	與已擷取實體相關聯的判斷提示。只有預先建置的用於健康醫療領域的文字分析才支援判斷提示。
NAME	`Ibuprofen`	與已擷取實體相關聯的實體連結標準化名稱。只有預先建置的用於健康醫療領域的文字分析才支援實體連結。
連結	[]	一個包含所有與擷取實體相關聯之實體連結結果的陣列。只有預先建置的用於健康醫療領域的文字分析才支援實體連結。
dataSource	`UMLS`	與已擷取實體相關聯之實體連結所產生的參考標準。只有預先建置的用於健康醫療領域的文字分析才支援實體連結。
識別碼	`C0020740`	與屬於已擷取資料來源之已擷取實體相關聯的實體連結所產生的參考程式碼。只有預先建置的用於健康醫療領域的文字分析才支援實體連結。
關係	[]	包含所有已擷取之關聯性的陣列。只有預先建置的用於健康醫療領域的文字分析實體才支援關聯性擷取。
relationType	`DosageOfMedication`	已擷取關聯性的類別。只有預先建置的用於健康醫療領域的文字分析實體才支援關聯性擷取。
實體	`"Dosage", "Medication"`	與已擷取之關聯性有所關聯的實體。只有預先建置的用於健康醫療領域的文字分析實體才支援關聯性擷取。

共用方式為

快速入門：用於健康醫療領域的自訂文字分析

必要條件

建立新的 Azure AI 語言資源和 Azure 儲存體帳戶

從 Azure 入口網站 建立新的資源

將範例數據上傳至 Blob 容器

建立用於健康醫療領域的自訂文字分析專案

定型您的模型

部署模型

測試您的模型

清除資源

必要條件

建立新的 Azure AI 語言資源和 Azure 儲存體帳戶

從 Azure 入口網站 建立新的資源

將範例數據上傳至 Blob 容器

取得您的資源金鑰和端點

建立用於健康醫療領域的自訂文字分析專案

觸發匯入專案作業

標頭

本文

取得匯入作業狀態

要求 URL

標頭

定型您的模型

開始訓練作業

標頭

要求本文

取得訓練作業狀態

要求 URL

標頭

回應本文

部署模型

啟動部署作業

標頭

要求本文

取得部署作業狀態

標頭

回應本文

使用已定型的模型進行預測

提交用於健康醫療領域的自訂文字分析工作

標頭

本文

回應

取得工作結果

標頭

回應本文

清除資源

標頭

下一步

意見反應

意見反應

其他資源

從 Azure 入口網站建立新的資源

從 Azure 入口網站建立新的資源