共用方式為


在 Foundry Tools Studio 用 Azure 語言標記你的資料

在訓練模型之前,您需要使用要擷取的自訂實體來標記文件。 資料標記是開發生命週期中的重要步驟。 您可以建立要從資料擷取的實體類型,並在文件中標記這些實體。 這些資料會在訓練模型時的下一步使用,讓模型能從標註資料中學習。 如果您已經標記了數據,您可以直接 將其匯入 到專案中,但您需要確保您的資料遵循 可接受的資料格式。 若要深入了解如何將已標記的資料匯入專案中,請參閱建立專案

在建立自訂 NER 模型之前,您首先需要標記資料。 如果您的資料尚未標記,您可以在 Language Studio 中標記資料。 已標記的資料會告知模型如何解讀文字,並且會用於定型和評估。

先決條件

您需要下列項目才能標記資料:

  • 使用已設定 Azure Blob 儲存體帳戶成功建立的專案
  • 文字資料會 上傳 至您的儲存帳戶。

如需詳細資訊,請參閱專案開發生命週期

資料標記指導方針

在準備資料、設計結構描述建立專案之後,您需要標記資料。 標記資料很重要,這樣您的模型才能知道哪些單字與您需要擷取的實體類型相關聯。 當您在 Language Studio 中標記資料 (或匯入已標記的資料) 時,這些標籤會儲存在您連線至此專案之儲存體容器中的 JSON 檔中。

當您在標記資料時,請記住:

  • 一般而言,在資料被正確標記的情況下,被標記的資料越多將能導致越好的結果。

  • 標記資料的精確度、一致性和完整性是決定模型效能的關鍵因素。

    • 精確標記:一律將每個實體標記為其正確的類型。 僅包含您想要提取的內容。 避免標籤中出現不必要的資料。
    • 一致標示:相同的實體在所有文件中都應該有相同的標籤。
    • 完整標示:標示所有文件中實體的所有執行個體。 您可以使用 自動標籤功能 來確保完整的標籤。

    附註

    沒有固定數量的標籤可以保證您的模型發揮最佳效能。 模型效能取決於結構描述中可能存在的模糊性,以及已標記資料的品質。 不過,我們建議每個實體類型約有 50 個已標記的執行個體。

標記您的資料

依照下列步驟標記您的資料:

  1. 移至您在 Language Studio 中的專案頁面。

  2. 在左側功能表中,選取 [資料標記]。 您可以在儲存體容器中找到所有文件的清單。

    秘訣

    您可以使用頂端功能表中的篩選來檢視未標示的文件,以開始標示這些資料。 您也可以使用篩選來檢視以特定實體類型標記的文件。

  3. 從頂端功能表中的左側,變更為單一文件檢視,或選取要開始標示的特定文件。 您可以在左側找到您專案中所有可用的 .txt 文件清單。 您可以使用頁面底部的 [上一頁] 和 [下一頁] 按鈕來瀏覽文件。

    附註

    如果您為專案啟用了多種語言,您會在頂端功能表中找到「 語言」 下拉式清單,可讓您選取每個文件的語言。

  4. 在右側窗格中,將實體類型新增至您的專案,以便開始標記資料。

  5. 有兩個選項可用來標記文件:

    選項 描述
    使用筆刷標記 選取右窗格中的實體類型旁的筆刷圖示,然後醒目提示文件中要以此實體類型標註的文字。
    使用功能表標記 醒目提示您要標記為實體的字詞,隨即出現一個功能表。 選取您要為此實體指派的實體類型。

    下列螢幕擷取畫面顯示使用筆刷進行標籤。

    顯示自訂具名實體辨識 (NER) 中提供標籤選項的螢幕擷取畫面。

  6. 在 [標籤] 樞紐下的右側窗格中,您可以找到專案中的所有實體類型,以及每個類別的已標記執行個體計數。

  7. 在右側窗格的底部區段中,您可以將目前正在檢視的文件新增至訓練集或測試集。 根據預設,所有文件都會新增至您的定型集。 深入瞭解 定型和測試集 ,以及如何將它們用於模型定型和評估。

    秘訣

    如果您打算使用 自動 資料分割,請使用將所有文件指派給訓練集的預設選項。

  8. [分佈] 樞紐下,您可以檢視訓練集和測試集之間的分佈。 您有兩個檢視選項:

    • 執行個體總計,您可以在其中檢視特定實體類型的所有已標示執行個體計數。
    • 至少有一個標籤的文件 (任何文件只要至少包含一個此實體的已標示執行個體,就會計入)。
  9. 在您進行標籤作業時,系統會定期同步您的變更;如果尚未儲存這些變更,頁面頂端會顯示警告訊息。 如果您想要手動儲存,請選取頁面底部的 [儲存標籤] 按鈕。

移除標籤

移除標籤

  1. 選取您要從中移除標籤的實體。
  2. 捲動出現的功能表,然後選取 [移除標籤]

刪除實體

若要刪除實體,請選取要移除之實體旁的刪除圖示。 刪除實體時,將會從您的資料集中移除其所有已標記的執行個體。

後續步驟

標記資料之後,您可以開始 訓練模型 ,以根據您的資料進行學習。