設定文字標籤項目和匯出標籤

在 Azure 機器學習 中,瞭解如何建立及執行數據標記專案來標記文字數據。 指定要套用至每個文字專案的單一標籤或多個標籤。

您也可以在 Azure 機器學習 中使用資料標記工具來建立影像標籤

文字標籤功能

Azure 機器學習 數據標記是一種工具,可用來建立、管理及監視數據標記專案。 可用於:

  • 協調數據、標籤和小組成員,以有效率地管理標籤工作。
  • 追蹤進度並維護未完成標籤工作的佇列。
  • 啟動和停止專案,並控制標籤進度。
  • 檢閱並匯出標示為 Azure 機器學習 數據集的數據。

重要

您在 Azure 機器學習 資料標籤工具中處理的文字資料必須在 Azure Blob 儲存體 資料存放區中提供。 如果您沒有現有的數據存放區,您可以在建立專案時,將數據文件上傳至新的資料存放區。

這些資料格式適用於文字資料:

  • .txt:每個檔案都代表要加上標籤的專案。
  • .csv或 .tsv:每個數據列都代表向標籤者呈現的專案。 您可以決定標籤資料列時可以看到哪些資料列。

必要條件

您可以使用這些專案在 Azure 機器學習 中設定文字標籤:

  • 您想要在本機檔案或 Azure Blob 儲存體 中加上標籤的數據。
  • 您想要套用的標籤。
  • 標籤的指示。
  • Azure 訂用帳戶。 如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶
  • Azure Machine Learning 工作區。 請參閱建立 Azure 機器學習 工作區

建立文字標籤專案

標籤專案會在 Azure 機器學習 中管理。 使用 機器學習 中的數據標籤面來管理您的專案。

如果您的數據已在 Azure Blob 儲存體 中,請先確定它可作為數據存放區,再建立標籤專案。

  1. 若要建立專案,請選取 [ 新增專案]。

  2. 針對 [項目名稱],輸入項目的名稱。

    即使您刪除專案,您也無法重複使用項目名稱。

  3. 若要建立文字標籤專案,請針對 [媒體類型] 選取 [ 文字]。

  4. 針對 [ 標記工作類型],為您的案例選取選項:

    • 若要只將單一 標籤套用至一組標籤 中的每個文字片段,請選取 [文字分類多重類別]。
    • 若要將一或多個標籤套用至一組標籤中的每個文字片段,請選取 [文字分類多重標籤]。
    • 若要將標籤套用至個別文字單字或每個專案中的多個文字單字,請選取 [文字具名實體辨識]。

    Screenshot that shows creating a labeling project for text labeling.

  5. 選取下一步以繼續。

新增員工 (選擇性)

只有在您已從 Azure Marketplace 訂用數據標籤公司時,才從 Azure Marketplace 選取 [使用廠商卷標公司]。 然後選取廠商。 如果您的廠商未出現在清單中,請清除此選項。

請確定您必須先連絡廠商並簽署合約。 如需詳細資訊,請參閱 使用資料標籤廠商公司 (預覽)

選取下一步以繼續。

選取或建立數據集

如果您已建立包含數據的數據集,請在 [ 選取現有的數據集 ] 下拉式清單中加以選取。 您也可以選取 [建立數據集 ] 以使用現有的 Azure 資料存放區,或上傳本機檔案。

注意

專案不能包含超過 500,000 個檔案。 如果您的數據集超過此檔案計數,則只會載入前 500,000 個檔案。

從 Azure 資料存放區建立數據集

在許多情況下,您可以上傳本機檔案。 不過,Azure 儲存體 Explorer 提供更快速且更健全的方式來傳輸大量數據。 建議 儲存體總管 作為移動檔案的預設方式。

若要從已儲存在 Blob 中的數據建立數據集,儲存體:

  1. 選取 建立
  2. 針對 [ 名稱],輸入數據集的名稱。 或者,輸入描述。
  3. 選擇資料集 型態
    • 如果您使用 .csv.tsv 檔案,而且每個數據列都包含回應,請選取 [表格式]。
    • 如果您針對每個回應使用不同的 .txt 檔案,請選取 [ 檔案]。
  4. 選取 [下一步]。
  5. 選取 [從 Azure 記憶體],然後選取 [ 下一步]。
  6. 選取數據存放區,然後選取 [ 下一步]。
  7. 如果您的數據位於 Blob 內的子資料夾中 儲存體,請選擇 [瀏覽] 以選取路徑。
    • 若要在所選路徑的子資料夾中包含所有檔案,請將 附加 /** 至路徑。
    • 若要在目前容器及其子資料夾中包含所有數據,請附加 **/*.* 至路徑。
  8. 選取 建立
  9. 選取您建立的數據資產。

從上傳的數據建立數據集

直接上傳您的資料:

  1. 選取 建立
  2. 針對 [ 名稱],輸入數據集的名稱。 或者,輸入描述。
  3. 選擇資料集 型態
    • 如果您使用 .csv.tsv 檔案,而且每個數據列都包含回應,請選取 [表格式]。
    • 如果您針對每個回應使用不同的 .txt 檔案,請選取 [ 檔案]。
  4. 選取 [下一步]。
  5. 選取 [ 從本機檔案],然後選取 [ 下一步]。
  6. (選擇性)選取數據存放區。 默認會上傳至您 機器學習 工作區的預設 Blob 存放區 (workspaceblobstore)。
  7. 選取 [下一步]。
  8. 選取 [上傳>上傳檔案] 或 [上傳>上傳] 資料夾,以選取要上傳的本機檔案或資料夾。
  9. 在瀏覽器視窗中尋找您的檔案或資料夾,然後選取 [ 開啟]。
  10. 繼續選取 [上傳 ],直到您指定所有檔案和資料夾為止。
  11. 選擇性地選取 [如果已經存在時 覆寫] 複選框。 確認檔案和資料夾的清單。
  12. 選取 [下一步]。
  13. 確認詳細數據。 選取 [上一頁 ] 以修改設定,或選取 [ 建立 ] 以建立數據集。
  14. 最後,選取您建立的數據資產。

設定累加式重新整理

如果您打算將新的資料檔新增至數據集,請使用累加式重新整理將檔案新增至您的專案。

設定 [定期啟用累加式重新整理],系統會定期檢查數據集,以根據標籤完成率將新檔案新增至專案。 當專案包含最多 500,000 個檔案時,新的數據檢查就會停止。

當您想要讓項目持續監視數據存放區中的新數據時,請 選取 [定期啟用累加式重新整理]。

如果您不想要將資料存放區中的新檔案自動新增至專案,請清除選取範圍。

重要

請勿為您要更新的數據集建立新版本。 如果您這麼做,則不會看到更新,因為數據標記專案已釘選到初始版本。 請改用 Azure 儲存體 Explorer 來修改 Blob 儲存體 中適當資料夾中的數據。

此外,請勿移除數據。 從專案使用的資料集移除資料會導致專案中發生錯誤。

建立項目之後,請使用 [ 詳細 數據] 索引卷標來變更累加式重新整理、檢視上次重新整理的時間戳,並要求立即重新整理數據。

注意

使用表格式 (.csv.tsv) 數據集輸入的專案可以使用累加式重新整理。 但累加式重新整理只會新增表格式檔案。 重新整理無法辨識現有表格式檔案的變更。

指定標籤類別

在 [ 卷標類別 ] 頁面上,指定一組類別來分類您的數據。

標籤員的精確度和速度會受到其在類別中選擇的能力所影響。 例如,不使用拼出植物或動物的完整根系和物種,而是使用字段代碼或縮寫 genus。

您可以使用一般清單或建立標籤群組。

  • 若要建立一般清單,請選取 [新增卷標類別 ] 以建立每個標籤。

    Screenshot that shows how to add a flat structure of labels.

  • 若要在不同的群組中建立標籤,請選取 [新增標籤] 類別 以建立最上層標籤。 然後選取每個最上層底下的加號 (+),以建立該類別的下一層標籤。 您可以為任何群組建立最多六個層級。

    Screenshot that shows how to add groups of labels.

您可以在標記程式期間選取任何層級的標籤。 例如,標籤AnimalAnimal/Cat、、、Animal/DogColor/BlackColorColor/WhiteColor/Silver 都是標籤的可用選項。 在多標籤專案中,不需要挑選其中一個類別。 如果是您的意圖,請務必在指示中包含這項資訊。

描述文字標籤工作

請務必清楚說明標籤工作。 在 [ 卷標指示 ] 頁面上,您可以將連結新增至具有標籤指示的外部網站,或在頁面上的編輯方塊中提供指示。 讓指示以工作為導向,並適合物件。 請考量下列問題:

  • 卷標者會看到哪些標籤,以及它們之間會如何選擇? 是否有要參考的參考文字?
  • 如果沒有標籤看起來合適,應該怎麼做?
  • 如果多個標籤看起來合適,該怎麼辦?
  • 應該將哪些信賴閾值套用至標籤? 您是否想要標籤者的最佳猜測,如果他們不確定嗎?
  • 他們應該對部分遮蔽或重疊的對象採取什麼動作?
  • 如果影像邊緣裁剪感興趣的物件,該怎麼辦?
  • 如果他們認為自己在提交標籤後犯了錯誤,該怎麼辦?
  • 如果他們發現影像質量問題,包括光線狀況差、反射、失焦、背景遺失、相機角度異常等,該怎麼辦?
  • 如果多個檢閱者對套用標籤有不同的意見,該怎麼辦?

注意

標籤者可以使用數位鍵 1 到 9 來選取前九個標籤。

品質控制(預覽)

若要取得更精確的標籤,請使用 [品質控制 ] 頁面,將每個專案傳送至多個捲標者。

重要

共識標籤目前為公開預覽狀態。

此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。

如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

若要讓每個項目傳送至多個捲標者,請選取 [啟用共識卷標][預覽]。 然後設定 [ 最小卷標器 ] 和 [最大卷標器 ] 的值,以指定要使用的標籤器數目。 請確定您的標籤器數目最多。 項目啟動之後,您無法變更這些設定。

如果達到標籤器數目下限的共識,則會標示專案。 如果未達成共識,則會將專案傳送給更多標籤者。 如果專案進入標籤者數目上限之後沒有共識,其狀態為 [需要檢閱],且項目擁有者負責標記專案。

使用 ML 輔助的數據標籤

若要加速標記工作, ML 輔助標籤 面可以觸發自動機器學習模型。 機器學習服務(ML)輔助標籤可以處理檔案(.txt)和表格式(.csv)文字數據輸入。

若要使用 ML 輔助標籤:

  1. 選取 [ 啟用 ML 輔助標籤]。
  2. 選取 項目的數據集語言 。 此清單會顯示 TextDNNLanguages 類別支援的所有語言
  3. 指定要使用的計算目標。 如果您的工作區中沒有計算目標,此步驟會建立計算叢集,並將其新增至您的工作區。 叢集會以最少的零個節點建立,且不使用時不會花費任何成本。

ML 輔助標籤的詳細資訊

在標記項目開始時,專案會隨機隨機排列,以減少潛在的偏差。 不過,已定型的模型會反映數據集中出現的任何偏差。 例如,如果 80% 的專案是單一類別,則大約 80% 的數據會用來定型模型落在該類別中。

若要將 ML 輔助標籤使用的文字 DNN 模型定型,每個定型範例的輸入文字限製為檔案中的前 128 個字。 針對表格式輸入,套用此限制之前,會先串連所有文字數據行。 此實際限制可讓模型定型在合理的時間內完成。 檔中的實際文字(用於檔案輸入)或一組文字數據行(表格式輸入)可能超過 128 個字。 限制只與定型程式期間模型內部使用的內容有關。

啟動輔助標籤的標記項目數目不是固定的數位。 這個數位可能會從一個標籤專案到另一個標籤專案有顯著差異。 變異數取決於許多因素,包括標籤類別的數目和標籤分佈。

當您使用共識標籤時,會使用共識卷標進行定型。

因為最終標籤仍然依賴標籤的輸入,所以這項技術有時稱為 人為迴圈 標籤。

注意

ML 輔助數據標籤不支援在虛擬網路方保護的預設記憶體帳戶。 您必須針對 ML 輔助資料標記使用非預設記憶體帳戶。 非預設記憶體帳戶可以在虛擬網路後方受到保護。

預先套用標籤

提交足夠的標籤以進行定型之後,定型的模型會用來預測標籤。 標籤器現在會看到顯示每個專案上已存在預測標籤的頁面。 接著,工作會涉及檢閱這些預測,並在頁面提交之前更正任何標記錯誤的專案。

在手動標記的數據上定型機器學習模型之後,模型會在一組手動標記的專案上進行評估。 評估有助於判斷模型在不同信賴閾值上的精確度。 評估程式會設定信賴臨界值,超過此臨界值,模型就足以顯示預先標籤。 然後,系統會根據未標記的數據評估模型。 具有預測且比臨界值更自信的專案會用於預先標記。

初始化文字標籤專案

初始化標籤之後,專案的某些層面是不可變的。 您無法變更工作類型或資料集。 您可以修改工作描述的標籤和網址。 請先仔細檢閱設定,再建立專案。 提交項目之後,您會返回 [數據卷標 概觀] 頁面,其中顯示專案為 [初始化]。

注意

此頁面可能不會自動重新整理。 暫停之後,手動重新整理頁面,以查看項目的狀態為 [已建立]。

疑難排解

如需建立專案或存取數據的問題,請參閱 針對數據標記進行疑難解答。

下一步