設定影像標籤專案

瞭解如何建立及執行數據標記專案,以在 Azure 機器學習 中標記映像。 使用機器學習服務 (ML)輔助的數據標記或人工迴圈標籤來協助處理工作。

設定分類、對象偵測(周框方塊)、實例分割(多邊形)或語意分割的標籤(預覽)。

您也可以在 Azure 機器學習 中使用資料標記工具來建立文字標籤

重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

影像標籤功能

Azure 機器學習 數據標記是一種工具,可用來建立、管理及監視數據標記專案。 可用於:

  • 協調數據、標籤和小組成員,以有效率地管理標籤工作。
  • 追蹤進度並維護未完成標籤工作的佇列。
  • 啟動和停止專案,並控制標籤進度。
  • 檢閱並匯出標示為 Azure 機器學習 數據集的數據。

重要

您在 Azure 機器學習 資料標籤工具中處理的數據映像,必須在 Azure Blob 儲存體 資料存放區中提供。 如果您沒有現有的數據存放區,您可以在建立專案時,將數據文件上傳至新的資料存放區。

影像數據可以是具有下列其中一個擴展名的任何檔案:

  • .jpg
  • .jpeg
  • .png
  • .jpe
  • .jfif
  • 。Bmp
  • .tif
  • 。Tiff
  • 。Dcm
  • 。Dicom

每個檔案都是要加上標籤的專案。

您也可以使用 MLTable 數據資產作為影像標籤項目的輸入,只要數據表中的影像是上述其中一種格式。 如需詳細資訊,請參閱 如何使用MLTable數據資產

必要條件

您可以使用這些專案在 Azure 機器學習 中設定影像標籤:

  • 您想要在本機檔案或 Azure Blob 儲存體 中加上標籤的數據。
  • 您想要套用的標籤。
  • 標籤的指示。
  • Azure 訂用帳戶。 如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶
  • Azure Machine Learning 工作區。 請參閱建立 Azure 機器學習 工作區

建立影像卷標專案

標籤專案會在 Azure 機器學習 中管理。 使用 機器學習 中的數據標籤面來管理您的專案。

如果您的數據已在 Azure Blob 儲存體 中,請先確定它可作為數據存放區,再建立標籤專案。

  1. 若要建立專案,請選取 [ 新增專案]。

  2. 針對 [項目名稱],輸入項目的名稱。

    即使您刪除專案,您也無法重複使用項目名稱。

  3. 若要建立影像標籤專案,請針對 [媒體類型],選取 [ 影像]。

  4. 針對 [ 標記工作類型],為您的案例選取選項:

    • 若要只將單一 標籤套用至一組標籤 中的影像,請選取 [影像分類多重類別]。
    • 若要從一組標籤將一或多個標籤套用至影像,請選取 [影像分類多重標籤]。 例如,狗的照片可能會加上 白天的標籤。
    • 若要將標籤指派給影像中的每個物件,並新增周框方塊,請選取 [物件識別][周框方塊]。
    • 若要將標籤指派給影像中的每個物件,並在每個物件周圍繪製多邊形,請選取 [實例分割][多邊形]。
    • 若要在影像上繪製遮罩,並在圖元層級指派標籤類別,請選取 [語意分割][預覽]。

    Screenshot that shows creating a labeling project to manage labeling.

  5. 選取下一步以繼續。

新增員工 (選擇性)

只有在您已從 Azure Marketplace 訂用數據標籤公司時,才從 Azure Marketplace 選取 [使用廠商卷標公司]。 然後選取廠商。 如果您的廠商未出現在清單中,請清除此選項。

請確定您必須先連絡廠商並簽署合約。 如需詳細資訊,請參閱 使用資料標籤廠商公司 (預覽)

選取下一步以繼續。

指定要標記的數據

如果您已建立包含數據的數據集,請在 [ 選取現有的數據集] 下拉式清單中選取數據集

您也可以選取 [建立數據集 ] 以使用現有的 Azure 資料存放區,或上傳本機檔案。

注意

專案不能包含超過 500,000 個檔案。 如果您的數據集超過此檔案計數,則只會載入前 500,000 個檔案。

資料行對應 (預覽)

如果您選取 MLTable 資料資產,則會出現額外的 數據行對應 步驟,讓您指定包含影像 URL 的數據行。

您必須指定對應至 [影像] 欄位的資料列。 您也可以選擇性地對應資料中的其他資料行。 例如,如果您的數據包含標籤數據列,您可以將它對應至 [類別] 字段。 如果您的數據包含 Confidence 資料行,您可以將它對應至 [信賴] 欄位。

如果您要從上一個項目匯入標籤,標籤的格式必須與您所建立的標籤格式相同。 例如,如果您要建立周框方塊標籤,您匯入的標籤也必須是周框方塊標籤。

匯入選項 (預覽)

當您在資料行對應步驟中包含 Category 資料行時,請使用匯入選項來指定如何處理已標記的數據。

您必須指定對應至 [影像] 欄位的資料列。 您也可以選擇性地對應資料中的其他資料行。 例如,如果您的數據包含標籤數據列,您可以將它對應至 [類別] 字段。 如果您的數據包含 Confidence 資料行,您可以將它對應至 [信賴] 欄位。

如果您要從上一個項目匯入標籤,標籤的格式必須與您所建立的標籤格式相同。 例如,如果您要建立周框方塊標籤,您匯入的標籤也必須是周框方塊標籤。

從 Azure 資料存放區建立數據集

在許多情況下,您可以上傳本機檔案。 不過,Azure 儲存體 總管提供更快速且更健全的方式來傳輸大量數據。 建議 儲存體總管 作為移動檔案的預設方式。

若要從已儲存在 Blob 中的數據建立數據集,儲存體:

  1. 選取 建立
  2. 針對 [ 名稱],輸入數據集的名稱。 或者,輸入描述。
  3. 確定 [數據集類型 ] 設定為 [ 檔案]。 影像僅支援檔案數據集類型。
  4. 選取 [下一步]。
  5. 選取 [從 Azure 記憶體],然後選取 [ 下一步]。
  6. 選取數據存放區,然後選取 [ 下一步]。
  7. 如果您的數據位於 Blob 內的子資料夾中 儲存體,請選擇 [瀏覽] 以選取路徑。
    • 若要在所選路徑的子資料夾中包含所有檔案,請將 附加 /** 至路徑。
    • 若要在目前容器及其子資料夾中包含所有數據,請附加 **/*.* 至路徑。
  8. 選取 建立
  9. 選取您建立的數據資產。

從上傳的數據建立數據集

直接上傳您的資料:

  1. 選取 建立
  2. 針對 [ 名稱],輸入數據集的名稱。 或者,輸入描述。
  3. 確定 [數據集類型 ] 設定為 [ 檔案]。 影像僅支援檔案數據集類型。
  4. 選取 [下一步]。
  5. 選取 [ 從本機檔案],然後選取 [ 下一步]。
  6. (選擇性)選取數據存放區。 您也可以將預設值保留為上傳至 機器學習 工作區的預設 Blob 存放區 (workspaceblobstore)。
  7. 選取 [下一步]。
  8. 選取 [上傳>上傳檔案] 或 [上傳>上傳] 資料夾,以選取要上傳的本機檔案或資料夾。
  9. 在瀏覽器視窗中,尋找您的檔案或資料夾,然後選取 [ 開啟]。
  10. 繼續選取 [上傳 ],直到您指定所有檔案和資料夾為止。
  11. 您可以選擇選取 [如果已經存在時 覆寫] 複選框。 確認檔案和資料夾的清單。
  12. 選取 [下一步]。
  13. 確認詳細數據。 選取 [上一頁 ] 以修改設定,或選取 [ 建立 ] 以建立數據集。
  14. 最後,選取您建立的數據資產。

設定累加式重新整理

如果您打算將新的資料檔新增至數據集,請使用累加式重新整理將檔案新增至您的專案。

設定 [定期啟用累加式重新整理],系統會定期檢查數據集,以根據標籤完成率將新檔案新增至專案。 當專案包含最多 500,000 個檔案時,新的數據檢查就會停止。

當您想要讓項目持續監視數據存放區中的新數據時,請 選取 [定期啟用累加式重新整理]。

如果您不想要將資料存放區中的新檔案自動新增至專案,請清除選取範圍。

重要

請勿為您要更新的數據集建立新版本。 如果您這麼做,則不會看到更新,因為數據標記專案已釘選到初始版本。 請改用 Azure 儲存體 Explorer 來修改 Blob 儲存體 中適當資料夾中的數據。

此外,請勿移除數據。 從專案使用的資料集移除資料會導致專案中發生錯誤。

建立項目之後,請使用 [ 詳細 數據] 索引卷標來變更累加式重新整理、檢視上次重新整理的時間戳,並要求立即重新整理數據。

指定標籤類別

在 [ 卷標類別 ] 頁面上,指定一組類別來分類您的數據。

標籤員的精確度和速度會受到其在類別中選擇的能力所影響。 例如,不使用拼出植物或動物的完整根系和物種,而是使用字段代碼或縮寫 genus。

您可以使用一般清單或建立標籤群組。

  • 若要建立一般清單,請選取 [新增卷標類別 ] 以建立每個標籤。

    Screenshot that shows how to add a flat structure of labels.

  • 若要在不同的群組中建立標籤,請選取 [新增標籤] 類別 以建立最上層標籤。 然後選取每個最上層底下的加號 (+),以建立該類別的下一層標籤。 您可以為任何群組建立最多六個層級。

    Screenshot that shows how to add groups of labels.

您可以在標記程式期間選取任何層級的標籤。 例如,標籤AnimalAnimal/Cat、、、Animal/DogColor/BlackColorColor/WhiteColor/Silver 都是標籤的可用選項。 在多標籤專案中,不需要挑選其中一個類別。 如果是您的意圖,請務必在指示中包含這項資訊。

描述影像標籤工作

請務必清楚說明標籤工作。 在 [ 卷標指示 ] 頁面上,您可以將連結新增至具有標籤指示的外部網站,或在頁面上的編輯方塊中提供指示。 讓指示以工作為導向,並適合物件。 請考量下列問題:

  • 卷標者會看到哪些標籤,以及它們之間會如何選擇? 是否有要參考的參考文字?
  • 如果沒有標籤看起來合適,應該怎麼做?
  • 如果多個標籤看起來合適,該怎麼辦?
  • 應該將哪些信賴閾值套用至標籤? 您是否想要標籤者的最佳猜測,如果他們不確定嗎?
  • 他們應該對部分遮蔽或重疊的對象採取什麼動作?
  • 如果影像邊緣裁剪感興趣的物件,該怎麼辦?
  • 如果他們認為自己在提交標籤後犯了錯誤,該怎麼辦?
  • 如果他們發現影像質量問題,包括光線狀況差、反射、失焦、背景遺失、相機角度異常等,該怎麼辦?
  • 如果多個檢閱者對套用標籤有不同的意見,該怎麼辦?

對於周框方塊,重要問題包括:

  • 此工作的周框方塊如何定義? 它應該完全停留在對象的內部,還是應該放在外部? 應該盡可能密切裁剪,還是可以接受一些許可?
  • 您希望標籤者在定義周框方塊時套用何種程度的護理和一致性?
  • 每個標籤類別的視覺定義為何? 您是否可為每個類別提供一般、邊緣和計數器案例的清單?
  • 如果物件很小,標籤應該怎麼做? 它應該標示為對象,還是應該將該物件忽略為背景?
  • 標籤器應該如何處理只部分顯示在影像中的物件?
  • 卷標器應該如何處理另一個物件部分涵蓋的物件?
  • 標籤器應該如何處理沒有明確界限的物件?
  • 卷標器應該如何處理不是感興趣的物件類別,但具有相關物件類型的視覺相似性?

注意

標籤者可以使用數位鍵 1 到 9 來選取前九個標籤。

品質控制(預覽)

若要取得更精確的標籤,請使用 [品質控制 ] 頁面,將每個專案傳送至多個捲標者。

重要

共識標籤目前為公開預覽狀態。

此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。

如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

若要讓每個項目傳送至多個捲標者,請選取 [啟用共識卷標][預覽]。 然後設定 [ 最小卷標器 ] 和 [最大卷標器 ] 的值,以指定要使用的標籤器數目。 請確定您的標籤器數目最多。 項目啟動之後,您無法變更這些設定。

如果達到標籤器數目下限的共識,則會標示專案。 如果未達成共識,則會將專案傳送給更多標籤者。 如果專案進入標籤者數目上限之後沒有共識,其狀態為 [需要檢閱],且項目擁有者負責標記專案。

注意

實例分割 項目無法使用共識標籤。

使用 ML 輔助的數據標籤

若要加速標記工作, 您可以在ML輔助標籤 面上觸發自動機器學習模型。 醫療影像(具有 .dcm擴展名的 檔案)未包含在輔助標籤中。 如果項目類型為 語意分割(預覽),則無法使用ML輔助標籤。

在標記項目開始時,專案會隨機隨機排列,以減少潛在的偏差。 不過,定型的模型會反映數據集中存在的任何偏差。 例如,如果 80% 的專案屬於單一類別,則大約 80% 的數據會用來定型該類別中的模型。

若要啟用輔助標籤,請選取 [ 啟用 ML 輔助標籤 ] 並指定 GPU。 如果您的工作區中沒有 GPU,則會為您建立 GPU 叢集(資源名稱:DefLabelNC6v3、vmsize:Standard_NC6s_v3),並新增至工作區。 叢集是以最少零個節點建立的,這表示在不使用時不會花費任何成本。

ML 輔助標籤包含兩個階段:

  • 叢集
  • 預先套用標籤

啟動輔助標籤的標記資料項計數不是固定的數位。 這個數位可能會從一個標籤專案到另一個標籤專案有顯著差異。 對於某些項目,有時可以在手動標記 300 個項目之後查看預先標籤或叢集工作。 ML 輔助標籤使用稱為 「傳輸學習」的技術。 轉移學習會使用預先定型的模型來啟動定型程式。 如果數據集的類別類似於預先定型模型中的類別,則預先標籤可能會在只有數百個手動標記的項目之後可供使用。 如果您的數據集與用來預先定型模型的數據大相徑庭,程式可能需要更多時間。

當您使用共識標籤時,會使用共識卷標進行定型。

因為最終標籤仍然依賴標籤的輸入,所以這項技術有時稱為 人為迴圈 標籤。

注意

ML 輔助數據標籤不支援在虛擬網路方保護的預設記憶體帳戶。 您必須針對 ML 輔助資料標記使用非預設記憶體帳戶。 非預設記憶體帳戶可以在虛擬網路後方受到保護。

叢集

提交一些標籤之後,分類模型會開始將類似的專案分組在一起。 這些類似的影像會呈現給相同頁面上的標籤者,以協助讓手動標記更有效率。 當標籤器檢視四、六或九個影像的方格時,叢集特別有用。

在手動標記的數據上定型機器學習模型之後,模型會截斷至其最後一個完全連接的層。 然後,在稱為 內嵌特徵化的進程中,透過截斷的模型傳遞未標記的影像。 此程式會將每個影像內嵌在模型層所定義的高維度空間中。 空間中最接近映像的其他映像會用於叢集工作。

對象偵測模型或文字分類不會顯示群集階段。

預先套用標籤

提交足夠的標籤以進行定型之後,分類模型會預測標籤或物件偵測模型預測周框方塊。 標籤器現在會看到包含每個專案上已存在的預測標籤的頁面。 針對物件偵測,也會顯示預測方塊。 此工作牽涉到檢閱這些預測,並在頁面提交之前更正任何未正確標記的影像。

在手動標記的數據上定型機器學習模型之後,模型會在一組手動標記的專案上進行評估。 評估有助於判斷模型在不同信賴閾值上的精確度。 評估程式會設定信賴臨界值,超過此臨界值,模型就足以顯示預先標籤。 然後,系統會根據未標記的數據評估模型。 具有比臨界值更自信的專案會用於預先標記。

初始化影像標籤專案

初始化標籤之後,專案的某些層面是不可變的。 您無法變更工作類型或資料集。 您可以修改工作描述的標籤和網址。 請先仔細檢閱設定,再建立專案。 提交項目之後,您會返回 [數據卷標 概觀] 頁面,其中顯示專案為 [初始化]。

注意

此頁面可能不會自動重新整理。 暫停之後,手動重新整理頁面,以查看項目的狀態為 [已建立]。

疑難排解

如需建立專案或存取數據的問題,請參閱 針對數據標記進行疑難解答。

下一步