設定影像標籤專案
瞭解如何建立及執行數據標記專案,以在 Azure 機器學習 中標記映像。 使用機器學習服務 (ML)輔助的數據標記或人工迴圈標籤來協助處理工作。
設定分類、對象偵測(周框方塊)、實例分割(多邊形)或語意分割的標籤(預覽)。
您也可以在 Azure 機器學習 中使用資料標記工具來建立文字標籤。
重要
本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
影像標籤功能
Azure 機器學習 數據標記是一種工具,可用來建立、管理及監視數據標記專案。 可用於:
- 協調數據、標籤和小組成員,以有效率地管理標籤工作。
- 追蹤進度並維護未完成標籤工作的佇列。
- 啟動和停止專案,並控制標籤進度。
- 檢閱並匯出標示為 Azure 機器學習 數據集的數據。
重要
您在 Azure 機器學習 資料標籤工具中處理的數據映像,必須在 Azure Blob 儲存體 資料存放區中提供。 如果您沒有現有的數據存放區,您可以在建立專案時,將數據文件上傳至新的資料存放區。
影像數據可以是具有下列其中一個擴展名的任何檔案:
- .jpg
- .jpeg
- .png
- .jpe
- .jfif
- 。Bmp
- .tif
- 。Tiff
- 。Dcm
- 。Dicom
每個檔案都是要加上標籤的專案。
您也可以使用 MLTable 數據資產作為影像標籤項目的輸入,只要數據表中的影像是上述其中一種格式。 如需詳細資訊,請參閱 如何使用MLTable數據資產。
必要條件
您可以使用這些專案在 Azure 機器學習 中設定影像標籤:
- 您想要在本機檔案或 Azure Blob 儲存體 中加上標籤的數據。
- 您想要套用的標籤。
- 標籤的指示。
- Azure 訂用帳戶。 如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶。
- Azure Machine Learning 工作區。 請參閱建立 Azure 機器學習 工作區。
建立影像卷標專案
標籤專案會在 Azure 機器學習 中管理。 使用 機器學習 中的數據標籤面來管理您的專案。
如果您的數據已在 Azure Blob 儲存體 中,請先確定它可作為數據存放區,再建立標籤專案。
若要建立專案,請選取 [ 新增專案]。
針對 [項目名稱],輸入項目的名稱。
即使您刪除專案,您也無法重複使用項目名稱。
若要建立影像標籤專案,請針對 [媒體類型],選取 [ 影像]。
針對 [ 標記工作類型],為您的案例選取選項:
- 若要只將單一 標籤套用至一組標籤 中的影像,請選取 [影像分類多重類別]。
- 若要從一組標籤將一或多個標籤套用至影像,請選取 [影像分類多重標籤]。 例如,狗的照片可能會加上 狗 和 白天的標籤。
- 若要將標籤指派給影像中的每個物件,並新增周框方塊,請選取 [物件識別][周框方塊]。
- 若要將標籤指派給影像中的每個物件,並在每個物件周圍繪製多邊形,請選取 [實例分割][多邊形]。
- 若要在影像上繪製遮罩,並在圖元層級指派標籤類別,請選取 [語意分割][預覽]。
選取下一步以繼續。
新增員工 (選擇性)
只有在您已從 Azure Marketplace 訂用數據標籤公司時,才從 Azure Marketplace 選取 [使用廠商卷標公司]。 然後選取廠商。 如果您的廠商未出現在清單中,請清除此選項。
請確定您必須先連絡廠商並簽署合約。 如需詳細資訊,請參閱 使用資料標籤廠商公司 (預覽) 。
選取下一步以繼續。
指定要標記的數據
如果您已建立包含數據的數據集,請在 [ 選取現有的數據集] 下拉式清單中選取數據集 。
您也可以選取 [建立數據集 ] 以使用現有的 Azure 資料存放區,或上傳本機檔案。
注意
專案不能包含超過 500,000 個檔案。 如果您的數據集超過此檔案計數,則只會載入前 500,000 個檔案。
資料行對應 (預覽)
如果您選取 MLTable 資料資產,則會出現額外的 數據行對應 步驟,讓您指定包含影像 URL 的數據行。
您必須指定對應至 [影像] 欄位的資料列。 您也可以選擇性地對應資料中的其他資料行。 例如,如果您的數據包含標籤數據列,您可以將它對應至 [類別] 字段。 如果您的數據包含 Confidence 資料行,您可以將它對應至 [信賴] 欄位。
如果您要從上一個項目匯入標籤,標籤的格式必須與您所建立的標籤格式相同。 例如,如果您要建立周框方塊標籤,您匯入的標籤也必須是周框方塊標籤。
匯入選項 (預覽)
當您在資料行對應步驟中包含 Category 資料行時,請使用匯入選項來指定如何處理已標記的數據。
您必須指定對應至 [影像] 欄位的資料列。 您也可以選擇性地對應資料中的其他資料行。 例如,如果您的數據包含標籤數據列,您可以將它對應至 [類別] 字段。 如果您的數據包含 Confidence 資料行,您可以將它對應至 [信賴] 欄位。
如果您要從上一個項目匯入標籤,標籤的格式必須與您所建立的標籤格式相同。 例如,如果您要建立周框方塊標籤,您匯入的標籤也必須是周框方塊標籤。
從 Azure 資料存放區建立數據集
在許多情況下,您可以上傳本機檔案。 不過,Azure 儲存體 總管提供更快速且更健全的方式來傳輸大量數據。 建議 儲存體總管 作為移動檔案的預設方式。
若要從已儲存在 Blob 中的數據建立數據集,儲存體:
- 選取 建立。
- 針對 [ 名稱],輸入數據集的名稱。 或者,輸入描述。
- 確定 [數據集類型 ] 設定為 [ 檔案]。 影像僅支援檔案數據集類型。
- 選取 [下一步]。
- 選取 [從 Azure 記憶體],然後選取 [ 下一步]。
- 選取數據存放區,然後選取 [ 下一步]。
- 如果您的數據位於 Blob 內的子資料夾中 儲存體,請選擇 [瀏覽] 以選取路徑。
- 若要在所選路徑的子資料夾中包含所有檔案,請將 附加
/**
至路徑。 - 若要在目前容器及其子資料夾中包含所有數據,請附加
**/*.*
至路徑。
- 若要在所選路徑的子資料夾中包含所有檔案,請將 附加
- 選取 建立。
- 選取您建立的數據資產。
從上傳的數據建立數據集
直接上傳您的資料:
- 選取 建立。
- 針對 [ 名稱],輸入數據集的名稱。 或者,輸入描述。
- 確定 [數據集類型 ] 設定為 [ 檔案]。 影像僅支援檔案數據集類型。
- 選取 [下一步]。
- 選取 [ 從本機檔案],然後選取 [ 下一步]。
- (選擇性)選取數據存放區。 您也可以將預設值保留為上傳至 機器學習 工作區的預設 Blob 存放區 (workspaceblobstore)。
- 選取 [下一步]。
- 選取 [上傳>上傳檔案] 或 [上傳>上傳] 資料夾,以選取要上傳的本機檔案或資料夾。
- 在瀏覽器視窗中,尋找您的檔案或資料夾,然後選取 [ 開啟]。
- 繼續選取 [上傳 ],直到您指定所有檔案和資料夾為止。
- 您可以選擇選取 [如果已經存在時 覆寫] 複選框。 確認檔案和資料夾的清單。
- 選取 [下一步]。
- 確認詳細數據。 選取 [上一頁 ] 以修改設定,或選取 [ 建立 ] 以建立數據集。
- 最後,選取您建立的數據資產。
設定累加式重新整理
如果您打算將新的資料檔新增至數據集,請使用累加式重新整理將檔案新增至您的專案。
設定 [定期啟用累加式重新整理] 時,系統會定期檢查數據集,以根據標籤完成率將新檔案新增至專案。 當專案包含最多 500,000 個檔案時,新的數據檢查就會停止。
當您想要讓項目持續監視數據存放區中的新數據時,請 選取 [定期啟用累加式重新整理]。
如果您不想要將資料存放區中的新檔案自動新增至專案,請清除選取範圍。
重要
請勿為您要更新的數據集建立新版本。 如果您這麼做,則不會看到更新,因為數據標記專案已釘選到初始版本。 請改用 Azure 儲存體 Explorer 來修改 Blob 儲存體 中適當資料夾中的數據。
此外,請勿移除數據。 從專案使用的資料集移除資料會導致專案中發生錯誤。
建立項目之後,請使用 [ 詳細 數據] 索引卷標來變更累加式重新整理、檢視上次重新整理的時間戳,並要求立即重新整理數據。
指定標籤類別
在 [ 卷標類別 ] 頁面上,指定一組類別來分類您的數據。
標籤員的精確度和速度會受到其在類別中選擇的能力所影響。 例如,不使用拼出植物或動物的完整根系和物種,而是使用字段代碼或縮寫 genus。
您可以使用一般清單或建立標籤群組。
若要建立一般清單,請選取 [新增卷標類別 ] 以建立每個標籤。
若要在不同的群組中建立標籤,請選取 [新增標籤] 類別 以建立最上層標籤。 然後選取每個最上層底下的加號 (+),以建立該類別的下一層標籤。 您可以為任何群組建立最多六個層級。
您可以在標記程式期間選取任何層級的標籤。 例如,標籤Animal
、Animal/Cat
、、、Animal/Dog
Color/Black
Color
、 Color/White
和 Color/Silver
都是標籤的可用選項。 在多標籤專案中,不需要挑選其中一個類別。 如果是您的意圖,請務必在指示中包含這項資訊。
描述影像標籤工作
請務必清楚說明標籤工作。 在 [ 卷標指示 ] 頁面上,您可以將連結新增至具有標籤指示的外部網站,或在頁面上的編輯方塊中提供指示。 讓指示以工作為導向,並適合物件。 請考量下列問題:
- 卷標者會看到哪些標籤,以及它們之間會如何選擇? 是否有要參考的參考文字?
- 如果沒有標籤看起來合適,應該怎麼做?
- 如果多個標籤看起來合適,該怎麼辦?
- 應該將哪些信賴閾值套用至標籤? 您是否想要標籤者的最佳猜測,如果他們不確定嗎?
- 他們應該對部分遮蔽或重疊的對象採取什麼動作?
- 如果影像邊緣裁剪感興趣的物件,該怎麼辦?
- 如果他們認為自己在提交標籤後犯了錯誤,該怎麼辦?
- 如果他們發現影像質量問題,包括光線狀況差、反射、失焦、背景遺失、相機角度異常等,該怎麼辦?
- 如果多個檢閱者對套用標籤有不同的意見,該怎麼辦?
對於周框方塊,重要問題包括:
- 此工作的周框方塊如何定義? 它應該完全停留在對象的內部,還是應該放在外部? 應該盡可能密切裁剪,還是可以接受一些許可?
- 您希望標籤者在定義周框方塊時套用何種程度的護理和一致性?
- 每個標籤類別的視覺定義為何? 您是否可為每個類別提供一般、邊緣和計數器案例的清單?
- 如果物件很小,標籤應該怎麼做? 它應該標示為對象,還是應該將該物件忽略為背景?
- 標籤器應該如何處理只部分顯示在影像中的物件?
- 卷標器應該如何處理另一個物件部分涵蓋的物件?
- 標籤器應該如何處理沒有明確界限的物件?
- 卷標器應該如何處理不是感興趣的物件類別,但具有相關物件類型的視覺相似性?
注意
標籤者可以使用數位鍵 1 到 9 來選取前九個標籤。
品質控制(預覽)
若要取得更精確的標籤,請使用 [品質控制 ] 頁面,將每個專案傳送至多個捲標者。
重要
共識標籤目前為公開預覽狀態。
此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。
如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
若要讓每個項目傳送至多個捲標者,請選取 [啟用共識卷標][預覽]。 然後設定 [ 最小卷標器 ] 和 [最大卷標器 ] 的值,以指定要使用的標籤器數目。 請確定您的標籤器數目最多。 項目啟動之後,您無法變更這些設定。
如果達到標籤器數目下限的共識,則會標示專案。 如果未達成共識,則會將專案傳送給更多標籤者。 如果專案進入標籤者數目上限之後沒有共識,其狀態為 [需要檢閱],且項目擁有者負責標記專案。
注意
實例分割 項目無法使用共識標籤。
使用 ML 輔助的數據標籤
若要加速標記工作, 您可以在ML輔助標籤 面上觸發自動機器學習模型。 醫療影像(具有 .dcm擴展名的 檔案)未包含在輔助標籤中。 如果項目類型為 語意分割(預覽),則無法使用ML輔助標籤。
在標記項目開始時,專案會隨機隨機排列,以減少潛在的偏差。 不過,定型的模型會反映數據集中存在的任何偏差。 例如,如果 80% 的專案屬於單一類別,則大約 80% 的數據會用來定型該類別中的模型。
若要啟用輔助標籤,請選取 [ 啟用 ML 輔助標籤 ] 並指定 GPU。 如果您的工作區中沒有 GPU,則會為您建立 GPU 叢集(資源名稱:DefLabelNC6v3、vmsize:Standard_NC6s_v3),並新增至工作區。 叢集是以最少零個節點建立的,這表示在不使用時不會花費任何成本。
ML 輔助標籤包含兩個階段:
- 叢集
- 預先套用標籤
啟動輔助標籤的標記資料項計數不是固定的數位。 這個數位可能會從一個標籤專案到另一個標籤專案有顯著差異。 對於某些項目,有時可以在手動標記 300 個項目之後查看預先標籤或叢集工作。 ML 輔助標籤使用稱為 「傳輸學習」的技術。 轉移學習會使用預先定型的模型來啟動定型程式。 如果數據集的類別類似於預先定型模型中的類別,則預先標籤可能會在只有數百個手動標記的項目之後可供使用。 如果您的數據集與用來預先定型模型的數據大相徑庭,程式可能需要更多時間。
當您使用共識標籤時,會使用共識卷標進行定型。
因為最終標籤仍然依賴標籤的輸入,所以這項技術有時稱為 人為迴圈 標籤。
注意
ML 輔助數據標籤不支援在虛擬網路後方保護的預設記憶體帳戶。 您必須針對 ML 輔助資料標記使用非預設記憶體帳戶。 非預設記憶體帳戶可以在虛擬網路後方受到保護。
叢集
提交一些標籤之後,分類模型會開始將類似的專案分組在一起。 這些類似的影像會呈現給相同頁面上的標籤者,以協助讓手動標記更有效率。 當標籤器檢視四、六或九個影像的方格時,叢集特別有用。
在手動標記的數據上定型機器學習模型之後,模型會截斷至其最後一個完全連接的層。 然後,在稱為 內嵌 或 特徵化的進程中,透過截斷的模型傳遞未標記的影像。 此程式會將每個影像內嵌在模型層所定義的高維度空間中。 空間中最接近映像的其他映像會用於叢集工作。
對象偵測模型或文字分類不會顯示群集階段。
預先套用標籤
提交足夠的標籤以進行定型之後,分類模型會預測標籤或物件偵測模型預測周框方塊。 標籤器現在會看到包含每個專案上已存在的預測標籤的頁面。 針對物件偵測,也會顯示預測方塊。 此工作牽涉到檢閱這些預測,並在頁面提交之前更正任何未正確標記的影像。
在手動標記的數據上定型機器學習模型之後,模型會在一組手動標記的專案上進行評估。 評估有助於判斷模型在不同信賴閾值上的精確度。 評估程式會設定信賴臨界值,超過此臨界值,模型就足以顯示預先標籤。 然後,系統會根據未標記的數據評估模型。 具有比臨界值更自信的專案會用於預先標記。
初始化影像標籤專案
初始化標籤之後,專案的某些層面是不可變的。 您無法變更工作類型或資料集。 您可以修改工作描述的標籤和網址。 請先仔細檢閱設定,再建立專案。 提交項目之後,您會返回 [數據卷標 概觀] 頁面,其中顯示專案為 [初始化]。
注意
此頁面可能不會自動重新整理。 暫停之後,手動重新整理頁面,以查看項目的狀態為 [已建立]。
疑難排解
如需建立專案或存取數據的問題,請參閱 針對數據標記進行疑難解答。