分享方式:


設定影像標記專案

了解如何建立及執行資料標記專案,以標記 Azure Machine Learning 中的影像。 使用機器學習 (ML) 輔助的資料標記,或人工迴圈標記來協助處理工作。

設定分類、物件偵測 (週框方塊),或執行個體分割 (多邊形) 的標籤。

您也可以在 Azure Machine Learning 中使用資料標記工具來建立文字標記專案

重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

影像標記功能

Azure Machine Learning 資料標記是一個工具,可讓您建立、管理及監視資料標記專案。 可用於:

  • 您可以協調資料、標籤和小組成員,以有效管理標籤工作。
  • 此功能會追蹤進度,並維護未完成的加上標記工作佇列。
  • 啟動和停止專案,並控制標記進度。
  • 檢閱已標籤的資料並匯出為 Azure Machine Learning 資料集。

重要

您在 Azure Machine Learning 資料標記工具中處理的資料影像,必須可在 Azure Blob 儲存體資料存放區中使用。 如果您沒有現有的資料存放區,您可以在建立專案時,將資料檔案上傳至新的資料存放區。

影像資料可以是具有下列任一副檔名的任何檔案:

  • .jpg
  • .jpeg
  • .png
  • .jpe
  • .jfif
  • .bmp
  • .tif
  • .tiff
  • .dcm
  • .dicom

每個檔案都是要加上標籤的項目。

也可將 MLTable 資料資產輸入影像標記專案,只要資料表中的影像為上方其中一種格式即可。 如需詳細資訊,請參閱如何使用 MLTable 資料資產

必要條件

您可以使用這些項目在 Azure Machine Learning 中設定影像標記:

  • 您要加上標籤的資料,無論是在本機檔案中還是在 Azure Blob 儲存體中。
  • 您要套用的標籤集合。
  • 加上標籤的指示。
  • Azure 訂用帳戶。 如果您沒有 Azure 訂用帳戶,請在開始前建立免費帳戶
  • Azure Machine Learning 工作區。 請參閱建立 Azure Machine Learning 工作區

建立映像標籤專案

標記專案可在 Azure Machine Learning 中進行管理。 使用 Machine Learning 中的 [資料標記] 頁面來管理您的專案。

如果您的資料已儲存在 Azure Blob 儲存體中,請確定其成為可用的資料存放區,然後才建立標記專案。

  1. 若要建立專案,請選取 [新增專案]

  2. 針對 [專案名稱],輸入專案的名稱。

    即使您刪除專案,也無法重複使用專案名稱。

  3. 若要建立影像標記專案,針對 [媒體類型],選取 [影像]

  4. 針對 [標記工作類型],為您的案例選取選項:

    • 若只要將一組標籤中的一個標籤套用至影像,請選取 [影像分類多類別]
    • 若要將一組標籤中的一或多個標籤套用至影像,請選取 [影像分類多類別]。 例如,狗狗的相片可加上白天標籤。
    • 若要將標籤指派給影像中的每個物件,並新增週框方塊,請選取 [物件識別 (週框方塊)]
    • 若要將標籤指派給影像中的每個物件,並在每個物件周圍繪製多邊形,請選取 [多邊形 (執行個體分割)]
    • 若要在影像上繪製遮罩,並在像素層級指派標籤類別,請選取 [語意分割 (預覽)]

    顯示建立用於管理標記工作之標記專案的螢幕擷取畫面。

  5. 選取下一步以繼續。

新增員工 (選擇性)

只有在您是為來自 Azure Marketplace 的資料標記公司服務時,才應選取 [使用 Azure Marketplace 的廠商標記公司]。 接著選取廠商。 如果您的廠商未出現在清單中,請清除此選項。

請務必先洽詢廠商並簽署合約。 如需詳細資訊,請參閱與資料標記廠商公司合作

選取下一步以繼續。

指定要加上標籤的資料

如果您已建立包含資料的資料集,請從 [選取現有的資料集] 下拉式清單中選取該資料集。

您也可以選取 [建立資料集] 以使用現有的 Azure 資料存放區,或上傳本機檔案。

注意

專案不可包含超過 500,000 個檔案。 如果您的資料集超過此檔案計數,則只會載入前 500,000 個檔案。

資料行對應 (預覽)

如果選取 MLTable 資料資產,則會出現另一個資料行對應步驟,讓您指定包含影像 URL 的資料行。

您必須指定對應至 [影像] 欄位的資料行。 您也可以選擇性對應資料中的其他資料行。 例如,如果您的資料包含 [標籤] 資料列,您可以將其對應至 [類別] 欄位。 如果您的資料包含 [信賴度] 資料行,您可以將其對應至 [信賴度] 欄位。

如果您要從上一個專案匯入標籤,標籤的格式必須與您所建立標籤的格式相同。 例如,如果您要建立週框方塊標籤,則您匯入的標籤也必須是週框方塊標籤。

匯入選項 (預覽)

當您在資料行對應步驟中加入 [類別] 資料行,請使用匯入選項指定如何處理加上標籤的資料。

您必須指定對應至 [影像] 欄位的資料行。 您也可以選擇性對應資料中的其他資料行。 例如,如果您的資料包含 [標籤] 資料列,您可以將其對應至 [類別] 欄位。 如果您的資料包含 [信賴度] 資料行,您可以將其對應至 [信賴度] 欄位。

如果您要從上一個專案匯入標籤,標籤的格式必須與您所建立標籤的格式相同。 例如,如果您要建立週框方塊標籤,則您匯入的標籤也必須是週框方塊標籤。

從 Azure 資料存放區建立資料集

在許多情況下,您可以上傳本機檔案。 不過,Azure 儲存體總管可提供更快速且更穩健的方式來傳輸大量資料。 建議您使用儲存體總管作為移動檔案的預設方式。

若要從已儲存在 Blob 儲存體中的資料建立資料集:

  1. 選取 建立
  2. 針對 [名稱],輸入資料集的名稱。 或者,輸入描述。
  3. 確定 [資料集類型] 設為 [檔案]。 影像僅支援檔案資料集類型。
  4. 選取 [下一步]。
  5. 選取 [從 Azure 儲存體],然後選取 [下一步]
  6. 選取資料存放區,然後選取 [下一步]
  7. 如果您的資料位於 Blob 儲存體內的子資料夾中,請選擇 [瀏覽] 以選取路徑。
    • 若要包含所選取路徑的子資料夾內的所有檔案,請為路徑附加 /**
    • 若要包含目前容器及其子資料夾內的所有資料,請為路徑附加 **/*.*
  8. 選取 建立
  9. 選取您建立的資料資產。

從上傳的資料建立資料集

若要直接上傳資料:

  1. 選取 建立
  2. 針對 [名稱],輸入資料集的名稱。 或者,輸入描述。
  3. 確定 [資料集類型] 設為 [檔案]。 影像僅支援檔案資料集類型。
  4. 選取 [下一步]。
  5. 選取 [來自本機檔案],然後選取 [下一步]
  6. (選擇性步驟) 選取資料存放區。 您可以保留預設值以上傳至 Machine Learning 工作區的預設 Blob 存放區 (workspaceblobstore)。
  7. 選取 [下一步]。
  8. 選取 [上傳] > [上傳檔案] 或 [上傳] > [上傳資料夾],以選取要上傳的本機檔案或資料夾。
  9. 在瀏覽器視窗中尋找您的檔案或資料夾,然後選取 [開啟]
  10. 繼續選取 [上傳],直到您指定所有檔案和資料夾為止。
  11. 您可以選擇 [如果已存在則覆寫] 核取方塊。 驗證檔案和資料夾的清單。
  12. 選取 [下一步]。
  13. 確認詳細資料。 選取 [上一步] 以修改設定,或選取 [建立] 以建立資料集。
  14. 最後,選取您建立的資料資產。

設定累加式重新整理

若您打算將新的資料檔案新增至您的資料集,請使用累加式重新整理將這些檔案新增至您的專案。

設為 [啟用定期累加式重新整理] 後,將會根據標記完成率,定期檢查資料集有無要新增至專案的新檔案。 當專案包含 500,000 個檔案 (此為上限) 時,將會停止檢查新資料。

當您想要讓專案持續監視資料存放區中的新資料時,請選取 [啟用定期累加式重新整理]

如果您不想將資料存放區中的新檔案自動新增至專案,請清除選項。

重要

啟用累加式重新整理時,請勿為您要更新的資料集建立新版本。 如果建立新版本,資料集上會看不到更新,因為資料標記專案已鎖定為初始版本。 請改用 Azure 儲存體總管,在 Blob 儲存體的適當資料夾中修改資料。

此外,請勿移除資料。 從專案使用的資料集移除資料會導致專案中發生錯誤。

建立專案之後,請使用 [詳細資料] 索引標籤來變更累加式重新整理、檢視上次重新整理的時間戳記,以及要求立即重新整理資料。

指定標籤類別

標籤類別 頁面上,指定一組類別來對資料進行分類。

標籤人員的正確性和速度會受其類別選擇能力影響。 例如,與其完整拼出動植物的完整屬名和種名,不如使用界碼或屬名的縮寫。

您可以使用單層式列表,或建立標籤群組。

  • 若要建立一般清單,請選取 [新增標籤類別] 建立個別標籤。

    顯示如何新增標籤一般結構的螢幕擷取畫面。

  • 若要在不同的群組中建立標籤,請選取 [新增標籤類別] 建立最上層的標籤。 然後在每個最上層標籤下,選取加號 (+),建立該類別下一層的標籤。 您可以為任何群組建立最多六個層級。

    顯示如何新增標籤群組的螢幕擷取畫面。

在標記程序期間,您可以選取任何層級的標籤。 例如,標籤 AnimalAnimal/CatAnimal/DogColorColor/BlackColor/WhiteColor/Silver 都是可選擇的標籤。 在多標籤專案中,不必為每個類別選擇一個標籤。 如果這是您所希望的,請務必在指示中包含這項資訊。

描述影像標記工作

請務必清楚說明標籤工作。 在標記指示頁面上,您可以為具有標記指示的外部網站新增連結,或在頁面的編輯方塊中提供指示。 請對受眾提供以工作為導向的適當指示。 請考量下列問題:

  • 標記者會看到什麼標籤,以及要如何從中選擇? 是否有參考文字可供參考?
  • 如果看起來沒有合適的標籤,該怎麼辦?
  • 如果有多個看起來合適的標籤,該怎麼辦?
  • 應該對標籤套用怎樣的信賴度臨界值? 是否要標記者在不確定時盡其所能地猜測?
  • 若關注的物體有局部遮蔽或重疊的情形,該怎麼辦?
  • 若關注的物體在影像邊緣遭到裁剪,該怎麼辦?
  • 如果他們在提交標籤後發現作業有誤,該怎麼辦?
  • 如果發現影像品質有問題,包括光線不佳、反射、失焦、出現不該有的背景、相機角度異常等等,該怎麼辦?
  • 如果多個檢閱者對套用標籤有不同的意見,該怎麼辦?

週框方塊的重要問題包括:

  • 此工作的週框方塊是如何定義的? 方塊應完全位於物件內部,還是位於外部? 方塊應盡可能緊貼地裁切,還是可容許些許間隙?
  • 您希望標籤者在定義週框方塊時達到何種程度的嚴謹度和一致性?
  • 每個標籤類別的視覺定義為何? 是否可以為每個類別提供一般、邊緣和計數器案例的清單?
  • 如果物件很小,標記人員應該怎麼做? 應該將它標記為物件,或應該將該物件忽略為背景?
  • 標記者該如何處理在影像中只顯示部分內容的物件?
  • 標記者該如何處理部分內容遭其他物件遮蔽的物件?
  • 標記者該如何處理沒有明確邊界的物件?
  • 標記者該如何處理物件類別不符需求,但和相關物件類型具有視覺相似性的物件?

注意

標記者可以點選數字鍵 1 到 9 來選取前九個標籤。 您可能需要在指示中包含這項資訊。

品質控制 (預覽)

若需要更精確的標籤,請在品質控制 頁面中,將每個項目傳送給多個標記者。

重要

共識標記目前處於公開預覽狀態。

此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。

如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

若要讓每個項目傳送給多個標記者,請選取 [啟用共識標籤 (預覽)]。 然後設定 [最小標記者] 和 [最大標記者] 的值,以指定要使用的標記者數目。 請確定您具有符合最大數目的標記者。 您無法在啟動專案後變更這些設定。

如果達到最小標記者數目的共識,則會標記項目。 如果未達成共識,則會將項目傳送給更多標記者。 如果項目進入標記者數目上限之後沒有共識,其狀態是 [需要檢閱],而專案擁有者要負責標記項目。

注意

執行個體分割專案無法使用共識標記。

使用 ML 輔助的資料標記

若要加速標記工作,在ML 輔助標記頁面上,您可以觸發自動機器學習模型。 醫療影像 (具有 .dcm 副檔名的檔案) 未包含在輔助標記。 如果專案類型為語意分割 (預覽),則無法使用 ML 輔助標記。

在標記專案開始時,項目會隨機轉換成隨機順序,以減少可能的偏差。 不過,已定型的模型會反映資料集中出現的任何偏差。 例如,如果 80% 的項目屬於單一類別,則用來定型模型的資料有大約 80% 會落在該類別。

若要啟用輔助標記,請選取 [啟用 ML 輔助標記] 並指定 GPU。 如果工作區中沒有 GPU,則會為您建立 GPU 叢集 (資源名稱:DefLabelNC6v3、vmsize:Standard_NC6s_v3),並新增至工作區。 叢集會以最少零個節點建立,這表示不使用時不會花費任何成本。

ML 輔助標記包含兩個階段:

  • 叢集
  • 預先標記

啟動輔助標記所需的標記資料項目計數並非固定數字。 此數字在各個標記專案之間會有顯著差異。 針對某些專案,有時可能會在以手動方式標記 300 個項目之後,看到預先標記或叢集工作。 ML 輔助標記使用名稱為轉移學習的技術。 轉移學習會使用預先定型的模型來啟動定型程序。 如果您的資料集類別與預先定型的模型類似,則只有在以手動標記數百個項目之後,才可以使用預先標記。 如果資料集和用來將模型預先定型的資料大相徑庭,程序可能就需要更多時間。

當您使用共識標記時,會使用共識標籤進行定型。

由於最終標籤仍仰賴標記者的輸入,因此此項技術有時也稱為人為迴圈標記。

注意

ML 輔助資料標記不支援在虛擬網路後方受到保護的預設儲存體帳戶。 您必須針對 ML 輔助資料標記使用非預設儲存體帳戶。 非預設儲存體帳戶可以在虛擬網路後方受到保護。

叢集

提交一些標籤之後,分類模型會開始將類似的項目分成一組。 這些類似的影像會在同一頁上呈現給標記者,以幫助提高手動標記的效率。 當標記者檢視四宮格、六宮格或九宮格影像時,群集功能特別有用。

在機器學習模型已針對您手動標記的資料定型後,模型就會在其最後一個完全連線的圖層截斷。 而未標記的影像則會在通常稱為內嵌特徵化的程序中,透過截斷的模型傳遞。 此程序會將每個影像內嵌在此模型層所定義的高維度空間中。 系統會將空間中最接近此影像的其他影像用於群集工作。

物件偵測模型或是文字分類不會出現群集階段。

預先標記

將足夠的標籤送交定型之後,分類模型會預測標記,或物件偵測模型會預測週框方塊。 現在標籤人員會看到頁面所包含的每個項目上都已有預測標籤。 進行物件偵測時,也會顯示預測的方塊。 工作會涉及檢閱這些預測,並在頁面提交之前更正任何標記錯誤的影像。

在手動標記的資料上定型機器學習模型之後,模型會在一組測試手動標記項目上進行評估。 評估有助於判斷模型在不同信賴度閾值上的正確性。 此評估程序會設定信賴度閾值,高於該閾值表示模型的精確度足以顯示預先標記。 然後系統會針對未標記的資料評估模型。 預測超過此閾值的項目會使用預先標記。

初始化影像標記專案

在標記專案初始化後,專案的某些層面將無法變更。 您無法變更工作類型或資料集。 您可以修改標籤,以及工作描述的 URL。 在建立專案之前,請仔細檢閱設定。 提交專案之後,您就會回到資料標記概觀頁面,此處會將專案顯示為 [正在初始化]

注意

概觀頁面可能不會自動重新整理。 在暫停之後,請手動重新整理頁面,以確認專案的狀態是否為 [已建立]

疑難排解

若對建立專案或存取資料有疑問,請參閱對資料標記進行疑難排解