訓練
認證
Microsoft Certified: Azure Data Scientist Associate - Certifications
使用 Python、Azure Machine Learning 和 MLflow 來管理資料擷取和準備、訓練及部署模型,以及監視機器學習解決方案。
了解如何建立及執行資料標記專案,以標記 Azure Machine Learning 中的影像。 使用機器學習 (ML) 輔助的資料標記,或人工迴圈標記來協助處理工作。
設定分類、物件偵測 (週框方塊),或執行個體分割 (多邊形) 的標籤。
您也可以在 Azure Machine Learning 中使用資料標記工具來建立文字標記專案。
重要
本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
Azure Machine Learning 資料標記是一個工具,可讓您建立、管理及監視資料標記專案。 可用於:
重要
您在 Azure Machine Learning 資料標記工具中處理的資料影像,必須可在 Azure Blob 儲存體資料存放區中使用。 如果您沒有現有的資料存放區,您可以在建立專案時,將資料檔案上傳至新的資料存放區。
影像資料可以是具有下列任一副檔名的任何檔案:
.jpg
.jpeg
.png
.jpe
.jfif
.bmp
.tif
.tiff
.dcm
.dicom
每個檔案都是要加上標籤的項目。
也可將 MLTable
資料資產輸入影像標記專案,只要資料表中的影像為上方其中一種格式即可。 如需詳細資訊,請參閱如何使用 MLTable
資料資產。
您可以使用這些項目在 Azure Machine Learning 中設定影像標記:
標記專案可在 Azure Machine Learning 中進行管理。 使用 Machine Learning 中的 [資料標記] 頁面來管理您的專案。
如果您的資料已儲存在 Azure Blob 儲存體中,請確定其成為可用的資料存放區,然後才建立標記專案。
若要建立專案,請選取 [新增專案]。
針對 [專案名稱],輸入專案的名稱。
即使您刪除專案,也無法重複使用專案名稱。
若要建立影像標記專案,針對 [媒體類型],選取 [影像]。
針對 [標記工作類型],為您的案例選取選項:
選取下一步以繼續。
只有在您是為來自 Azure Marketplace 的資料標記公司服務時,才應選取 [使用 Azure Marketplace 的廠商標記公司]。 接著選取廠商。 如果您的廠商未出現在清單中,請清除此選項。
請務必先洽詢廠商並簽署合約。 如需詳細資訊,請參閱與資料標記廠商公司合作。
選取下一步以繼續。
如果您已建立包含資料的資料集,請從 [選取現有的資料集] 下拉式清單中選取該資料集。
您也可以選取 [建立資料集] 以使用現有的 Azure 資料存放區,或上傳本機檔案。
注意
專案不可包含超過 500,000 個檔案。 如果您的資料集超過此檔案計數,則只會載入前 500,000 個檔案。
如果選取 MLTable 資料資產,則會出現另一個資料行對應步驟,讓您指定包含影像 URL 的資料行。
您必須指定對應至 [影像] 欄位的資料行。 您也可以選擇性對應資料中的其他資料行。 例如,如果您的資料包含 [標籤] 資料列,您可以將其對應至 [類別] 欄位。 如果您的資料包含 [信賴度] 資料行,您可以將其對應至 [信賴度] 欄位。
如果您要從上一個專案匯入標籤,標籤的格式必須與您所建立標籤的格式相同。 例如,如果您要建立週框方塊標籤,則您匯入的標籤也必須是週框方塊標籤。
當您在資料行對應步驟中加入 [類別] 資料行,請使用匯入選項指定如何處理加上標籤的資料。
您必須指定對應至 [影像] 欄位的資料行。 您也可以選擇性對應資料中的其他資料行。 例如,如果您的資料包含 [標籤] 資料列,您可以將其對應至 [類別] 欄位。 如果您的資料包含 [信賴度] 資料行,您可以將其對應至 [信賴度] 欄位。
如果您要從上一個專案匯入標籤,標籤的格式必須與您所建立標籤的格式相同。 例如,如果您要建立週框方塊標籤,則您匯入的標籤也必須是週框方塊標籤。
在許多情況下,您可以上傳本機檔案。 不過,Azure 儲存體總管可提供更快速且更穩健的方式來傳輸大量資料。 建議您使用儲存體總管作為移動檔案的預設方式。
若要從已儲存在 Blob 儲存體中的資料建立資料集:
/**
。**/*.*
。若要直接上傳資料:
若您打算將新的資料檔案新增至您的資料集,請使用累加式重新整理將這些檔案新增至您的專案。
設為 [啟用定期累加式重新整理] 後,將會根據標記完成率,定期檢查資料集有無要新增至專案的新檔案。 當專案包含 500,000 個檔案 (此為上限) 時,將會停止檢查新資料。
當您想要讓專案持續監視資料存放區中的新資料時,請選取 [啟用定期累加式重新整理]。
如果您不想將資料存放區中的新檔案自動新增至專案,請清除選項。
重要
啟用累加式重新整理時,請勿為您要更新的資料集建立新版本。 如果建立新版本,資料集上會看不到更新,因為資料標記專案已鎖定為初始版本。 請改用 Azure 儲存體總管,在 Blob 儲存體的適當資料夾中修改資料。
此外,請勿移除資料。 從專案使用的資料集移除資料會導致專案中發生錯誤。
建立專案之後,請使用 [詳細資料] 索引標籤來變更累加式重新整理、檢視上次重新整理的時間戳記,以及要求立即重新整理資料。
在標籤類別 頁面上,指定一組類別來對資料進行分類。
標籤人員的正確性和速度會受其類別選擇能力影響。 例如,與其完整拼出動植物的完整屬名和種名,不如使用界碼或屬名的縮寫。
您可以使用單層式列表,或建立標籤群組。
若要建立一般清單,請選取 [新增標籤類別] 建立個別標籤。
若要在不同的群組中建立標籤,請選取 [新增標籤類別] 建立最上層的標籤。 然後在每個最上層標籤下,選取加號 (+),建立該類別下一層的標籤。 您可以為任何群組建立最多六個層級。
在標記程序期間,您可以選取任何層級的標籤。 例如,標籤 Animal
、Animal/Cat
、Animal/Dog
、Color
、Color/Black
、Color/White
和 Color/Silver
都是可選擇的標籤。 在多標籤專案中,不必為每個類別選擇一個標籤。 如果這是您所希望的,請務必在指示中包含這項資訊。
請務必清楚說明標籤工作。 在標記指示頁面上,您可以為具有標記指示的外部網站新增連結,或在頁面的編輯方塊中提供指示。 請對受眾提供以工作為導向的適當指示。 請考量下列問題:
週框方塊的重要問題包括:
注意
標記者可以點選數字鍵 1 到 9 來選取前九個標籤。 您可能需要在指示中包含這項資訊。
若需要更精確的標籤,請在品質控制 頁面中,將每個項目傳送給多個標記者。
重要
共識標記目前處於公開預覽狀態。
此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。
如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
若要讓每個項目傳送給多個標記者,請選取 [啟用共識標籤 (預覽)]。 然後設定 [最小標記者] 和 [最大標記者] 的值,以指定要使用的標記者數目。 請確定您具有符合最大數目的標記者。 您無法在啟動專案後變更這些設定。
如果達到最小標記者數目的共識,則會標記項目。 如果未達成共識,則會將項目傳送給更多標記者。 如果項目進入標記者數目上限之後沒有共識,其狀態是 [需要檢閱],而專案擁有者要負責標記項目。
注意
執行個體分割專案無法使用共識標記。
若要加速標記工作,在ML 輔助標記頁面上,您可以觸發自動機器學習模型。 醫療影像 (具有 .dcm
副檔名的檔案) 未包含在輔助標記。 如果專案類型為語意分割 (預覽),則無法使用 ML 輔助標記。
在標記專案開始時,項目會隨機轉換成隨機順序,以減少可能的偏差。 不過,已定型的模型會反映資料集中出現的任何偏差。 例如,如果 80% 的項目屬於單一類別,則用來定型模型的資料有大約 80% 會落在該類別。
若要啟用輔助標記,請選取 [啟用 ML 輔助標記] 並指定 GPU。 如果工作區中沒有 GPU,則會為您建立 GPU 叢集 (資源名稱:DefLabelNC6v3、vmsize:Standard_NC6s_v3),並新增至工作區。 叢集會以最少零個節點建立,這表示不使用時不會花費任何成本。
ML 輔助標記包含兩個階段:
啟動輔助標記所需的標記資料項目計數並非固定數字。 此數字在各個標記專案之間會有顯著差異。 針對某些專案,有時可能會在以手動方式標記 300 個項目之後,看到預先標記或叢集工作。 ML 輔助標記使用名稱為轉移學習的技術。 轉移學習會使用預先定型的模型來啟動定型程序。 如果您的資料集類別與預先定型的模型類似,則只有在以手動標記數百個項目之後,才可以使用預先標記。 如果資料集和用來將模型預先定型的資料大相徑庭,程序可能就需要更多時間。
當您使用共識標記時,會使用共識標籤進行定型。
由於最終標籤仍仰賴標記者的輸入,因此此項技術有時也稱為人為迴圈標記。
注意
ML 輔助資料標記不支援在虛擬網路後方受到保護的預設儲存體帳戶。 您必須針對 ML 輔助資料標記使用非預設儲存體帳戶。 非預設儲存體帳戶可以在虛擬網路後方受到保護。
提交一些標籤之後,分類模型會開始將類似的項目分成一組。 這些類似的影像會在同一頁上呈現給標記者,以幫助提高手動標記的效率。 當標記者檢視四宮格、六宮格或九宮格影像時,群集功能特別有用。
在機器學習模型已針對您手動標記的資料定型後,模型就會在其最後一個完全連線的圖層截斷。 而未標記的影像則會在通常稱為內嵌或特徵化的程序中,透過截斷的模型傳遞。 此程序會將每個影像內嵌在此模型層所定義的高維度空間中。 系統會將空間中最接近此影像的其他影像用於群集工作。
物件偵測模型或是文字分類不會出現群集階段。
將足夠的標籤送交定型之後,分類模型會預測標記,或物件偵測模型會預測週框方塊。 現在標籤人員會看到頁面所包含的每個項目上都已有預測標籤。 進行物件偵測時,也會顯示預測的方塊。 工作會涉及檢閱這些預測,並在頁面提交之前更正任何標記錯誤的影像。
在手動標記的資料上定型機器學習模型之後,模型會在一組測試手動標記項目上進行評估。 評估有助於判斷模型在不同信賴度閾值上的正確性。 此評估程序會設定信賴度閾值,高於該閾值表示模型的精確度足以顯示預先標記。 然後系統會針對未標記的資料評估模型。 預測超過此閾值的項目會使用預先標記。
在標記專案初始化後,專案的某些層面將無法變更。 您無法變更工作類型或資料集。 您可以修改標籤,以及工作描述的 URL。 在建立專案之前,請仔細檢閱設定。 提交專案之後,您就會回到資料標記概觀頁面,此處會將專案顯示為 [正在初始化]。
注意
概觀頁面可能不會自動重新整理。 在暫停之後,請手動重新整理頁面,以確認專案的狀態是否為 [已建立]。
若對建立專案或存取資料有疑問,請參閱對資料標記進行疑難排解。
訓練
認證
Microsoft Certified: Azure Data Scientist Associate - Certifications
使用 Python、Azure Machine Learning 和 MLflow 來管理資料擷取和準備、訓練及部署模型,以及監視機器學習解決方案。
文件
管理標記專案 - Azure Machine Learning
專案經理在 Azure Machine Learning 中管理標記專案的工作,包括如何匯出標籤。
標記影像和文字文件 - Azure Machine Learning
使用資料標記工具,為資料標記專案中的機器學習快速標記文字或標記影像。
設定文字標籤專案 - Azure Machine Learning
了解如何建立專案,並使用資料標記工具來標記專案中的文字。 指定要套用至每個文字片段的單一標籤或多個標籤。