訓練
認證
Microsoft Certified: Azure Data Scientist Associate - Certifications
使用 Python、Azure Machine Learning 和 MLflow 來管理資料擷取和準備、訓練及部署模型,以及監視機器學習解決方案。
在 Azure Machine Learning 中,了解如何建立及執行資料標記專案,以便為資料加上標籤。 指定要套用至每個文字項目的單一標籤或多個標籤。
您也可以在 Azure Machine Learning 中使用資料標記工具來建立影像標記專案。
Azure Machine Learning 資料標記是一個工具,可讓您建立、管理及監視資料標籤專案。 可用於:
重要
您在 Azure Machine Learning 資料標記工具中處理的文字資料必須可在 Azure Blob 儲存體資料存放區中使用。 如果您沒有現有的資料存放區,您可以在建立專案時,將資料檔案上傳至新的資料存放區。
以下資料格式可供文字資料使用:
您可以使用這些項目在 Azure Machine Learning 中設定文字標籤:
標籤專案可在 Azure Machine Learning 進行管理。 使用 Machine Learning 中的 [資料標記] 頁面來管理您的專案。
如果您的資料已儲存在 Azure Blob 儲存體中,請確定其成為可用的資料存放區,然後才建立標記專案。
若要建立專案,請選取 [新增專案]。
針對 [專案名稱],輸入專案的名稱。
即使您刪除專案,也無法重複使用專案名稱。
若要建立文字標籤專案,針對 [媒體類型],選取 [文字]。
針對 [標籤工作類型],為您的案例選取選項:
選取下一步以繼續。
只有在您是為來自 Azure Marketplace 的資料標記公司服務時,才應選取 [使用 Azure Marketplace 的廠商標記公司]。 接著選取廠商。 如果您的廠商未出現在清單中,請清除此選項。
請務必先洽詢廠商並簽署合約。 如需詳細資訊,請參閱與資料標記廠商公司合作。
選取下一步以繼續。
如果您已建立包含資料的資料集,請從 [選取現有的資料集] 下拉式清單中加以選取。 您也可以選取 [建立資料集] 以使用現有 Azure 資料存放區,或上傳本機檔案。
注意
專案不可包含超過 500,000 個檔案。 如果您的資料集超過此檔案計數,則只會載入前 500,000 個檔案。
在許多情況下,您可以上傳本機檔案。 不過,Azure 儲存體總管可提供更快速且更穩健的方式來傳輸大量資料。 建議您使用儲存體總管作為移動檔案的預設方式。
若要從已儲存在 Blob 儲存體中的資料建立資料集:
/**
。**/*.*
。若要直接上傳資料:
若您打算將新的資料檔案新增至您的資料集,請使用累加式重新整理將這些檔案新增至您的專案。
設為 [啟用定期累加式重新整理] 後,將會根據標記完成率,定期檢查資料集有無要新增至專案的新檔案。 當專案包含 500,000 個檔案 (此為上限) 時,將會停止檢查新資料。
當您想要讓專案持續監視資料存放區中的新資料時,請選取 [啟用定期累加式重新整理]。
如果您不想將資料存放區中的新檔案自動新增至專案,請清除選項。
重要
啟用累加式重新整理時,請勿為您要更新的資料集建立新版本。 如果建立新版本,資料集上會看不到更新,因為資料標記專案已鎖定為初始版本。 請改用 Azure 儲存體總管,在 Blob 儲存體的適當資料夾中修改資料。
此外,請勿移除資料。 從專案使用的資料集移除資料會導致專案中發生錯誤。
建立專案之後,請使用 [詳細資料] 索引標籤來變更累加式重新整理、檢視上次重新整理的時間戳記,以及要求立即重新整理資料。
注意
使用表格式 (.csv 或 .tsv) 資料集輸入的專案可以使用累加式重新整理。 但是累加式重新整理只會新增表格式檔案。 重新整理無法辨識現有表格式檔案的變更。
在 [標籤類別] 頁面上,指定一組類別來對資料進行分類。
標籤人員的正確性和速度會受其類別選擇能力影響。 例如,與其完整拼出動植物的完整屬名和種名,不如使用界碼或屬名的縮寫。
您可以使用單層式列表,或建立標籤群組。
若要建立一般清單,請選取 [新增標籤類別] 建立個別標籤。
若要在不同的群組中建立標籤,請選取 [新增標籤類別] 建立最上層的標籤。 然後在每個最上層標籤下,選取加號 (+),建立該類別下一層的標籤。 您可以為任何群組建立最多六個層級。
在標記程序期間,您可以選取任何層級的標籤。 例如,標籤 Animal
、Animal/Cat
、Animal/Dog
、Color
、Color/Black
、Color/White
和 Color/Silver
都是可選擇的標籤。 在多標籤專案中,不必為每個類別選擇一個標籤。 如果這是您所希望的,請務必在指示中包含這項資訊。
請務必清楚說明標籤工作。 在標記指示頁面上,您可以為具有標記指示的外部網站新增連結,或在頁面的編輯方塊中提供指示。 請對受眾提供以工作為導向的適當指示。 請考量下列問題:
注意
標記者可以點選數字鍵 1 到 9 來選取前九個標籤。
若需要更精確的標籤,請在品質控制 頁面中,將每個項目傳送給多個標記者。
重要
共識標記目前處於公開預覽狀態。
此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。
如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
若要讓每個項目傳送給多個標記者,請選取 [啟用共識標籤 (預覽)]。 然後設定 [最小標記者] 和 [最大標記者] 的值,以指定要使用的標記者數目。 請確定您具有符合最大數目的標記者。 您無法在啟動專案後變更這些設定。
如果達到最小標記者數目的共識,則會標記項目。 如果未達成共識,則會將項目傳送給更多標記者。 如果項目進入標籤人員數目上限之後沒有共識,其狀態是 [需要檢閱],而項目擁有者要負責標示項目。
若要加速標記工作,[ML 輔助標記] 頁面可觸發自動機器學習模型。 機器學習 (ML) 輔助標記可以處理兩種檔案 (.txt) 和表格式 (.csv) 文字資料輸入。
若要使用 ML 輔助標記:
在標記專案開始時,項目會隨機轉換成隨機順序,以減少可能的偏差。 不過,已定型的模型會反映資料集中出現的任何偏差。 例如,如果 80% 的項目屬於單一類別,則用來定型模型的資料有大約 80% 會落在該類別。
為了定型 ML 輔助標記所使用的文字 DNN 模型,每個定型範例的輸入文字會限制為文件中大約前 128 個字組。 若為表格式輸入,則會先串連所有文字資料行,再套用此限制。 此實際限制可讓模型定型在合理的時間內完成。 文件中 (針對檔案輸入) 或一組文字資料行 (針對表格式輸入) 的實際文字可能會超過 128 個字組。 限制只與定型程序期間模型內部使用的內容有關。
啟動輔助標記所需的標記項目數目不固定。 此數字可能會因為一個標記專案而產生很大的差異。 變異數取決於許多因素,包括標籤類別的數目和標籤分佈。
當您使用共識標籤時,會使用共識標籤進行定型。
由於最終標籤仍仰賴標記者的輸入,因此此項技術有時也稱為人為迴圈標記。
注意
ML 輔助資料標記不支援在虛擬網路後方受到保護的預設儲存體帳戶。 您必須針對 ML 輔助資料標記使用非預設儲存體帳戶。 非預設儲存體帳戶可以在虛擬網路後方受到保護。
提交足夠的標籤進行定型後,就會使用定型的模型來預測標記。 現在標籤人員會看到頁面顯示每個項目上都已有預測標籤。 接著,工作會涉及檢閱這些預測,並在頁面提交之前更正任何標記錯誤的項目。
在手動標記的資料上定型機器學習模型之後,模型會在一組測試手動標記項目上進行評估。 評估有助於判斷模型在不同信賴度閾值上的正確性。 此評估程序會設定信賴度閾值,高於該閾值表示模型的精確度足以顯示預先標記。 然後系統會針對未標記的資料評估模型。 預測超過此閾值的項目會使用預先標記。
在標記專案初始化後,專案的某些層面將無法變更。 您無法變更工作類型或資料集。 您可以修改標籤,以及工作描述的 URL。 在建立專案之前,請仔細檢閱設定。 提交專案之後,您就會回到資料標記概觀頁面,此處會將專案顯示為 [正在初始化]。
注意
概觀頁面可能不會自動重新整理。 在暫停之後,請手動重新整理頁面,以確認專案的狀態是否為 [已建立]。
若對建立專案或存取資料有疑問,請參閱對資料標記進行疑難排解。
訓練
認證
Microsoft Certified: Azure Data Scientist Associate - Certifications
使用 Python、Azure Machine Learning 和 MLflow 來管理資料擷取和準備、訓練及部署模型,以及監視機器學習解決方案。
文件
管理標記專案 - Azure Machine Learning
專案經理在 Azure Machine Learning 中管理標記專案的工作,包括如何匯出標籤。
設定影像標記專案 - Azure Machine Learning
了解如何建立專案,以標記專案中的影像。 啟用機器學習輔助標記功能,以便處理工作。
資料標記商公司 - Azure Machine Learning
使用資料標記商公司協助您標示資料標記專案中的資料