匯入資料元件
本文描述 Azure Machine Learning 設計工具中的一個元件。
使用此元件,可從現有的雲端資料服務將資料載入至機器學習管線。
注意
此元件提供的所有功能皆可透過工作區登陸頁面中的 [資料存放區] 和 [資料集] 來執行。 建議您使用 [資料存放區] 和 [資料集],其中包含資料監視之類的額外功能。 若要深入了解,請參閱如何存取資料和如何註冊資料集文章。 在註冊資料集之後,您可以在設計工具介面的 [資料集] -> [我的資料集] 類別中找到該資料集。 此元件保留給工作室 (傳統) 使用者,以取得熟悉的體驗。
[匯入資料] 元件支援從下列來源讀取資料:
- 透過 HTTP 的 URL
- 透過資料存放區的 Azure 雲端儲存體。
- Azure Blob 容器
- Azure 檔案共用
- Azure Data Lake
- Azure Data Lake Gen2
- Azure SQL Database
- Azure PostgreSQL
使用雲端儲存體之前,您必須先在 Azure Machine Learning 工作區中註冊資料存放區。 如需詳細資訊,請參閱如何存取資料。
在您定義想要的資料並將其連線到來源之後,匯入資料會根據其包含的值來推斷每個資料行的資料類型,並將資料載入至您的設計工具管線。 [匯入資料] 的輸出是可搭配任何設計工具管線使用的資料集。
如果您的來源資料有所變更,您可以重新整理資料集,然後重新執行匯入資料來新增資料。
警告
如果您的工作區位於虛擬網路中,您必須將資料存放區設定為使用設計工具的資料視覺效果功能。 如需如何在虛擬網路中使用資料存放區和資料集的詳細資訊,請參閱在 Azure 虛擬網路中使用 Azure Machine Learning 工作室。
如何設定匯入資料
將 [匯入資料] 元件新增至您的管線。 您可以在設計工具的 [資料輸入和輸出] 類別中找到此元件。
選取元件來開啟右窗格。
選取 [資料來源],然後選擇資料來源類型。 其可以是 HTTP 或資料存放區。
如果選擇資料存放區,您可以選取已向 Azure Machine Learning 工作區註冊的現有資料存放區,或建立新的資料存放區。 然後,定義要在資料存放區中匯入的資料路徑。 您可以選取 [瀏覽路徑],輕鬆地瀏覽路徑。
注意
[匯入資料] 僅適用於 [表格式] 資料。 如果您想要一次匯入多個表格式資料檔案,則需要下列條件,否則會發生錯誤:
- 若要包含資料夾中的所有資料檔案,您需要輸入
folder_name/**
作為 [路徑]。 - 所有資料檔案都必須以 unicode-8 編碼。
- 所有資料檔案都必須具有相同的資料行編號和資料行名稱。
- 匯入多個資料檔案的結果會依序串連多個檔案中的所有資料列。
- 若要包含資料夾中的所有資料檔案,您需要輸入
選取預覽結構描述,以篩選您想要包含的資料行。 您也可以在 [剖析] 選項中定義 [分隔符號] 之類的進階設定。
[重新產生輸出] 核取方塊會決定是否要執行元件,以在執行時重新產生輸出。
預設為未選取,這表示如果元件先前使用相同的參數執行,系統將會重複使用上次執行的輸出,以縮短執行階段。
如果已選取,系統會再次執行元件以重新產生輸出。 因此,當儲存體中的基礎資料更新時,請選取此選項,其可協助取得最新的資料。
提交管線。
當 [匯入資料] 將資料載入至設計工具時,其會根據所包含的值 (數值或類別) 推斷每個資料行的資料類型。
如果標頭存在,則使用標頭來命名輸出資料集的資料行。
如果資料中沒有現有的資料行標頭,則會使用格式 col1、col2、... 、coln* 來產生新的資料行名稱。
結果
當匯入完成時,以滑鼠右鍵按一下輸出資料集,然後選取 [視覺化] 來查看資料是否已成功匯入。
如果您想要儲存資料以供重複使用,而不是在每次執行管線時都匯入一組新的資料,請在元件的右面板中,選取 [輸出+記錄] 索引標籤下的 [註冊資料集] 圖示。 選擇資料集的名稱。 儲存的資料集會在儲存時保留資料。 重新執行管線時,資料集不會更新,即使管線中的資料集有所變更也是如此。 這有助於取得資料的快照集。
匯入資料後,可能需要為模型化和分析做好一些額外的準備:
限制
由於資料存放區存取限制,如果您的推斷管線包含 [匯入資料] 元件,則會在部署至即時端點時自動將其移除。
後續步驟
請參閱 Azure Machine Learning 可用的元件集。