匯入資料元件
本文說明 Azure 機器學習 設計工具中的元件。
使用此元件將數據從現有的雲端數據服務載入機器學習管線。
注意
此元件所提供的所有功能都可以由工作區登陸頁面中的數據存放區和數據集來完成。 建議您使用數據存放區和數據集,其中包含其他功能,例如數據監視。 若要深入瞭解,請參閱如何存取數據和如何註冊數據集一文。 註冊數據集之後,您可以在設計工具介面的 [數據集 -> 我的數據集] 類別中找到它。 此元件保留給 Studio(傳統版)使用者,以取得熟悉的體驗。
匯 入資料 元件支援從下列來源讀取資料:
- 透過 HTTP 的 URL
- 透過 資料存放區建立 Azure 雲端記憶體)
- Azure Blob 容器
- Azure 檔案共用
- Azure Data Lake
- Azure Data Lake Gen2
- Azure SQL Database
- Azure PostgreSQL
使用雲端記憶體之前,您必須先在 Azure 機器學習 工作區中註冊數據存放區。 如需詳細資訊,請參閱 如何存取數據。
定義您想要的數據並連接到來源之後, 匯入數據 會根據數據行所包含的值來推斷每個數據行的數據類型,並將數據載入設計工具管線。 匯入數據的輸出是可與任何設計工具管線搭配使用的數據集。
如果您的源數據變更,您可以重新整理數據集,然後重新執行匯 入數據來新增數據。
警告
如果您的工作區位於虛擬網路中,您必須將資料存放區設定為使用設計工具的數據視覺效果功能。 如需如何在虛擬網路中使用資料存放區和資料集的詳細資訊,請參閱在 Azure 虛擬網路中使用 Azure Machine Learning 工作室。
如何設定匯入數據
將匯入 數據 元件新增至管線。 您可以在設計工具的 [資料輸入和輸出 ] 類別中找到此元件。
選取元件以開啟右窗格。
選取 [數據源],然後選擇數據源類型。 它可以是 HTTP 或資料存放區。
如果您選擇資料存放區,您可以選取已向 Azure 機器學習 工作區註冊的現有資料存放區,或建立新的資料存放區。 然後定義數據存放區中要匯入的數據路徑。 您可以選取 [瀏覽路徑],輕鬆地瀏覽路徑。
注意
匯入資料元件僅適用於表格式數據。 如果您想要一次匯入多個表格式資料檔,則需要下列條件,否則會發生錯誤:
- 若要在資料夾中包含所有資料檔,您需要輸入
folder_name/**
Path。 - 所有數據檔都必須以 unicode-8 編碼。
- 所有數據檔都必須具有相同的數據行編號和數據行名稱。
- 匯入多個數據文件的結果會依序串連多個檔案中的所有數據列。
- 若要在資料夾中包含所有資料檔,您需要輸入
選取預覽架構以篩選您想要包含的數據行。 您也可以在剖析選項中定義進階設定,例如分隔符。
[重新產生輸出] 複選框會決定是否要在運行時間執行元件以重新產生輸出。
默認為未選取,這表示如果元件先前已使用相同的參數執行,系統就會重複使用上次執行的輸出,以減少運行時間。
如果選取它,系統會再次執行元件以重新產生輸出。 因此,當記憶體中的基礎數據更新時,請選取此選項,有助於取得最新的數據。
提交管線。
當匯入數據將數據載入設計工具時,它會根據數據行所包含的值來推斷每個數據行的數據類型,無論是數值還是類別。
如果標頭存在,則會使用標頭來命名輸出數據集的數據行。
如果資料中沒有現有的數據行標頭,則會使用 col1、col2 格式產生新的資料行名稱,... 、coln*。
結果
匯入完成時,以滑鼠右鍵按下輸出數據集,然後選取 [ 可視化 ] 以查看資料是否已成功匯入。
如果您想要儲存資料以供重複使用,而不是在每次執行管線時匯入一組新的數據,請在元件右面板中的 [輸出+ 記錄] 索引卷標下選取 [註冊數據集] 圖示。 選擇資料集的名稱。 儲存的數據集會在儲存時保留數據。 即使管線中的數據集變更,也不會在管線中重新執行時更新數據集。 這對於擷取數據的快照集很有用。
匯入數據之後,可能需要一些額外的準備來建立模型和分析:
使用 編輯元數據 來變更數據行名稱、以不同的數據類型處理數據行,或指出某些數據行是標籤或功能。
使用 [選取數據集 中的數據行] 來選取要轉換或使用模型化的數據行子集。 使用 [新增數據行] 元件,可以輕鬆地將轉換或移除的數據行重新加入原始數據集。
使用 數據分割和範例 來分割數據集、執行取樣或取得前 n 個數據列。
限制
由於資料存放區存取限制,如果您的推斷管線包含 匯入數據 元件,則會在部署到即時端點時自動移除。