匯入資料元件

本文描述 Azure Machine Learning 設計工具中的一個元件。

使用此元件,可從現有的雲端資料服務將資料載入至機器學習管線。

注意

此元件提供的所有功能皆可透過工作區登陸頁面中的 [資料存放區][資料集] 來執行。 建議您使用 [資料存放區] 和 [資料集],其中包含資料監視之類的額外功能。 若要深入了解,請參閱如何存取資料如何註冊資料集文章。 在註冊資料集之後,您可以在設計工具介面的 [資料集] -> [我的資料集] 類別中找到該資料集。 此元件保留給工作室 (傳統) 使用者,以取得熟悉的體驗。

[匯入資料] 元件支援從下列來源讀取資料:

  • 透過 HTTP 的 URL
  • 透過資料存放區的 Azure 雲端儲存體。
    • Azure Blob 容器
    • Azure 檔案共用
    • Azure Data Lake
    • Azure Data Lake Gen2
    • Azure SQL Database
    • Azure PostgreSQL

使用雲端儲存體之前,您必須先在 Azure Machine Learning 工作區中註冊資料存放區。 如需詳細資訊,請參閱如何存取資料

在您定義想要的資料並將其連線到來源之後,匯入資料會根據其包含的值來推斷每個資料行的資料類型,並將資料載入至您的設計工具管線。 [匯入資料] 的輸出是可搭配任何設計工具管線使用的資料集。

如果您的來源資料有所變更,您可以重新整理資料集,然後重新執行匯入資料來新增資料。

警告

如果您的工作區位於虛擬網路中,您必須將資料存放區設定為使用設計工具的資料視覺效果功能。 如需如何在虛擬網路中使用資料存放區和資料集的詳細資訊,請參閱在 Azure 虛擬網路中使用 Azure Machine Learning 工作室

如何設定匯入資料

  1. 將 [匯入資料] 元件新增至您的管線。 您可以在設計工具的 [資料輸入和輸出] 類別中找到此元件。

  2. 選取元件來開啟右窗格。

  3. 選取 [資料來源],然後選擇資料來源類型。 其可以是 HTTP 或資料存放區。

    如果選擇資料存放區,您可以選取已向 Azure Machine Learning 工作區註冊的現有資料存放區,或建立新的資料存放區。 然後,定義要在資料存放區中匯入的資料路徑。 您可以選取 [瀏覽路徑],輕鬆地瀏覽路徑。

    此螢幕擷取畫面顯示 [瀏覽] 路徑連結,其會開啟 [路徑選取] 對話方塊。

    注意

    [匯入資料] 僅適用於 [表格式] 資料。 如果您想要一次匯入多個表格式資料檔案,則需要下列條件,否則會發生錯誤:

    1. 若要包含資料夾中的所有資料檔案,您需要輸入 folder_name/** 作為 [路徑]。
    2. 所有資料檔案都必須以 unicode-8 編碼。
    3. 所有資料檔案都必須具有相同的資料行編號和資料行名稱。
    4. 匯入多個資料檔案的結果會依序串連多個檔案中的所有資料列。
  4. 選取預覽結構描述,以篩選您想要包含的資料行。 您也可以在 [剖析] 選項中定義 [分隔符號] 之類的進階設定。

    已選取資料行 3、4、5 和 6 的結構描述預覽螢幕擷取畫面。

  5. [重新產生輸出] 核取方塊會決定是否要執行元件,以在執行時重新產生輸出。

    預設為未選取,這表示如果元件先前使用相同的參數執行,系統將會重複使用上次執行的輸出,以縮短執行階段。

    如果已選取,系統會再次執行元件以重新產生輸出。 因此,當儲存體中的基礎資料更新時,請選取此選項,其可協助取得最新的資料。

  6. 提交管線。

    當 [匯入資料] 將資料載入至設計工具時,其會根據所包含的值 (數值或類別) 推斷每個資料行的資料類型。

    如果標頭存在,則使用標頭來命名輸出資料集的資料行。

    如果資料中沒有現有的資料行標頭,則會使用格式 col1、col2、... 、coln* 來產生新的資料行名稱。

結果

當匯入完成時,以滑鼠右鍵按一下輸出資料集,然後選取 [視覺化] 來查看資料是否已成功匯入。

如果您想要儲存資料以供重複使用,而不是在每次執行管線時都匯入一組新的資料,請在元件的右面板中,選取 [輸出+記錄] 索引標籤下的 [註冊資料集] 圖示。 選擇資料集的名稱。 儲存的資料集會在儲存時保留資料。 重新執行管線時,資料集不會更新,即使管線中的資料集有所變更也是如此。 這有助於取得資料的快照集。

匯入資料後,可能需要為模型化和分析做好一些額外的準備:

  • 使用 [編輯中繼資料] 來變更資料行名稱、將資料行當作不同的資料類型來處理,或指出某些資料行是標籤或特徵。

  • 使用 [選取資料集中的資料行],來選取要在模型化中轉換或使用的資料行子集。 可以使用 [新增資料行] 元件,輕鬆地將已轉換或已移除的資料行重新加入至原始資料集。

  • 使用 [分割和取樣] 來分割資料集、執行取樣,或取得前 n 個資料列。

限制

由於資料存放區存取限制,如果您的推斷管線包含 [匯入資料] 元件,則會在部署至即時端點時自動將其移除。

後續步驟

請參閱 Azure Machine Learning 可用的元件集