共用方式為


將定型資料匯入各種資料來源的 機器學習 Studio (傳統版)

適用於:適用於 。機器學習 Studio(傳統版)不適用於 。Azure 機器學習

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

若要在 機器學習 Studio 中使用您自己的數據來開發和定型預測性分析解決方案,您可以使用下列數據:

  • 本機檔案 - 從硬碟預先載入本機數據,以在工作區中建立數據集模組
  • 在線數據來源 - 當您的實驗執行時,使用匯 入數據 模組從數個在線來源之一存取數據
  • 機器學習 Studio (傳統) 實驗 - 使用在 機器學習 Studio 中儲存為資料集的數據 (傳統)
  • SQL Server 資料庫 - 使用 SQL Server 資料庫中的數據,而不需要手動複製數據

注意

機器學習 Studio(傳統版)中有數個範例數據集可供您用於定型數據。 如需這些相關信息,請參閱在 機器學習 Studio 中使用範例數據集(傳統版)。

準備資料

機器學習 Studio(傳統版)是設計來使用矩形或表格式數據,例如從資料庫分隔或結構化數據的文字數據,但在某些情況下可能會使用非矩形數據。

將數據匯入 Studio(傳統版)之前,最好是數據相對乾淨。 例如,您會想要處理未加上批注字串之類的問題。

不過,在匯入數據之後,Studio(傳統版)有一些模組可讓您在實驗中操作數據。 視您將使用的機器學習演算法而定,您可能需要決定如何處理數據結構問題,例如遺漏值和疏鬆數據,以及有一些模組可協助您。 查看 模組調色盤的 [數據轉換 ] 區段,以取得執行這些函式的模組。

在實驗的任何時間點,您可以按下輸出埠來檢視或下載模組所產生的數據。 視模組而定,可能會有不同的下載選項可用,或者您可以在 Studio 的網頁瀏覽器中將數據可視化(傳統版)。

支援的數據格式和數據類型

您可以根據您用來匯入資料的機制,以及來源,將許多資料類型匯入實驗中:

  • 純文字 (.txt)
  • 逗號分隔值 (CSV),具有標頭 (.csv) 或不具標頭 (.nh.csv)
  • 定位鍵分隔值 (TSV),具有標頭 (.tsv) 或不具標頭 (.nh.tsv)
  • Excel 檔案
  • Azure 資料表
  • Hive 資料表
  • SQL 資料庫數據表
  • OData 值
  • SVMLight 數據 (.svmlight) (如需格式資訊, 請參閱 SVMLight 定義
  • 屬性關聯檔案格式 (ARFF) 資料 (.arff) (如需格式資訊, 請參閱 ARFF 定義
  • Zip 檔案 (.zip)
  • R 物件或工作區檔案 (.RData)

如果您以包含元數據的 ARFF 之類的格式匯入數據,Studio (傳統) 會使用此元資料來定義每個資料行的標題和數據類型。

如果您匯入 TSV 或 CSV 格式等不包含此元數據的數據,Studio (傳統)會取樣數據來推斷每個數據行的數據類型。 如果數據也沒有數據行標題,Studio (傳統版) 會提供預設名稱。

您可以使用編輯元數據模組,明確指定或變更數據行的標題和數據類型

Studio 會辨識下列數據類型(傳統):

  • String
  • 整數
  • Double
  • 布林值
  • DateTime
  • TimeSpan

Studio 會使用稱為 數據表 的內部數據類型,在模組之間傳遞數據。 您可以使用 [轉換成數據集] 模組,明確地將數據轉換成數據表格式

任何接受數據表以外的格式的模組,都會以無訊息方式將數據轉換成數據表,然後再將其傳遞至下一個模組。

如有必要,您可以使用其他轉換模組,將數據表格式轉換回 CSV、TSV、ARFF 或 SVMLight 格式。 查看模組調色盤的 [數據格式轉換] 區段,以取得執行這些函式的模組。

數據容量

機器學習 Studio (傳統) 中的模組支援最多 10 GB 密集數值數據的數據集,以供常見使用案例使用。 如果模組接受一個以上的輸入,則 10 GB 值是所有輸入大小的總計。 您可以使用來自 Hive 或 Azure SQL 資料庫 的查詢來取樣較大的數據集,或者您可以在匯入數據之前,使用 Counts 前置處理來使用 Learning by Counts。

下列數據類型可以在功能正規化期間擴充至較大的數據集,且限製為小於 10 GB:

  • 疏鬆
  • 類別
  • 字串
  • 二進位資料

下列模組僅限於小於 10 GB 的數據集:

  • 推薦模組
  • 綜合少數過度取樣技術 (SMOTE) 模組
  • 腳本模組:R、Python、SQL
  • 輸出數據大小可大於輸入數據大小的模組,例如聯結或特徵哈希
  • 交叉驗證、微調模型超參數、序數回歸和 One-vs-All 多類別,當反覆項目數目非常大時

對於大於數 GB 的數據集,請將數據上傳至 Azure 儲存體 或 Azure SQL 資料庫,或使用 Azure HDInsight,而不是直接從本機檔案上傳。

您可以在匯 入影像 模組參考中找到影像數據的相關信息。

從本機檔案匯入

您可以從硬碟上傳數據檔,以在 Studio 中作為定型數據。 當您匯入資料檔時,您會建立資料集模組,準備好在工作區中的實驗中使用。

若要從本機硬碟匯入數據,請執行下列動作:

  1. 按兩下 Studio (傳統) 視窗底部的 [+新增 ]。
  2. 選取 [數據集] 和 [從本機檔案]。
  3. 在 [ 上傳新的數據集] 對話框中,流覽至您要上傳的檔案。
  4. 輸入名稱、識別數據類型,並選擇性地輸入描述。 建議使用描述 - 它可讓您記錄未來使用資料時想要記住之數據的任何特性。
  5. 此複選框 是現有數據集 的新版本,可讓您使用新數據來更新現有的數據集。 若要這樣做,請按兩下此複選框,然後輸入現有資料集的名稱。

上傳新的數據集

上傳時間取決於您的資料大小,以及您與服務連線的速度。 如果您知道檔案需要很長的時間,可以在您等候時在 Studio 中執行其他動作。 不過,在數據上傳完成之前關閉瀏覽器會導致上傳失敗。

上傳數據之後,它就會儲存在數據集模組中,並可供工作區中的任何實驗使用。

當您編輯實驗時,您可以在模組調色盤的 [已儲存的數據集] 清單下,找到您在 [我的數據集] 列表中上傳的數據集。 當您想要使用資料集進行進一步分析和機器學習時,您可以將數據集拖放到實驗畫布上。

從在線數據源匯入

使用匯 入數據 模組,實驗可以在實驗執行時,從各種在線數據源匯入數據。

注意

本文提供匯入數據模組的一般資訊。 如需您可以存取、格式化、參數和常見問題解答之數據類型的詳細資訊,請參閱匯入數據模組的模組參考主題。

藉由使用匯 入數據 模組,您可以在實驗執行時,從數個在線數據源的其中一個存取數據:

  • 使用 HTTP 的 Web URL
  • 使用HiveQL的Hadoop
  • Azure Blob 儲存體
  • Azure 資料表
  • Azure SQL Database。 SQL 受管理執行個體 或 SQL Server
  • 目前為數據摘要提供者 OData
  • Azure Cosmos DB

由於此定型數據是在實驗執行時存取的,因此只能在該實驗中使用。 相較之下,已儲存在數據集模組中的數據可供工作區中的任何實驗使用。

若要存取 Studio (傳統) 實驗中的在線數據源,請將匯 入數據 模組新增至實驗。 然後選取 [屬性] 底下的 [啟動匯入數據精靈],以取得選取及設定數據源的逐步引導式指示。 或者,您可以手動選取 [屬性] 下的 [數據源],並提供存取數據所需的參數。

下表中會列出支援的在線數據源。 下表也摘要說明支援的檔案格式,以及用來存取資料的參數。

重要

目前,匯入數據和匯出數據模組只能從使用傳統部署模型建立的 Azure 記憶體讀取和寫入數據。 換句話說,尚不支援提供經常性存取層或非經常性存取層的新 Azure Blob 儲存體 帳戶類型。

一般而言,您可能在使用此服務選項之前建立的任何 Azure 記憶體帳戶都不應受到影響。 如果您需要建立新的帳戶,請針對 [部署模型] 選取 [傳統 ],或使用 Resource Manager,然後選取 [一般用途 ] 而非 [Blob 記憶體 ] 作為 [帳戶種類]。

如需詳細資訊,請參閱 Azure Blob 儲存體:經常性存取和非經常性存取儲存層

支援的在線數據源

機器學習 Studio (傳統) 匯入資料模組支援下列資料來源:

資料來源 描述 參數
透過 HTTP 的 Web URL 從任何使用 HTTP 的 Web URL 讀取逗號分隔值 (CSV)、製表符分隔值 (TSV)、屬性關聯檔格式 (ARFF) 和支援向量機器 (SVM-light) 格式的數據 URL:指定檔案的完整名稱,包括網站 URL 和檔名,並具有任何擴展名。

數據格式:指定其中一種支持的數據格式:CSV、TSV、ARFF 或 SVM-light。 如果數據具有標頭數據列,則會用來指派數據行名稱。
Hadoop/HDFS 從 Hadoop 中的分散式記憶體讀取數據。 您可以使用類似 SQL 的查詢語言 HiveQL 來指定所需的數據。 HiveQL 也可以用來匯總數據並執行數據篩選,再將數據新增至 Studio (傳統版)。 Hive 資料庫查詢:指定用來產生數據的Hive查詢。

HCatalog 伺服器 URI :使用叢集名稱的格式 <指定叢集名稱>。azurehdinsight.net。

Hadoop 使用者帳戶名稱:指定用來布建叢集的 Hadoop 使用者帳戶名稱。

Hadoop 使用者帳戶密碼 :指定布建叢集時所使用的認證。 如需詳細資訊,請參閱 在 HDInsight 中建立 Hadoop 叢集。

輸出數據的位置:指定資料儲存在 Hadoop 分散式檔案系統 (HDFS) 或 Azure 中。
    如果您在 HDFS 中儲存輸出資料,請指定 HDFS 伺服器 URI。 (請務必使用不含 HTTPS:// 前置詞的 HDInsight 叢集名稱)。

    如果您在 Azure 中儲存輸出資料,則必須指定 Azure 記憶體帳戶名稱、記憶體存取密鑰和記憶體容器名稱。
SQL 資料庫 讀取儲存在 Azure SQL 資料庫、SQL 受管理執行個體 或 Azure 虛擬機上執行的 SQL Server 資料庫中的數據。 資料庫伺服器名稱:指定資料庫執行所在的伺服器名稱。
    如果 Azure SQL 資料庫 輸入產生的伺服器名稱。 一般而言,其格式 <為 generated_identifier.database.windows.net>。

    如果裝載在 Azure 虛擬機上的 SQL 伺服器,請輸入 tcp:<Virtual Machine DNS Name,1433>

資料庫名稱 :指定伺服器上的資料庫名稱。

伺服器使用者帳戶名稱:指定具有資料庫訪問許可權之帳戶的用戶名稱。

伺服器用戶帳戶密碼:指定使用者帳戶的密碼。

資料庫查詢:輸入描述您要讀取數據的 SQL 語句。
內部部署 SQL 資料庫 讀取儲存在 SQL 資料庫中的數據。 數據閘道:指定安裝在可存取 SQL Server 資料庫之電腦上的 資料管理 閘道名稱。 如需設定閘道的相關信息,請參閱使用 SQL Server 的數據,使用 機器學習 Studio 執行進階分析。

資料庫伺服器名稱:指定資料庫執行所在的伺服器名稱。

資料庫名稱 :指定伺服器上的資料庫名稱。

伺服器使用者帳戶名稱:指定具有資料庫訪問許可權之帳戶的用戶名稱。

使用者名稱和密碼:按兩下 [輸入值 ] 以輸入您的資料庫認證。 視 SQL Server 的設定方式而定,您可以使用 Windows 整合式驗證或 SQL Server 驗證。

資料庫查詢:輸入描述您要讀取數據的 SQL 語句。
Azure 資料表 從數據表服務讀取 Azure 儲存體 中的數據。

如果您不常讀取大量數據,請使用 Azure 數據表服務。 它提供彈性、非關係型 (NoSQL)、可大幅調整、價格低廉且高可用性的記憶體解決方案。
匯入數據中的選項會根據您存取公開資訊或需要登入認證的私人記憶體帳戶而變更。 這是由驗證類型決定,其值可以是 “PublicOrSAS” 或 “Account”,每個類型都有自己的參數集。

公用或共用存取簽章 (SAS) URI:參數如下:

    數據表 URI:指定資料表的公用或 SAS URL。

    指定要掃描屬性名稱的數據列:值為 TopN 來掃描指定的數據列數目,或 ScanAll 以取得資料表中的所有數據列。

    如果數據是同質且可預測的,建議您選取 TopN 並輸入 N 的數位。對於大型數據表,這可能會導致更快速的讀取時間。

    如果數據是以一組根據數據表深度和位置而有所不同的屬性進行結構化,請選擇 ScanAll 選項來掃描所有數據列。 這可確保產生的屬性和元數據轉換的完整性。

私人記憶體帳戶:參數如下:

    帳戶名稱:指定要讀取之數據表的帳戶名稱。

    帳戶金鑰:指定與帳戶相關聯的記憶體金鑰。

    數據表名稱 :指定要讀取之數據的數據表名稱。

    要掃描屬性名稱的數據列:值是 TopN 來掃描指定的數據列數目,或 ScanAll 以取得資料表中的所有數據列。

    如果數據是同質且可預測的,建議您選取 TopN 並輸入 N 的數位。對於大型數據表,這可能會導致更快速的讀取時間。

    如果數據是以一組根據數據表深度和位置而有所不同的屬性進行結構化,請選擇 ScanAll 選項來掃描所有數據列。 這可確保產生的屬性和元數據轉換的完整性。

Azure Blob 儲存體 讀取儲存在 Blob 服務中的數據 Azure 儲存體,包括影像、非結構化文字或二進位數據。

您可以使用 Blob 服務公開資料,或私下儲存應用程式數據。 您可以使用 HTTP 或 HTTPS 連線,從任何地方存取您的數據。
匯入數據模組中的選項會根據您存取公開資訊或需要登入認證的私人記憶體帳戶而變更。 這是由驗證類型決定,其值可以是 “PublicOrSAS” 或 “Account”。

公用或共用存取簽章 (SAS) URI:參數如下:

    URI:指定記憶體 Blob 的公用或 SAS URL。

    檔案格式:指定 Blob 服務中的數據格式。 支援的格式為 CSV、TSV 和 ARFF。

私人記憶體帳戶:參數如下:

    帳戶名稱:指定包含您要讀取之 Blob 的帳戶名稱。

    帳戶金鑰:指定與帳戶相關聯的記憶體金鑰。

    容器、目錄或 Blob 的路徑:指定要讀取之數據的 Blob 名稱。

    Blob 檔案格式:指定 Blob 服務中的數據格式。 支持的數據格式為 CSV、TSV、ARFF、CSV,具有指定的編碼方式,以及 Excel。

      如果格式為 CSV 或 TSV,請務必指出檔案是否包含標頭數據列。

      您可以使用 Excel 選項,從 Excel 活頁簿讀取數據。 在 [ Excel 數據格式] 選項中,指出數據是在 Excel 工作表範圍中,還是是在 Excel 數據表中。 在 [Excel 工作表或內嵌資料表 ] 選項中,指定您要從中讀取的工作表或數據表名稱。

數據摘要提供者 從支援的摘要提供者讀取數據。 目前僅支援開放數據通訊協定 (OData) 格式。 數據內容類型:指定 OData 格式。

來源 URL:指定資料摘要的完整 URL。
例如,下列 URL 會從 Northwind 範例資料庫讀取: https://services.odata.org/northwind/northwind.svc/

從另一個實驗匯入

有時候您會想要從一個實驗取得中繼結果,並將其作為另一個實驗的一部分。 若要這樣做,請將模組儲存為數據集:

  1. 按兩下您要儲存為資料集之模組的輸出。
  2. 按兩下 [ 另存新檔數據集]。
  3. 出現提示時,輸入名稱和描述,可讓您輕鬆地識別數據集。
  4. 按兩下 [ 確定 ] 複選標記。

儲存完成時,數據集將可用於工作區中任何實驗。 您可以在模組調色盤的 [ 已儲存的 資料集] 清單中找到它。

下一步

部署使用數據匯入和數據匯出模組的 機器學習 Studio (傳統) Web 服務