載入資料以進行機器學習與深度學習

文章
10/02/2024

本節涵蓋針對 ML 和 DL 應用程式特別載入資料的相關資訊。如需載入資料的一般資訊，請參閱將資料內嵌至 Databricks Lakehouse。

儲存用於資料載入和模型檢查點的檔案

機器學習應用程式可能需要使用共用儲存體來載入資料，並建立模型檢查點。對於分散式深度學習來說，這特別重要。

Azure Databricks 提供 Databricks 檔案系統 (DBFS)，以使用 Spark 和本機檔案 API 存取叢集上的資料。

載入表格式資料

您可以從資料表或檔案 (例如，請參閱讀取 CSV 檔案) 載入表格式機器學習資料。您可以使用 PySpark 方法 toPandas() 將 Apache Spark DataFrame 轉換成 pandas DataFrame，然後使用 PySpark 方法 to_numpy()選擇性地轉換成 NumPy 格式。

準備資料以微調大型語言模型

本文示範如何使用 Hugging Face Transformers 和 Hugging Face Datasets，準備用於微調開放原始碼大型語言模型的資料。

準備用於微調 Hugging Face 模型的資料

準備分散式深度學習訓練的資料

本節涵蓋使用 Mosaic Streaming 和 TFRecords 準備分散式深度學習訓練的資料。

分享方式：

載入資料以進行機器學習與深度學習

儲存用於資料載入和模型檢查點的檔案

載入表格式資料

準備資料以微調大型語言模型

準備分散式深度學習訓練的資料

意見反映

更多資源