載入資料以進行機器學習與深度學習
本節涵蓋針對 ML 和 DL 應用程式特別載入資料的相關資訊。 如需載入資料的一般資訊,請參閱將資料內嵌至 Databricks Lakehouse。
儲存用於資料載入和模型檢查點的檔案
機器學習應用程式可能需要使用共用儲存體來載入資料,並建立模型檢查點。 對於分散式深度學習來說,這特別重要。
Azure Databricks 提供 Databricks 檔案系統 (DBFS),以使用 Spark 和本機檔案 API 存取叢集上的資料。
載入表格式資料
您可以從資料表或檔案 (例如,請參閱讀取 CSV 檔案) 載入表格式機器學習資料。 您可以使用 PySpark 方法 toPandas()
將 Apache Spark DataFrame 轉換成 pandas DataFrame,然後使用 PySpark 方法 to_numpy()
選擇性地轉換成 NumPy 格式。
準備資料以微調大型語言模型
本文示範如何使用 Hugging Face Transformers 和 Hugging Face Datasets,準備用於微調開放原始碼大型語言模型的資料。
準備分散式深度學習訓練的資料
本節涵蓋使用 Mosaic Streaming 和 TFRecords 準備分散式深度學習訓練的資料。