Laden von Daten für maschinelles Lernen und Deep Learning
Dieser Abschnitt enthält spezifische Informationen zum Laden von Daten für ML- und DL-Anwendungen. Allgemeine Informationen zum Laden von Daten finden Sie unter Erfassen von Daten in einem Databricks-Lakehouse.
Speichern von Dateien für das Laden von Daten und das Setzen von Modellprüfpunkten
Machine Learning-Anwendungen benötigen ggf. freigegebenen Speicher für das Laden von Daten und das Setzen von Modellprüfpunkten. Dies ist insbesondere bei verteiltem Deep Learning wichtig.
Azure Databricks bietet das Databricks-Dateisystem (Databricks File System, DBFS) für den Zugriff auf Daten in einem Cluster über Spark oder über lokale Datei-APIs.
Laden von Tabellendaten
Sie können Machine Learning-Tabellendaten aus Tabellen oder Dateien laden (siehe beispielsweise Lesen von CSV-Dateien). Sie können Apache Spark-DataFrames mithilfe der PySpark-Methode toPandas()
in Pandas-DataFrames und anschließend optional mithilfe der PySpark-Methode to_numpy()
in das NumPy-Format konvertieren.
Vorbereiten von Daten zum Optimieren großer Sprachmodelle
Sie können Ihre Daten für die Optimierung großer Open Source-Sprachmodelle mit Hugging Face Transformers und Hugging Face Datasets vorbereiten.
Vorbereiten von Daten für die Optimierung von Hugging Face-Modellen
Vorbereiten von Daten für das verteilte Training von Deep Learning-Modellen
In diesem Abschnitt wird das Vorbereiten von Daten für das verteilte Training von Deep Learning-Modellen mit Mosaic Streaming und TFRecords behandelt.