Laden von Daten für maschinelles Lernen und Deep Learning
Dieser Abschnitt enthält spezifische Informationen zum Laden von Daten für ML- und DL-Anwendungen. Allgemeine Informationen zum Laden von Daten finden Sie unter Erfassen von Daten in einem Databricks-Lakehouse.
Speichern von Dateien für das Laden von Daten und das Setzen von Modellprüfpunkten
Machine Learning-Anwendungen benötigen ggf. freigegebenen Speicher für das Laden von Daten und das Setzen von Modellprüfpunkten. Dies ist insbesondere bei verteiltem Deep Learning wichtig.
Azure Databricks bietet das Databricks-Dateisystem (Databricks File System, DBFS) für den Zugriff auf Daten in einem Cluster über Spark oder über lokale Datei-APIs.
Laden von Tabellendaten
Sie können Machine Learning-Tabellendaten aus Tabellen oder Dateien laden (siehe beispielsweise Lesen und Schreiben in CSV-Dateien). Sie können Apache Spark-DataFrames mithilfe der PySpark-MethodetoPandas()
in Pandas-DataFrames und anschließend optional mithilfe der PySpark-Methodeto_numpy()
in das NumPy-Format konvertieren.
Vorbereiten von Daten zum Optimieren großer Sprachmodelle
Sie können Ihre Daten für die Optimierung großer Open Source-Sprachmodelle mit Hugging Face Transformers und Hugging Face Datasets vorbereiten.
Vorbereiten von Daten für die Optimierung von Hugging Face-Modellen
Aufbereiten von Daten für verteiltes Training
In diesem Abschnitt werden zwei Methoden behandelt, mit denen Daten für verteiltes Training aufbereitet werden können: „Petastorm“ und „TFRecords“.