Laden von Daten für maschinelles Lernen und Deep Learning

Dieser Abschnitt enthält spezifische Informationen zum Laden von Daten für ML- und DL-Anwendungen. Allgemeine Informationen zum Laden von Daten finden Sie unter Erfassen von Daten in einem Databricks-Lakehouse.

Speichern von Dateien für das Laden von Daten und das Setzen von Modellprüfpunkten

Machine Learning-Anwendungen benötigen ggf. freigegebenen Speicher für das Laden von Daten und das Setzen von Modellprüfpunkten. Dies ist insbesondere bei verteiltem Deep Learning wichtig.

Azure Databricks bietet das Databricks-Dateisystem (Databricks File System, DBFS) für den Zugriff auf Daten in einem Cluster über Spark oder über lokale Datei-APIs.

Laden von Tabellendaten

Sie können Machine Learning-Tabellendaten aus Tabellen oder Dateien laden (siehe beispielsweise Lesen und Schreiben in CSV-Dateien). Sie können Apache Spark-DataFrames mithilfe der PySpark-MethodetoPandas() in Pandas-DataFrames und anschließend optional mithilfe der PySpark-Methodeto_numpy() in das NumPy-Format konvertieren.

Vorbereiten von Daten zum Optimieren großer Sprachmodelle

Sie können Ihre Daten für die Optimierung großer Open Source-Sprachmodelle mit Hugging Face Transformers und Hugging Face Datasets vorbereiten.

Vorbereiten von Daten für die Optimierung von Hugging Face-Modellen

Aufbereiten von Daten für verteiltes Training

In diesem Abschnitt werden zwei Methoden behandelt, mit denen Daten für verteiltes Training aufbereitet werden können: „Petastorm“ und „TFRecords“.