Freigeben über


Laden von Daten für maschinelles Lernen und Deep Learning

Dieser Abschnitt enthält spezifische Informationen zum Laden von Daten für ML- und DL-Anwendungen. Allgemeine Informationen zum Laden von Daten finden Sie unter Erfassen von Daten in einem Databricks-Lakehouse.

Speichern von Dateien für das Laden von Daten und das Setzen von Modellprüfpunkten

Machine Learning-Anwendungen benötigen ggf. freigegebenen Speicher für das Laden von Daten und das Setzen von Modellprüfpunkten. Dies ist insbesondere bei verteiltem Deep Learning wichtig.

Azure Databricks bietet das Databricks-Dateisystem (Databricks File System, DBFS) für den Zugriff auf Daten in einem Cluster über Spark oder über lokale Datei-APIs.

Laden von Tabellendaten

Sie können Machine Learning-Tabellendaten aus Tabellen oder Dateien laden (siehe beispielsweise Lesen von CSV-Dateien). Sie können Apache Spark-DataFrames mithilfe der PySpark-Methode toPandas() in Pandas-DataFrames und anschließend optional mithilfe der PySpark-Methode to_numpy() in das NumPy-Format konvertieren.

Vorbereiten von Daten zum Optimieren großer Sprachmodelle

Sie können Ihre Daten für die Optimierung großer Open Source-Sprachmodelle mit Hugging Face Transformers und Hugging Face Datasets vorbereiten.

Vorbereiten von Daten für die Optimierung von Hugging Face-Modellen

Aufbereiten von Daten für verteiltes Training

In diesem Abschnitt werden drei Methoden behandelt, mit denen Daten für verteiltes Training aufbereitet werden können: Mosaic-Streaming, Petastorm und TFRecords.