Laden von Daten für maschinelles Lernen und Deep Learning

Artikel
09/30/2024

Dieser Abschnitt enthält spezifische Informationen zum Laden von Daten für ML- und DL-Anwendungen. Allgemeine Informationen zum Laden von Daten finden Sie unter Erfassen von Daten in einem Databricks-Lakehouse.

Speichern von Dateien für das Laden von Daten und das Setzen von Modellprüfpunkten

Machine Learning-Anwendungen benötigen ggf. freigegebenen Speicher für das Laden von Daten und das Setzen von Modellprüfpunkten. Dies ist insbesondere bei verteiltem Deep Learning wichtig.

Azure Databricks bietet das Databricks-Dateisystem (Databricks File System, DBFS) für den Zugriff auf Daten in einem Cluster über Spark oder über lokale Datei-APIs.

Laden von Tabellendaten

Sie können Machine Learning-Tabellendaten aus Tabellen oder Dateien laden (siehe beispielsweise Lesen von CSV-Dateien). Sie können Apache Spark-DataFrames mithilfe der PySpark-Methode toPandas() in Pandas-DataFrames und anschließend optional mithilfe der PySpark-Methode to_numpy() in das NumPy-Format konvertieren.

Vorbereiten von Daten zum Optimieren großer Sprachmodelle

Sie können Ihre Daten für die Optimierung großer Open Source-Sprachmodelle mit Hugging Face Transformers und Hugging Face Datasets vorbereiten.

Vorbereiten von Daten für die Optimierung von Hugging Face-Modellen

Vorbereiten von Daten für das verteilte Training von Deep Learning-Modellen

In diesem Abschnitt wird das Vorbereiten von Daten für das verteilte Training von Deep Learning-Modellen mit Mosaic Streaming und TFRecords behandelt.

Freigeben über

Laden von Daten für maschinelles Lernen und Deep Learning

Speichern von Dateien für das Laden von Daten und das Setzen von Modellprüfpunkten

Laden von Tabellendaten

Vorbereiten von Daten zum Optimieren großer Sprachmodelle

Vorbereiten von Daten für das verteilte Training von Deep Learning-Modellen

Feedback

Zusätzliche Ressourcen