Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Abschnitt enthält spezifische Informationen zum Laden von Daten für ML- und DL-Anwendungen. Allgemeine Informationen zum Laden von Daten finden Sie unter Standard-Konnektoren in Lakeflow Connect.
Speichern von Dateien für das Laden von Daten und das Setzen von Modellprüfpunkten
Machine Learning-Anwendungen benötigen ggf. freigegebenen Speicher für das Laden von Daten und das Setzen von Modellprüfpunkten. Dies ist insbesondere bei verteiltem Deep Learning wichtig.
Azure Databricks bietet Unity Catalog, eine einheitliche Governance-Lösung für Daten und KI-Ressourcen. Sie können Unity Catalog für den Zugriff auf Daten in einem Cluster mit Spark- und lokalen Datei-APIs verwenden.
Laden von Tabellendaten
Sie können Machine Learning-Tabellendaten aus Tabellen oder Dateien laden (siehe beispielsweise Lesen von CSV-Dateien). Sie können Apache Spark-DataFrames mithilfe der PySpark-MethodetoPandas()
in Pandas-DataFrames und anschließend optional mithilfe der PySpark-Methodeto_numpy()
in das NumPy-Format konvertieren.
Vorbereiten von Daten zum Optimieren großer Sprachmodelle
Sie können Ihre Daten für die Optimierung großer Open Source-Sprachmodelle mit Hugging Face Transformers und Hugging Face Datasets vorbereiten.
Vorbereiten von Daten für die Optimierung von Hugging Face-Modellen
Vorbereiten von Daten für das verteilte Training von Deep Learning-Modellen
In diesem Abschnitt wird das Vorbereiten von Daten für das verteilte Training von Deep Learning-Modellen mit Mosaic Streaming und TFRecords behandelt.