Charger des données pour le machine learning et le deep learning
Cette section traite des informations relatives au chargement de données spécifiques pour les applications ML et DL. Pour obtenir des informations générales sur le chargement des données, consultez Réception de données dans un lac de données Databricks.
Stocker des fichiers pour le chargement de données et la réalisation de points de contrôle de modèle
Les applications d’apprentissage automatique peuvent avoir besoin d’utiliser un stockage partagé pour le chargement des données et le contrôle de modèle. Cela est particulièrement important pour le Deep Learning distribué.
Azure Databricks fournit le système de fichiers Databricks (DBFS) pour accéder aux données sur un cluster à l’aide des API de fichiers Spark et locales.
Charger les données tabulaires
Vous pouvez charger des données d’apprentissage automatique de tableaux à partir de tables ou de fichiers (par exemple, consultez Lire et écrire dans des fichiers CSV). Vous pouvez convertir les DataFrames Apache Spark en DataFrames pandas à l’aide de la méthode PySparktoPandas()
, puis éventuellement les convertir au format NumPy à l’aide de la méthode PySparkto_numpy()
.
Préparer des données pour affiner les modèles de langage volumineux
Vous pouvez préparer vos données pour le réglage des modèles de langage volumineux open source à l’aide de transformateurs Hugging Face et de jeux de données Hugging Face.
Préparer des données pour le réglage des modèles Hugging Face
Préparer les données pour l’entraînement distribué
Cette section décrit deux méthodes de préparation des données pour la formation distribuée : Petastorm et TFRecords.