Charger des données pour le machine learning et le deep learning

Article
03/01/2024

Cette section traite des informations relatives au chargement de données spécifiques pour les applications ML et DL. Pour obtenir des informations générales sur le chargement des données, consultez Réception de données dans un lac de données Databricks.

Stocker des fichiers pour le chargement de données et la réalisation de points de contrôle de modèle

Les applications d’apprentissage automatique peuvent avoir besoin d’utiliser un stockage partagé pour le chargement des données et le contrôle de modèle. Cela est particulièrement important pour le Deep Learning distribué.

Azure Databricks fournit le système de fichiers Databricks (DBFS) pour accéder aux données sur un cluster à l’aide des API de fichiers Spark et locales.

Charger les données tabulaires

Vous pouvez charger des données d’apprentissage automatique de tableaux à partir de tables ou de fichiers (par exemple, consultez Lire et écrire dans des fichiers CSV). Vous pouvez convertir les DataFrames Apache Spark en DataFrames pandas à l’aide de la méthode PySparktoPandas(), puis éventuellement les convertir au format NumPy à l’aide de la méthode PySparkto_numpy().

Préparer des données pour affiner les modèles de langage volumineux

Vous pouvez préparer vos données pour le réglage des modèles de langage volumineux open source à l’aide de transformateurs Hugging Face et de jeux de données Hugging Face.

Préparer des données pour le réglage des modèles Hugging Face

Préparer les données pour l’entraînement distribué

Cette section décrit deux méthodes de préparation des données pour la formation distribuée : Petastorm et TFRecords.

Préparer les données pour l’entraînement distribué
- Petastorm (recommandé)
- TFRecord

Charger des données pour le machine learning et le deep learning

Stocker des fichiers pour le chargement de données et la réalisation de points de contrôle de modèle

Charger les données tabulaires

Préparer des données pour affiner les modèles de langage volumineux

Préparer les données pour l’entraînement distribué

Ressources supplémentaires