Options de format de données

Azure Databricks a des liaisons de mots clés intégrées pour tous les formats de données pris en charge en mode natif par Apache Spark. Azure Databricks utilise Delta Lake comme protocole par défaut pour lire et écrire des données et des tables, tandis que Apache Spark utilise Parquet.

Ces articles fournissent une vue d’ensemble de nombreuses options et configurations disponibles lorsque vous interrogez des données sur Azure Databricks.

Les formats de données suivants ont des configurations de mots clés intégrées dans DataFrames Apache Spark et SQL :

Azure Databricks fournit également un mot clé personnalisé pour le chargement d’expériences MLflow.

Formats de données avec considérations spéciales

Certains formats de données nécessitent une configuration supplémentaire ou des considérations particulières pour être utilisés :

  • Databricks recommande de charger des images en tant que données binary.
  • Les tables Hive sont prises en charge en mode natif par Apache Spark, mais nécessitent une configuration sur Azure Databricks.
  • Azure Databricks peut lire directement les fichiers compressés dans de nombreux formats. Vous pouvez également décompresser des fichiers compressés sur Azure Databricks si nécessaire.
  • LZO nécessite une installation de codec.

Pour plus d’informations sur les sources de données Apache Spark, consultez Generic Load/Save Functions et Generic File Source Options.