Échantillon de jeux de données

Il existe divers exemples de jeux de données fournis par Azure Databricks et mis à disposition par des tiers que vous pouvez utiliser dans votre espace de travail Azure Databricks.

Jeux de données du Catalogue Unity

Unity Catalog fournit un accès à un certain nombre d’exemples de jeux de données dans le catalogue samples. Vous pouvez passer en revue ces jeux de données dans l’Interface utilisateur de Catalog Explorer et directement y faire référence dans un notebook ou dans l’éditeur SQL en utilisant le modèle <catalog-name>.<schema-name>.<table-name>.

Le tableau suivant répertorie les schémas disponibles dans le samples catalogue :

Dataset	Description
`nyctaxi`	Enregistrements de trajets en taxi à New York.
`tpch`	Jeu de données à grande échelle (environ 1 To) à partir du benchmark deTPC-H.
`tpcds_sf1`	Jeu de données de petite taille (environ 1 Go) à partir du benchmark TPC-DS.
`wanderbricks`	Plateforme de réservation de voyages simulée avec des utilisateurs, des propriétés, des réservations, des avis, etc.

NYCTaxi

Le nyctaxi schéma contient le tableau trips, qui contient des informations sur les courses de taxi à New York. L’exemple suivant retourne les 10 premiers enregistrements de ce tableau :

SQL

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Python

display(spark.read.table("samples.nyctaxi.trips").limit(10))

tpch

Le schéma tpch contient des données du Benchmark TPC-H. Pour répertorier les tables de ce schéma, exécutez :

SQL

SHOW TABLES IN samples.tpch

Python

display(spark.sql("SHOW TABLES IN samples.tpch"))

tpcds_sf1

Le tpcds_sf1 schéma contient des données du benchmarkTPC-DS. Pour répertorier les tables de ce schéma, exécutez :

SQL

SHOW TABLES IN samples.tpcds_sf1;

Python

display(spark.sql("SHOW TABLES IN samples.tpcds_sf1"))

Pour plus d’informations sur l’utilisation de ce jeu de données pour évaluer les performances du système, consultez Utiliser l’exemple de jeu de données TPC-DS pour évaluer les performances du système.

wanderbricks

Le wanderbricks schéma contient un jeu de données de plateforme de réservation de voyages simulé. Pour plus d'informations sur les tables du jeu de données , consultez le jeu de données Wanderbricks .

Exemples de jeux de données tiers au format CSV

Azure Databricks dispose d’outils intégrés pour charger rapidement des échantillons de jeux de données tiers en tant que fichiers CSV (valeurs séparées par des virgules) dans des espaces de travail Azure Databricks. Certains échantillons de jeux de données tiers populaires disponibles au format CSV :

Exemple de jeu de données	Pour télécharger l’échantillon de jeu de données en tant que fichier CSV...
Le recensement de l’écureuil	Dans la page web Données, cliquez sur Données parc, Données Squirrel ou Histoires.
Collection de jeux de données OWID	Dans le référentiel GitHub, cliquez sur le dossier jeux de données. Cliquez sur le sous-dossier qui contient le jeu de données cible, puis cliquez sur le fichier CSV du jeu de données.
Jeux de données CSV de Data.gov	Dans la page web des résultats de la recherche, cliquez sur le résultat de recherche cible, puis à côté de l’icôneCSV, cliquez sur Télécharger.
Diamants (nécessite un compte Kaggle)	Dans la page web du jeu de données, sous l’onglet Données , sous l’onglet Données , en regard de diamonds.csv, cliquez sur l’icône Télécharger .
Durée du trajet de taxi NYC (nécessite un compte Kaggle )	Sur la page Web du jeu de données, dans l'onglet Données, à côté de sample_submission.zip, cliquez sur le l’icône Téléchargement. Pour rechercher les fichiers CSV du jeu de données, extrait le contenu du fichier ZIP téléchargé.

Pour utiliser des échantillons de jeux de données tiers dans votre espace de travail Azure Databricks, procédez comme suit :

Suivez les instructions de tiers pour télécharger le jeu de données en tant que fichier CSV sur votre ordinateur local.
Chargez le fichier CSV à partir de votre ordinateur local dans votre espace de travail Azure Databricks.
Pour utiliser les données importées, utilisez Databricks SQL pour interroger les données. Vous pouvez également utiliser un notebook pour charger les données en tant que DataFrame.

Exemples de jeux de données tiers dans des bibliothèques

Certains tiers incluent des exemples de jeux de données dans des bibliothèques, tels que les packages PyPI (Python Package Index) ou les packages CRAN (Comprehensive R Archive Network). Pour plus d’informations, consultez la documentation du fournisseur de bibliothèque.

Pour installer une bibliothèque sur un cluster Azure Databricks à l’aide de l’interface utilisateur du cluster, consultez les bibliothèques à portée du calcul.
Pour installer une bibliothèque Python à l’aide d’un notebook Azure Databricks, consultez Bibliothèques Python spécifiques aux notebooks.
Pour installer une bibliothèque R en utilisant un notebook Azure Databricks, consultez Bibliothèques R délimitées aux notebooks.

Jeux de données Databricks (databricks-datasets) montés sur DBFS

Azure Databricks déconseille l’utilisation de DBFS et du stockage d’objets dans le cloud pour la plupart des cas d’usage dans les espaces de travail Databricks compatibles avec Unity Catalog. Certains exemples de jeux de données montés sur DBFS sont disponibles dans Azure Databricks

Remarque

La disponibilité et l’emplacement des jeux de données Databricks sont susceptibles de changer sans préavis.

Parcourir les jeux de données Databricks montés sur DBFS

Pour parcourir ces fichiers à partir d’un notebook Python, Scala ou R, vous pouvez utiliser la référence Databricks Utilities (dbutils). Le code suivant répertorie tous les jeux de données Databricks disponibles.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Langage de programmation Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-31

Échantillon de jeux de données

Jeux de données du Catalogue Unity

NYCTaxi

SQL

Python

tpch

SQL

Python

tpcds_sf1

SQL

Python

wanderbricks

Exemples de jeux de données tiers au format CSV

Exemples de jeux de données tiers dans des bibliothèques

Jeux de données Databricks (databricks-datasets) montés sur DBFS

Parcourir les jeux de données Databricks montés sur DBFS

Python

Langage de programmation Scala

R

Commentaires

Ressources supplémentaires