Partage via


Échantillon de jeux de données

Il existe divers exemples de jeux de données fournis par Azure Databricks et mis à disposition par des tiers que vous pouvez utiliser dans votre espace de travail Azure Databricks.

Jeux de données de catalogue Unity

Unity Catalog fournit un accès à un certain nombre d’exemples de jeux de données dans le catalogue samples. Vous pouvez passer en revue ces jeux de données dans l’Interface utilisateur de Catalog Explorer et directement y faire référence dans un notebook ou dans l’éditeur SQL en utilisant le modèle <catalog-name>.<schema-name>.<table-name>.

Le schéma nyctaxi (également appelé base de données) contient la table trips, qui contient des informations sur les courses de taxi à New York. L’instruction suivante retourne les 10 premiers enregistrements de cette table :

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Le schéma tpch contient des données du Benchmark TPC-H. Pour répertorier les tables de ce schéma, exécutez :

SHOW TABLES IN samples.tpch

Exemples de jeux de données tiers au format CSV

Azure Databricks dispose d’outils intégrés pour charger rapidement des échantillons de jeux de données tiers en tant que fichiers CSV (valeurs séparées par des virgules) dans des espaces de travail Azure Databricks. Certains échantillons de jeux de données tiers populaires disponibles au format CSV :

Exemple de jeu de données Pour télécharger l’échantillon de jeu de données en tant que fichier CSV...
Le recensement de l’écureuil Dans la page web Données, cliquez sur Données parc,
Données écureuils ou Histoires.
Collection de jeux de données OWID Dans le référentiel GitHub, cliquez sur le dossier jeux de données. Cliquez sur le sous-dossier qui contient le jeu de données cible, puis cliquez sur le fichier CSV du jeu de données.
Jeux de données CSV Data.gov Dans la page web des résultats de la recherche, cliquez sur le résultat de recherche cible, puis à côté de l’icôneCSV, cliquez sur Télécharger.
Diamants (nécessite un compte Kaggle) Sur la page web du jeu de données, sous l’onglet Données, sous l’onglet Données, à côté dediamonds.csv, cliquez sur l’icône Télécharger.
Durée du trajet de taxi NYC (nécessite un compte Kaggle ) Sur la page web du jeu de données, sous l’onglet Donnéesà côté desample_submission.zip, cliquez sur
l’icône Téléchargement. Pour rechercher les fichiers CSV du jeu de données, extraire le contenu du fichier ZIP téléchargé.
Observations d’OVNI (nécessite un compte data.world ) Sur la page web du jeu de données, à côté de
nuforc_reports.csv, cliquez sur l’icône Télécharger

Pour utiliser des échantillons de jeux de données tiers dans votre espace de travail Azure Databricks, procédez comme suit :

  1. Suivez les instructions du tiers pour télécharger le jeu de données en tant que fichier CSV sur votre ordinateur local.
  2. Chargez le fichier CSV à partir de votre ordinateur local dans votre espace de travail Azure Databricks.
  3. Pour utiliser les données importées, utilisez Databricks SQL pour interroger les données. Vous pouvez également utiliser un notebook pour charger les données en tant que DataFrame.

Exemples de jeux de données tiers dans des bibliothèques

Certains tiers incluent des exemples de jeux de données dans des bibliothèques, tels que les packages PyPI (Python Package Index) ou les packages CRAN (Comprehensive R Archive Network). Si vous souhaitez obtenir plus d’informations, consultez la documentation du fournisseur de la bibliothèque.

Jeux de données Databricks (databricks-datasets) montés sur DBFS

Azure Databricks déconseille l’utilisation de DBFS et du stockage d’objets dans le cloud pour la plupart des cas d’usage dans les espaces de travail Databricks compatibles avec Unity Catalog. Certains exemples de jeux de données montés sur DBFS sont disponibles dans Azure Databricks

Remarque

La disponibilité et l’emplacement des jeux de données Databricks sont susceptibles de changer sans préavis.

Parcourir les jeux de données Databricks montés sur DBFS

Pour parcourir ces fichiers à partir d'un notebook Python, Scala ou R, vous pouvez utiliser la référence Databricks Utilities (dbutils). Le code suivant répertorie tous les jeux de données Databricks disponibles.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"