Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Azure Databricks permet d’accéder au jeu de données de benchmark TPC-DS, un benchmark largement utilisé pour tester les performances des systèmes conçus pour l’entreposage et l’analytique des données. Le jeu de données est disponible en deux tailles par défaut dans chaque espace de travail avec catalogue Unity. Ces jeux de données sont idéaux pour tester les performances d’Azure Databricks sur un benchmark standardisé qui simule des scénarios commerciaux de vente au détail et de commerce électronique réalistes. Pour en savoir plus sur ce jeu de données, consultez la documentation TPC-DS benchmark .
Éléments inclus
Les jeux de données TPC-DS sont disponibles dans le samples catalogue avec les schémas suivants :
-
tpcds_sf1— Jeu de données à petite échelle (environ 1 Go) -
tpcds_sf1000— Jeu de données à grande échelle (environ 1 To)
Les deux jeux de données partagent les qualités suivantes :
- Sont en lecture seule et interrogeables par tous les utilisateurs de l’espace de travail
- Sont compatibles avec les entrepôts SQL et les clusters à usage unique
- Suivez la spécification TPC-DS pour l’évaluation standardisée
Prerequisites
Vous devez avoir accès à un entrepôt SQL ou à un cluster à usage général.
Afficher un aperçu des données
Pour explorer les données dans l’interface utilisateur de l’Explorateur de catalogues :
- Cliquez sur
Catalogue dans la barre latérale.
- Entrez des tpcds dans la barre de recherche. Les deux schémas se trouvent dans le
samplescatalogue. Cliquez sur le nom du schéma que vous souhaitez afficher. - L’onglet Vue d’ensemble répertorie toutes les tables du schéma. Cliquez sur un nom de table pour ouvrir une vue d’ensemble des colonnes et des types de données de cette table.
- Utilisez la navigation supérieure pour afficher les exemples de données ou de détails de la table.
Interroger les données
Les requêtes suivantes utilisent le jeu de données à plus petite échelle. tpcds_sf1 Pour utiliser le jeu de données à grande échelle, remplacez le nom tpcds_sf1000du schéma par . Cliquez sur
dans la barre latérale pour ouvrir l’éditeur SQL. Ensuite, utilisez les requêtes suivantes pour commencer à explorer les données.
Aperçu des tables
SHOW TABLES IN samples.tpcds_sf1;
Explorer une table
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Exemple de jointure et d’agrégation
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
Meilleures pratiques
- Utilisez l’historique des requêtes et le profil de requête pour comprendre les caractéristiques de performances et identifier les opportunités d’optimisation.
- Commencez par le jeu de données plus petit
tpcds_sf1pour les tests initiaux, puis effectuez un scale-up pourtpcds_sf1000une évaluation complète des performances. - Comparez les performances des requêtes entre différentes tailles d’entrepôt SQL pour déterminer les configurations optimales pour vos charges de travail.
- Utilisez ces jeux de données standardisés pour établir des bases de référence de performances et suivre les améliorations au fil du temps.