Types de visualisation

Article
03/01/2024

Cet article décrit les types de visualisations que vous pouvez utiliser dans les notebooks Azure Databricks et dans Databricks SQL, et vous montre comment créer un exemple de chaque type de visualisation.

Graphique à barres

Les graphiques à barres représentent le changement des métriques dans le temps ou indiquent la proportionnalité, comme un graphique à secteurs.

Remarque

Les graphiques à barres prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.

Bar chart example

Valeurs de configuration : pour cette visualisation de graphique à barres, les valeurs suivantes ont été définies :

Colonne X :
- Colonne de jeu de données : o_orderdate
- Niveau de date : Months
Colonnes Y :
- Colonne de jeu de données : o_totalprice
- Type d’agrégation : Sum
Regrouper par (colonne de jeu de données) : o_orderpriority
Empilement : Stack
Nom de l’axe X (remplacer la valeur par défaut) : Order month
Nom de l’axe Y (remplacer la valeur par défaut) : Total price

Options de configuration : pour les options de configuration de graphique à barres, consultez les options de configuration de graphique.

Requête SQL : pour cette visualisation de graphique à barres, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.orders

Graphique en courbes

Les graphiques en courbes présentent le changement d’une ou de plusieurs métriques dans le temps.

Remarque

Les graphiques en courbes prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.

Line chart example

Valeurs de configuration : pour cette visualisation de graphique en courbes, les valeurs suivantes ont été définies :

Colonne X :
- Colonne de jeu de données : o_orderdate
- Niveau de date : Years
Colonnes Y :
- Colonne de jeu de données : o_totalprice
- Type d’agrégation : Average
Regrouper par (colonne de jeu de données) : o_orderpriority
Nom de l’axe X (remplacer la valeur par défaut) : Order year
Nom de l’axe Y (remplacer la valeur par défaut) : Average price

Options de configuration : pour les options de configuration de graphique en courbes, consultez les options de configuration de graphique.

Requête SQL : pour cette visualisation de graphique en courbes, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.orders

Graphique en aires

Les graphiques en aires combinent les graphiques en courbes et à barres pour montrer comment une ou plusieurs valeurs numériques de groupes changent pendant la progression d’une deuxième variable, en général celle du temps. Ils sont souvent utilisés pour afficher les modifications de l’entonnoir de ventes dans le temps.

Remarque

Les graphiques en aires prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.

Area chart example

Valeurs de configuration : pour cette visualisation de graphique en aires, les valeurs suivantes ont été définies :

Colonne X :
- Colonne de jeu de données : o_orderdate
- Niveau de date : Years
Colonnes Y :
- Colonne de jeu de données : o_totalprice
- Type d’agrégation : Sum
Regrouper par (colonne de jeu de données) : o_orderpriority
Empilement : Stack
Nom de l’axe X (remplacer la valeur par défaut) : Order year
Nom de l’axe Y (remplacer la valeur par défaut) : Total price

Options de configuration : pour les options de configuration de graphique en aires, consultez les options de configuration de graphique.

Requête SQL : pour cette visualisation de graphique en aires, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.orders

Graphiques à secteurs

Les graphique à secteurs affichent la proportionnalité entre les métriques. Ils ne sont pas destinés à transmettre des données de série chronologique.

Remarque

Les graphiques à secteurs prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.

Pie chart example

Valeurs de configuration : pour cette visualisation de graphique à secteurs, les valeurs suivantes ont été définies :

Colonne X (colonne de jeu de données) : o_orderpriority
Colonnes Y :
- Colonne de jeu de données : o_totalprice
- Type d’agrégation : Sum
Étiquette (remplacer la valeur par défaut) : Total price

Options de configuration : pour les options de configuration de graphique à secteurs, consultez les options de configuration de graphique.

Requête SQL : pour cette visualisation de graphique à secteurs, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.orders

Histogrammes

Un histogramme représente la fréquence à laquelle une valeur donnée apparaît dans un jeu de données. Un histogramme vous permet de comprendre si un jeu de données a des valeurs qui sont regroupées sur un petit nombre de plages ou qui sont davantage réparties. Un histogramme est affiché sous la forme d’un graphique à barres dans lequel vous contrôlez le nombre de barres distinctes (également appelées « compartiments »).

Remarque

Les histogrammes prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.

Histogram chart example

Valeurs de configuration : pour cette visualisation d’histogramme, les valeurs suivantes ont été définies :

Colonne X (colonne de jeu de données) : o_totalprice
Nombre de compartiments : 20
Nom de l’axe X (remplacer la valeur par défaut) : Total price

Options de configuration : pour les options de configuration d’histogramme, consultez les options de configuration d’histogramme.

Requête SQL : pour cette visualisation d’histogramme, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.orders

Graphiques de carte thermique

Les graphiques de carte thermique combinent des fonctionnalités de graphiques à barres, d’empilement et de graphiques en bulles, ce qui vous permet de visualiser les données numériques avec des couleurs. Une palette de couleurs courante pour un carte thermique affiche les valeurs les plus élevées en utilisant des couleurs plus chaudes, telles que l’orange ou le rouge, et les valeurs les plus basses en utilisant des couleurs plus froides, telles que le bleu ou le violet.

Par exemple, considérez la carte thermique suivante qui visualise les distances les plus fréquentes de trajets de taxis quotidiens, et regroupe les résultats par jour de la semaine, distance et prix total.

Remarque

Les graphiques de carte thermique prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.

Heatmap example

Valeurs de configuration : pour cette visualisation de graphique de carte thermique, les valeurs suivantes ont été définies :

Colonne X (colonne de jeu de données) : o_orderpriority
Colonnes Y (colonne de jeu de données) : o_orderstatus
Colonne de couleur :
- Colonne de jeu de données : o_totalprice
- Type d’agrégation : Average
Nom de l’axe X (remplacer la valeur par défaut) : Order priority
Nom de l’axe Y (remplacer la valeur par défaut) : Order status
Schéma de couleur (remplacer la valeur par défaut) : YIGnBu

Options de configuration : pour les options de configuration de graphique de carte thermique, consultez les options de configuration de graphique de carte thermique.

Requête SQL : pour cette visualisation de graphique de carte thermique, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.orders

Graphique en nuage de points

Les visualisations en nuage de points sont couramment utilisées pour montrer la relation entre deux variables numériques. Par ailleurs, une troisième dimension peut être encodée avec des couleurs pour montrer comment les variables numériques diffèrent entre les groupes.

Remarque

Les graphiques en nuage de points prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.

Scatter example

Valeurs de configuration : pour cette visualisation de graphique en nuage de points, les valeurs suivantes ont été définies :

Colonne X (colonne de jeu de données) : l_quantity
Colonne Y (colonne de jeu de données) : l_extendedprice
Regrouper par (colonne de jeu de données) : l_returnflag
Nom de l’axe X (remplacer la valeur par défaut) : Quantity
Nom de l’axe Y (remplacer la valeur par défaut) : Extended price

Options de configuration : pour les options de configuration de graphique en nuage de points, consultez les options de configuration de graphique.

Requête SQL : pour cette visualisation de graphique en nuage de points, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.lineitem

Graphique à bulles

Les graphiques à bulles sont des graphiques en nuage de points où la taille de chaque marqueur de point reflète une métrique pertinente.

Remarque

Les graphiques à bulles prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.

Bubble example

Valeurs de configuration : pour cette visualisation de graphique à bulles, les valeurs suivantes ont été définies :

X (colonne de jeu de données) : l_quantity
Colonnes Y (colonne de jeu de données) : l_extendedprice
Regrouper par (colonne de jeu de données) : l-returnflag
Colonne de taille de la bulle (colonne de jeu de données) : l_tax
Coefficient de taille de la bulle : 20
Nom de l’axe X (remplacer la valeur par défaut) : Quantity
Nom de l’axe Y (remplacer la valeur par défaut) : Extended price

Options de configuration : pour les options de configuration de graphique à bulles, consultez les options de configuration de graphique.

Requête SQL : pour cette visualisation de graphique à bulles, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.lineitem

Diagramme en boîte

La visualisation de diagramme en boîte montre la synthèse de la distribution de données numériques, éventuellement regroupées par catégorie. Avec une visualisation de diagramme en boîte, vous pouvez rapidement comparer les plages de valeurs de différentes catégories, et visualiser les groupes de localité, de répartition et d’asymétrie des valeurs à travers leurs quartiles. Dans chaque boîte, la ligne plus foncée indique l’écart interquartile. Pour plus d’informations sur l’interprétation des visualisations de diagramme en boîte, consultez l’article Boîte à moustaches sur Wikipédia.

Remarque

Les graphiques en boîte prennent uniquement en charge l’agrégation de 64 000 lignes maximum. Si un jeu de données est supérieur à 64 000 lignes, les données sont tronquées.

Box chart example

Valeurs de configuration : pour cette visualisation de graphique en boîte, les valeurs suivantes ont été définies :

Colonne X (colonne de jeu de données) : l-returnflag
Colonnes Y (colonne de jeu de données) : l_extendedprice
Regrouper par (colonne de jeu de données) : l_shipmode
Nom de l’axe X (remplacer la valeur par défaut) : Return flag1
Nom de l’axe Y (remplacer la valeur par défaut) : Extended price

Options de configuration : pour les options de configuration de graphique en boîte, consultez les options de configuration de graphique en boîte.

Requête SQL : pour cette visualisation de graphique en boîte, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.lineitem

Graphique combiné

Les graphiques combinés associent les graphiques en courbes et à barres pour présenter les changements au fil du temps avec une proportionnalité.

Remarque

Les graphiques combinés prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats.

Combo example

Valeurs de configuration : pour cette visualisation de graphique combiné, les valeurs suivantes ont été définies :

Colonne X (colonne de jeu de données) : l_shipdate
Colonnes Y :
- Première colonne du jeu de données : l_extendedprice
- Type d’agrégation : moyenne
- Deuxième colonne du jeu de données : l_quantity
- Type d’agrégation : moyenne
Nom de l’axe X (remplacer la valeur par défaut) : Ship date
Nom de l’axe Y de gauche (remplacer la valeur par défaut) : Quantity
Nom de l’axe Y de droite (remplacer la valeur par défaut) : Average price
Série :
- Order1 (colonne de jeu de données) : AVG(l_extendedprice)
- Axe Y : à droite
- Type : en courbes
- Order2 (colonne de jeu de données) : AVG(l_quantity)
- Axe Y : à gauche
- Type : à barres

Options de configuration : pour les options de configuration de graphique combiné, consultez les options de configuration de graphique.

Requête SQL : pour cette visualisation de graphique combiné, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.lineitem

Analyse de cohorte

Une analyse de cohorte examine les résultats de groupes prédéterminés, appelés cohortes, lorsqu’ils suivent un ensemble d’étapes. La visualisation de cohorte agrège les données uniquement par dates (elle permet de faire des agrégations mensuelles). Elle n’effectue pas d’autre agrégation de données dans le jeu de résultats. Toutes les autres agrégations sont effectuées dans la requête elle-même.

Cohort example

Valeurs de configuration : pour cette visualisation de cohorte, les valeurs suivantes ont été définies :

Date (compartiment) (colonne de base de données) : cohort_month
Phase (colonne de base de données) : months
Taille de population du compartiment (colonne de base de données) : size
Valeur de la phase (colonne de base de données) : active
Intervalle de temps : monthly

Options de configuration : pour les options de configuration de cohorte, consultez les options de configuration de graphique de cohorte.

Requête SQL : pour cette visualisation de cohorte, la requête SQL suivante a été utilisée pour générer le jeu de données.

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

Affichage de compteur

Les compteurs montrent une seule valeur de manière proéminente, avec une option pour la comparer à une valeur cible. Pour utiliser des compteurs, spécifiez la ligne de données à montrer sur la visualisation de compteur pour la Colonne de valeur et la Colonne cible.

Remarque

Les compteurs prennent uniquement en charge l’agrégation de 64 000 lignes maximum. Si un jeu de données est supérieur à 64 000 lignes, les données sont tronquées.

Counter example

Valeurs de configuration : pour cette visualisation de compteur, les valeurs suivantes ont été définies :

Colonne de valeur
- Colonne de jeu de données : avg(o_totalprice)
- Ligne 1 :
Colonne cible :
- Colonne de jeu de données : avg(o_totalprice)
- Ligne 2 :
Mettre en forme la cible : Activer

Requête SQL : pour cette visualisation de compteur, la requête SQL suivante a été utilisée pour générer le jeu de données.

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

Visualisation d’entonnoir

La visualisation d’entonnoir permet d’analyser le changement d’une métrique à différentes étapes. Pour utiliser l’entonnoir, spécifiez un step et une colonne value.

Remarque

Les entonnoirs prennent uniquement en charge l’agrégation de 64 000 lignes maximum. Si un jeu de données est supérieur à 64 000 lignes, les données sont tronquées.

Funnel example

Valeurs de configuration : pour cette visualisation d’entonnoir, les valeurs suivantes ont été définies :

Colonne d’étape (colonne de jeu de données) : o_orderstatus
Colonne de valeur (colonne de jeu de données) : Revenue

Requête SQL : pour cette visualisation d’entonnoir, la requête SQL suivante a été utilisée pour générer le jeu de données.

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

Visualisation de carte choroplèthe

Dans les visualisations de carte choroplèthe, les emplacements géographiques, comme les pays ou les États, sont colorés en fonction des valeurs agrégées de chaque colonne clé. La requête doit retourner des emplacements géographiques par nom.

Remarque

Les visualisations de carte choroplèthe ne font aucune agrégation de données dans le jeu de résultats. Toutes les agrégations doivent être calculées dans la requête elle-même.

Map choropleth example

Valeurs de configuration : pour cette visualisation de carte choroplèthe, les valeurs suivantes ont été définies :

Carte (colonne de jeu de données) : Countries
Colonne géographique (colonne de jeu de données) : Nation
Type géographique : nom court
Colonne de valeur (colonne de jeu de données) : revenue
Mode de clustering : équidistant

Options de configuration : pour les options de configuration de carte choroplèthe, consultez les options de configuration de carte choroplèthe.

Requête SQL : pour cette visualisation de carte choroplèthe, la requête SQL suivante a été utilisée pour générer le jeu de données.

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

Visualisation de carte à marqueurs

Dans les visualisation de carte à marqueurs, un marqueur est placé au niveau d’un ensemble de coordonnées sur la carte. Les résultats de la requête doivent retourner des paires latitude-longitude.

Remarque

Le marqueur n’effectue pas d’agrégation de données dans le jeu de résultats. Toutes les agrégations doivent être calculées dans la requête elle-même.

Map marker example

Cet exemple de marqueur est généré à partir d’un jeu de données qui comprend à la fois des valeurs de latitude et de longitude, lesquelles ne sont pas disponibles dans les exemples de jeux de données Databricks. Pour connaître les options de configuration de carte à marqueurs, consultez les options de configuration de marqueur.

Visualisation de tableau croisé dynamique

La visualisation de tableau croisé dynamique agrège les enregistrements d’un résultat de requête dans un nouvel affichage tabulaire. Elle est similaire aux instructions PIVOT ou GROUP BY en SQL. Vous configurez la visualisation du tableau croisé dynamique avec des champs de type glisser-déplacer.

Remarque

Les tableaux croisés dynamiques prennent en charge les agrégations de back-ends, ce qui permet de prendre en charge les requêtes renvoyant plus de 64 000 lignes de données sans troncation du jeu de résultats. Toutefois, le tableau croisé dynamique (hérité) prend uniquement en charge l’agrégation de 64 000 lignes maximum. Si un jeu de données est supérieur à 64 000 lignes, les données sont tronquées.

Exemple de tableau croisé dynamique

Valeurs de configuration : pour cette visualisation de tableau croisé dynamique, les valeurs suivantes ont été définies :

Sélectionner des lignes (colonne de jeu de données) : l_retkurnflag
Sélectionner des colonnes (colonne de jeu de données) : l_shipmode
Cellule
- Colonne de jeu de données : l_quantity
- Type d’agrégation : Sum

Requête SQL : pour cette visualisation de tableau croisé dynamique, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.lineitem

Sankey

Un diagramme Sankey visualise le flux d’un ensemble de valeurs par rapport à un autre.

Remarque

Les visualisations Sankey ne font aucune agrégation de données dans le jeu de résultats. Toutes les agrégations doivent être calculées dans la requête elle-même.

Sankey example

Requête SQL : pour cette visualisation Sankey, la requête SQL suivante a été utilisée pour générer le jeu de données.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Séquence Sunburst

Un diagramme Sunburst permet de visualiser des données hiérarchiques en utilisant des cercles concentriques.

Remarque

La séquence Sunburst n’effectue pas d’agrégation de données dans le jeu de résultats. Toutes les agrégations doivent être calculées dans la requête elle-même.

Sunburst example

Requête SQL : pour cette visualisation Sunburst, la requête SQL suivante a été utilisée pour générer le jeu de données.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Table

La visualisation de table affiche les données dans une table standard, mais avec la possibilité de manuellement réorganiser, masquer et mettre en forme les données. Consultez les options de table.

Remarque

Les visualisations de table ne font aucune agrégation de données dans le jeu de résultats. Toutes les agrégations doivent être calculées dans la requête elle-même.

Pour connaître les options de configuration de table, consultez les options de configuration de table.

Cloud de mots

Un nuage de mots représente visuellement la fréquence d’occurrence d’un mot dans les données.

Remarque

Les nuages de mots prennent uniquement en charge l’agrégation de 64 000 lignes maximum. Si un jeu de données est supérieur à 64 000 lignes, les données sont tronquées.

Word cloud example

Valeurs de configuration : pour cette visualisation en nuage de mots, les valeurs suivantes ont été définies : test

Colonne de mots (colonne de jeu de données) : o_comment
Limite de longueur des mots : 5
Limite des fréquences : 2

Requête SQL : pour cette visualisation en nuage de mots, la requête SQL suivante a été utilisée pour générer le jeu de données.

select * from samples.tpch.orders

Partager via

Types de visualisation

Graphique à barres

Graphique en courbes

Graphique en aires

Graphiques à secteurs

Histogrammes

Graphiques de carte thermique

Graphique en nuage de points

Graphique à bulles

Diagramme en boîte

Graphique combiné

Analyse de cohorte

Affichage de compteur

Visualisation d’entonnoir

Visualisation de carte choroplèthe

Visualisation de carte à marqueurs

Visualisation de tableau croisé dynamique

Sankey

Séquence Sunburst

Table

Cloud de mots

Ressources supplémentaires