Analyse exploratoire des données dans Azure Databricks : outils et techniques
Cet article décrit les outils et les techniques d’analyse exploratoire des données (EDA dans Azure Databricks.
Qu’est-ce que l’EDA et pourquoi est-elle utile ?
L’analyse exploratoire des données (EDA) comprend des méthodes permettant d’explorer les jeux de données afin de résumer leurs principales caractéristiques et d’identifier les éventuels problèmes liés aux données. À l’aide de méthodes statistiques et de visualisations, vous pouvez découvrir un jeu de données afin de déterminer son niveau de préparation à l’analyse et indiquer les techniques à appliquer pour la préparation des données. L’EDA peut également influencer les algorithmes que vous choisissez d’appliquer pour l’entraînement des modèles ML.
Quels sont les outils EDA d’Azure Databricks ?
Azure Databricks dispose d’outils d’analyse et de visualisation intégrés dans Databricks SQL et Dans Databricks Runtime. Pour obtenir une liste illustrée des types de visualisations disponibles dans Azure Databricks, consultez Types de visualisation.
L’EDA dans Databricks SQL
Voici quelques articles utiles sur les outils de visualisation et d’exploration des données dans Databricks SQL :
- Visualiser des requêtes et créer un tableau de bord
- Créer des visualisations de données dans Databricks SQL
EDA Dans Databricks Runtime
Databricks Runtime fournit un environnement prédéfini qui a déjà installé des bibliothèques d’exploration de données populaires. Vous pouvez voir la liste des bibliothèques intégrées dans les notes de publication.
En outre, les articles suivants présentent des exemples d’outils de visualisation Databricks Runtime :
- Créer des visualisations de données dans Databricks notebooks
- Effectuer une EDA sans code avec bamboolib
Dans un notebook Databricks Python, vous pouvez combiner SQL et Python pour explorer les données. Lorsque vous exécutez du code dans une cellule de langage SQL dans un notebook Python, les résultats de table sont automatiquement rendues disponibles en tant que DataFrame Python. Pour plus d’informations, consultez Explorer les résultats des cellules SQL dans les notebooks Python.