Explorative Datenanalyse in Azure Databricks: Tools und Techniken
In diesem Artikel werden Tools und Techniken für die explorative Datenanalyse (EDA) in Azure Databricks beschrieben.
Was ist EDA und warum ist sie nützlich?
Die explorative Datenanalyse (EDA) umfasst Methoden zum Untersuchen von Datasets, um deren Hauptmerkmale zusammenzufassen und Probleme mit den Daten zu identifizieren. Mithilfe statistischer Methoden und Visualisierungen können Sie mehr über ein Dataset erfahren, um festzustellen, ob es für die Analyse bereit ist und welche Techniken für die Datenaufbereitung angewendet werden sollen. EDA kann auch beeinflussen, welche Algorithmen Sie für das Trainieren von ML-Modellen anwenden.
Welche EDA-Tools sind in Azure Databricks verfügbar?
Azure Databricks verfügt sowohl in Databricks SQL als auch in Databricks Runtime über integrierte Analyse- und Visualisierungstools. Eine illustrierte Liste der in Azure Databricks verfügbaren Visualisierungstypen finden Sie unter Visualisierungstypen.
EDA in Databricks SQL
Hier finden Sie einige hilfreiche Artikel zu Datenvisualisierungs- und Untersuchungstools in Databricks SQL:
- Visualisieren von Abfragen und Erstellen eines Dashboards
- Erstellen von Datenvisualisierungen in Databricks SQL
EDA in Databricks Runtime
Databricks Runtime bietet eine vordefinierte Umgebung, in der bereits beliebte Datenanalysebibliotheken installiert sind. Die Liste der integrierten Bibliotheken finden Sie in den Versionshinweisen.
Darüber hinaus enthalten die folgenden Artikel Beispiele für Visualisierungstools in Databricks Runtime:
In einem Databricks Python-Notebook können Sie SQL und Python kombinieren, um Daten zu analysieren. Wenn Code in einer SQL-Sprachzelle in einem Python-Notebook ausgeführt wird, werden die Tabellenergebnisse automatisch als Python DataFrame verfügbar gemacht. Weitere Informationen finden Sie unter Erkunden von SQL-Zellenergebnissen in Python-Notebooks.