Lernprogramm: EDA-Techniken mithilfe von Databricks-Notizbüchern

Dieses Lernprogramm führt Sie durch die Grundlagen der Durchführung explorativer Datenanalysen (EDA) mithilfe von Python in einem Azure Databricks-Notizbuch, vom Laden von Daten bis hin zum Generieren von Erkenntnissen durch Datenvisualisierungen.

Das in diesem Lernprogramm verwendete Notizbuch untersucht globale Energie- und Emissionsdaten und veranschaulicht, wie Daten geladen, bereinigt und untersucht werden.

Sie können das Beispielnotizbuch verwenden oder ihr eigenes Notizbuch von Grund auf neu erstellen.

Was ist EDA?

Exploratory Data Analysis (EDA) ist ein wichtiger Anfangsschritt im Data Science-Prozess, der die Analyse und Visualisierung von Daten umfasst:

Entdecken Sie ihre Hauptmerkmale.
Identifizieren von Mustern und Trends.
Erkennen von Anomalien.
Verstehen Sie die Beziehungen zwischen Variablen.

EDA bietet Einblicke in das Dataset und erleichtert fundierte Entscheidungen zu weiteren statistischen Analysen oder Modellierungen.

Mit Azure Databricks-Notizbüchern können Datenwissenschaftler EDA mit vertrauten Tools ausführen. In diesem Lernprogramm werden beispielsweise einige gängige Python-Bibliotheken zum Behandeln und Zeichnen von Daten verwendet, darunter:

Numpy: eine grundlegende Bibliothek für numerisches Computing, die Unterstützung für Arrays, Matrizen und eine vielzahl mathematischer Funktionen bereitstellt, um auf diesen Datenstrukturen zu arbeiten.
pandas: eine leistungsstarke Datenbearbeitungs- und Analysebibliothek, die auf NumPy basiert, die Datenstrukturen wie DataFrames bietet, um strukturierte Daten effizient zu verarbeiten.
Plotly: eine interaktive Graphing-Bibliothek, die die Erstellung qualitativ hochwertiger, interaktiver Visualisierungen für Datenanalyse und Präsentation ermöglicht.
Matplotlib: eine umfassende Bibliothek zum Erstellen statischer, animierter und interaktiver Visualisierungen in Python.

Azure Databricks bietet auch integrierte Features, mit denen Sie Ihre Daten in der Notizbuchausgabe untersuchen können, z. B. Filtern und Durchsuchen von Daten in Tabellen und Vergrößern von Visualisierungen. Sie können Auch Genie Code verwenden, um Ihnen beim Schreiben von Code für EDA zu helfen.

Bevor Sie beginnen

Um dieses Lernprogramm abzuschließen, benötigen Sie Folgendes:

Sie müssen über die Berechtigung verfügen, eine vorhandene Computeressource zu verwenden oder eine neue Computeressource zu erstellen. Siehe Compute.
[Optional] In diesem Lernprogramm wird beschrieben, wie Sie Mithilfe von Genie Code Code generieren können. Weitere Informationen finden Sie unter Verwenden von Genie Code .

Herunterladen des Datasets und Importieren einer CSV-Datei

In diesem Lernprogramm werden EDA-Techniken veranschaulicht, indem globale Energie- und Emissionsdaten untersucht werden. Laden Sie dazu das Dataset "Energieverbrauch" von Our World in Data from Kaggle herunter. In diesem Lernprogramm wird die owid-energy-data.csv Datei verwendet.

So importieren Sie das Dataset in Ihren Azure Databricks-Arbeitsbereich:

Klicken Sie in der Randleiste des Arbeitsbereichs auf Arbeitsbereich, um zum Arbeitsbereichsbrowser zu navigieren.
Ziehen Sie die CSV-Datei, owid-energy-data.csv, in Ihren Arbeitsbereich und legen Sie sie dort ab.

Dadurch wird das Import-Modal geöffnet. Beachten Sie den hier aufgeführten Zielordner. Dies ist im Arbeitsbereichsbrowser auf Ihren aktuellen Ordner festgelegt und wird zum Ziel der importierten Datei.
Klicken Sie auf Importieren. Die Datei sollte im Zielordner in Ihrem Arbeitsbereich angezeigt werden.
Sie benötigen den Dateipfad, um die Datei später in Ihr Notizbuch zu laden. Suchen Sie die Datei in Ihrem Arbeitsbereichsbrowser. Um den Dateipfad in die Zwischenablage zu kopieren, klicken Sie mit der rechten Maustaste auf den Dateinamen, und wählen Sie dann "URL/Pfad vollständig> kopieren"aus.

Erstellen eines neuen Notebooks

Um ein neues Notizbuch in Ihrem Benutzerstartordner zu erstellen, klicken Sie in der Randleiste auf neu ", und wählen Sie im Menü " Notizbuch" aus.

Wählen Sie oben neben dem Namen des Notizbuchs Python als Standardsprache für das Notizbuch aus.

Weitere Informationen zum Erstellen und Verwalten von Notebooks finden Sie unter Verwalten von Notebooks.

Fügen Sie die einzelnen Codebeispiele in diesem Artikel einer neuen Zelle in Ihrem Notizbuch hinzu. Oder verwenden Sie das bereitgestellte Beispielnotizbuch zusammen mit dem Tutorial.

CSV-Datei laden

Laden Sie in einer neuen Notizbuchzelle die CSV-Datei. Dazu importieren numpy und pandas. Dies sind nützliche Python-Bibliotheken für Data Science und Analyse.

Erstellen Sie einen Pandas DataFrame aus dem Dataset, um die Verarbeitung und Visualisierung zu vereinfachen. Ersetzen Sie den dateipfad unten durch den Pfad, den Sie zuvor kopiert haben.

import numpy as np
import pandas as pd # Data processing, CSV file I/O (e.g. pd.read_csv)
df=pd.read_csv('/Workspace/Users/demo@databricks.com/owid-energy-data.csv') # Replace the file path here with the workspace path you copied earlier

Führen Sie die Zelle aus. Die Ausgabe sollte ein pandas DataFrame zurückgeben, einschließlich einer Liste jeder Spalte und ihres Typs.

Zellenausgabe des importierten DataFrame.

Grundlegendes zu den Daten

Das Verständnis der Grundlagen des Datasets ist für jedes Data Science-Projekt von entscheidender Bedeutung. Dabei geht es darum, sich mit der Struktur, den Typen und der Qualität der daten vertraut zu machen.

In einem Azure Databricks-Notizbuch können Sie den display(df) Befehl verwenden, um das Dataset anzuzeigen.

Zellenausgabe, die das Dataset in Form einer Tabelle anzeigt.

Da das Dataset mehr als 10.000 Zeilen enthält, gibt dieser Befehl ein abgeschnittenes Dataset zurück. Links neben jeder Spalte können Sie den Datentyp der Spalte sehen. Weitere Informationen finden Sie unter "Formatspalten".

Verwenden von Pandas für Datenerkenntnisse

Um Ihr Dataset effektiv zu verstehen, verwenden Sie die folgenden Pandas-Befehle:

Der df.shape Befehl gibt die Dimensionen des DataFrame zurück, sodass Sie einen schnellen Überblick über die Anzahl der Zeilen und Spalten erhalten.
Der df.dtypes Befehl stellt die Datentypen jeder Spalte bereit und hilft Ihnen dabei, die Art der Daten zu verstehen, mit denen Sie arbeiten. Sie können auch den Datentyp für jede Spalte in der Ergebnistabelle anzeigen.
Der df.describe() Befehl generiert beschreibende Statistiken für numerische Spalten, z. B. Mittelwert, Standardabweichung und Quantile, die Ihnen dabei helfen können, Muster zu erkennen, Anomalien zu erkennen und die Verteilung Ihrer Daten zu verstehen. Verwenden Sie es mit display(), um Zusammenfassungsstatistiken in einem tabellarischen und interaktiven Format anzuzeigen. Weitere Informationen finden Sie unter "Untersuchen der Daten mithilfe der Ausgabetabelle des Databricks-Notizbuchs".

Generieren eines Datenprofils

Hinweis

Verfügbar in Databricks Runtime 9.1 LTS und höheren Versionen.

Azure Databricks-Notizbücher umfassen integrierte Datenprofilfunktionen. Beim Anzeigen eines DataFrames mit der Azure Databricks-Anzeigefunktion können Sie ein Datenprofil aus der Tabellenausgabe generieren.

# Display the DataFrame, then click "+ > Data Profile" to generate a data profile
display(df)

Klicken Sie in der Ausgabe auf +> "Datenprofil" neben der Tabelle. Dadurch wird ein neuer Befehl ausgeführt, der ein Profil der Daten im DataFrame generiert.

Das Datenprofil enthält Zusammenfassungsstatistiken für numerische, Zeichenfolgen- und Datumsspalten sowie Histogramme der Wertverteilungen für jede Spalte. Sie können Datenprofile auch programmgesteuert generieren. Informationen dazu finden Sie unter dem summarize-Befehl (dbutils.data.summarize).

Bereinigen der Daten

Das Bereinigen von Daten ist ein wichtiger Schritt in EDA, um sicherzustellen, dass das Dataset korrekt, konsistent und für eine aussagekräftige Analyse bereit ist. Dieser Vorgang umfasst mehrere wichtige Aufgaben, um sicherzustellen, dass die Daten für die Analyse bereit sind, einschließlich:

Identifizieren und Entfernen doppelter Daten.
Behandeln fehlender Werte, die möglicherweise das Ersetzen durch einen bestimmten Wert oder das Entfernen der betroffenen Zeilen umfassen.
Standardisieren von Datentypen (z. B. Konvertieren von Zeichenfolgen in datetime) durch Konvertierungen und Transformationen, um Konsistenz sicherzustellen. Möglicherweise möchten Sie auch Daten in ein Format konvertieren, mit dem Sie einfacher arbeiten können.

Diese Reinigungsphase ist unerlässlich, da sie die Qualität und Zuverlässigkeit der Daten verbessert und eine genauere und fundiertere Analyse ermöglicht.

Tipp: Verwenden von Genie Code zur Unterstützung bei Datenreinigungsaufgaben

Mithilfe von Genie Code können Sie Code generieren. Erstellen Sie eine neue Codezelle, und klicken Sie auf den Link generieren , oder verwenden Sie das Genie Code-Symbol oben rechts, um Genie Code zu öffnen. Geben Sie eine Abfrage für Genie Code ein. Genie Code kann entweder Python- oder SQL-Code generieren oder eine Textbeschreibung generieren. Klicken Sie für unterschiedliche Ergebnisse auf "Neu generieren".

Probieren Sie zum Beispiel die folgenden Anweisungen aus, um die Daten mithilfe von Genie Code zu bereinigen.

Überprüfen Sie, ob df doppelte Spalten oder Zeilen enthält. Drucken Sie die Duplikate. Löschen Sie dann die Duplikate.
In welchem Format liegen die Datumsspalten vor? Ändern Sie diesen Wert in 'YYYY-MM-DD'.
Ich werde die XXX Spalte nicht verwenden. Löschen Sie es.

Siehe Hilfe zum Codieren von Genie Code.

Entfernen doppelter Daten

Überprüfen Sie, ob die Daten doppelte Zeilen oder Spalten enthalten. Falls ja, entfernen Sie sie.

Tipp

Verwenden Sie Genie Code, um Code für Sie zu generieren.

Versuchen Sie, die Eingabeaufforderung einzugeben: "Überprüfen Sie, ob df doppelte Spalten oder Zeilen enthält. Drucken Sie die Duplikate. Löschen Sie dann die Duplikate." Genie Code kann Code wie im folgenden Beispiel generieren.

# Check for duplicate rows
duplicate_rows = df.duplicated().sum()

# Check for duplicate columns
duplicate_columns = df.columns[df.columns.duplicated()].tolist()

# Print the duplicates
print("Duplicate rows count:", duplicate_rows)
print("Duplicate columns:", duplicate_columns)

# Drop duplicate rows
df = df.drop_duplicates()

# Drop duplicate columns
df = df.loc[:, ~df.columns.duplicated()]

In diesem Fall enthält das Dataset keine doppelten Daten.

Null- oder fehlende Werte behandeln

Eine häufige Methode zum Behandeln von NaN- oder Nullwerten besteht darin, sie durch 0 zu ersetzen, um die mathematische Verarbeitung zu vereinfachen.

df = df.fillna(0) # Replace all NaN (Not a Number) values with 0

Dadurch wird sichergestellt, dass fehlende Daten im DataFrame durch 0 ersetzt werden, was für nachfolgende Datenanalyse- oder Verarbeitungsschritte hilfreich sein kann, bei denen fehlende Werte zu Problemen führen können.

Datumsangaben neu formatieren

Datumsangaben werden häufig auf unterschiedliche Weise in verschiedenen Datasets formatiert. Möglicherweise sind sie im Datumsformat, in Zeichenfolgen oder ganzzahligen Zahlen enthalten.

Behandeln Sie für diese Analyse die year Spalte als ganze Zahl. Der folgende Code ist eine Möglichkeit, dies zu tun:

# Ensure the 'year' column is converted to the correct data type (integer for year)
df['year'] = pd.to_datetime(df['year'], format='%Y', errors='coerce').dt.year

# Confirm the changes
df.year.dtype

Dadurch wird sichergestellt, dass die year Spalte nur ganzzahlige Jahreswerte enthält, wobei alle ungültigen Einträge in NaT (kein gültiger Zeitwert) konvertiert werden.

Die Daten mithilfe der Ausgabetabelle im Databricks-Notebook untersuchen

Azure Databricks bietet integrierte Features, mit denen Sie Ihre Daten mithilfe der Ausgabetabelle untersuchen können.

Verwenden Sie display(df) in einer neuen Zelle, um das Dataset als Tabelle anzuzeigen.

Erkunden Sie Daten mithilfe der Ausgabetabelle des Databricks-Notizbuchs.

Mithilfe der Ausgabetabelle können Sie Ihre Daten auf verschiedene Arten untersuchen:

Durchsuchen der Daten nach einer bestimmten Zeichenfolge oder einem bestimmten Wert
Filtern nach bestimmten Bedingungen
Erstellen von Visualisierungen mithilfe des Datasets

Durchsuchen der Daten nach einer bestimmten Zeichenfolge oder einem bestimmten Wert

Klicken Sie oben rechts in der Tabelle auf das Suchsymbol, und geben Sie Ihre Suche ein.

Filtern nach bestimmten Bedingungen

Sie können integrierte Tabellenfilter verwenden, um Ihre Spalten nach bestimmten Bedingungen zu filtern. Es gibt mehrere Möglichkeiten zum Erstellen eines Filters. Siehe Ergebnisse filtern.

Tipp

Verwenden Sie Genie Code, um Filter zu erstellen. Klicken Sie in der oberen rechten Ecke der Tabelle auf das Filtersymbol. Geben Sie ihre Filterbedingung ein. Genie Code generiert automatisch einen Filter für Sie.

Filtern Sie die Tabellenausgabe mithilfe des Assistenten.

Erstellen von Visualisierungen mithilfe des Datasets

Klicken Sie oben in der Ausgabetabelle auf +>"Visualisierung ", um den Visualisierungs-Editor zu öffnen.

Fügen Sie eine Visualisierung mithilfe der Tabellenausgabe hinzu.

Wählen Sie den Visualisierungstyp und die Spalten aus, die Sie visualisieren möchten. Der Editor zeigt eine Vorschau des Diagramms basierend auf Ihrer Konfiguration an. Die folgende Abbildung zeigt beispielsweise, wie Sie mehrere Liniendiagramme hinzufügen, um den Verbrauch verschiedener erneuerbarer Energiequellen im Laufe der Zeit anzuzeigen.

Konfigurieren Sie die Visualisierung mithilfe des Visualisierungs-Editors.

Klicken Sie auf " Speichern ", um die Visualisierung als Registerkarte in der Zellenausgabe hinzuzufügen.

Weitere Informationen finden Sie unter Erstellen einer neuen Visualisierung.

Erkunden und Visualisieren der Daten mithilfe von Python-Bibliotheken

Das Untersuchen von Daten mithilfe von Visualisierungen ist ein grundlegender Aspekt von EDA. Visualisierungen helfen dabei, Muster, Trends und Beziehungen innerhalb der Daten aufzudecken, die möglicherweise nicht sofort durch numerische Analysen sichtbar sind. Verwenden Sie Bibliotheken wie Plotly oder Matplotlib für allgemeine Visualisierungstechniken wie Punktdiagramme, Balkendiagramme, Liniendiagramme und Histogramme. Mit diesen visuellen Tools können Datenwissenschaftler Anomalien identifizieren, Datenverteilungen verstehen und Korrelationen zwischen Variablen beobachten. Punktdiagramme können z. B. Ausreißer hervorheben, während Zeitreihendiagramme Trends und Saisonalität aufzeigen können.

Erstellen eines Arrays für eindeutige Länder
Emissionsentwicklung der Top-10-Emittenten (2000-2022) darstellen
Emissionen nach Region filtern und visualisieren
Berechnen und grafisch darstellen des Wachstums des Anteils erneuerbarer Energien
Streudiagramm: Auswirkungen der erneuerbaren Energien für Haupterzeuger zeigen
Modell projizierter globaler Energieverbrauch

Erstellen eines Arrays für eindeutige Länder

Untersuchen Sie die im Dataset enthaltenen Länder, indem Sie ein Array für eindeutige Länder erstellen. Beim Erstellen eines Arrays werden die Entitäten als country aufgeführt.

# Get the unique countries
unique_countries = df['country'].unique()
unique_countries

Ausgabe:

Zellenausgabe mit einem Array eindeutiger Länder.

Einblick:

Die country Spalte enthält verschiedene Entitäten, darunter World, High-Income-Länder, Asien und Vereinigte Staaten, die nicht immer direkt vergleichbar sind. Es könnte nützlicher sein, die Daten nach Region zu filtern.

Diagrammerstellung von Emissionstrends der 10 größten Emitter (200-2022)

Angenommen, Sie möchten ihre Untersuchung auf die 10 Länder mit den höchsten Treibhausgasemissionen in den 2000er Jahren konzentrieren. Sie können die Daten für die Jahre filtern, die Sie betrachten möchten, und die top 10 Länder mit den meisten Emissionen, und verwenden Sie dann plotly, um ein Liniendiagramm zu erstellen, das ihre Emissionen im Laufe der Zeit zeigt.

import plotly.express as px

# Filter data to include only years from 2000 to 2022
filtered_data = df[(df['year'] >= 2000) & (df['year'] <= 2022)]

# Get the top 10 countries with the highest emissions in the filtered data
top_countries = filtered_data.groupby('country')['greenhouse_gas_emissions'].sum().nlargest(10).index

# Filter the data for those top countries
top_countries_data = filtered_data[filtered_data['country'].isin(top_countries)]

# Plot emissions trends over time for these countries
fig = px.line(top_countries_data, x='year', y='greenhouse_gas_emissions', color='country',
             title="Greenhouse Gas Emissions Trends for Top 10 Countries (2000 - 2022)")
fig.show()

Ausgabe:

Diagramm mit den Trends der Treibhausgasemissionen für top 10 Emitter von 2000 bis 2022.

Einblick:

Die Treibhausgasemissionen sind zwischen 2000 und 2022 gestiegen, mit Ausnahme einiger Länder, in denen die Emissionen in diesem Zeitraum relativ stabil blieben und leicht zurückgingen.

Emissionen nach Region filtern und darstellen

Filtern Sie die Daten nach Region, und berechnen Sie die Gesamtemissionen für jede Region. Zeichnen Sie dann die Daten als Balkendiagramm:

# Filter out regional entities
regions = ['Africa', 'Asia', 'Europe', 'North America', 'South America', 'Oceania']

# Calculate total emissions for each region
regional_emissions = df[df['country'].isin(regions)].groupby('country')['greenhouse_gas_emissions'].sum()

# Plot the comparison
fig = px.bar(regional_emissions, title="Greenhouse Gas Emissions by Region")
fig.show()

Ausgabe:

Diagramm mit Treibhausgasemissionen nach Region.

Einblick:

Asien hat die höchsten Treibhausgasemissionen. Ozeanien, Südamerika und Afrika erzeugen die niedrigsten Treibhausgasemissionen.

Erstellen Sie eine neue Funktion/Spalte, die den Anteil der erneuerbaren Energien als Verhältnis des erneuerbaren Energieverbrauchs über den primären Energieverbrauch berechnet. Rangieren Sie dann die Länder anhand ihres durchschnittlichen Anteils an erneuerbaren Energien. Für die top 10 Länder zeichnen Sie ihren Anteil an erneuerbaren Energien im Laufe der Zeit aus:

# Calculate the renewable energy share and save it as a new column called "renewable_share"
df['renewable_share'] = df['renewables_consumption'] / df['primary_energy_consumption']

# Rank countries by their average renewable energy share
renewable_ranking = df.groupby('country')['renewable_share'].mean().sort_values(ascending=False)

# Filter for countries leading in renewable energy share
leading_renewable_countries = renewable_ranking.head(10).index
leading_renewable_data = df[df['country'].isin(leading_renewable_countries)]
# filtered_data = df[(df['year'] >= 2000) & (df['year'] <= 2022)]
leading_renewable_data_filter=leading_renewable_data[(leading_renewable_data['year'] >= 2000) & (leading_renewable_data['year'] <= 2022)]
# Plot renewable share over time for top renewable countries
fig = px.line(leading_renewable_data_filter, x='year', y='renewable_share', color='country',
             title="Renewable Energy Share Growth Over Time for Leading Countries")
fig.show()

Ausgabe:

Einblick:

Norwegen und Island führen die Welt in erneuerbaren Energien mit mehr als der Hälfte ihres Verbrauchs aus erneuerbaren Energien.

Island und Schweden verzeichneten das größte Wachstum ihres Anteils an erneuerbaren Energien. Alle Länder sahen gelegentlich Brüche und Anstiege, die zeigen, wie das Wachstum der erneuerbaren Energien nicht notwendigerweise linear ist. Interessanterweise erlebte Zentralafrika Anfang der 2010er Jahre einen Rückgang, erholte sich jedoch 2020.

Streudiagramm: Auswirkungen der erneuerbaren Energien für Haupterzeuger zeigen

Filtern Sie die Daten für die top 10 Emitter, und verwenden Sie dann ein Punktdiagramm, um den Anteil erneuerbarer Energien im Vergleich zu Treibhausgasemissionen im Laufe der Zeit zu betrachten.

# Select top emitters and calculate renewable share vs. emissions
top_emitters = df.groupby('country')['greenhouse_gas_emissions'].sum().nlargest(10).index
top_emitters_data = df[df['country'].isin(top_emitters)]

# Plot renewable share vs. greenhouse gas emissions over time
fig = px.scatter(top_emitters_data, x='renewable_share', y='greenhouse_gas_emissions',
                color='country', title="Impact of Renewable Energy on Emissions for Top Emitters")
fig.show()

Ausgabe:

Diagramm, das die Auswirkungen erneuerbarer Energien auf emissionen für die top Emitter zeigt.

Einblick:

Da ein Land mehr erneuerbare Energien nutzt, hat es auch mehr Treibhausgasemissionen, was bedeutet, dass sein Gesamtenergieverbrauch schneller steigt als sein erneuerbarer Verbrauch. Nordamerika ist eine Ausnahme, dass ihre Treibhausgasemissionen während der gesamten Jahre relativ konstant geblieben sind, da der Anteil an erneuerbaren Energien weiter gestiegen ist.

Modellieren des projizierten globalen Energieverbrauchs

Aggregieren Sie den globalen Primärenergieverbrauch nach Jahr, und erstellen Sie dann ein autoregressives integriertes Gleitendwertmodell (ARIMA), um den gesamt globalen Energieverbrauch für die nächsten Jahre zu projizieren. Zeichnen Sie den historischen und prognostizierten Energieverbrauch mit Matplotlib.

import pandas as pd
from statsmodels.tsa.arima.model import ARIMA
import matplotlib.pyplot as plt

# Aggregate global primary energy consumption by year
global_energy = df[df['country'] == 'World'].groupby('year')['primary_energy_consumption'].sum()

# Build an ARIMA model for projection
model = ARIMA(global_energy, order=(1, 1, 1))
model_fit = model.fit()
forecast = model_fit.forecast(steps=10)  # Projecting for 10 years

# Plot historical and forecasted energy consumption
plt.plot(global_energy, label='Historical')
plt.plot(range(global_energy.index[-1] + 1, global_energy.index[-1] + 11), forecast, label='Forecast')
plt.xlabel("Year")
plt.ylabel("Primary Energy Consumption")
plt.title("Projected Global Energy Consumption")
plt.legend()
plt.show()

Ausgabe:

Diagramm mit historischem und projizierten globalen Energieverbrauch.

Einblick:

Dieses Modell geht davon aus, dass der globale Energieverbrauch weiter steigen wird.

Beispiel-Notebook

Verwenden Sie das folgende Notizbuch, um die Schritte in diesem Artikel auszuführen. Anweisungen zum Importieren eines Notizbuchs in einen Azure Databricks-Arbeitsbereich finden Sie unter Importieren eines Notizbuchs.

Lernprogramm: EDA mit globalen Energiedaten

Notebook abrufen

Nächste Schritte

Nachdem Sie nun eine anfängliche explorative Datenanalyse für Ihr Dataset durchgeführt haben, probieren Sie die folgenden Schritte aus:

Weitere Beispiele für EDA-Visualisierungen finden Sie im Anhang im Beispielnotizbuch .
Wenn beim Durchlaufen dieses Lernprogramms Fehler aufgetreten sind, versuchen Sie, den integrierten Debugger zu verwenden, um den Code zu durchlaufen. Siehe Debuggen von Notizbüchern.
Teilen Sie Ihr Notizbuch mit Ihrem Team, damit sie Ihre Analyse verstehen können. Je nachdem, welche Berechtigungen Sie ihnen erteilen, können sie Code entwickeln, um die Analyse zu erweitern oder Kommentare und Vorschläge für weitere Untersuchungen hinzuzufügen.
Nachdem Sie Ihre Analyse abgeschlossen haben, erstellen Sie ein Notizbuchdashboard oder ein AI/BI-Dashboard mit den wichtigsten Visualisierungen, die sie für die Projektbeteiligten freigeben möchten.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-15

Freigeben über

Lernprogramm: EDA-Techniken mithilfe von Databricks-Notizbüchern

Was ist EDA?

Bevor Sie beginnen

Herunterladen des Datasets und Importieren einer CSV-Datei

Erstellen eines neuen Notebooks

CSV-Datei laden

Grundlegendes zu den Daten

Verwenden von Pandas für Datenerkenntnisse

Generieren eines Datenprofils

Bereinigen der Daten

Tipp: Verwenden von Genie Code zur Unterstützung bei Datenreinigungsaufgaben

Entfernen doppelter Daten

Null- oder fehlende Werte behandeln

Datumsangaben neu formatieren

Die Daten mithilfe der Ausgabetabelle im Databricks-Notebook untersuchen

Durchsuchen der Daten nach einer bestimmten Zeichenfolge oder einem bestimmten Wert

Filtern nach bestimmten Bedingungen

Erstellen von Visualisierungen mithilfe des Datasets

Erkunden und Visualisieren der Daten mithilfe von Python-Bibliotheken

Erstellen eines Arrays für eindeutige Länder

Diagrammerstellung von Emissionstrends der 10 größten Emitter (200-2022)

Emissionen nach Region filtern und darstellen

Berechnen und Zeichnen des Wachstums erneuerbarer Energien

Streudiagramm: Auswirkungen der erneuerbaren Energien für Haupterzeuger zeigen

Modellieren des projizierten globalen Energieverbrauchs

Beispiel-Notebook

Lernprogramm: EDA mit globalen Energiedaten

Nächste Schritte

Feedback

Zusätzliche Ressourcen