Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieses Lernprogramm führt Sie durch die Grundlagen der Durchführung explorativer Datenanalysen (EDA) mithilfe von Python in einem Azure Databricks-Notizbuch, vom Laden von Daten bis hin zum Generieren von Erkenntnissen durch Datenvisualisierungen.
Das in diesem Lernprogramm verwendete Notizbuch untersucht globale Energie- und Emissionsdaten und veranschaulicht, wie Daten geladen, bereinigt und untersucht werden.
Sie können das Beispielnotizbuch verwenden oder ihr eigenes Notizbuch von Grund auf neu erstellen.
Was ist EDA?
Exploratory Data Analysis (EDA) ist ein wichtiger Anfangsschritt im Data Science-Prozess, der die Analyse und Visualisierung von Daten umfasst:
- Entdecken Sie ihre Hauptmerkmale.
- Identifizieren von Mustern und Trends.
- Erkennen von Anomalien.
- Verstehen Sie die Beziehungen zwischen Variablen.
EDA bietet Einblicke in das Dataset und erleichtert fundierte Entscheidungen zu weiteren statistischen Analysen oder Modellierungen.
Mit Azure Databricks-Notizbüchern können Datenwissenschaftler EDA mit vertrauten Tools ausführen. In diesem Lernprogramm werden beispielsweise einige gängige Python-Bibliotheken zum Behandeln und Zeichnen von Daten verwendet, darunter:
- Numpy: eine grundlegende Bibliothek für numerisches Computing, die Unterstützung für Arrays, Matrizen und eine vielzahl mathematischer Funktionen bereitstellt, um auf diesen Datenstrukturen zu arbeiten.
- pandas: eine leistungsstarke Datenbearbeitungs- und Analysebibliothek, die auf NumPy basiert, die Datenstrukturen wie DataFrames bietet, um strukturierte Daten effizient zu verarbeiten.
- Plotly: eine interaktive Graphing-Bibliothek, die die Erstellung qualitativ hochwertiger, interaktiver Visualisierungen für Datenanalyse und Präsentation ermöglicht.
- Matplotlib: eine umfassende Bibliothek zum Erstellen statischer, animierter und interaktiver Visualisierungen in Python.
Azure Databricks bietet auch integrierte Features, mit denen Sie Ihre Daten in der Notizbuchausgabe untersuchen können, z. B. Filtern und Durchsuchen von Daten in Tabellen und Vergrößern von Visualisierungen. Sie können auch den Databricks-Assistenten verwenden, um Ihnen beim Schreiben von Code für EDA zu helfen.
Bevor Sie beginnen
Um dieses Lernprogramm abzuschließen, benötigen Sie Folgendes:
- Sie müssen über die Berechtigung verfügen, eine vorhandene Computeressource zu verwenden oder eine neue Computeressource zu erstellen. Siehe Compute.
- [Optional] In diesem Lernprogramm wird beschrieben, wie Sie den Assistenten zum Generieren von Code verwenden. Weitere Informationen finden Sie unter Verwenden des Databricks-Assistenten .
Herunterladen des Datasets und Importieren einer CSV-Datei
In diesem Lernprogramm werden EDA-Techniken veranschaulicht, indem globale Energie- und Emissionsdaten untersucht werden. Laden Sie dazu das Dataset "Energieverbrauch" von Our World in Data from Kaggle herunter. In diesem Lernprogramm wird die owid-energy-data.csv Datei verwendet.
So importieren Sie das Dataset in Ihren Azure Databricks-Arbeitsbereich:
Klicken Sie in der Randleiste des Arbeitsbereichs auf Arbeitsbereich, um zum Arbeitsbereichsbrowser zu navigieren.
Ziehen Sie die CSV-Datei,
owid-energy-data.csv, in Ihren Arbeitsbereich und legen Sie sie dort ab.Dadurch wird das Import-Modal geöffnet. Beachten Sie den hier aufgeführten Zielordner. Dies ist im Arbeitsbereichsbrowser auf Ihren aktuellen Ordner festgelegt und wird zum Ziel der importierten Datei.
Klicken Sie auf Importieren. Die Datei sollte im Zielordner in Ihrem Arbeitsbereich angezeigt werden.
Sie benötigen den Dateipfad, um die Datei später in Ihr Notizbuch zu laden. Suchen Sie die Datei in Ihrem Arbeitsbereichsbrowser. Um den Dateipfad in die Zwischenablage zu kopieren, klicken Sie mit der rechten Maustaste auf den Dateinamen, und wählen Sie dann "URL/Pfad vollständig> kopieren"aus.
Erstellen eines neuen Notebooks
Um ein neues Notizbuch in Ihrem Benutzerstartordner zu erstellen, klicken Sie in der Randleiste auf
neu ", und wählen Sie im Menü " Notizbuch" aus.
Wählen Sie oben neben dem Namen des Notizbuchs Python als Standardsprache für das Notizbuch aus.
Weitere Informationen zum Erstellen und Verwalten von Notebooks finden Sie unter Verwalten von Notebooks.
Fügen Sie die einzelnen Codebeispiele in diesem Artikel einer neuen Zelle in Ihrem Notizbuch hinzu. Oder verwenden Sie das bereitgestellte Beispielnotizbuch zusammen mit dem Tutorial.
CSV-Datei laden
Laden Sie in einer neuen Notizbuchzelle die CSV-Datei. Dazu importieren numpy und pandas. Dies sind nützliche Python-Bibliotheken für Data Science und Analyse.
Erstellen Sie einen Pandas DataFrame aus dem Dataset, um die Verarbeitung und Visualisierung zu vereinfachen. Ersetzen Sie den dateipfad unten durch den Pfad, den Sie zuvor kopiert haben.
import numpy as np
import pandas as pd # Data processing, CSV file I/O (e.g. pd.read_csv)
df=pd.read_csv('/Workspace/Users/demo@databricks.com/owid-energy-data.csv') # Replace the file path here with the workspace path you copied earlier
Führen Sie die Zelle aus. Die Ausgabe sollte ein pandas DataFrame zurückgeben, einschließlich einer Liste jeder Spalte und ihres Typs.
Grundlegendes zu den Daten
Das Verständnis der Grundlagen des Datasets ist für jedes Data Science-Projekt von entscheidender Bedeutung. Dabei geht es darum, sich mit der Struktur, den Typen und der Qualität der daten vertraut zu machen.
In einem Azure Databricks-Notizbuch können Sie den display(df) Befehl verwenden, um das Dataset anzuzeigen.
Da das Dataset mehr als 10.000 Zeilen enthält, gibt dieser Befehl ein abgeschnittenes Dataset zurück. Links neben jeder Spalte können Sie den Datentyp der Spalte sehen. Weitere Informationen finden Sie unter "Formatspalten".
Verwenden von Pandas für Datenerkenntnisse
Um Ihr Dataset effektiv zu verstehen, verwenden Sie die folgenden Pandas-Befehle:
Der
df.shapeBefehl gibt die Dimensionen des DataFrame zurück, sodass Sie einen schnellen Überblick über die Anzahl der Zeilen und Spalten erhalten.
Der
df.dtypesBefehl stellt die Datentypen jeder Spalte bereit und hilft Ihnen dabei, die Art der Daten zu verstehen, mit denen Sie arbeiten. Sie können auch den Datentyp für jede Spalte in der Ergebnistabelle anzeigen.
Der
df.describe()Befehl generiert beschreibende Statistiken für numerische Spalten, z. B. Mittelwert, Standardabweichung und Quantile, die Ihnen dabei helfen können, Muster zu erkennen, Anomalien zu erkennen und die Verteilung Ihrer Daten zu verstehen. Verwenden Sie sie,display()um Zusammenfassungsstatistiken in einem tabellarischen Format anzuzeigen, mit dem Sie interagieren können. Weitere Informationen finden Sie unter "Untersuchen der Daten mithilfe der Ausgabetabelle des Databricks-Notizbuchs".
Generieren eines Datenprofils
Hinweis
Verfügbar in Databricks Runtime 9.1 LTS und höheren Versionen.
Azure Databricks-Notizbücher umfassen integrierte Datenprofilfunktionen. Beim Anzeigen eines DataFrames mit der Azure Databricks-Anzeigefunktion können Sie ein Datenprofil aus der Tabellenausgabe generieren.
# Display the DataFrame, then click "+ > Data Profile" to generate a data profile
display(df)
Klicken Sie in der Ausgabe auf +> "Datenprofil" neben der Tabelle. Dadurch wird ein neuer Befehl ausgeführt, der ein Profil der Daten im DataFrame generiert.
Das Datenprofil enthält Zusammenfassungsstatistiken für numerische, Zeichenfolgen- und Datumsspalten sowie Histogramme der Wertverteilungen für jede Spalte. Sie können Datenprofile auch programmgesteuert generieren. Informationen dazu finden Sie unter dem summarize-Befehl (dbutils.data.summarize).
Bereinigen der Daten
Das Bereinigen von Daten ist ein wichtiger Schritt in EDA, um sicherzustellen, dass das Dataset korrekt, konsistent und für eine aussagekräftige Analyse bereit ist. Dieser Vorgang umfasst mehrere wichtige Aufgaben, um sicherzustellen, dass die Daten für die Analyse bereit sind, einschließlich:
- Identifizieren und Entfernen doppelter Daten.
- Behandeln fehlender Werte, die möglicherweise das Ersetzen durch einen bestimmten Wert oder das Entfernen der betroffenen Zeilen umfassen.
- Standardisieren von Datentypen (z. B. Konvertieren von Zeichenfolgen in
datetime) durch Konvertierungen und Transformationen, um Konsistenz sicherzustellen. Möglicherweise möchten Sie auch Daten in ein Format konvertieren, mit dem Sie einfacher arbeiten können.
Diese Reinigungsphase ist unerlässlich, da sie die Qualität und Zuverlässigkeit der Daten verbessert und eine genauere und fundiertere Analyse ermöglicht.
Tipp: Verwenden des Databricks-Assistenten zur Unterstützung von Datenreinigungsaufgaben
Sie können den Databricks-Assistenten verwenden, um Code zu generieren. Erstellen Sie eine neue Codezelle, und klicken Sie auf den Link generieren , oder verwenden Sie oben rechts das Assistentensymbol, um den Assistenten zu öffnen. Geben Sie eine Abfrage für den Assistenten ein. Der Assistent kann entweder Python- oder SQL-Code generieren oder eine Textbeschreibung generieren. Klicken Sie für unterschiedliche Ergebnisse auf "Neu generieren".
Probieren Sie beispielsweise die folgenden Eingabeaufforderungen aus, um den Assistenten zum Bereinigen der Daten zu verwenden:
- Überprüfen Sie, ob
dfdoppelte Spalten oder Zeilen enthält. Drucken Sie die Duplikate. Löschen Sie dann die Duplikate. - In welchem Format liegen die Datumsspalten vor? Ändern Sie diesen Wert in
'YYYY-MM-DD'. - Ich werde die
XXXSpalte nicht verwenden. Löschen Sie es.
Weitere Informationen finden Sie unter Programmierhilfe von Databricks Assistant.
Entfernen doppelter Daten
Überprüfen Sie, ob die Daten doppelte Zeilen oder Spalten enthalten. Falls ja, entfernen Sie sie.
Tipp
Verwenden Sie den Assistenten, um Code für Sie zu generieren.
Versuchen Sie, die Eingabeaufforderung einzugeben: "Überprüfen Sie, ob df doppelte Spalten oder Zeilen enthält. Drucken Sie die Duplikate. Löschen Sie dann die Duplikate." Der Assistent generiert möglicherweise Code wie im folgenden Beispiel.
# Check for duplicate rows
duplicate_rows = df.duplicated().sum()
# Check for duplicate columns
duplicate_columns = df.columns[df.columns.duplicated()].tolist()
# Print the duplicates
print("Duplicate rows count:", duplicate_rows)
print("Duplicate columns:", duplicate_columns)
# Drop duplicate rows
df = df.drop_duplicates()
# Drop duplicate columns
df = df.loc[:, ~df.columns.duplicated()]
In diesem Fall enthält das Dataset keine doppelten Daten.
Null- oder fehlende Werte behandeln
Eine häufige Methode zum Behandeln von NaN- oder Nullwerten besteht darin, sie durch 0 zu ersetzen, um die mathematische Verarbeitung zu vereinfachen.
df = df.fillna(0) # Replace all NaN (Not a Number) values with 0
Dadurch wird sichergestellt, dass fehlende Daten im DataFrame durch 0 ersetzt werden, was für nachfolgende Datenanalyse- oder Verarbeitungsschritte hilfreich sein kann, bei denen fehlende Werte zu Problemen führen können.
Datumsangaben neu formatieren
Datumsangaben werden häufig auf unterschiedliche Weise in verschiedenen Datasets formatiert. Möglicherweise sind sie im Datumsformat, in Zeichenfolgen oder ganzzahligen Zahlen enthalten.
Behandeln Sie für diese Analyse die year Spalte als ganze Zahl. Der folgende Code ist eine Möglichkeit, dies zu tun:
# Ensure the 'year' column is converted to the correct data type (integer for year)
df['year'] = pd.to_datetime(df['year'], format='%Y', errors='coerce').dt.year
# Confirm the changes
df.year.dtype
Dadurch wird sichergestellt, dass die year Spalte nur ganzzahlige Jahreswerte enthält, wobei alle ungültigen Einträge in NaT (kein gültiger Zeitwert) konvertiert werden.
Untersuchen der Daten mithilfe der Ausgabetabelle des Databricks-Notizbuchs
Azure Databricks bietet integrierte Features, mit denen Sie Ihre Daten mithilfe der Ausgabetabelle untersuchen können.
Verwenden Sie display(df) in einer neuen Zelle, um das Dataset als Tabelle anzuzeigen.
Mithilfe der Ausgabetabelle können Sie Ihre Daten auf verschiedene Arten untersuchen:
- Durchsuchen der Daten nach einer bestimmten Zeichenfolge oder einem bestimmten Wert
- Filtern nach bestimmten Bedingungen
- Erstellen von Visualisierungen mithilfe des Datasets
Durchsuchen der Daten nach einer bestimmten Zeichenfolge oder einem bestimmten Wert
Klicken Sie oben rechts in der Tabelle auf das Suchsymbol, und geben Sie Ihre Suche ein.
Filtern nach bestimmten Bedingungen
Sie können integrierte Tabellenfilter verwenden, um Ihre Spalten nach bestimmten Bedingungen zu filtern. Es gibt mehrere Möglichkeiten zum Erstellen eines Filters. Siehe Ergebnisse filtern.
Tipp
Verwenden Sie den Databricks-Assistenten, um Filter zu erstellen. Klicken Sie in der oberen rechten Ecke der Tabelle auf das Filtersymbol. Geben Sie ihre Filterbedingung ein. Der Databricks-Assistent generiert automatisch einen Filter für Sie.
Erstellen von Visualisierungen mithilfe des Datasets
Klicken Sie oben in der Ausgabetabelle auf +>"Visualisierung ", um den Visualisierungs-Editor zu öffnen.
Wählen Sie den Visualisierungstyp und die Spalten aus, die Sie visualisieren möchten. Der Editor zeigt eine Vorschau des Diagramms basierend auf Ihrer Konfiguration an. Die folgende Abbildung zeigt beispielsweise, wie Sie mehrere Liniendiagramme hinzufügen, um den Verbrauch verschiedener erneuerbarer Energiequellen im Laufe der Zeit anzuzeigen.
Klicken Sie auf " Speichern ", um die Visualisierung als Registerkarte in der Zellenausgabe hinzuzufügen.
Weitere Informationen finden Sie unter Erstellen einer neuen Visualisierung.
Erkunden und Visualisieren der Daten mithilfe von Python-Bibliotheken
Das Untersuchen von Daten mithilfe von Visualisierungen ist ein grundlegender Aspekt von EDA. Visualisierungen helfen dabei, Muster, Trends und Beziehungen innerhalb der Daten aufzudecken, die möglicherweise nicht sofort durch numerische Analysen sichtbar sind. Verwenden Sie Bibliotheken wie Plotly oder Matplotlib für allgemeine Visualisierungstechniken wie Punktdiagramme, Balkendiagramme, Liniendiagramme und Histogramme. Mit diesen visuellen Tools können Datenwissenschaftler Anomalien identifizieren, Datenverteilungen verstehen und Korrelationen zwischen Variablen beobachten. Punktdiagramme können z. B. Ausreißer hervorheben, während Zeitreihendiagramme Trends und Saisonalität aufzeigen können.
- Erstellen eines Arrays für eindeutige Länder
- Emissionsentwicklung der Top-10-Emittenten (2000-2022) darstellen
- Emissionen nach Region filtern und visualisieren
- Berechnen und grafisch darstellen des Wachstums des Anteils erneuerbarer Energien
- Streudiagramm: Auswirkungen der erneuerbaren Energien für Haupterzeuger zeigen
- Modell projizierter globaler Energieverbrauch
Erstellen eines Arrays für eindeutige Länder
Untersuchen Sie die im Dataset enthaltenen Länder, indem Sie ein Array für eindeutige Länder erstellen. Beim Erstellen eines Arrays werden die Entitäten als country aufgeführt.
# Get the unique countries
unique_countries = df['country'].unique()
unique_countries
Ausgabe:
Einblick:
Die country Spalte enthält verschiedene Entitäten, darunter World, High-Income-Länder, Asien und Vereinigte Staaten, die nicht immer direkt vergleichbar sind. Es könnte nützlicher sein, die Daten nach Region zu filtern.
Diagrammerstellung von Emissionstrends der 10 größten Emitter (200-2022)
Angenommen, Sie möchten ihre Untersuchung auf die 10 Länder mit den höchsten Treibhausgasemissionen in den 2000er Jahren konzentrieren. Sie können die Daten für die Jahre filtern, die Sie betrachten möchten, und die top 10 Länder mit den meisten Emissionen, und verwenden Sie dann plotly, um ein Liniendiagramm zu erstellen, das ihre Emissionen im Laufe der Zeit zeigt.
import plotly.express as px
# Filter data to include only years from 2000 to 2022
filtered_data = df[(df['year'] >= 2000) & (df['year'] <= 2022)]
# Get the top 10 countries with the highest emissions in the filtered data
top_countries = filtered_data.groupby('country')['greenhouse_gas_emissions'].sum().nlargest(10).index
# Filter the data for those top countries
top_countries_data = filtered_data[filtered_data['country'].isin(top_countries)]
# Plot emissions trends over time for these countries
fig = px.line(top_countries_data, x='year', y='greenhouse_gas_emissions', color='country',
title="Greenhouse Gas Emissions Trends for Top 10 Countries (2000 - 2022)")
fig.show()
Ausgabe:
Einblick:
Die Treibhausgasemissionen sind zwischen 2000 und 2022 gestiegen, mit Ausnahme einiger Länder, in denen die Emissionen in diesem Zeitraum relativ stabil blieben und leicht zurückgingen.
Emissionen nach Region filtern und darstellen
Filtern Sie die Daten nach Region, und berechnen Sie die Gesamtemissionen für jede Region. Zeichnen Sie dann die Daten als Balkendiagramm:
# Filter out regional entities
regions = ['Africa', 'Asia', 'Europe', 'North America', 'South America', 'Oceania']
# Calculate total emissions for each region
regional_emissions = df[df['country'].isin(regions)].groupby('country')['greenhouse_gas_emissions'].sum()
# Plot the comparison
fig = px.bar(regional_emissions, title="Greenhouse Gas Emissions by Region")
fig.show()
Ausgabe:
Einblick:
Asien hat die höchsten Treibhausgasemissionen. Ozeanien, Südamerika und Afrika erzeugen die niedrigsten Treibhausgasemissionen.
Berechnen und Zeichnen des Wachstums erneuerbarer Energien
Erstellen Sie eine neue Funktion/Spalte, die den Anteil der erneuerbaren Energien als Verhältnis des erneuerbaren Energieverbrauchs über den primären Energieverbrauch berechnet. Rangieren Sie dann die Länder anhand ihres durchschnittlichen Anteils an erneuerbaren Energien. Für die top 10 Länder zeichnen Sie ihren Anteil an erneuerbaren Energien im Laufe der Zeit aus:
# Calculate the renewable energy share and save it as a new column called "renewable_share"
df['renewable_share'] = df['renewables_consumption'] / df['primary_energy_consumption']
# Rank countries by their average renewable energy share
renewable_ranking = df.groupby('country')['renewable_share'].mean().sort_values(ascending=False)
# Filter for countries leading in renewable energy share
leading_renewable_countries = renewable_ranking.head(10).index
leading_renewable_data = df[df['country'].isin(leading_renewable_countries)]
# filtered_data = df[(df['year'] >= 2000) & (df['year'] <= 2022)]
leading_renewable_data_filter=leading_renewable_data[(leading_renewable_data['year'] >= 2000) & (leading_renewable_data['year'] <= 2022)]
# Plot renewable share over time for top renewable countries
fig = px.line(leading_renewable_data_filter, x='year', y='renewable_share', color='country',
title="Renewable Energy Share Growth Over Time for Leading Countries")
fig.show()
Ausgabe:
Einblick:
Norwegen und Island führen die Welt in erneuerbaren Energien mit mehr als der Hälfte ihres Verbrauchs aus erneuerbaren Energien.
Island und Schweden verzeichneten das größte Wachstum ihres Anteils an erneuerbaren Energien. Alle Länder sahen gelegentlich Brüche und Anstiege, die zeigen, wie das Wachstum der erneuerbaren Energien nicht notwendigerweise linear ist. Interessanterweise erlebte Zentralafrika Anfang der 2010er Jahre einen Rückgang, erholte sich jedoch 2020.
Streudiagramm: Auswirkungen der erneuerbaren Energien für Haupterzeuger zeigen
Filtern Sie die Daten für die top 10 Emitter, und verwenden Sie dann ein Punktdiagramm, um den Anteil erneuerbarer Energien im Vergleich zu Treibhausgasemissionen im Laufe der Zeit zu betrachten.
# Select top emitters and calculate renewable share vs. emissions
top_emitters = df.groupby('country')['greenhouse_gas_emissions'].sum().nlargest(10).index
top_emitters_data = df[df['country'].isin(top_emitters)]
# Plot renewable share vs. greenhouse gas emissions over time
fig = px.scatter(top_emitters_data, x='renewable_share', y='greenhouse_gas_emissions',
color='country', title="Impact of Renewable Energy on Emissions for Top Emitters")
fig.show()
Ausgabe:
Einblick:
Da ein Land mehr erneuerbare Energien nutzt, hat es auch mehr Treibhausgasemissionen, was bedeutet, dass sein Gesamtenergieverbrauch schneller steigt als sein erneuerbarer Verbrauch. Nordamerika ist eine Ausnahme, dass ihre Treibhausgasemissionen während der gesamten Jahre relativ konstant geblieben sind, da der Anteil an erneuerbaren Energien weiter gestiegen ist.
Modellieren des projizierten globalen Energieverbrauchs
Aggregieren Sie den globalen Primärenergieverbrauch nach Jahr, und erstellen Sie dann ein autoregressives integriertes Gleitendwertmodell (ARIMA), um den gesamt globalen Energieverbrauch für die nächsten Jahre zu projizieren. Zeichnen Sie den historischen und prognostizierten Energieverbrauch mit Matplotlib.
import pandas as pd
from statsmodels.tsa.arima.model import ARIMA
import matplotlib.pyplot as plt
# Aggregate global primary energy consumption by year
global_energy = df[df['country'] == 'World'].groupby('year')['primary_energy_consumption'].sum()
# Build an ARIMA model for projection
model = ARIMA(global_energy, order=(1, 1, 1))
model_fit = model.fit()
forecast = model_fit.forecast(steps=10) # Projecting for 10 years
# Plot historical and forecasted energy consumption
plt.plot(global_energy, label='Historical')
plt.plot(range(global_energy.index[-1] + 1, global_energy.index[-1] + 11), forecast, label='Forecast')
plt.xlabel("Year")
plt.ylabel("Primary Energy Consumption")
plt.title("Projected Global Energy Consumption")
plt.legend()
plt.show()
Ausgabe:
Einblick:
Dieses Modell geht davon aus, dass der globale Energieverbrauch weiter steigen wird.
Beispiel-Notebook
Verwenden Sie das folgende Notizbuch, um die Schritte in diesem Artikel auszuführen. Anweisungen zum Importieren eines Notizbuchs in einen Azure Databricks-Arbeitsbereich finden Sie unter Importieren eines Notizbuchs.
Lernprogramm: EDA mit globalen Energiedaten
Nächste Schritte
Nachdem Sie nun eine anfängliche explorative Datenanalyse für Ihr Dataset durchgeführt haben, probieren Sie die folgenden Schritte aus:
- Weitere Beispiele für EDA-Visualisierungen finden Sie im Anhang im Beispielnotizbuch .
- Wenn beim Durchlaufen dieses Lernprogramms Fehler aufgetreten sind, versuchen Sie, den integrierten Debugger zu verwenden, um den Code zu durchlaufen. Siehe Debuggen von Notizbüchern.
- Teilen Sie Ihr Notizbuch mit Ihrem Team, damit sie Ihre Analyse verstehen können. Je nachdem, welche Berechtigungen Sie ihnen erteilen, können sie Code entwickeln, um die Analyse zu erweitern oder Kommentare und Vorschläge für weitere Untersuchungen hinzuzufügen.
- Nachdem Sie Ihre Analyse abgeschlossen haben, erstellen Sie ein Notizbuchdashboard oder ein AI/BI-Dashboard mit den wichtigsten Visualisierungen, die sie für die Projektbeteiligten freigeben möchten.