Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Artikel führt Sie durch die Verwendung eines Azure Databricks-Notizbuchs zum Importieren von Daten aus einer CSV-Datei mit Babynamendaten aus health.data.ny.gov in Ihr Unity-Katalogvolume mithilfe von Python, Scala und R. Außerdem lernen Sie, einen Spaltennamen zu ändern, die Daten zu visualisieren und in einer Tabelle zu speichern.
Anforderungen
Um die Aufgaben in diesem Artikel abzuschließen, müssen die folgenden Anforderungen erfüllt sein:
- Ihr Arbeitsbereich muss Unity-Katalog aktiviert haben. Informationen zu den ersten Schritten mit Dem Unity-Katalog finden Sie unter "Erste Schritte mit Unity-Katalog".
- Sie müssen das
WRITE VOLUME
-Recht für ein Volume, dasUSE SCHEMA
-Recht für das übergeordnete Schema und dasUSE CATALOG
-Recht für den übergeordneten Katalog haben. - Sie müssen über die Berechtigung verfügen, eine vorhandene Computeressource zu verwenden oder eine neue Computeressource zu erstellen. Sehen Sie sich die Erste-Schritte-Tutorials zu Azure Databricks an oder wenden Sie sich an Ihren Databricks-Administrator.
Tipp
Ein vollständiges Notizbuch für diesen Artikel finden Sie unter Importieren und Visualisieren von Datennotizbüchern.
Schritt 1: Erstellen eines neuen Notebooks
Wenn Sie ein Notizbuch in Ihrem Arbeitsbereich erstellen möchten, klicken Sie in der Randleiste auf neu ", und klicken Sie dann auf " Notizbuch". Im Arbeitsbereich wird ein leeres Notebook geöffnet.
Weitere Informationen zum Erstellen und Verwalten von Notizbüchern finden Sie unter "Verwalten von Notizbüchern".
Schritt 2: Definieren von Variablen
In diesem Schritt definieren Sie Variablen für die Verwendung im Beispiel-Notebook, das Sie in diesem Artikel erstellen.
Kopieren Sie den folgenden Code, und fügen Sie ihn in die neue leere Notebookzelle ein. Ersetzen Sie
<catalog-name>
,<schema-name>
und<volume-name>
durch die Katalog-, Schema- und Volumenamen für ein Unity Catalog-Volume. Ersetzen Sie optional dentable_name
-Wert durch einen Tabellennamen Ihrer Wahl. Im weiteren Verlauf dieses Artikels speichern Sie die Babynamendaten in dieser Tabelle.Drücken Sie
Shift+Enter
, um die Zelle auszuführen und eine neue leere Zelle zu erstellen.Python
catalog = "<catalog_name>" schema = "<schema_name>" volume = "<volume_name>" download_url = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv" file_name = "baby_names.csv" table_name = "baby_names" path_volume = "/Volumes/" + catalog + "/" + schema + "/" + volume path_table = catalog + "." + schema print(path_table) # Show the complete path print(path_volume) # Show the complete path
Scala
val catalog = "<catalog_name>" val schema = "<schema_name>" val volume = "<volume_name>" val downloadUrl = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv" val fileName = "baby_names.csv" val tableName = "baby_names" val pathVolume = s"/Volumes/${catalog}/${schema}/${volume}" val pathTable = s"${catalog}.${schema}" print(pathVolume) // Show the complete path print(pathTable) // Show the complete path
R
catalog <- "<catalog_name>" schema <- "<schema_name>" volume <- "<volume_name>" download_url <- "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv" file_name <- "baby_names.csv" table_name <- "baby_names" path_volume <- paste("/Volumes/", catalog, "/", schema, "/", volume, sep = "") path_table <- paste(catalog, ".", schema, sep = "") print(path_volume) # Show the complete path print(path_table) # Show the complete path
Schritt 3: Importieren der CSV-Datei
In diesem Schritt importieren Sie eine CSV-Datei mit Babynamendaten aus health.data.ny.gov in Ihr Unity Catalog-Volume.
Kopieren Sie den folgenden Code, und fügen Sie ihn in die neue leere Notebookzelle ein. Dieser Code kopiert die
rows.csv
Datei aus health.data.ny.gov mithilfe des Befehls "Databricks dbutuils " in Ihr Unity-Katalogvolume.Drücken Sie
Shift+Enter
, um die Zelle auszuführen, und wechseln Sie dann zur nächsten Zelle.Python
dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")
Scala
dbutils.fs.cp(downloadUrl, s"${pathVolume}/${fileName}")
R
dbutils.fs.cp(download_url, paste(path_volume, "/", file_name, sep = ""))
Schritt 4: Laden von CSV-Daten in einen Datenrahmen
In diesem Schritt erstellen Sie mithilfe der Methode df
einen Datenrahmen namens aus der CSV-Datei, die Sie zuvor in Ihr Unity Catalog-Volume geladen haben.
Kopieren Sie den folgenden Code, und fügen Sie ihn in die neue leere Notebookzelle ein. Dieser Code lädt Babynamendaten aus der CSV-Datei in den Datenrahmen
df
.Drücken Sie
Shift+Enter
, um die Zelle auszuführen, und wechseln Sie dann zur nächsten Zelle.Python
df = spark.read.csv(f"{path_volume}/{file_name}", header=True, inferSchema=True, sep=",")
Scala
val df = spark.read .option("header", "true") .option("inferSchema", "true") .option("delimiter", ",") .csv(s"${pathVolume}/${fileName}")
R
# Load the SparkR package that is already preinstalled on the cluster. library(SparkR) df <- read.df(paste(path_volume, "/", file_name, sep=""), source="csv", header = TRUE, inferSchema = TRUE, delimiter = ",")
Sie können Daten aus vielen unterstützten Dateiformaten laden.
Schritt 5: Visualisieren von Daten aus einem Notebook
In diesem Schritt verwenden Sie die Methode display()
, um den Inhalt des Datenrahmens in einer Tabelle im Notebook anzuzeigen, und visualisieren dann die Daten in einem Wortwolkendiagramm im Notebook.
Kopieren Sie den folgenden Code, und fügen Sie ihn in die neue leere Notizbuchzelle ein, und klicken Sie dann auf "Zelle ausführen ", um die Daten in einer Tabelle anzuzeigen.
Python
display(df)
Scala
display(df)
R
display(df)
Überprüfen Sie die Ergebnisse in der Tabelle.
Klicken Sie neben der Registerkarte "Tabelle " auf + "Visualisierung", und klicken Sie dann auf "Visualisierung".
Klicken Sie im Visualisierungs-Editor auf "Visualisierungstyp", und vergewissern Sie sich, dass die Word-Cloud ausgewählt ist.
Überprüfen Sie in der Spalte "Wörter", ob
First Name
sie ausgewählt ist.Klicken Sie in der Häufigkeitsgrenze auf
35
.Klicken Sie auf "Speichern".
Schritt 6: Speichern des DataFrame in einer Tabelle
Wichtig
Um Ihren Datenrahmens in Unity Catalog zu speichern, benötigen Sie die Berechtigung CREATE
für Tabellen für den Katalog und das Schema. Informationen zu Berechtigungen im Unity-Katalog finden Sie unter "Berechtigungen" und "Sicherungsobjekte" im Unity-Katalog und "Berechtigungen verwalten" im Unity-Katalog.
Kopieren Sie den folgenden Code, und fügen Sie ihn in eine leere Notebookzelle ein. Dieser Code ersetzt ein Leerzeichen im Spaltennamen. Sonderzeichen, z. B. Leerzeichen, sind in Spaltennamen nicht zulässig. Dieser Code verwendet die Apache Spark-Methode
withColumnRenamed()
.Python
df = df.withColumnRenamed("First Name", "First_Name") df.printSchema
Scala
val dfRenamedColumn = df.withColumnRenamed("First Name", "First_Name") // when modifying a DataFrame in Scala, you must assign it to a new variable dfRenamedColumn.printSchema()
R
df <- withColumnRenamed(df, "First Name", "First_Name") printSchema(df)
Kopieren Sie den folgenden Code, und fügen Sie ihn in eine leere Notebookzelle ein. Dieser Code speichert den Inhalt des Datenrahmens in einer Tabelle in Unity Catalog mithilfe der Tabellennamenvariablen, die Sie am Anfang dieses Artikels definiert haben.
Python
df.write.mode("overwrite").saveAsTable(f"{path_table}" + "." + f"{table_name}")
Scala
dfRenamedColumn.write.mode("overwrite").saveAsTable(s"${pathTable}.${tableName}")
R
saveAsTable(df, paste(path_table, ".", table_name), mode = "overwrite")
Um zu überprüfen, ob die Tabelle gespeichert wurde, klicken Sie in der linken Randleiste auf "Katalog ", um die Benutzeroberfläche des Katalog-Explorers zu öffnen. Öffnen Sie Ihren Katalog und dann das Schema, um zu überprüfen, ob die Tabelle angezeigt wird.
Klicken Sie auf die Tabelle, um das Tabellenschema auf der Registerkarte "Übersicht " anzuzeigen.
Klicken Sie auf "Beispieldaten ", um 100 Datenzeilen aus der Tabelle anzuzeigen.
Importieren und Visualisieren von Datennotebooks
Verwenden Sie eines der folgenden Notebooks, um die Schritte in diesem Artikel auszuführen. Ersetzen Sie <catalog-name>
, <schema-name>
und <volume-name>
durch die Katalog-, Schema- und Volumenamen für ein Unity Catalog-Volume. Ersetzen Sie optional den table_name
-Wert durch einen Tabellennamen Ihrer Wahl.
Python
Importieren von Daten aus CSV mithilfe des Python
Scala
Importieren von Daten aus CSV mithilfe des Scala
R
Importieren von Daten aus CSV mithilfe des R
Nächste Schritte
- Informationen zu explorativen Datenanalysetechniken (EDA) finden Sie im Lernprogramm: EDA-Techniken mithilfe von Databricks-Notizbüchern.
- Informationen zum Erstellen einer ETL-Pipeline (Extrahieren, Transformieren und Laden) finden Sie im Lernprogramm: Erstellen einer ETL-Pipeline mit Lakeflow Declarative Pipelines und Tutorial: Erstellen einer ETL-Pipeline mit Apache Spark auf der Databricks-Plattform