Freigeben über


Lernprogramm: Importieren und Visualisieren von CSV-Daten aus einem Notizbuch

Dieser Artikel führt Sie durch die Verwendung eines Azure Databricks-Notizbuchs zum Importieren von Daten aus einer CSV-Datei mit Babynamendaten aus health.data.ny.gov in Ihr Unity-Katalogvolume mithilfe von Python, Scala und R. Außerdem lernen Sie, einen Spaltennamen zu ändern, die Daten zu visualisieren und in einer Tabelle zu speichern.

Anforderungen

Um die Aufgaben in diesem Artikel abzuschließen, müssen die folgenden Anforderungen erfüllt sein:

  • Ihr Arbeitsbereich muss Unity-Katalog aktiviert haben. Informationen zu den ersten Schritten mit Dem Unity-Katalog finden Sie unter "Erste Schritte mit Unity-Katalog".
  • Sie müssen das WRITE VOLUME-Recht für ein Volume, das USE SCHEMA-Recht für das übergeordnete Schema und das USE CATALOG-Recht für den übergeordneten Katalog haben.
  • Sie müssen über die Berechtigung verfügen, eine vorhandene Computeressource zu verwenden oder eine neue Computeressource zu erstellen. Sehen Sie sich die Erste-Schritte-Tutorials zu Azure Databricks an oder wenden Sie sich an Ihren Databricks-Administrator.

Tipp

Ein vollständiges Notizbuch für diesen Artikel finden Sie unter Importieren und Visualisieren von Datennotizbüchern.

Schritt 1: Erstellen eines neuen Notebooks

Wenn Sie ein Notizbuch in Ihrem Arbeitsbereich erstellen möchten, klicken Sie in der Randleiste auf neu ", und klicken Sie dann auf " Notizbuch". Im Arbeitsbereich wird ein leeres Notebook geöffnet.

Weitere Informationen zum Erstellen und Verwalten von Notizbüchern finden Sie unter "Verwalten von Notizbüchern".

Schritt 2: Definieren von Variablen

In diesem Schritt definieren Sie Variablen für die Verwendung im Beispiel-Notebook, das Sie in diesem Artikel erstellen.

  1. Kopieren Sie den folgenden Code, und fügen Sie ihn in die neue leere Notebookzelle ein. Ersetzen Sie <catalog-name>, <schema-name> und <volume-name> durch die Katalog-, Schema- und Volumenamen für ein Unity Catalog-Volume. Ersetzen Sie optional den table_name-Wert durch einen Tabellennamen Ihrer Wahl. Im weiteren Verlauf dieses Artikels speichern Sie die Babynamendaten in dieser Tabelle.

  2. Drücken Sie Shift+Enter, um die Zelle auszuführen und eine neue leere Zelle zu erstellen.

    Python

    catalog = "<catalog_name>"
    schema = "<schema_name>"
    volume = "<volume_name>"
    download_url = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    file_name = "baby_names.csv"
    table_name = "baby_names"
    path_volume = "/Volumes/" + catalog + "/" + schema + "/" + volume
    path_table = catalog + "." + schema
    print(path_table) # Show the complete path
    print(path_volume) # Show the complete path
    

    Scala

    val catalog = "<catalog_name>"
    val schema = "<schema_name>"
    val volume = "<volume_name>"
    val downloadUrl = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    val fileName = "baby_names.csv"
    val tableName = "baby_names"
    val pathVolume = s"/Volumes/${catalog}/${schema}/${volume}"
    val pathTable = s"${catalog}.${schema}"
    print(pathVolume) // Show the complete path
    print(pathTable) // Show the complete path
    

    R

    catalog <- "<catalog_name>"
    schema <- "<schema_name>"
    volume <- "<volume_name>"
    download_url <- "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    file_name <- "baby_names.csv"
    table_name <- "baby_names"
    path_volume <- paste("/Volumes/", catalog, "/", schema, "/", volume, sep = "")
    path_table <- paste(catalog, ".", schema, sep = "")
    print(path_volume) # Show the complete path
    print(path_table) # Show the complete path
    

Schritt 3: Importieren der CSV-Datei

In diesem Schritt importieren Sie eine CSV-Datei mit Babynamendaten aus health.data.ny.gov in Ihr Unity Catalog-Volume.

  1. Kopieren Sie den folgenden Code, und fügen Sie ihn in die neue leere Notebookzelle ein. Dieser Code kopiert die rows.csv Datei aus health.data.ny.gov mithilfe des Befehls "Databricks dbutuils " in Ihr Unity-Katalogvolume.

  2. Drücken Sie Shift+Enter, um die Zelle auszuführen, und wechseln Sie dann zur nächsten Zelle.

    Python

    dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")
    

    Scala

    dbutils.fs.cp(downloadUrl, s"${pathVolume}/${fileName}")
    

    R

    dbutils.fs.cp(download_url, paste(path_volume, "/", file_name, sep = ""))
    

Schritt 4: Laden von CSV-Daten in einen Datenrahmen

In diesem Schritt erstellen Sie mithilfe der Methode df einen Datenrahmen namens aus der CSV-Datei, die Sie zuvor in Ihr Unity Catalog-Volume geladen haben.

  1. Kopieren Sie den folgenden Code, und fügen Sie ihn in die neue leere Notebookzelle ein. Dieser Code lädt Babynamendaten aus der CSV-Datei in den Datenrahmen df.

  2. Drücken Sie Shift+Enter, um die Zelle auszuführen, und wechseln Sie dann zur nächsten Zelle.

    Python

    df = spark.read.csv(f"{path_volume}/{file_name}",
      header=True,
      inferSchema=True,
      sep=",")
    

    Scala

    val df = spark.read
        .option("header", "true")
        .option("inferSchema", "true")
        .option("delimiter", ",")
        .csv(s"${pathVolume}/${fileName}")
    

    R

    # Load the SparkR package that is already preinstalled on the cluster.
    library(SparkR)
    
    df <- read.df(paste(path_volume, "/", file_name, sep=""),
      source="csv",
      header = TRUE,
      inferSchema = TRUE,
      delimiter = ",")
    

Sie können Daten aus vielen unterstützten Dateiformaten laden.

Schritt 5: Visualisieren von Daten aus einem Notebook

In diesem Schritt verwenden Sie die Methode display(), um den Inhalt des Datenrahmens in einer Tabelle im Notebook anzuzeigen, und visualisieren dann die Daten in einem Wortwolkendiagramm im Notebook.

  1. Kopieren Sie den folgenden Code, und fügen Sie ihn in die neue leere Notizbuchzelle ein, und klicken Sie dann auf "Zelle ausführen ", um die Daten in einer Tabelle anzuzeigen.

    Python

    display(df)
    

    Scala

    display(df)
    

    R

    display(df)
    
  2. Überprüfen Sie die Ergebnisse in der Tabelle.

  3. Klicken Sie neben der Registerkarte "Tabelle " auf + "Visualisierung", und klicken Sie dann auf "Visualisierung".

  4. Klicken Sie im Visualisierungs-Editor auf "Visualisierungstyp", und vergewissern Sie sich, dass die Word-Cloud ausgewählt ist.

  5. Überprüfen Sie in der Spalte "Wörter", ob First Name sie ausgewählt ist.

  6. Klicken Sie in der Häufigkeitsgrenze auf 35.

    Wortwolke-Diagramm

  7. Klicken Sie auf "Speichern".

Schritt 6: Speichern des DataFrame in einer Tabelle

Wichtig

Um Ihren Datenrahmens in Unity Catalog zu speichern, benötigen Sie die Berechtigung CREATE für Tabellen für den Katalog und das Schema. Informationen zu Berechtigungen im Unity-Katalog finden Sie unter "Berechtigungen" und "Sicherungsobjekte" im Unity-Katalog und "Berechtigungen verwalten" im Unity-Katalog.

  1. Kopieren Sie den folgenden Code, und fügen Sie ihn in eine leere Notebookzelle ein. Dieser Code ersetzt ein Leerzeichen im Spaltennamen. Sonderzeichen, z. B. Leerzeichen, sind in Spaltennamen nicht zulässig. Dieser Code verwendet die Apache Spark-Methode withColumnRenamed().

    Python

    df = df.withColumnRenamed("First Name", "First_Name")
    df.printSchema
    

    Scala

    val dfRenamedColumn = df.withColumnRenamed("First Name", "First_Name")
    // when modifying a DataFrame in Scala, you must assign it to a new variable
    dfRenamedColumn.printSchema()
    

    R

    df <- withColumnRenamed(df, "First Name", "First_Name")
    printSchema(df)
    
  2. Kopieren Sie den folgenden Code, und fügen Sie ihn in eine leere Notebookzelle ein. Dieser Code speichert den Inhalt des Datenrahmens in einer Tabelle in Unity Catalog mithilfe der Tabellennamenvariablen, die Sie am Anfang dieses Artikels definiert haben.

    Python

    df.write.mode("overwrite").saveAsTable(f"{path_table}" + "." + f"{table_name}")
    

    Scala

    dfRenamedColumn.write.mode("overwrite").saveAsTable(s"${pathTable}.${tableName}")
    

    R

    saveAsTable(df, paste(path_table, ".", table_name), mode = "overwrite")
    
  3. Um zu überprüfen, ob die Tabelle gespeichert wurde, klicken Sie in der linken Randleiste auf "Katalog ", um die Benutzeroberfläche des Katalog-Explorers zu öffnen. Öffnen Sie Ihren Katalog und dann das Schema, um zu überprüfen, ob die Tabelle angezeigt wird.

  4. Klicken Sie auf die Tabelle, um das Tabellenschema auf der Registerkarte "Übersicht " anzuzeigen.

  5. Klicken Sie auf "Beispieldaten ", um 100 Datenzeilen aus der Tabelle anzuzeigen.

Importieren und Visualisieren von Datennotebooks

Verwenden Sie eines der folgenden Notebooks, um die Schritte in diesem Artikel auszuführen. Ersetzen Sie <catalog-name>, <schema-name> und <volume-name> durch die Katalog-, Schema- und Volumenamen für ein Unity Catalog-Volume. Ersetzen Sie optional den table_name-Wert durch einen Tabellennamen Ihrer Wahl.

Python

Importieren von Daten aus CSV mithilfe des Python

Notizbuch abrufen

Scala

Importieren von Daten aus CSV mithilfe des Scala

Notizbuch abrufen

R

Importieren von Daten aus CSV mithilfe des R

Notizbuch abrufen

Nächste Schritte

Zusätzliche Ressourcen