Bagikan melalui


Tutorial: Mengimpor dan memvisualisasikan data CSV dari buku catatan

Tutorial ini memandu Anda menggunakan notebook Azure Databricks untuk mengimpor data dari file CSV yang berisi data nama bayi dari health.data.ny.gov ke volume Unity Catalog Anda menggunakan Python, Scala, dan R. Anda juga belajar mengubah nama kolom, memvisualisasikan data, dan menyimpan ke tabel.

Nota

Jika Anda menggunakan Databricks Edisi Gratis, pilih tab Python untuk semua contoh kode dalam tutorial ini. Edisi Gratis tidak mendukung R atau Scala. Selain itu, Edisi Gratis membatasi akses internet keluar, jadi Anda harus mengunggah file CSV menggunakan UI ruang kerja alih-alih mengunduhnya dengan kode. Lihat Langkah 3 untuk instruksi terperinci.

Persyaratan

Untuk menyelesaikan tugas dalam artikel ini, Anda harus memenuhi persyaratan berikut:

  • Ruang kerja Anda harus mengaktifkan Unity Catalog. Untuk informasi tentang mulai menggunakan Katalog Unity, lihat Mulai menggunakan Katalog Unity. Azure Databricks Edisi Gratis dan ruang kerja uji coba gratis memiliki Unity Catalog yang diaktifkan secara default.
  • Anda harus memiliki hak istimewa WRITE VOLUME pada volume, hak istimewa USE SCHEMA pada skema induk, dan hak istimewa USE CATALOG pada katalog induk. Pengguna Edisi Gratis memiliki hak istimewa ini pada katalog dan default skema ruang kerja secara default.
  • Anda harus memiliki izin untuk menggunakan sumber daya komputasi yang sudah ada atau membuat sumber daya komputasi baru. Lihat Compute atau hubungi administrator Azure Databricks Anda.

Petunjuk / Saran

Untuk buku catatan lengkap untuk artikel ini, lihat Mengimpor dan memvisualisasikan buku catatan data.

Langkah 1: Membuat buku catatan baru

Untuk membuat buku catatan di ruang kerja Anda, klik Ikon BaruBaru di bilah samping, lalu klik Buku Catatan. Buku catatan kosong terbuka di ruang kerja.

Untuk mempelajari selengkapnya tentang membuat dan mengelola buku catatan, lihat Mengelola buku catatan.

Langkah 2: Tentukan variabel

Dalam langkah ini, Anda menentukan variabel untuk digunakan dalam contoh buku catatan yang Anda buat di artikel ini. Anda memerlukan nama katalog, skema, dan volume dari Unity Catalog.

Petunjuk / Saran

Jika Anda tidak mengetahui nama katalog dan skema Anda, klik Ikon data.Katalog di bilah samping. Katalog ruang kerja memiliki nama yang sama dengan ruang kerja Anda dan tercantum di panel katalog. Perluas untuk melihat skema yang tersedia. Pengguna Edisi Gratis dan uji coba gratis dapat menggunakan katalog ruang kerja dan default skema.

Jika Anda tidak memiliki volume, buat dengan menjalankan perintah berikut ini di sel buku catatan (ganti <catalog_name> dan <schema_name> dengan nilai Anda):

CREATE VOLUME IF NOT EXISTS <catalog_name>.<schema_name>.my_volume
  1. Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru. Ganti <catalog-name>, <schema-name>, dan <volume-name> dengan katalog, skema, dan nama volume untuk volume Katalog Unity. Secara opsional ganti nilai table_name dengan nama tabel pilihan Anda. Anda menyimpan data nama bayi ke dalam tabel ini nanti di artikel ini.

  2. Tekan Shift+Enter untuk menjalankan sel dan buat sel kosong baru.

    Phyton

    catalog = "<catalog_name>"
    schema = "<schema_name>"
    volume = "<volume_name>"
    download_url = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    file_name = "baby_names.csv"
    table_name = "baby_names"
    path_volume = "/Volumes/" + catalog + "/" + schema + "/" + volume
    path_table = catalog + "." + schema
    print(path_table) # Show the complete path
    print(path_volume) # Show the complete path
    

    Scala

    val catalog = "<catalog_name>"
    val schema = "<schema_name>"
    val volume = "<volume_name>"
    val downloadUrl = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    val fileName = "baby_names.csv"
    val tableName = "baby_names"
    val pathVolume = s"/Volumes/${catalog}/${schema}/${volume}"
    val pathTable = s"${catalog}.${schema}"
    print(pathVolume) // Show the complete path
    print(pathTable) // Show the complete path
    

    R

    catalog <- "<catalog_name>"
    schema <- "<schema_name>"
    volume <- "<volume_name>"
    download_url <- "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    file_name <- "baby_names.csv"
    table_name <- "baby_names"
    path_volume <- paste("/Volumes/", catalog, "/", schema, "/", volume, sep = "")
    path_table <- paste(catalog, ".", schema, sep = "")
    print(path_volume) # Show the complete path
    print(path_table) # Show the complete path
    

Langkah 3: Impor file CSV

Dalam langkah ini, Anda mengimpor file CSV yang berisi data nama bayi dari health.data.ny.gov ke dalam volume Katalog Unity Anda. Pilih salah satu metode berikut:

  • Unggah menggunakan UI ruang kerja — Gunakan metode ini jika Anda berada di Databricks Free Edition, atau jika pengunduhan kode dalam opsi B gagal dengan kesalahan jaringan. Edisi Gratis dan lingkungan komputasi tanpa server lainnya membatasi akses internet keluar, jadi Anda harus mengunggah file dari komputer lokal Anda.
  • Unduh menggunakan kode — Gunakan metode ini jika lingkungan komputasi Anda memiliki akses internet keluar.

Opsi A: Unggah menggunakan UI ruang kerja

  1. Di komputer lokal Anda, buka health.data.ny.gov/api/views/jxy9-yhdk/rows.csv di browser Anda. File diunduh ke komputer Anda sebagai rows.csv.
  2. Temukan file yang diunduh di komputer Anda dan ganti namanya dari rows.csv menjadi baby_names.csv. Ini cocok dengan variabel yang file_name Anda tentukan di Langkah 2.
  3. Kembali ke ruang kerja Azure Databricks Anda. Di bar samping, klik Ikon Baru> Tambahkan atau unggah data Baru.
  4. Klik Unggah file ke volume.
  5. Klik telusuri dan pilih baby_names.csv file, atau seret dan letakkan ke area unggahan.
  6. Di bawah Volume tujuan, pilih volume yang Anda tentukan di Langkah 2.
  7. Setelah unggahan selesai, kembali ke buku catatan Anda dan lanjutkan dengan Langkah 4.

Untuk detail selengkapnya tentang mengunggah file, lihat Mengunggah file ke volume Katalog Unity.

Opsi B: Unduh menggunakan kode

  1. Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru. Kode ini menyalin rows.csv file dari health.data.ny.gov ke volume Unity Catalog Anda menggunakan perintah Databricks dbutils.

  2. Tekan Shift+Enter untuk menjalankan sel lalu berpindah ke sel berikutnya.

    Phyton

    dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")
    

    Scala

    dbutils.fs.cp(downloadUrl, s"${pathVolume}/${fileName}")
    

    R

    dbutils.fs.cp(download_url, paste(path_volume, "/", file_name, sep = ""))
    

Langkah 4: Muat data CSV ke dalam DataFrame

Dalam langkah ini, Anda membuat DataFrame bernama df dari file CSV yang sebelumnya Anda muat ke dalam volume Unity Catalog Anda dengan menggunakan metode spark.read.csv.

  1. Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru. Kode ini memuat data nama bayi ke dalam DataFrame df dari file CSV.

  2. Tekan Shift+Enter untuk menjalankan sel lalu berpindah ke sel berikutnya.

    Phyton

    df = spark.read.csv(f"{path_volume}/{file_name}",
      header=True,
      inferSchema=True,
      sep=",")
    

    Scala

    val df = spark.read
        .option("header", "true")
        .option("inferSchema", "true")
        .option("delimiter", ",")
        .csv(s"${pathVolume}/${fileName}")
    

    R

    # Load the SparkR package that is already preinstalled on the cluster.
    library(SparkR)
    
    df <- read.df(paste(path_volume, "/", file_name, sep=""),
      source="csv",
      header = TRUE,
      inferSchema = TRUE,
      delimiter = ",")
    

Anda dapat memuat data dari banyak format file yang didukung.

Langkah 5: Memvisualisasikan data dari buku catatan

Dalam langkah ini, Anda menggunakan metode display() untuk menampilkan konten DataFrame dalam tabel di buku catatan, lalu memvisualisasikan data dalam bagan awan kata di buku catatan.

  1. Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru, lalu klik Jalankan sel untuk menampilkan data dalam tabel.

    Phyton

    display(df)
    

    Scala

    display(df)
    

    R

    display(df)
    
  2. Tinjau hasil dalam tabel.

  3. Di samping tab Tabel , klik lalu klik Visualisasi.

  4. Di editor visualisasi, klik Visualisasi Tipe, dan verifikasi bahwa Word cloud dipilih.

  5. Di kolom Kata , periksa bahwa First Name dipilih.

  6. Dalam batas frekuensi , klik 35.

    bagan kata cloud

  7. Klik Simpan.

Langkah 6: Simpan DataFrame ke tabel

Penting

Untuk menyimpan DataFrame Anda di Unity Catalog, Anda harus memiliki hak istimewa tabel CREATE pada katalog dan skema. Untuk informasi tentang izin di Unity Catalog, lihat Hak Istimewa dan Objek Terproteksi di Unity Catalog dan Mengelola Hak Istimewa di Unity Catalog.

  1. Salin dan tempel kode berikut ke dalam sel buku catatan kosong. Kode ini menggantikan spasi dalam nama kolom. Karakter khusus, seperti spasi tidak diperbolehkan dalam nama kolom. Kode ini menggunakan metode Apache Spark withColumnRenamed() .

    Phyton

    df = df.withColumnRenamed("First Name", "First_Name")
    df.printSchema
    

    Scala

    val dfRenamedColumn = df.withColumnRenamed("First Name", "First_Name")
    // when modifying a DataFrame in Scala, you must assign it to a new variable
    dfRenamedColumn.printSchema()
    

    R

    df <- withColumnRenamed(df, "First Name", "First_Name")
    printSchema(df)
    
  2. Salin dan tempel kode berikut ke dalam sel buku catatan kosong. Kode ini menyimpan konten DataFrame ke tabel di Unity Catalog menggunakan variabel nama tabel yang Anda tentukan di awal artikel ini.

    Phyton

    df.write.mode("overwrite").saveAsTable(f"{path_table}" + "." + f"{table_name}")
    

    Scala

    dfRenamedColumn.write.mode("overwrite").saveAsTable(s"${pathTable}.${tableName}")
    

    R

    saveAsTable(df, paste(path_table, ".", table_name), mode = "overwrite")
    
  3. Untuk memverifikasi bahwa tabel disimpan, klik Katalog di bar samping kiri untuk membuka UI Catalog Explorer. Buka katalog Anda lalu skema Anda untuk memverifikasi bahwa tabel muncul.

  4. Klik tabel Anda untuk melihat skema tabel pada tab Gambaran Umum .

  5. Klik Data Sampel untuk menampilkan 100 baris data dari tabel.

Mengimpor dan memvisualisasikan buku catatan data

Gunakan salah satu buku catatan berikut untuk melakukan langkah-langkah dalam artikel ini. Ganti <catalog-name>, <schema-name>, dan <volume-name> dengan katalog, skema, dan nama volume untuk volume Katalog Unity. Secara opsional ganti nilai table_name dengan nama tabel pilihan Anda.

Phyton

Mengimpor data dari CSV menggunakan Python

Dapatkan buku catatan

Scala

Mengimpor data dari CSV menggunakan Scala

Dapatkan buku catatan

R

Mengimpor data dari CSV menggunakan R

Dapatkan buku catatan

Langkah berikutnya

Sumber Daya Tambahan: