Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Tutorial ini memandu Anda menggunakan notebook Azure Databricks untuk mengimpor data dari file CSV yang berisi data nama bayi dari health.data.ny.gov ke volume Unity Catalog Anda menggunakan Python, Scala, dan R. Anda juga belajar mengubah nama kolom, memvisualisasikan data, dan menyimpan ke tabel.
Persyaratan
Untuk menyelesaikan tugas dalam artikel ini, Anda harus memenuhi persyaratan berikut:
- Ruang kerja Anda harus mengaktifkan Unity Catalog. Untuk informasi tentang mulai menggunakan Katalog Unity, lihat Mulai menggunakan Katalog Unity.
- Anda harus memiliki hak istimewa
WRITE VOLUMEpada volume, hak istimewaUSE SCHEMApada skema induk, dan hak istimewaUSE CATALOGpada katalog induk. - Anda harus memiliki izin untuk menggunakan sumber daya komputasi yang sudah ada atau membuat sumber daya komputasi baru. Lihat Compute atau hubungi administrator Databricks Anda.
Petunjuk / Saran
Untuk buku catatan lengkap untuk artikel ini, lihat Mengimpor dan memvisualisasikan buku catatan data.
Langkah 1: Membuat buku catatan baru
Untuk membuat buku catatan di ruang kerja Anda, klik
Baru di bilah samping, lalu klik Buku Catatan. Buku catatan kosong terbuka di ruang kerja.
Untuk mempelajari selengkapnya tentang membuat dan mengelola buku catatan, lihat Mengelola buku catatan.
Langkah 2: Tentukan variabel
Dalam langkah ini, Anda menentukan variabel untuk digunakan dalam contoh buku catatan yang Anda buat di artikel ini.
Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru. Ganti
<catalog-name>,<schema-name>, dan<volume-name>dengan katalog, skema, dan nama volume untuk volume Katalog Unity. Secara opsional ganti nilaitable_namedengan nama tabel pilihan Anda. Anda akan menyimpan data nama bayi ke dalam tabel ini nanti di artikel ini.Tekan
Shift+Enteruntuk menjalankan sel dan buat sel kosong baru.Phyton
catalog = "<catalog_name>" schema = "<schema_name>" volume = "<volume_name>" download_url = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv" file_name = "baby_names.csv" table_name = "baby_names" path_volume = "/Volumes/" + catalog + "/" + schema + "/" + volume path_table = catalog + "." + schema print(path_table) # Show the complete path print(path_volume) # Show the complete pathScala
val catalog = "<catalog_name>" val schema = "<schema_name>" val volume = "<volume_name>" val downloadUrl = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv" val fileName = "baby_names.csv" val tableName = "baby_names" val pathVolume = s"/Volumes/${catalog}/${schema}/${volume}" val pathTable = s"${catalog}.${schema}" print(pathVolume) // Show the complete path print(pathTable) // Show the complete pathR
catalog <- "<catalog_name>" schema <- "<schema_name>" volume <- "<volume_name>" download_url <- "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv" file_name <- "baby_names.csv" table_name <- "baby_names" path_volume <- paste("/Volumes/", catalog, "/", schema, "/", volume, sep = "") path_table <- paste(catalog, ".", schema, sep = "") print(path_volume) # Show the complete path print(path_table) # Show the complete path
Langkah 3: Impor file CSV
Dalam langkah ini, Anda mengimpor file CSV yang berisi data nama bayi dari health.data.ny.gov ke dalam volume Katalog Unity Anda.
Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru. Kode ini menyalin file
rows.csvdari health.data.ny.gov ke volume Unity Catalog Anda menggunakan perintah Databricks dbutils.Tekan
Shift+Enteruntuk menjalankan sel lalu berpindah ke sel berikutnya.Phyton
dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")Scala
dbutils.fs.cp(downloadUrl, s"${pathVolume}/${fileName}")R
dbutils.fs.cp(download_url, paste(path_volume, "/", file_name, sep = ""))
Langkah 4: Muat data CSV ke dalam DataFrame
Dalam langkah ini, Anda membuat DataFrame bernama df dari file CSV yang sebelumnya Anda muat ke dalam volume Unity Catalog Anda dengan menggunakan metode spark.read.csv.
Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru. Kode ini memuat data nama bayi ke dalam DataFrame
dfdari file CSV.Tekan
Shift+Enteruntuk menjalankan sel lalu berpindah ke sel berikutnya.Phyton
df = spark.read.csv(f"{path_volume}/{file_name}", header=True, inferSchema=True, sep=",")Scala
val df = spark.read .option("header", "true") .option("inferSchema", "true") .option("delimiter", ",") .csv(s"${pathVolume}/${fileName}")R
# Load the SparkR package that is already preinstalled on the cluster. library(SparkR) df <- read.df(paste(path_volume, "/", file_name, sep=""), source="csv", header = TRUE, inferSchema = TRUE, delimiter = ",")
Anda dapat memuat data dari banyak format file yang didukung.
Langkah 5: Memvisualisasikan data dari buku catatan
Dalam langkah ini, Anda menggunakan metode display() untuk menampilkan konten DataFrame dalam tabel di buku catatan, lalu memvisualisasikan data dalam bagan awan kata di buku catatan.
Salin dan tempel kode berikut ke dalam sel buku catatan kosong baru, lalu klik Jalankan sel untuk menampilkan data dalam tabel.
Phyton
display(df)Scala
display(df)R
display(df)Tinjau hasil dalam tabel.
Di samping tab Tabel
, klik lalu klik Visualisasi .Di editor visualisasi, klik Tipe Visualisasi, dan verifikasi bahwa cloud Word dipilih.
Di kolom Kata , periksa bahwa
First Namedipilih.Dalam batas frekuensi , klik
35.
Klik Simpan.
Langkah 6: Simpan DataFrame ke tabel
Penting
Untuk menyimpan DataFrame Anda di Unity Catalog, Anda harus memiliki hak istimewa tabel CREATE pada katalog dan skema. Untuk informasi tentang izin di Unity Catalog, lihat Hak Istimewa dan Objek Terproteksi di Unity Catalog dan Mengelola Hak Istimewa di Unity Catalog.
Salin dan tempel kode berikut ke dalam sel buku catatan kosong. Kode ini menggantikan spasi dalam nama kolom. Karakter khusus, seperti spasi tidak diperbolehkan dalam nama kolom. Kode ini menggunakan metode Apache Spark
withColumnRenamed().Phyton
df = df.withColumnRenamed("First Name", "First_Name") df.printSchemaScala
val dfRenamedColumn = df.withColumnRenamed("First Name", "First_Name") // when modifying a DataFrame in Scala, you must assign it to a new variable dfRenamedColumn.printSchema()R
df <- withColumnRenamed(df, "First Name", "First_Name") printSchema(df)Salin dan tempel kode berikut ke dalam sel buku catatan kosong. Kode ini menyimpan konten DataFrame ke tabel di Unity Catalog menggunakan variabel nama tabel yang Anda tentukan di awal artikel ini.
Phyton
df.write.mode("overwrite").saveAsTable(f"{path_table}" + "." + f"{table_name}")Scala
dfRenamedColumn.write.mode("overwrite").saveAsTable(s"${pathTable}.${tableName}")R
saveAsTable(df, paste(path_table, ".", table_name), mode = "overwrite")Untuk memverifikasi bahwa tabel disimpan, klik Katalog di bar samping kiri untuk membuka UI Catalog Explorer. Buka katalog Anda lalu skema Anda untuk memverifikasi bahwa tabel muncul.
Klik tabel Anda untuk melihat skema tabel pada tab Gambaran Umum
. Klik Data Sampel untuk menampilkan 100 baris data dari tabel.
Mengimpor dan memvisualisasikan buku catatan data
Gunakan salah satu buku catatan berikut untuk melakukan langkah-langkah dalam artikel ini. Ganti <catalog-name>, <schema-name>, dan <volume-name> dengan katalog, skema, dan nama volume untuk volume Katalog Unity. Secara opsional ganti nilai table_name dengan nama tabel pilihan Anda.
Phyton
Mengimpor data dari CSV menggunakan Python
Dapatkan buku catatan
Scala
Mengimpor data dari CSV menggunakan Scala
Dapatkan buku catatan
R
Mengimpor data dari CSV menggunakan R
Dapatkan buku catatan
Langkah berikutnya
- Untuk mempelajari tentang teknik analisis data eksploratif (EDA), lihat Tutorial: Teknik EDA menggunakan notebook Databricks.
- Untuk mempelajari tentang membangun alur ETL (extract, transform, dan load), lihat Tutorial: Membangun alur ETL dengan Lakeflow Spark Declarative Pipelines dan Tutorial: Membangun alur ETL dengan Apache Spark pada platform Databricks