Memuat data menggunakan lokasi eksternal Katalog Unity
Penting
Fitur ini ada di Pratinjau Publik.
Artikel ini menjelaskan cara menggunakan UI tambahkan data untuk membuat tabel terkelola dari data di Azure Data Lake Storage Gen2 menggunakan lokasi eksternal Katalog Unity. Lokasi eksternal adalah objek yang menggabungkan jalur penyimpanan cloud dengan info masuk penyimpanan yang mengizinkan akses ke jalur penyimpanan cloud.
Sebelum Anda mulai
Sebelum memulai, Anda harus memiliki:
- Ruang kerja dengan Katalog Unity diaktifkan. Untuk informasi selengkapnya, lihat Menyiapkan dan mengelola Katalog Unity.
- Hak
READ FILES
istimewa pada lokasi eksternal. Untuk informasi selengkapnya, lihat Membuat lokasi eksternal untuk menyambungkan penyimpanan cloud ke Azure Databricks. - Hak
CREATE TABLE
istimewa pada skema tempat Anda ingin membuat tabel terkelola,USE SCHEMA
hak istimewa pada skema, danUSE CATALOG
hak istimewa pada katalog induk. Untuk informasi selengkapnya, lihat Hak istimewa Katalog Unity dan objek yang dapat diamankan.
Tipe file
Jenis file berikut ini didukung:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
Langkah 1: Mengonfirmasi akses ke lokasi eksternal
Untuk mengonfirmasi akses ke lokasi eksternal, lakukan hal berikut:
- Di bilah samping ruang kerja Azure Databricks Anda, klik Katalog.
- Di Penjelajah Katalog, klik Lokasi Eksternal Data>Eksternal.
Langkah 2: Membuat tabel terkelola
Untuk membuat tabel terkelola, lakukan hal berikut:
Di bilah samping ruang kerja Anda, klik + Tambahkan data Baru>.
Di UI tambahkan data, klik Azure Data Lake Storage.
Pilih lokasi eksternal dari daftar drop-down.
Pilih folder dan file yang ingin Anda muat ke Azure Databricks, lalu klik Tabel pratinjau.
Pilih katalog dan skema dari daftar drop-down.
(Opsional) Edit nama tabel.
(Opsional) Untuk mengatur opsi format tingkat lanjut menurut jenis file, klik Atribut tingkat lanjut, nonaktifkan Deteksi jenis file secara otomatis, lalu pilih jenis file.
Untuk daftar opsi format, lihat bagian berikut ini.
(Opsional) Untuk mengedit nama kolom, klik kotak input di bagian atas kolom.
Nama kolom tidak mendukung koma, garis miring terbalik, atau karakter unicode (seperti emoji).
(Opsional) Untuk mengedit tipe kolom, klik ikon dengan jenis .
Klik Buat tabel.
Opsi format jenis file
Opsi format berikut tersedia, tergantung pada jenis file:
Opsi format | Deskripsi | Jenis file yang didukung |
---|---|---|
Column delimiter |
Karakter pemisah antara kolom. Hanya satu karakter yang diizinkan, dan garis miring terbelakang tidak didukung. Defaultnya adalah koma. |
CSV |
Escape character |
Karakter {i>escape Defaultnya adalah tanda kutip. |
CSV |
First row contains the header |
Opsi ini menentukan apakah file berisi header. Diaktifkan secara default. |
CSV |
Automatically detect file type |
Deteksi jenis file secara otomatis. Defaultnya adalah true . |
XML |
Automatically detect column types |
Mendeteksi jenis kolom secara otomatis dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai STRING. Diaktifkan secara default. |
- CSV - JSON - XML |
Rows span multiple lines |
Apakah nilai kolom dapat mencakup beberapa baris dalam file. Dinonaktifkan secara default. |
- CSV - JSON |
Merge the schema across multiple files |
Apakah akan menginferensi skema di beberapa file dan untuk menggabungkan skema setiap file. Diaktifkan secara default. |
CSV |
Allow comments |
Apakah komentar diperbolehkan dalam file. Diaktifkan secara default. |
JSON |
Allow single quotes |
Apakah tanda kutip tunggal diizinkan dalam file. Diaktifkan secara default. |
JSON |
Infer timestamp |
Apakah akan mencoba menyimpulkan string tanda waktu sebagai TimestampType .Diaktifkan secara default. |
JSON |
Rescued data column |
Apakah akan menyimpan kolom yang tidak cocok dengan skema. Untuk informasi selengkapnya, lihat Apa itu kolom data yang diselamatkan?. Diaktifkan secara default. |
- CSV - JSON - Avro -Parket |
Exclude attribute |
Apakah akan mengecualikan atribut dalam elemen. Defaultnya adalah false . |
XML |
Attribute prefix |
Awalan untuk atribut untuk membedakan atribut dan elemen. Defaultnya adalah _ . |
XML |
Jenis data kolom
Jenis data kolom berikut ini didukung. Untuk informasi selengkapnya tentang masing-masing jenis data, lihat Jenis data SQL.
Jenis Data | Deskripsi |
---|---|
BIGINT |
Nomor bilangan bulat bertanda 8 byte. |
BOOLEAN |
Nilai Boolean (true , false ). |
DATE |
dan hari, tanpa zona waktu. |
DECIMAL (P,S) |
Angka dengan presisi P maksimum dan skala S tetap . |
DOUBLE |
Jumlah titik float presisi ganda 8 byte. |
STRING |
Nilai string karakter. |
TIMESTAMP |
Nilai yang terdiri dari nilai bidang tahun, bulan, hari, jam, menit, dan detik, dengan zona waktu lokal sesi. |
Masalah umum
- Anda mungkin mengalami masalah dengan karakter khusus dalam jenis data kompleks, seperti objek JSON dengan kunci yang berisi backtick atau titik dua.
- Beberapa file JSON mungkin mengharuskan Anda memilih JSON secara manual untuk jenis file. Untuk memilih jenis file secara manual setelah Anda memilih file, klik Atribut tingkat lanjut, nonaktifkan Deteksi jenis file secara otomatis, lalu pilih JSON.
- Tanda waktu berlapis dan desimal di dalam jenis kompleks mungkin mengalami masalah.