Bagikan melalui


Memuat data menggunakan lokasi eksternal Katalog Unity

Penting

Fitur ini ada di Pratinjau Publik.

Artikel ini menjelaskan cara menggunakan UI tambahkan data untuk membuat tabel terkelola dari data di Azure Data Lake Storage Gen2 menggunakan lokasi eksternal Katalog Unity. Lokasi eksternal adalah objek yang menggabungkan jalur penyimpanan cloud dengan info masuk penyimpanan yang mengizinkan akses ke jalur penyimpanan cloud.

Sebelum Anda mulai

Sebelum memulai, Anda harus memiliki:

Tipe file

Jenis file berikut ini didukung:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

Langkah 1: Mengonfirmasi akses ke lokasi eksternal

Untuk mengonfirmasi akses ke lokasi eksternal, lakukan hal berikut:

  1. Di bilah samping ruang kerja Azure Databricks Anda, klik Katalog.
  2. Di Penjelajah Katalog, klik Lokasi Eksternal Data>Eksternal.

Langkah 2: Membuat tabel terkelola

Untuk membuat tabel terkelola, lakukan hal berikut:

  1. Di bilah samping ruang kerja Anda, klik + Tambahkan data Baru>.

  2. Di UI tambahkan data, klik Azure Data Lake Storage.

  3. Pilih lokasi eksternal dari daftar drop-down.

  4. Pilih folder dan file yang ingin Anda muat ke Azure Databricks, lalu klik Tabel pratinjau.

  5. Pilih katalog dan skema dari daftar drop-down.

  6. (Opsional) Edit nama tabel.

  7. (Opsional) Untuk mengatur opsi format tingkat lanjut menurut jenis file, klik Atribut tingkat lanjut, nonaktifkan Deteksi jenis file secara otomatis, lalu pilih jenis file.

    Untuk daftar opsi format, lihat bagian berikut ini.

  8. (Opsional) Untuk mengedit nama kolom, klik kotak input di bagian atas kolom.

    Nama kolom tidak mendukung koma, garis miring terbalik, atau karakter unicode (seperti emoji).

  9. (Opsional) Untuk mengedit tipe kolom, klik ikon dengan jenis .

  10. Klik Buat tabel.

Opsi format jenis file

Opsi format berikut tersedia, tergantung pada jenis file:

Opsi format Deskripsi Jenis file yang didukung
Column delimiter Karakter pemisah antara kolom. Hanya satu karakter yang diizinkan, dan garis miring terbelakang tidak didukung.

Defaultnya adalah koma.
CSV
Escape character Karakter {i>escape
Defaultnya adalah tanda kutip.
CSV
First row contains the header Opsi ini menentukan apakah file berisi header.

Diaktifkan secara default.
CSV
Automatically detect file type Deteksi jenis file secara otomatis. Defaultnya adalah true. XML
Automatically detect column types Mendeteksi jenis kolom secara otomatis dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai STRING.

Diaktifkan secara default.
- CSV

- JSON
- XML
Rows span multiple lines Apakah nilai kolom dapat mencakup beberapa baris dalam file.

Dinonaktifkan secara default.
- CSV

- JSON
Merge the schema across multiple files Apakah akan menginferensi skema di beberapa file dan untuk menggabungkan skema setiap file.

Diaktifkan secara default.
CSV
Allow comments Apakah komentar diperbolehkan dalam file.

Diaktifkan secara default.
JSON
Allow single quotes Apakah tanda kutip tunggal diizinkan dalam file.

Diaktifkan secara default.
JSON
Infer timestamp Apakah akan mencoba menyimpulkan string tanda waktu sebagai TimestampType.

Diaktifkan secara default.
JSON
Rescued data column Apakah akan menyimpan kolom yang tidak cocok dengan skema. Untuk informasi selengkapnya, lihat Apa itu kolom data yang diselamatkan?.

Diaktifkan secara default.
- CSV

- JSON
- Avro
-Parket
Exclude attribute Apakah akan mengecualikan atribut dalam elemen. Defaultnya adalah false. XML
Attribute prefix Awalan untuk atribut untuk membedakan atribut dan elemen. Defaultnya adalah _. XML

Jenis data kolom

Jenis data kolom berikut ini didukung. Untuk informasi selengkapnya tentang masing-masing jenis data, lihat Jenis data SQL.

Jenis Data Deskripsi
BIGINT Nomor bilangan bulat bertanda 8 byte.
BOOLEAN Nilai Boolean (true, false).
DATE dan hari, tanpa zona waktu.
DECIMAL (P,S) Angka dengan presisi P maksimum dan skala Stetap .
DOUBLE Jumlah titik float presisi ganda 8 byte.
STRING Nilai string karakter.
TIMESTAMP Nilai yang terdiri dari nilai bidang tahun, bulan, hari, jam, menit, dan detik, dengan zona waktu lokal sesi.

Masalah umum

  • Anda mungkin mengalami masalah dengan karakter khusus dalam jenis data kompleks, seperti objek JSON dengan kunci yang berisi backtick atau titik dua.
  • Beberapa file JSON mungkin mengharuskan Anda memilih JSON secara manual untuk jenis file. Untuk memilih jenis file secara manual setelah Anda memilih file, klik Atribut tingkat lanjut, nonaktifkan Deteksi jenis file secara otomatis, lalu pilih JSON.
  • Tanda waktu berlapis dan desimal di dalam jenis kompleks mungkin mengalami masalah.