Membuat atau mengubah tabel menggunakan unggahan file

Halaman Buat atau ubah tabel dengan mengunggah file memungkinkan Anda mengunggah file CSV, TSV, JSON, Avro, Parquet, atau teks untuk membuat atau menimpa tabel Delta Lake yang dikelola.

Anda dapat membuat tabel Delta terkelola di Katalog Unity atau di metastore Apache Hive.

Nota

Selain itu, Anda dapat menggunakan , UI tambah data, atau COPY INTO untuk memuat file dari penyimpanan cloud.

Penting

Anda dapat menggunakan UI untuk membuat tabel Delta dengan mengimpor file CSV, TSV, JSON, Avro, Parquet, atau teks kecil dari komputer lokal Anda.

  • Halaman Buat atau ubah tabel menggunakan unggahan file mendukung pengunggahan hingga 10 file dalam satu waktu.
  • Ukuran total file yang diunggah harus di bawah 2 gigabyte.
  • File harus berupa file CSV, TSV, JSON, Avro, Parquet, atau teks dan memiliki ekstensi ".csv", ".tsv" (atau ".tab"), ".json", ".avro", ".parquet", atau ".txt".
  • File terkompresi seperti zip dan tar file tidak didukung.

Unggah file

  1. Klik Ikon Baru>.
  2. Klik Buat atau ubah tabel.
  3. Klik telusuri atau seret dan letakkan file langsung di zona drop.

Nota

File yang diimpor diunggah ke lokasi internal yang aman dalam akun Anda yang merupakan sampah yang dikumpulkan setiap hari.

Mempratinjau, mengonfigurasi, dan membuat tabel

Anda dapat mengunggah data ke area penahapan tanpa menyambungkan ke sumber daya komputasi, tetapi Anda harus memilih sumber daya komputasi aktif untuk mempratinjau dan mengonfigurasi tabel Anda. UI pengunggahan file mendukung gudang SQL, komputasi tanpa server, dan komputasi khusus. Grup kluster tidak didukung.

Anda dapat mempratinjau 50 baris data saat mengonfigurasi opsi untuk tabel yang diunggah. Klik tombol kisi atau daftar di bawah nama file untuk mengalihkan presentasi data Anda.

Azure Databricks menyimpan file data untuk tabel terkelola di lokasi yang dikonfigurasi untuk skema yang berisi. Anda memerlukan izin yang tepat untuk membuat tabel dalam skema.

Pilih skema yang diinginkan untuk membuat tabel dengan melakukan hal berikut:

  1. (Hanya untuk ruang kerja yang telah diaktifkan dengan Katalog Unity) Anda dapat memilih katalog atau sistem lama hive_metastore.
  2. Pilih skema.
  3. (Opsional) Edit nama tabel.

Nota

Anda bisa menggunakan menu dropdown untuk memilih Timpa tabel yang sudah ada atau Buat tabel baru. Operasi yang mencoba membuat tabel baru dengan konflik nama menampilkan pesan kesalahan.

Anda dapat mengonfigurasi opsi atau kolom sebelum membuat tabel.

Untuk membuat tabel, klik Buat di bagian bawah halaman.

Opsi format

Opsi format bergantung pada format file yang Anda unggah. Opsi format umum muncul di bilah header, sementara opsi yang kurang umum digunakan tersedia pada dialog Atribut tingkat lanjut.

  • Untuk CSV, opsi berikut tersedia:
    • Baris pertama berisi header (diaktifkan secara default): Opsi ini menentukan apakah file CSV/TSV berisi header.
    • Pemisah kolom: Karakter pemisah antar kolom. Hanya satu karakter yang diizinkan, dan backslash tidak didukung. Secara default menggunakan koma untuk file CSV.
    • Secara otomatis mendeteksi jenis kolom (diaktifkan secara default): Secara otomatis mendeteksi jenis kolom dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai STRING.
    • Baris mencakup beberapa baris (dinonaktifkan secara default): Apakah nilai kolom dapat mencakup beberapa baris dalam file.
    • Gabungkan skema di beberapa file: Apakah akan menentukan skema di beberapa file dan menggabungkan skema setiap file. Jika dinonaktifkan, skema dari satu file digunakan.
  • Untuk JSON, opsi berikut tersedia:
    • Secara otomatis mendeteksi jenis kolom (diaktifkan secara default): Secara otomatis mendeteksi jenis kolom dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai STRING.
    • Baris mencakup beberapa baris (diaktifkan secara default): Apakah nilai kolom dapat mencakup beberapa baris dalam file.
    • Izinkan komentar (diaktifkan secara default): Apakah komentar diizinkan dalam file.
    • Izinkan tanda kutip tunggal (diaktifkan secara default): Apakah tanda kutip tunggal diizinkan dalam file.
    • Menyimpulkan tanda waktu (diaktifkan secara default): Apakah akan mencoba menyimpulkan string tanda waktu sebagai TimestampType.

Pratinjau data diperbarui secara otomatis saat Anda mengedit opsi format.

Nota

Saat Anda mengunggah beberapa file, aturan berikut berlaku:

  • Pengaturan header berlaku untuk semua file. Pastikan header secara konsisten tidak ada atau ada di semua file yang diunggah untuk menghindari kehilangan data.
  • File yang diunggah digabungkan dengan menambahkan semua data sebagai baris dalam tabel target. Memadukan atau menggabungkan entri data pada saat pengunggahan file tidak didukung.

Nama dan jenis kolom

Anda dapat mengedit nama dan jenis kolom.

  • Untuk mengedit jenis, klik ikon yang mewakili jenis tersebut.

    Nota

    Anda tidak dapat mengedit jenis berlapis untuk STRUCT atau ARRAY.

  • Untuk mengedit nama kolom, klik kotak input di bagian atas kolom.

    Nama kolom tidak mendukung koma, garis miring terbalik, atau karakter unicode (seperti emoji).

Jenis data kolom disimpulkan secara default untuk file CSV dan JSON. Anda dapat menginterpretasikan semua kolom sebagai STRING jenis dengan menonaktifkan Atribut tingkat lanjut>Deteksi jenis kolom secara otomatis.

Nota

  • Inferensi skema berupaya maksimal untuk mendeteksi jenis kolom. Mengubah jenis kolom dapat menyebabkan beberapa nilai diubah ke NULL jika nilai tidak dapat diubah dengan benar ke jenis data target. Mengubah BIGINT ke kolom DATE atau TIMESTAMP tidak didukung. Databricks merekomendasikan agar Anda membuat tabel terlebih dahulu lalu mengubah kolom ini menggunakan fungsi SQL setelahnya.
  • Untuk mendukung nama kolom tabel dengan karakter khusus, buat atau ubah tabel dengan mengunggah file memanfaatkan fitur Pemetaan Kolom.
  • Untuk menambahkan komentar ke kolom, buat tabel dan navigasi ke Catalog Explorer tempat Anda bisa menambahkan komentar.

Jenis data yang didukung

Halaman Buat atau ubah tabel menggunakan unggahan file mendukung jenis data berikut. Untuk informasi selengkapnya tentang masing-masing jenis data, lihat Jenis data SQL.

Jenis Data Deskripsi
BIGINT Nomor bilangan bulat bertanda 8 byte.
BOOLEAN Nilai Boolean (true, false).
DATE Nilai yang terdiri dari nilai bidang tahun, bulan, dan hari, tanpa zona waktu.
DOUBLE Jumlah titik float presisi ganda 8 byte.
STRING Nilai string karakter.
TIMESTAMP Nilai yang terdiri dari nilai kolom tahun, bulan, hari, jam, menit, dan detik sesuai zona waktu lokal sesi.
STRUCT Nilai dengan struktur yang dijelaskan oleh urutan bidang.
ARRAY Nilai yang terdiri dari sekuens elemen dengan tipe
elementType.
DECIMAL(P,S) Angka dengan presisi maksimum P dan skala tetap S.

Masalah yang diketahui

Mengubah BIGINT ke jenis yang tidak dapat diubah seperti DATE, seperti tanggal dalam format 'yyyy', dapat memicu kesalahan.