Membuat atau mengubah tabel menggunakan unggahan file

Halaman Buat atau ubah tabel menggunakan unggahan file memungkinkan Anda mengunggah file CSV, TSV, atau JSON, Avro, Parquet, atau teks untuk membuat atau menimpa tabel Delta Lake terkelola.

Anda dapat membuat tabel Delta terkelola di Katalog Unity atau di metastore Apache Hive.

Catatan

Anda juga dapat memuat file dari penyimpanan cloud menggunakan UI tambahkan data atau menggunakan COPY INTO.

Penting

  • Anda harus memiliki akses ke sumber daya komputasi yang sedang berjalan dan izin untuk membuat tabel dalam skema target.
  • Admin ruang kerja dapat menonaktifkan halaman Buat atau ubah tabel menggunakan unggahan file.

Anda dapat menggunakan UI untuk membuat tabel Delta dengan mengimpor file CSV, TSV, JSON, Avro, Parquet, atau teks kecil dari komputer lokal Anda.

  • Halaman Buat atau ubah tabel menggunakan unggahan file mendukung pengunggahan hingga 10 file sekali waktu.
  • Ukuran total file yang diunggah harus di bawah 2 gigabyte.
  • File harus berupa file CSV, TSV, JSON, Avro, Parquet, atau teks dan memiliki ekstensi ".csv", ".tsv" (atau ".tab"), ".json", ".avro", ".parquet", atau ".txt".
  • File terkompresi seperti zip dan tar file tidak didukung.

Unggah file

  1. Klik Ikon BaruTambahkan data Baru>.
  2. Klik Buat atau ubah tabel.
  3. Klik tombol browser file atau seret dan letakkan file langsung di zona drop.

Catatan

File yang diimpor diunggah ke lokasi internal yang aman dalam akun Anda yang merupakan sampah yang dikumpulkan setiap hari.

Mempratinjau, mengonfigurasi, dan membuat tabel

Anda dapat mengunggah data ke area penahapan tanpa menyambungkan ke sumber daya komputasi, tetapi Anda harus memilih sumber daya komputasi aktif untuk mempratinjau dan mengonfigurasi tabel Anda.

Anda dapat mempratinjau 50 baris data saat mengonfigurasi opsi untuk tabel yang diunggah. Klik tombol kisi atau daftar di bawah nama file untuk mengalihkan presentasi data Anda.

Azure Databricks menyimpan file data untuk tabel terkelola di lokasi yang dikonfigurasi untuk skema yang berisi. Anda memerlukan izin yang tepat untuk membuat tabel dalam skema.

Pilih skema yang diinginkan untuk membuat tabel dengan melakukan hal berikut:

  1. (Hanya untuk ruang kerja yang diaktifkan Katalog Unity) Anda dapat memilih katalog atau warisan hive_metastore.
  2. Pilih skema.
  3. (Opsional) Edit nama tabel.

Catatan

Anda bisa menggunakan menu dropdown untuk memilih Timpa tabel yang sudah ada atau Buat tabel baru. Operasi yang mencoba membuat tabel baru dengan konflik nama menampilkan pesan kesalahan.

Anda dapat mengonfigurasi opsi atau kolom sebelum membuat tabel.

Untuk membuat tabel, klik Buat di bagian bawah halaman.

Opsi format

Opsi format bergantung pada format file yang Anda unggah. Opsi format umum muncul di bilah header, sementara opsi yang kurang umum digunakan tersedia pada dialog Atribut tingkat lanjut.

  • Untuk CSV, opsi berikut tersedia:
    • Baris pertama berisi header (diaktifkan secara default): Opsi ini menentukan apakah file CSV/TSV berisi header.
    • Pemisah kolom: Karakter pemisah antar kolom. Hanya satu karakter yang diizinkan, dan garis miring terbelakang tidak didukung. Ini default ke koma untuk file CSV.
    • Secara otomatis mendeteksi jenis kolom (diaktifkan secara default): Secara otomatis mendeteksi jenis kolom dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai STRING.
    • Baris mencakup beberapa baris (dinonaktifkan secara default): Apakah nilai kolom dapat mencakup beberapa baris dalam file.
    • Gabungkan skema di beberapa file: Apakah akan menyimpulkan skema di beberapa file dan untuk menggabungkan skema setiap file. Jika dinonaktifkan, skema dari satu file digunakan.
  • Untuk JSON, opsi berikut tersedia:
    • Secara otomatis mendeteksi jenis kolom (diaktifkan secara default): Secara otomatis mendeteksi jenis kolom dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai STRING.
    • Baris mencakup beberapa baris (diaktifkan secara default): Apakah nilai kolom dapat mencakup beberapa baris dalam file.
    • Izinkan komentar (diaktifkan secara default): Apakah komentar diizinkan dalam file.
    • Izinkan tanda kutip tunggal (diaktifkan secara default): Apakah tanda kutip tunggal diizinkan dalam file.
    • Tanda waktu infer (diaktifkan secara default): Apakah akan mencoba menyimpulkan string tanda waktu sebagai TimestampType.
  • Untuk JSON, opsi berikut tersedia:
    • Secara otomatis mendeteksi jenis kolom (diaktifkan secara default): Secara otomatis mendeteksi jenis kolom dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai STRING.
    • Baris mencakup beberapa baris (dinonaktifkan secara default): Apakah nilai kolom dapat mencakup beberapa baris dalam file.
    • Perbolehkan komentar Apakah komentar diizinkan dalam file.
    • Izinkan tanda kutip tunggal: Apakah tanda kutip tunggal diizinkan dalam file.
    • Tanda waktu infer: Apakah mencoba menyimpulkan string tanda waktu sebagai TimestampType.

Pratinjau data diperbarui secara otomatis saat Anda mengedit opsi format.

Catatan

Saat Anda mengunggah beberapa file, aturan berikut berlaku:

  • Pengaturan header berlaku untuk semua file. Pastikan header secara konsisten tidak ada atau ada di semua file yang diunggah untuk menghindari kehilangan data.
  • File yang diunggah digabungkan dengan menambahkan semua data sebagai baris dalam tabel target. Menggabungkan atau menggabungkan rekaman selama pengunggahan file tidak didukung.

Nama dan jenis kolom

Anda dapat mengedit nama dan jenis kolom.

  • Untuk mengedit jenis, klik ikon dengan jenis.

    Catatan

    Anda tidak dapat mengedit jenis berlapis untuk STRUCT atau ARRAY.

  • Untuk mengedit nama kolom, klik kotak input di bagian atas kolom.

    Nama kolom tidak mendukung koma, garis miring terbalik, atau karakter unicode (seperti emoji).

Jenis data kolom disimpulkan secara default untuk file CSV dan JSON. Anda dapat menginterpretasikan semua kolom sebagai STRING jenis dengan menonaktifkan Atribut tingkat lanjut>Deteksi jenis kolom secara otomatis.

Catatan

  • Inferensi skema melakukan deteksi upaya terbaik dari jenis kolom. Mengubah jenis kolom dapat menyebabkan beberapa nilai dilemparkan NULL jika nilai tidak dapat dilemparkan dengan benar ke jenis data target. Transmisikan BIGINT ke DATE atau TIMESTAMP kolom tidak didukung. Databricks merekomendasikan agar Anda membuat tabel terlebih dahulu lalu mengubah kolom ini menggunakan fungsi SQL setelahnya.
  • Untuk mendukung nama kolom tabel dengan karakter khusus, buat atau ubah tabel menggunakan halaman unggahan file memanfaatkan Pemetaan Kolom.
  • Untuk menambahkan komentar ke kolom, buat tabel dan navigasi ke Catalog Explorer tempat Anda bisa menambahkan komentar.

Jenis data yang didukung

Halaman Buat atau ubah tabel menggunakan unggahan file mendukung jenis data berikut. Untuk informasi selengkapnya tentang masing-masing jenis data, lihat Jenis data SQL.

Jenis Data Deskripsi
BIGINT Nomor bilangan bulat bertanda 8 byte.
BOOLEAN Nilai Boolean (true, false).
DATE Nilai yang terdiri dari nilai bidang tahun, bulan, dan hari, tanpa zona waktu.
DOUBLE Jumlah titik float presisi ganda 8 byte.
STRING Nilai string karakter.
TIMESTAMP Nilai yang terdiri dari nilai bidang tahun, bulan, hari, jam, menit, dan detik, dengan zona waktu lokal sesi.
STRUCT Nilai dengan struktur yang dijelaskan oleh urutan bidang.
ARRAY Nilai yang terdiri dari urutan elemen dengan jenis
elementType.
DECIMAL(P,S) Angka dengan presisi P maksimum dan skala Stetap .

Masalah umum

Transmisi BIGINT ke jenis yang tidak dapat ditransmisikan seperti DATE, seperti tanggal dalam format 'tttt', dapat memicu kesalahan.