Membuat atau mengubah tabel menggunakan unggahan file
Halaman Buat atau ubah tabel menggunakan unggahan file memungkinkan Anda mengunggah file CSV, TSV, atau JSON, Avro, Parquet, atau teks untuk membuat atau menimpa tabel Delta Lake terkelola.
Anda dapat membuat tabel Delta terkelola di Katalog Unity atau di metastore Apache Hive.
Catatan
Anda juga dapat memuat file dari penyimpanan cloud menggunakan UI tambahkan data atau menggunakan COPY INTO.
Penting
- Anda harus memiliki akses ke sumber daya komputasi yang sedang berjalan dan izin untuk membuat tabel dalam skema target.
- Admin ruang kerja dapat menonaktifkan halaman Buat atau ubah tabel menggunakan unggahan file.
Anda dapat menggunakan UI untuk membuat tabel Delta dengan mengimpor file CSV, TSV, JSON, Avro, Parquet, atau teks kecil dari komputer lokal Anda.
- Halaman Buat atau ubah tabel menggunakan unggahan file mendukung pengunggahan hingga 10 file sekali waktu.
- Ukuran total file yang diunggah harus di bawah 2 gigabyte.
- File harus berupa file CSV, TSV, JSON, Avro, Parquet, atau teks dan memiliki ekstensi ".csv", ".tsv" (atau ".tab"), ".json", ".avro", ".parquet", atau ".txt".
- File terkompresi seperti
zip
dantar
file tidak didukung.
Unggah file
- Klik Tambahkan data Baru>.
- Klik Buat atau ubah tabel.
- Klik tombol browser file atau seret dan letakkan file langsung di zona drop.
Catatan
File yang diimpor diunggah ke lokasi internal yang aman dalam akun Anda yang merupakan sampah yang dikumpulkan setiap hari.
Mempratinjau, mengonfigurasi, dan membuat tabel
Anda dapat mengunggah data ke area penahapan tanpa menyambungkan ke sumber daya komputasi, tetapi Anda harus memilih sumber daya komputasi aktif untuk mempratinjau dan mengonfigurasi tabel Anda.
Anda dapat mempratinjau 50 baris data saat mengonfigurasi opsi untuk tabel yang diunggah. Klik tombol kisi atau daftar di bawah nama file untuk mengalihkan presentasi data Anda.
Azure Databricks menyimpan file data untuk tabel terkelola di lokasi yang dikonfigurasi untuk skema yang berisi. Anda memerlukan izin yang tepat untuk membuat tabel dalam skema.
Pilih skema yang diinginkan untuk membuat tabel dengan melakukan hal berikut:
- (Hanya untuk ruang kerja yang diaktifkan Katalog Unity) Anda dapat memilih katalog atau warisan
hive_metastore
. - Pilih skema.
- (Opsional) Edit nama tabel.
Catatan
Anda bisa menggunakan menu dropdown untuk memilih Timpa tabel yang sudah ada atau Buat tabel baru. Operasi yang mencoba membuat tabel baru dengan konflik nama menampilkan pesan kesalahan.
Anda dapat mengonfigurasi opsi atau kolom sebelum membuat tabel.
Untuk membuat tabel, klik Buat di bagian bawah halaman.
Opsi format
Opsi format bergantung pada format file yang Anda unggah. Opsi format umum muncul di bilah header, sementara opsi yang kurang umum digunakan tersedia pada dialog Atribut tingkat lanjut.
- Untuk CSV, opsi berikut tersedia:
- Baris pertama berisi header (diaktifkan secara default): Opsi ini menentukan apakah file CSV/TSV berisi header.
- Pemisah kolom: Karakter pemisah antar kolom. Hanya satu karakter yang diizinkan, dan garis miring terbelakang tidak didukung. Ini default ke koma untuk file CSV.
- Secara otomatis mendeteksi jenis kolom (diaktifkan secara default): Secara otomatis mendeteksi jenis kolom dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai
STRING
. - Baris mencakup beberapa baris (dinonaktifkan secara default): Apakah nilai kolom dapat mencakup beberapa baris dalam file.
- Gabungkan skema di beberapa file: Apakah akan menyimpulkan skema di beberapa file dan untuk menggabungkan skema setiap file. Jika dinonaktifkan, skema dari satu file digunakan.
- Untuk JSON, opsi berikut tersedia:
- Secara otomatis mendeteksi jenis kolom (diaktifkan secara default): Secara otomatis mendeteksi jenis kolom dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai
STRING
. - Baris mencakup beberapa baris (diaktifkan secara default): Apakah nilai kolom dapat mencakup beberapa baris dalam file.
- Izinkan komentar (diaktifkan secara default): Apakah komentar diizinkan dalam file.
- Izinkan tanda kutip tunggal (diaktifkan secara default): Apakah tanda kutip tunggal diizinkan dalam file.
- Tanda waktu infer (diaktifkan secara default): Apakah akan mencoba menyimpulkan string tanda waktu sebagai
TimestampType
.
- Secara otomatis mendeteksi jenis kolom (diaktifkan secara default): Secara otomatis mendeteksi jenis kolom dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai
- Untuk JSON, opsi berikut tersedia:
- Secara otomatis mendeteksi jenis kolom (diaktifkan secara default): Secara otomatis mendeteksi jenis kolom dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai
STRING
. - Baris mencakup beberapa baris (dinonaktifkan secara default): Apakah nilai kolom dapat mencakup beberapa baris dalam file.
- Perbolehkan komentar Apakah komentar diizinkan dalam file.
- Izinkan tanda kutip tunggal: Apakah tanda kutip tunggal diizinkan dalam file.
- Tanda waktu infer: Apakah mencoba menyimpulkan string tanda waktu sebagai
TimestampType
.
- Secara otomatis mendeteksi jenis kolom (diaktifkan secara default): Secara otomatis mendeteksi jenis kolom dari konten file. Anda dapat mengedit jenis dalam tabel pratinjau. Jika ini diatur ke false, semua jenis kolom disimpulkan sebagai
Pratinjau data diperbarui secara otomatis saat Anda mengedit opsi format.
Catatan
Saat Anda mengunggah beberapa file, aturan berikut berlaku:
- Pengaturan header berlaku untuk semua file. Pastikan header secara konsisten tidak ada atau ada di semua file yang diunggah untuk menghindari kehilangan data.
- File yang diunggah digabungkan dengan menambahkan semua data sebagai baris dalam tabel target. Menggabungkan atau menggabungkan rekaman selama pengunggahan file tidak didukung.
Nama dan jenis kolom
Anda dapat mengedit nama dan jenis kolom.
Untuk mengedit jenis, klik ikon dengan jenis.
Catatan
Anda tidak dapat mengedit jenis berlapis untuk
STRUCT
atauARRAY
.Untuk mengedit nama kolom, klik kotak input di bagian atas kolom.
Nama kolom tidak mendukung koma, garis miring terbalik, atau karakter unicode (seperti emoji).
Jenis data kolom disimpulkan secara default untuk file CSV dan JSON. Anda dapat menginterpretasikan semua kolom sebagai STRING
jenis dengan menonaktifkan Atribut tingkat lanjut>Deteksi jenis kolom secara otomatis.
Catatan
- Inferensi skema melakukan deteksi upaya terbaik dari jenis kolom. Mengubah jenis kolom dapat menyebabkan beberapa nilai dilemparkan
NULL
jika nilai tidak dapat dilemparkan dengan benar ke jenis data target. TransmisikanBIGINT
keDATE
atauTIMESTAMP
kolom tidak didukung. Databricks merekomendasikan agar Anda membuat tabel terlebih dahulu lalu mengubah kolom ini menggunakan fungsi SQL setelahnya. - Untuk mendukung nama kolom tabel dengan karakter khusus, buat atau ubah tabel menggunakan halaman unggahan file memanfaatkan Pemetaan Kolom.
- Untuk menambahkan komentar ke kolom, buat tabel dan navigasi ke Catalog Explorer tempat Anda bisa menambahkan komentar.
Jenis data yang didukung
Halaman Buat atau ubah tabel menggunakan unggahan file mendukung jenis data berikut. Untuk informasi selengkapnya tentang masing-masing jenis data, lihat Jenis data SQL.
Jenis Data | Deskripsi |
---|---|
BIGINT |
Nomor bilangan bulat bertanda 8 byte. |
BOOLEAN |
Nilai Boolean (true , false ). |
DATE |
Nilai yang terdiri dari nilai bidang tahun, bulan, dan hari, tanpa zona waktu. |
DOUBLE |
Jumlah titik float presisi ganda 8 byte. |
STRING |
Nilai string karakter. |
TIMESTAMP |
Nilai yang terdiri dari nilai bidang tahun, bulan, hari, jam, menit, dan detik, dengan zona waktu lokal sesi. |
STRUCT |
Nilai dengan struktur yang dijelaskan oleh urutan bidang. |
ARRAY |
Nilai yang terdiri dari urutan elemen dengan jeniselementType . |
DECIMAL(P,S) |
Angka dengan presisi P maksimum dan skala S tetap . |
Masalah umum
Transmisi BIGINT
ke jenis yang tidak dapat ditransmisikan seperti DATE
, seperti tanggal dalam format 'tttt', dapat memicu kesalahan.
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk