Opsi Pemuat Otomatis

Artikel
04/18/2024

Opsi konfigurasi khusus untuk cloudFilessumber diawali cloudFiles sehingga berada di ruang nama terpisah dari opsi sumber Streaming Terstruktur lainnya.

Opsi Auto Loader Umum
Opsi daftar direktori
Opsi pemberitahuan file
Opsi format file
Opsi khusus cloud

Opsi Pemuat Otomatis Umum

Anda dapat mengonfigurasi opsi berikut untuk daftar direktori atau mode pemberitahuan file.

Opsi
`cloudFiles.allowOverwrites` Jenis: `Boolean` Apakah akan mengizinkan perubahan file direktori input untuk menimpa data yang ada. Ada beberapa peringatan mengenai mengaktifkan konfigurasi ini. Silakan merujuk ke Tanya Jawab Umum Auto Loader untuk detailnya. Nilai default: `false`
`cloudFiles.backfillInterval` Jenis: `Interval String` Loader Otomatis dapat memicu pengisian ulang asinkron pada interval tertentu, misalnya `1 day` untuk mengisi kembali sekali sehari, atau `1 week` untuk mengisi kembali seminggu sekali. Sistem pemberitahuan peristiwa file tidak menjamin pengiriman 100% dari semua file yang telah diunggah oleh karena itu Anda dapat menggunakan backfill untuk menjamin bahwa semua file akhirnya diproses, tersedia di Databricks Runtime 8.4 (tidak didukung) dan di atasnya. Nilai default: None
`cloudFiles.format` Jenis: `String` Format data file di jalur sumber. Nilai yang diizinkan meliputi: * `avro`: File avro * `binaryFile`: File biner * `csv`: Membaca dan menulis ke file CSV * `json`: File JSON * `orc`: File ORC * `parquet`: Membaca file Parquet menggunakan Azure Databricks * `text`: File Teks Nilai default: Tidak ada (opsi yang diperlukan)
`cloudFiles.includeExistingFiles` Jenis: `Boolean` Apakah akan menyertakan file yang ada di jalur input pemrosesan aliran atau hanya memproses file baru yang tiba setelah pengaturan awal. Opsi ini dievaluasi hanya ketika Anda memulai aliran untuk pertama kalinya. Mengubah opsi ini setelah memulai ulang aliran tidak berpengaruh. Nilai default: `true`
`cloudFiles.inferColumnTypes` Jenis: `Boolean` Apakah akan menyimpulkan tipe kolom yang tepat saat memanfaatkan inferensi skema. Secara default, kolom disimpulkan sebagai string saat menyimpulkan himpunan data JSON dan CSV. Lihat inferensi skema untuk detail selengkapnya. Nilai default: `false`
`cloudFiles.maxBytesPerTrigger` Jenis: `Byte String` Jumlah maksimum byte baru yang akan diproses di setiap pemicu. Anda dapat menentukan string byte seperti `10g` untuk membatasi setiap microbatch hingga 10 GB data. Ini adalah maksimum yang lembut. Jika Anda memiliki file masing-masing 3 GB, Azure Databricks memproses 12 GB dalam pengurangan mikro. Ketika digunakan bersama dengan `cloudFiles.maxFilesPerTrigger`, Azure Databricks mengonsumsi hingga batas bawah `cloudFiles.maxFilesPerTrigger` atau `cloudFiles.maxBytesPerTrigger`, mana yang dicapai terlebih dahulu. Opsi ini tidak berpengaruh ketika digunakan dengan `Trigger.Once()` (tidak digunakan lagi). Nilai default: None
`cloudFiles.maxFileAge` Jenis: `Interval String` Berapa lama peristiwa file dilacak untuk tujuan deduplikasi. Databricks tidak merekomendasikan menyetel parameter ini kecuali Anda menyerap data dengan urutan jutaan file per jam. Lihat bagian tentang Retensi acara untuk detail selengkapnya. Penyetelan `cloudFiles.maxFileAge` terlalu agresif dapat menyebabkan masalah kualitas data seperti penyerapan duplikat atau file yang hilang. Oleh karena itu, Databricks merekomendasikan pengaturan konservatif untuk `cloudFiles.maxFileAge`, seperti 90 hari, yang mirip dengan rekomendasi solusi penyerapan data yang sebanding. Nilai default: None
`cloudFiles.maxFilesPerTrigger` Jenis: `Integer` Jumlah maksimum file baru yang akan diproses di setiap pemicu. Ketika digunakan bersama dengan `cloudFiles.maxBytesPerTrigger`, Azure Databricks mengonsumsi hingga batas bawah `cloudFiles.maxFilesPerTrigger` atau `cloudFiles.maxBytesPerTrigger`, mana yang dicapai terlebih dahulu. Opsi ini tidak berpengaruh ketika digunakan dengan `Trigger.Once()` (tidak digunakan lagi). Nilai default: 1000
`cloudFiles.partitionColumns` Jenis: `String` Daftar kolom partisi gaya Apache Hive yang dipisahkan koma yang ingin Anda simpulkan dari struktur direktori file. Kolom partisi gaya Apache Hive adalah pasangan nilai kunci yang digabungkan dengan tanda kesetaraan seperti `<base-path>/a=x/b=1/c=y/file.format`. Dalam contoh ini, kolom partisi adalah `a`, `b`, dan `c`. Secara default kolom ini akan secara otomatis ditambahkan ke skema Anda jika Anda menggunakan inferensi skema dan menyediakan `<base-path>` untuk memuat data. Jika Anda memberikan skema, Auto Loader mengharapkan kolom ini disertakan dalam skema. Jika Anda tidak ingin kolom ini sebagai bagian dari skema Anda, Anda dapat menentukan `""` untuk mengabaikan kolom ini. Selain itu, Anda dapat menggunakan opsi ini ketika Anda ingin kolom disimpulkan jalur file dalam struktur direktori yang kompleks, seperti contoh di bawah ini: `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` Menentukan `cloudFiles.partitionColumns` sebagai `year,month,day` akan kembali `year=2022` untuk `file1.csv`, tetapi kolom `month` dan `day` akan menjadi `null`. `month` dan `day` akan diurai dengan benar untuk `file2.csv` dan `file3.csv`. Nilai default: None
`cloudFiles.schemaEvolutionMode` Jenis: `String` Mode untuk mengembangkan skema sebagai kolom baru ditemukan dalam data. Secara default, kolom disimpulkan sebagai string saat menyimpulkan himpunan data JSON. Lihat evolusi skema untuk detail selengkapnya. Nilai default: `"addNewColumns"` saat skema tidak disediakan. `"none"` sebaiknya.
`cloudFiles.schemaHints` Jenis: `String` Informasi skema yang Anda berikan kepada Auto Loader selama inferensi skema. Lihat hint skema untuk detail selengkapnya. Nilai default: None
`cloudFiles.schemaLocation` Jenis: `String` Lokasi untuk menyimpan skema yang disimpulkan dan perubahan selanjutnya. Lihat inferensi skema untuk detail selengkapnya. Nilai default: Tidak ada (diperlukan saat menyimpulkan skema)
`cloudFiles.useStrictGlobber` Jenis: `Boolean` Apakah akan menggunakan globber ketat yang cocok dengan perilaku globbing default sumber file lain di Apache Spark. Lihat Pola pemuatan data umum untuk detail selengkapnya. Tersedia di Databricks Runtime 12.2 LTS ke atas. Nilai default: `false`
`cloudFiles.validateOptions` Jenis: `Boolean` Apakah akan memvalidasi opsi Auto Loader dan mengembalikan kesalahan untuk opsi yang tidak diketahui atau tidak konsisten. Nilai default: `true`

Opsi daftar direktori

Opsi berikut relevan dengan mode daftar direktori.

Opsi

Opsi
`cloudFiles.useIncrementalListing` (tidak digunakan lagi) Jenis: `String` Fitur ini sudah tidak digunakan. Databricks merekomendasikan penggunaan mode pemberitahuan file alih-alih `cloudFiles.useIncrementalListing`. Apakah akan menggunakan daftar inkremental daripada daftar lengkap dalam mode daftar direktori. Secara default, Auto Loader melakukan upaya terbaik untuk secara otomatis mendeteksi apakah direktori tertentu berlaku untuk daftar bertambah bertahap. Anda dapat secara eksplisit menggunakan daftar bertambah bertahap atau menggunakan daftar direktori lengkap dengan mengaturnya sebagai `true` atau `false` mematuhinya. Salah mengaktifkan daftar bertahap pada direktori yang tidak diurutkan secara leksikal mencegah Auto Loader menemukan file baru. Bekerja dengan Azure Data Lake Storage Gen2 (`abfss://`), S3 (`s3://`), dan GCS (`gs://`). Tersedia di Databricks Runtime 9.1 LTS ke atas. Nilai default: `auto` Nilai yang tersedia: `auto`, `true`, `false`

cloudFiles.useIncrementalListing (tidak digunakan lagi)

Jenis: String

Fitur ini sudah tidak digunakan. Databricks merekomendasikan penggunaan mode pemberitahuan file alih-alih
cloudFiles.useIncrementalListing.

Apakah akan menggunakan daftar inkremental daripada daftar lengkap dalam mode daftar direktori. Secara default, Auto Loader melakukan upaya terbaik untuk secara otomatis mendeteksi apakah direktori tertentu berlaku untuk daftar bertambah bertahap. Anda dapat secara eksplisit menggunakan daftar bertambah bertahap atau menggunakan daftar direktori lengkap dengan mengaturnya sebagai true atau false mematuhinya.

Salah mengaktifkan daftar bertahap pada direktori yang tidak diurutkan secara leksikal mencegah Auto Loader menemukan file baru.

Bekerja dengan Azure Data Lake Storage Gen2 (abfss://), S3 (s3://), dan GCS (gs://).

Tersedia di Databricks Runtime 9.1 LTS ke atas.

Nilai default: auto

Nilai yang tersedia: auto, true, false

Opsi Pemberitahuan File

Opsi berikut relevan dengan mode pemberitahuan file.

Opsi
`cloudFiles.fetchParallelism` Jenis: `Integer` Jumlah utas yang akan digunakan saat mengambil pesan dari layanan antrean. Nilai default: 1
`cloudFiles.pathRewrites` Jenis: string JSON Diperlukan hanya jika Anda menentukan `queueUrl` yang menerima pemberitahuan file dari beberapa bucket S3 dan Anda ingin memanfaatkan titik pemasangan yang dikonfigurasi untuk mengakses data dalam kontainer ini. Gunakan opsi ini untuk menulis ulang awalan `bucket/key` jalur dengan titik pemasangan. Hanya awalan yang dapat ditulis ulang. Misalnya, untuk konfigurasi `{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}`, jalur `s3://<databricks-mounted-bucket>/path/2017/08/fileA.json` Ditulis ulang ke `dbfs:/mnt/data-warehouse/2017/08/fileA.json`. Nilai default: None
`cloudFiles.resourceTag` Jenis: `Map(String, String)` Serangkaian pasangan tag nilai kunci untuk membantu mengaitkan dan mengidentifikasi sumber daya terkait, misalnya: `cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")` `.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")` Untuk informasi selengkapnya tentang AWS, lihat tag alokasi biaya Amazon SQS dan Mengonfigurasi tag untuk topik Amazon SNS. (1) Untuk informasi selengkapnya tentang Azure, lihat Penamaan Antrean dan Metadata serta cakupan`properties.labels` di Langganan Peristiwa. Auto Loader menyimpan pasangan tag nilai kunci ini di JSON sebagai label. (1) Untuk informasi selengkapnya tentang GCP, lihat Melaporkan penggunaan dengan label. (1) Nilai default: None
`cloudFiles.useNotifications` Jenis: `Boolean` Apakah akan menggunakan mode pemberitahuan file untuk menentukan ketika ada file baru. Jika `false`, gunakan mode daftar direktori. Lihat Cara kerja Auto Loader. Nilai default: `false`

(1) Auto Loader menambahkan pasangan tag nilai kunci berikut secara default dengan upaya terbaik:

vendor: Databricks
path: Lokasi dari tempat data dimuat. Tidak tersedia di GCP karena batasan pelabelan.
checkpointLocation: Lokasi titik pemeriksaan stream. Tidak tersedia di GCP karena batasan pelabelan.
streamId: Pengidentifikasi unik global untuk aliran ini.

Nama-nama kunci ini dicadangkan dan Anda tidak dapat menimpa nilai-nilainya.

Opsi format file

Dengan Auto Loader Anda dapat mengolah JSON, CSV, PARQUET, AVRO, TEXT, BINARYFILE, dan ORC file.

Opsi generik
JSON opsi
CSV opsi
XML opsi
PARQUET opsi
AVRO opsi
BINARYFILE opsi
TEXT opsi
ORC opsi

Opsi generik

Opsi berikut berlaku untuk semua format file.

Opsi
`ignoreCorruptFiles` Jenis: `Boolean` Apakah akan mengabaikan file yang rusak. Jika true, pekerjaan Spark akan terus berjalan ketika menemukan file yang rusak dan konten yang telah dibaca akan tetap dikembalikan. Dapat diamati sebagai `numSkippedCorruptFiles` dalam kolom `operationMetrics` dari riwayat Delta Lake. Tersedia di Databricks Runtime 11.3 LTS ke atas. Nilai default: `false`
`ignoreMissingFiles` Jenis: `Boolean` Apakah mengabaikan file yang hilang. Jika true, pekerjaan Spark akan terus berjalan ketika menemukan file yang hilang dan konten yang telah dibaca akan tetap dikembalikan. Tersedia di Databricks Runtime 11.3 LTS ke atas. Nilai default: `false` (`true` untuk `COPY INTO`)
`modifiedAfter` Ketik: `Timestamp String`, misalnya, `2021-01-01 00:00:00.000000 UTC+0` Stempel waktu opsional untuk menelan file yang memiliki stempel waktu modifikasi setelah stempel waktu yang disediakan. Nilai default: None
`modifiedBefore` Ketik: `Timestamp String`, misalnya, `2021-01-01 00:00:00.000000 UTC+0` Stempel waktu opsional untuk menyerap file yang memiliki stempel waktu modifikasi sebelum stempel waktu yang disediakan. Nilai default: None
`pathGlobFilter` atau `fileNamePattern` Jenis: `String` Pola glob potensial untuk menyediakan untuk memilih file. Setara dengan `PATTERN` di `COPY INTO`. `fileNamePattern` dapat digunakan dalam `read_files`. Nilai default: None
`recursiveFileLookup` Jenis: `Boolean` Apakah akan melewati inferensi partisi selama inferensi skema. Ini tidak mempengaruhi file mana yang dimuat. Nilai default: `false`

Opsi `JSON`

Opsi
`allowBackslashEscapingAnyCharacter` Jenis: `Boolean` Apakah akan membiarkan efek balik untuk melepaskan diri dari karakter yang mendahuluinya. Jika tidak diaktifkan, hanya karakter yang secara eksplisit terdaftar oleh spesifikasi JSON yang dapat lolos. Nilai default: `false`
`allowComments` Jenis: `Boolean` Apakah akan mengizinkan penggunaan komentar gaya Java, C, dan C ++ (`'/'`, `'*'`dan `'//'` varietas) dalam konten yang diurai atau tidak. Nilai default: `false`
`allowNonNumericNumbers` Jenis: `Boolean` Apakah akan mengizinkan set token non-angka (`NaN`) sebagai nilai angka mengambang legal. Nilai default: `true`
`allowNumericLeadingZeros` Jenis: `Boolean` Apakah akan mengizinkan angka integral dimulai dengan nol tambahan (dapat diabaikan) (misalnya, `000001`). Nilai default: `false`
`allowSingleQuotes` Jenis: `Boolean` Apakah akan mengizinkan penggunaan tanda kutip tunggal (apostrof, karakter `'\'`) untuk mengutip string (nama dan nilai String). Nilai default: `true`
`allowUnquotedControlChars` Jenis: `Boolean` Apakah akan mengizinkan string JSON berisi karakter kontrol yang tidak lolos (karakter ASCII dengan nilai kurang dari 32, termasuk karakter tab dan feed baris) atau tidak. Nilai default: `false`
`allowUnquotedFieldNames` Jenis: `Boolean` Apakah akan mengizinkan penggunaan nama bidang yang tidak dikutip (yang diizinkan oleh JavaScript, tetapi tidak dengan spesifikasi JSON). Nilai default: `false`
`badRecordsPath` Jenis: `String` Jalur untuk menyimpan file untuk merekam informasi tentang catatan JSON yang buruk. Nilai default: None
`columnNameOfCorruptRecord` Jenis: `String` Kolom untuk menyimpan catatan yang cacat dan tidak dapat diurai. Jika `mode` untuk penguraian diset sebagai `DROPMALFORMED`, kolom ini akan kosong. Nilai default: `_corrupt_record`
`dateFormat` Jenis: `String` Format untuk mengurai string tanggal. Nilai default: `yyyy-MM-dd`
`dropFieldIfAllNull` Jenis: `Boolean` Apakah akan mengabaikan kolom dari semua nilai null atau array{i> Nilai default: `false`
`encoding` atau `charset` Jenis: `String` Nama pengodean file JSON. Lihat `java.nio.charset.Charset` untuk daftar opsi. Anda tidak dapat menggunakan `UTF-16` dan `UTF-32` saat `multiline` adalah `true`. Nilai default: `UTF-8`
`inferTimestamp` Jenis: `Boolean` Apakah akan mencoba dan menyimpulkan string tanda waktu sebagai `TimestampType`. Ketika diatur ke `true`, inferensi skema mungkin memakan waktu jauh lebih lama. Anda harus mengaktifkan `cloudFiles.inferColumnTypes` untuk digunakan dengan Auto Loader. Nilai default: `false`
`lineSep` Jenis: `String` String antara dua catatan JSON berturut-turut. Nilai default: Tidak ada, yang mencakup `\r`, `\r\n`, dan `\n`
`locale` Jenis: `String` Pengidentifikasi `java.util.Locale`. Memengaruhi tanggal default, stempel waktu, dan penguraian desimal dalam JSON. Nilai default: `US`
`mode` Jenis: `String` Mode uraian seputar penanganan catatan yang salah. Salah satu dari `'PERMISSIVE'`, `'DROPMALFORMED'`, atau `'FAILFAST'`. Nilai default: `PERMISSIVE`
`multiLine` Jenis: `Boolean` Apakah catatan JSON mencakup beberapa baris. Nilai default: `false`
`prefersDecimal` Jenis: `Boolean` Mencoba menyimpulkan string sebagai `DecimalType` alih-alih float atau jenis ganda jika memungkinkan. Anda juga harus menggunakan inferensi skema, baik dengan mengaktifkan `inferSchema` atau menggunakan `cloudFiles.inferColumnTypes` dengan Auto Loader. Nilai default: `false`
`primitivesAsString` Jenis: `Boolean` Apakah akan menyimpulkan jenis primitif seperti angka dan boolean sebagai `StringType`. Nilai default: `false`
`readerCaseSensitive` Jenis: `Boolean` Menentukan perilaku sensitivitas huruf besar/kecil saat `rescuedDataColumn` diaktifkan. Jika true, menyelamatkan kolom data yang namanya berbeda menurut huruf besar/kecil dari skema; jika tidak, membaca data tanpa memerhatikan huruf besar/kecil. Tersedia di Databricks Runtime 13.3 ke atas. Nilai default: `true`
`rescuedDataColumn` Jenis: `String` Apakah akan mengumpulkan semua data yang tidak dapat diurai karena ketidakcocokan jenis data atau ketidakcocokan skema (termasuk selubung kolom) ke kolom terpisah. Kolom ini disertakan secara default saat menggunakan Auto Loader. Untuk detail selengkapnya, lihat Apa itu kolom data yang diselamatkan?. Nilai default: None
`timestampFormat` Jenis: `String` Format untuk mengurai string stempel waktu. Nilai default: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Jenis: `String` `java.time.ZoneId` untuk digunakan saat menguraikan stempel waktu dan tanggal. Nilai default: None

Opsi `CSV`

Opsi
`badRecordsPath` Jenis: `String` Jalur untuk menyimpan file untuk merekam informasi tentang catatan CSV yang buruk. Nilai default: None
`charToEscapeQuoteEscaping` Jenis: `Char` Karakter yang digunakan untuk meloloskan diri dari karakter yang digunakan untuk meloloskan diri dari kutipan. Misalnya, untuk baris berikut: `[ " a\\", b ]`: * Jika karakter yang akan diloloskan dari `'\'` tidak ditentukan, baris tidak akan diurai. Pengurai akan membaca karakter: `[a],[\],["],[,],[ ],[b]` dan menampilkan kesalahan karena tidak dapat menemukan kuotasi penutup. * Jika karakter yang akan diloloskan dari `'\'` ditentukan sebagai `'\'`, baris akan dibaca dengan 2 nilai: `[a\]` dan `[b]`. Nilai default: `'\0'`
`columnNameOfCorruptRecord` > [! CATATAN] >> Didukung untuk Auto Loader. Tidak didukung untuk `COPY INTO`. Jenis: `String` Kolom untuk menyimpan catatan yang cacat dan tidak dapat diurai. Jika `mode` untuk penguraian diset sebagai `DROPMALFORMED`, kolom ini akan kosong. Nilai default: `_corrupt_record`
`comment` Jenis: `Char` Mendefinisikan karakter yang mewakili komentar baris ketika ditemukan di awal baris teks. Gunakan `'\0'` untuk menonaktifkan melompati komentar. Nilai default: `'\u0000'`
`dateFormat` Jenis: `String` Format untuk mengurai string tanggal. Nilai default: `yyyy-MM-dd`
`emptyValue` Jenis: `String` Representasi string dari nilai kosong. Nilai default: `""`
`encoding` atau `charset` Jenis: `String` Nama pengodean file CSV. Lihat `java.nio.charset.Charset` untuk daftar opsi. `UTF-16` dan `UTF-32` tidak dapat digunakan saat `multiline` adalah `true`. Nilai default: `UTF-8`
`enforceSchema` Jenis: `Boolean` Apakah akan menerapkan skema yang ditentukan atau disimpulkan secara paksa ke file CSV. Jika opsi diaktifkan, header file CSV akan diabaikan. Opsi ini diabaikan secara default saat menggunakan Auto Loader untuk menyelamatkan data dan memungkinkan evolusi skema. Nilai default: `true`
`escape` Jenis: `Char` Karakter {i>escape Nilai default: `'\'`
`header` Jenis: `Boolean` Apakah file CSV berisi {i>headerheader Nilai default: `false`
`ignoreLeadingWhiteSpace` Jenis: `Boolean` Apakah akan mengabaikan spasi utama untuk setiap nilai yang diurai. Nilai default: `false`
`ignoreTrailingWhiteSpace` Jenis: `Boolean` Apakah akan mengabaikan spasi berikutnya untuk setiap nilai yang diurai. Nilai default: `false`
`inferSchema` Jenis: `Boolean` Apakah akan menyimpulkan jenis data dari baris CSV yang diurai atau untuk mengasumsikan semua kolom berasal dari `StringType`. Memerlukan penerusan data tambahan jika diset ke `true`. Untuk Auto Loader, gunakan `cloudFiles.inferColumnTypes` sebagai gantinya. Nilai default: `false`
`lineSep` Jenis: `String` String antara dua baris JSON berturut-turut. Nilai default: Tidak ada, yang mencakup `\r`, `\r\n`, dan `\n`
`locale` Jenis: `String` Pengidentifikasi `java.util.Locale`. Memengaruhi tanggal default, stempel waktu, dan penguraian desimal dalam CSV. Nilai default: `US`
`maxCharsPerColumn` Jenis: `Int` Jumlah maksimum karakter yang diharapkan dari nilai untuk mengurai. Dapat digunakan untuk menghindari kesalahan memori. Default ke `-1`, yang berarti tidak terbatas. Nilai default: `-1`
`maxColumns` Jenis: `Int` Batas tegas berapa banyak kolom yang dapat dimiliki sebuah baris. Nilai default: `20480`
`mergeSchema` Jenis: `Boolean` Apakah akan menginferensi skema di beberapa file dan untuk menggabungkan skema setiap file. Diaktifkan secara {i>default Nilai default: `false`
`mode` Jenis: `String` Mode uraian seputar penanganan catatan yang salah. Salah satu dari `'PERMISSIVE'`, `'DROPMALFORMED'`, dan `'FAILFAST'`. Nilai default: `PERMISSIVE`
`multiLine` Jenis: `Boolean` Apakah catatan CSV mencakup beberapa baris. Nilai default: `false`
`nanValue` Jenis: `String` Representasi string dari nilai non-angka saat mengurai `FloatType` dan `DoubleType` kolom. Nilai default: `"NaN"`
`negativeInf` Jenis: `String` Representasi string dari nilai non-angka saat mengurai `FloatType` atau `DoubleType` kolom. Nilai default: `"-Inf"`
`nullValue` Jenis: `String` Representasi string dari nilai nol. Nilai default: `""`
`parserCaseSensitive` (tidak digunakan lagi) Jenis: `Boolean` Saat membaca file, apakah akan menyelaraskan kolom yang dideklarasikan di header dengan kasus skema secara sensitif. Ini adalah `true` secara default untuk Auto Loader. Kolom yang berbeda menurut kasus akan disimpan di `rescuedDataColumn` jika diaktifkan. Opsi ini tidak digunakan lagi dan digantikan dengan `readerCaseSensitive`. Nilai default: `false`
`positiveInf` Jenis: `String` Representasi string dari nilai non-angka saat mengurai `FloatType` atau `DoubleType` kolom. Nilai default: `"Inf"`
`preferDate` Jenis: `Boolean` Mencoba menyimpulkan string sebagai tanggal alih-alih tanda waktu jika memungkinkan. Anda juga harus menggunakan inferensi skema, baik dengan mengaktifkan `inferSchema` atau menggunakan `cloudFiles.inferColumnTypes` dengan Auto Loader. Nilai default: `true`
`quote` Jenis: `Char` Karakter yang digunakan untuk melepaskan diri dari nilai di mana pemisah bidang adalah bagian dari nilai. Nilai default: `"`
`readerCaseSensitive` Jenis: `Boolean` Menentukan perilaku sensitivitas huruf besar/kecil saat `rescuedDataColumn` diaktifkan. Jika true, menyelamatkan kolom data yang namanya berbeda menurut huruf besar/kecil dari skema; jika tidak, membaca data tanpa memerhatikan huruf besar/kecil. Nilai default: `true`
`rescuedDataColumn` Jenis: `String` Apakah akan mengumpulkan semua data yang tidak dapat diurai karena: ketidakcocokan jenis data, dan ketidakcocokan skema (termasuk selubung kolom) ke kolom terpisah. Kolom ini disertakan secara default saat menggunakan Auto Loader. Untuk detail selengkapnya, lihat Apa itu kolom data yang diselamatkan?. Nilai default: None
`sep` atau `delimiter` Jenis: `String` String pemisah antar kolom. Nilai default: `","`
`skipRows` Jenis: `Int` Jumlah baris dari awal file CSV yang harus diabaikan (termasuk baris yang dikomentari dan kosong). Jika `header` adalah true, header akan menjadi baris pertama yang tidak dilompati dan tidak berkomentar. Nilai default: `0`
`timestampFormat` Jenis: `String` Format untuk mengurai string stempel waktu. Nilai default: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Jenis: `String` `java.time.ZoneId` untuk digunakan saat menguraikan stempel waktu dan tanggal. Nilai default: None
`unescapedQuoteHandling` Jenis: `String` Strategi untuk menangani kuotasi yang tidak lolos. Opsi yang diizinkan: * `STOP_AT_CLOSING_QUOTE`: Jika kuotasi yang tidak lolos ditemukan dalam input, kumpulkan karakter kuotasi dan lanjutkan menguraikan nilai sebagai nilai yang dikutip, sampai kuotasi penutup ditemukan. * `BACK_TO_DELIMITER`: Jika kuotasi yang tidak lolos ditemukan dalam input, anggap nilainya sebagai nilai yang tidak dikutip. Ini akan membuat pengurai mengumpulkan semua karakter dari nilai yang diurai saat ini sampai pemisah yang ditentukan oleh `sep` ditemukan. Jika tidak ada pemisah yang ditemukan dalam nilai, pengurai akan terus mengumpulkan karakter dari input sampai pemisah atau akhir garis ditemukan. * `STOP_AT_DELIMITER`: Jika kuotasi yang tidak lolos ditemukan dalam input, anggap nilainya sebagai nilai yang tidak dikutip. Ini akan membuat pengurai mengumpulkan semua karakter sampai pemisah ditentukan oleh `sep`, atau akhir garis ditemukan dalam input. * `SKIP_VALUE`: Jika kuotasi yang tidak terekap ditemukan dalam input, konten yang diurai untuk nilai yang diberikan akan dilompati (sampai pemisah berikutnya ditemukan) dan nilai yang diset dalam `nullValue` akan dihasilkan sebagai gantinya. * `RAISE_ERROR`: Jika kutipan yang tidak lolos ditemukan dalam input, maka `TextParsingException` akan ditampilkan. Nilai default: `STOP_AT_DELIMITER`

Opsi `XML`

Opsi	Deskripsi	Scope
`rowTag`	Tag baris file XML untuk diperlakukan sebagai baris. Dalam contoh XML `<books> <book><book>...<books>`, nilai yang sesuai adalah `book`. Opsi ini wajib diisi.	baca
`samplingRatio`	Menentukan sebagian kecil baris yang digunakan untuk inferensi skema. Fungsi bawaan XML mengabaikan opsi ini. Default: `1.0`.	baca
`excludeAttribute`	Apakah akan mengecualikan atribut dalam elemen. Default: `false`.	baca
`mode`	Mode untuk menangani rekaman yang rusak selama penguraian. `PERMISSIVE`: Untuk rekaman yang rusak, menempatkan string cacat ke dalam bidang yang dikonfigurasi oleh `columnNameOfCorruptRecord`, dan mengatur bidang cacat ke `null`. Untuk menyimpan rekaman yang `string` rusak, Anda bisa mengatur bidang jenis bernama `columnNameOfCorruptRecord` dalam skema yang ditentukan pengguna. Jika skema tidak memiliki bidang , rekaman yang rusak akan dihilangkan selama penguraian. Saat menyimpulkan skema, pengurai secara implisit `columnNameOfCorruptRecord` menambahkan bidang dalam skema output. `DROPMALFORMED`: Mengabaikan rekaman yang rusak. Mode ini tidak didukung untuk fungsi bawaan XML. `FAILFAST`: Melemparkan pengecualian ketika pengurai memenuhi rekaman yang rusak.	baca
`inferSchema`	Jika `true`, mencoba menyimpulkan jenis yang sesuai untuk setiap kolom DataFrame yang dihasilkan. Jika `false`, semua kolom yang dihasilkan berjenis `string` . Default: `true`. Fungsi bawaan XML mengabaikan opsi ini.	baca
`columnNameOfCorruptRecord`	Memungkinkan penggantian nama bidang baru yang berisi string cacat yang dibuat oleh `PERMISSIVE` Mode. Default: `spark.sql.columnNameOfCorruptRecord`.	baca
`attributePrefix`	Awalan untuk atribut untuk membedakan atribut dari elemen. Ini akan menjadi awalan untuk nama bidang. Defaultnya adalah `_`. Bisa kosong untuk membaca XML, tetapi tidak untuk menulis.	baca, tulis
`valueTag`	Tag yang digunakan untuk data karakter dalam elemen yang juga memiliki elemen atribut atau elemen turunan. Pengguna dapat menentukan `valueTag` bidang dalam skema atau akan ditambahkan secara otomatis selama inferensi skema ketika data karakter ada dalam elemen dengan elemen atau atribut lain. Default: `_VALUE`	baca,tulis
`encoding`	Untuk membaca, dekode file XML dengan jenis pengodean yang diberikan. Untuk menulis, menentukan pengodean (charset) file XML yang disimpan. Fungsi bawaan XML mengabaikan opsi ini. Default: `UTF-8`.	baca, tulis
`ignoreSurroundingSpaces`	Menentukan apakah spasi putih di sekitarnya dari nilai yang dibaca harus dilewati. Default: `true`. Data karakter khusus spasi kosong diabaikan.	baca
`rowValidationXSDPath`	Jalur ke file XSD opsional yang digunakan untuk memvalidasi XML untuk setiap baris satu per satu. Baris yang gagal divalidasi diperlakukan seperti kesalahan parse seperti di atas. XSD tidak memengaruhi skema yang disediakan, atau disimpulkan.	baca
`ignoreNamespace`	Jika `true`, awalan namespace pada elemen dan atribut XML diabaikan. `<abc:author>` Tag dan `<def:author>`, misalnya, diperlakukan seolah-olah keduanya hanya `<author>`. Namespace tidak dapat diabaikan pada `rowTag` elemen , hanya turunan bacanya. Penguraian XML tidak sadar namespace meskipun `false`. Default: `false`.	baca
`timestampFormat`	String format tanda waktu kustom yang mengikuti format pola tanggalwaktu. Ini berlaku untuk `timestamp` jenis. Default: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`.	baca, tulis
`timestampNTZFormat`	String format kustom untuk tanda waktu tanpa zona waktu yang mengikuti format pola tanggalwaktu. Ini berlaku untuk jenis TimestampNTZType. Default: `yyyy-MM-dd'T'HH:mm:ss[.SSS]`	baca, tulis
`dateFormat`	String format tanggal kustom yang mengikuti format pola tanggalwaktu. Ini berlaku untuk jenis tanggal. Default: `yyyy-MM-dd`.	baca, tulis
`locale`	Mengatur lokal sebagai tag bahasa dalam format IETF BCP 47. Misalnya, `locale` digunakan saat mengurai tanggal dan tanda waktu. Default: `en-US`.	baca
`rootTag`	Tag akar file XML. Misalnya, dalam `<books> <book><book>...</books>`, nilai yang sesuai adalah `books`. Anda dapat menyertakan atribut dasar dengan menentukan nilai seperti `books foo="bar"`. Default: `ROWS`.	tulis
`declaration`	Konten deklarasi XML untuk ditulis di awal setiap file XML output, sebelum `rootTag`. Misalnya, nilai `foo` penyebab `<?xml foo?>` ditulis. Atur ke string kosong untuk ditekan. Default: `version="1.0"` `encoding="UTF-8" standalone="yes"`.	tulis
`arrayElementName`	Nama elemen XML yang mengapit setiap elemen kolom bernilai array saat menulis. Default: `item`.	tulis
`nullValue`	Mengatur representasi string dari nilai null. Default: string `null`. Ketika ini adalah `null`, pengurai tidak menulis atribut dan elemen untuk bidang.	baca, tulis
`compression`	Kode pemadatan yang akan digunakan saat menyimpan ke file. Ini bisa menjadi salah satu nama pendek yang tidak peka huruf besar/kecil yang diketahui (`none`, , `bzip2`, `gziplz4`, `snappy', and<br>`deflate'). Fungsi bawaan XML mengabaikan opsi ini. Default: `none`.	tulis
`validateName`	Jika true, melemparkan kesalahan pada kegagalan validasi nama elemen XML. Misalnya, nama bidang SQL dapat memiliki spasi, tetapi nama elemen XML tidak dapat. Default: `true`.	tulis
`readerCaseSensitive`	Menentukan perilaku sensitivitas kasus saat rescuedDataColumn diaktifkan. Jika true, menyelamatkan kolom data yang namanya berbeda menurut huruf besar/kecil dari skema; jika tidak, membaca data tanpa memerhatikan huruf besar/kecil. Default: `true`.	baca
`rescuedDataColumn`	Apakah akan mengumpulkan semua data yang tidak dapat diurai karena ketidakcocokan jenis data dan ketidakcocokan skema (termasuk casing kolom) ke kolom terpisah. Kolom ini disertakan secara default saat menggunakan Auto Loader. Untuk detail selengkapnya, lihat Apa itu kolom data yang diselamatkan?. Default: Tidak ada.	baca

Opsi `PARQUET`

Opsi
`datetimeRebaseMode` Jenis: `String` Mengontrol {i>rebaseEXCEPTION, `LEGACY`, dan `CORRECTED`. Nilai default: `LEGACY`
`int96RebaseMode` Jenis: `String` Mengontrol {i>rebaseEXCEPTION, `LEGACY`, dan `CORRECTED`. Nilai default: `LEGACY`
`mergeSchema` Jenis: `Boolean` Apakah akan menginferensi skema di beberapa file dan untuk menggabungkan skema setiap file. Nilai default: `false`
`readerCaseSensitive` Jenis: `Boolean` Menentukan perilaku sensitivitas huruf besar/kecil saat `rescuedDataColumn` diaktifkan. Jika true, menyelamatkan kolom data yang namanya berbeda menurut huruf besar/kecil dari skema; jika tidak, membaca data tanpa memerhatikan huruf besar/kecil. Nilai default: `true`
`rescuedDataColumn` Jenis: `String` Apakah akan mengumpulkan semua data yang tidak dapat diurai karena: ketidakcocokan jenis data, dan ketidakcocokan skema (termasuk selubung kolom) ke kolom terpisah. Kolom ini disertakan secara default saat menggunakan Auto Loader. Untuk detail selengkapnya, lihat Apa itu kolom data yang diselamatkan?. Nilai default: None

Opsi `AVRO`

Opsi
`avroSchema` Jenis: `String` Skema opsional yang disediakan oleh pengguna dalam format Avro. Saat membaca Avro, opsi ini dapat diatur ke skema yang berevolusi, yang kompatibel tetapi berbeda dengan skema Avro yang sebenarnya. Skema deserialisasi akan konsisten dengan skema yang dikembangkan. Misalnya, jika Anda mengatur skema yang berevolusi yang berisi satu kolom tambahan dengan nilai default, hasil baca juga akan berisi kolom baru. Nilai default: None
`datetimeRebaseMode` Jenis: `String` Mengontrol {i>rebaseEXCEPTION, `LEGACY`, dan `CORRECTED`. Nilai default: `LEGACY`
`mergeSchema` Jenis: `Boolean` Apakah akan menginferensi skema di beberapa file dan untuk menggabungkan skema setiap file. `mergeSchema` untuk Avro tidak mengendurkan jenis data. Nilai default: `false`
`readerCaseSensitive` Jenis: `Boolean` Menentukan perilaku sensitivitas huruf besar/kecil saat `rescuedDataColumn` diaktifkan. Jika true, menyelamatkan kolom data yang namanya berbeda menurut huruf besar/kecil dari skema; jika tidak, membaca data tanpa memerhatikan huruf besar/kecil. Nilai default: `true`
`rescuedDataColumn` Jenis: `String` Apakah akan mengumpulkan semua data yang tidak dapat diurai karena: ketidakcocokan jenis data, dan ketidakcocokan skema (termasuk selubung kolom) ke kolom terpisah. Kolom ini disertakan secara default saat menggunakan Auto Loader. Untuk detail selengkapnya, lihat Apa itu kolom data yang diselamatkan?. Nilai default: None

Opsi `BINARYFILE`

File biner tidak memiliki opsi konfigurasi tambahan.

Opsi `TEXT`

Opsi
`encoding` Jenis: `String` Nama pengkodean file TEXT. Lihat `java.nio.charset.Charset` untuk daftar opsi. Nilai default: `UTF-8`
`lineSep` Jenis: `String` String antara dua baris TEXT berturut-turut. Nilai default: Tidak ada, yang mencakup `\r`, `\r\n`, dan `\n`
`wholeText` Jenis: `Boolean` Apakah akan membaca file sebagai satu baris. Nilai default: `false`

Opsi `ORC`

Opsi
`mergeSchema` Jenis: `Boolean` Apakah akan menginferensi skema di beberapa file dan untuk menggabungkan skema setiap file. Nilai default: `false`

Opsi khusus cloud

Auto Loader menyediakan sejumlah opsi untuk mengonfigurasi infrastruktur cloud.

Opsi khusus AWS
Opsi khusus Azure
Opsi spesifik Google

opsi khusus AWS

Berikan opsi berikut hanya jika Anda memilih cloudFiles.useNotifications = true dan Anda ingin Auto Loader menyiapkan layanan notifikasi untuk Anda:

Opsi
`cloudFiles.region` Jenis: `String` Wilayah tempat wadah S3 sumber berada dan tempat layanan AWS SNS dan SQS akan dibuat. Nilai default: Wilayah instans EC2.

Berikan opsi berikut hanya jika Anda memilih cloudFiles.useNotifications = true dan Anda ingin Auto Loader menggunakan antrean yang telah Anda siapkan:

Opsi
`cloudFiles.queueUrl` Jenis: `String` URL antrean SQS. Jika disediakan, Auto Loader langsung mengonsumsi peristiwa dari antrean ini alih-alih menyiapkan layanan AWS SNS dan SQS sendiri. Nilai default: None

Anda dapat menggunakan opsi berikut untuk memberikan kredensial untuk mengakses AWS SNS dan SQS saat peran IAM tidak tersedia atau saat Anda menyerap data dari cloud yang berbeda.

Opsi
`cloudFiles.awsAccessKey` Jenis: `String` ID kunci akses AWS untuk pengguna. Harus disediakan dengan `cloudFiles.awsSecretKey`. Nilai default: None
`cloudFiles.awsSecretKey` Jenis: `String` Kunci akses rahasia AWS untuk pengguna. Harus disediakan dengan `cloudFiles.awsAccessKey`. Nilai default: None
`cloudFiles.roleArn` Jenis: `String` ARN dari peran IAM untuk mengasumsikan. Peran dapat diasumsikan dari profil instans kluster Anda atau dengan memberikan informasi masuk dengan `cloudFiles.awsAccessKey` dan `cloudFiles.awsSecretKey`. Nilai default: None
`cloudFiles.roleExternalId` Jenis: `String` Pengidentifikasi untuk diberikan saat mengasumsikan peran menggunakan `cloudFiles.roleArn`. Nilai default: None
`cloudFiles.roleSessionName` Jenis: `String` Nama sesi opsional untuk digunakan saat mengasumsikan peran menggunakan `cloudFiles.roleArn`. Nilai default: None
`cloudFiles.stsEndpoint` Jenis: `String` Titik akhir opsional untuk menyediakan akses AWS STS saat mengasumsikan peran menggunakan `cloudFiles.roleArn`. Nilai default: None

Opsi khusus Azure

Anda harus memberikan nilai untuk semua opsi berikut jika Anda menentukan cloudFiles.useNotifications = true dan Anda ingin Auto Loader menyiapkan layanan notifikasi untuk Anda:

Opsi
`cloudFiles.clientId` Jenis: `String` ID aplikasi (klien) perwakilan layanan. Nilai default: None
`cloudFiles.clientSecret` Jenis: `String` Rahasia klien dari perwakilan layanan. Nilai default: None
`cloudFiles.connectionString` Jenis: `String` String koneksi untuk akun penyimpanan, berdasarkan kunci akses akun atau tanda tangan akses bersama (SAS). Nilai default: None
`cloudFiles.resourceGroup` Jenis: `String` Grup Sumber Daya Azure tempat akun penyimpanan dibuat. Nilai default: None
`cloudFiles.subscriptionId` Jenis: `String` ID Langganan Azure tempat grup sumber daya dibuat. Nilai default: None
`cloudFiles.tenantId` Jenis: `String` ID Penyewa Azure tempat perwakilan layanan dibuat. Nilai default: None

Penting

Penyiapan notifikasi otomatis tersedia di wilayah Azure Tiongkok dan Pemerintah dengan Databricks Runtime 9.1 dan yang lebih baru. Anda harus menyediakan Auto Loader untuk menggunakan pemberitahuan file di wilayah ini untuk versi DBR yang queueName lebih lama.

Berikan opsi berikut hanya jika Anda memilih cloudFiles.useNotifications = true dan Anda ingin Auto Loader menggunakan antrean yang telah Anda siapkan:

Opsi
`cloudFiles.queueName` Jenis: `String` Nama antrean Azure. Jika disediakan, sumber file cloud langsung mengonsumsi peristiwa dari antrean ini alih-alih menyiapkan layanan Azure Event Grid dan Queue Storage sendiri. Dalam hal ini, Anda `cloudFiles.connectionString` hanya memerlukan izin baca pada antrean. Nilai default: None

Opsi khusus Google

Auto Loader dapat secara otomatis menyiapkan layanan notifikasi untuk Anda dengan memanfaatkan Akun Layanan Google. Anda dapat mengonfigurasi kluster untuk mengasumsikan akun layanan dengan mengikuti penyiapan layanan Google. Izin yang dibutuhkan akun layanan Anda ditentukan dalam Apa itu mode pemberitahuan file Auto Loader?. Jika tidak, Anda dapat memberikan opsi autentikasi berikut jika Anda ingin Auto Loader menyiapkan layanan notifikasi untuk Anda.

Opsi
`cloudFiles.client` Jenis: `String` ID klien akun Layanan Google. Nilai default: None
`cloudFiles.clientEmail` Jenis: `String` Email akun Google Service. Nilai default: None
`cloudFiles.privateKey` Jenis: `String` Kunci pribadi yang dibuat untuk Akun Layanan Google. Nilai default: None
`cloudFiles.privateKeyId` Jenis: `String` Id kunci pribadi yang dibuat untuk Akun Layanan Google. Nilai default: None
`cloudFiles.projectId` Jenis: `String` Id proyek tempat wadah GCS berada. Langganan Google Cloud Pub/Sub juga akan dibuat dalam proyek ini. Nilai default: None

Berikan opsi berikut hanya jika Anda memilih cloudFiles.useNotifications = true dan Anda ingin Auto Loader menggunakan antrean yang telah Anda siapkan:

Opsi
`cloudFiles.subscription` Jenis: `String` Nama langganan Google Cloud Pub/Sub. Jika disediakan, sumber file cloud mengonsumsi peristiwa dari antrean ini alih-alih menyiapkan Pemberitahuan GCS dan layanan Google Cloud Pub/Sub sendiri. Nilai default: None

Opsi Pemuat Otomatis

Opsi Pemuat Otomatis Umum

Opsi daftar direktori

Opsi Pemberitahuan File

Opsi format file

Opsi generik

Opsi JSON

Opsi CSV

Opsi XML

Opsi PARQUET

Opsi AVRO

Opsi BINARYFILE

Opsi TEXT

Opsi ORC

Opsi khusus cloud

opsi khusus AWS

Opsi khusus Azure

Opsi khusus Google

Sumber Daya Tambahan:

Opsi `JSON`

Opsi `CSV`

Opsi `XML`

Opsi `PARQUET`

Opsi `AVRO`

Opsi `BINARYFILE`

Opsi `TEXT`

Opsi `ORC`