Aracılığıyla paylaş


Otomatik Yükleyici seçenekleri

Kaynağa özgü cloudFiles yapılandırma seçenekleri, diğer Yapılandırılmış Akış kaynağı seçeneklerinden ayrı bir ad alanında olmaları için ön eke cloudFiles sahiptir.

Ortak Otomatik Yükleyici seçenekleri

Otomatik Yükleyici akışları için aşağıdaki seçenekleri yapılandırabilirsiniz.

Seçenekler
cloudFiles.allowOverwrites
Tür: Boolean
Giriş dizin dosyası değişikliklerinin var olan verilerin üzerine yazmasına izin verilip verilmeyeceği.
Yapılandırma uyarıları için bkz. Dosya eklendiğinde veya üzerine yazıldığında Otomatik Yükleyici dosyayı yeniden işleniyor mu?.
Varsayılan: false
cloudFiles.backfillInterval
Tür: Interval String
Otomatik Yükleyici belirli bir aralıkta zaman uyumsuz geri doldurmaları tetikleyebilir. Örneğin, günlük olarak geri doldurmak için 1 day veya haftalık olarak geri doldurmak için 1 week. Daha fazla bilgi için bkz. cloudFiles.backfillInterval kullanarak normal geri doldurmaları tetikleme.
cloudFiles.useManagedFileEvents ayarlandığında true kullanmayın.
Varsayılan: Yok
cloudFiles.cleanSource
Tür: String
İşlenen dosyaların giriş dizininden otomatik olarak silinip silinmeyeceği. (varsayılan) olarak ayarlandığında OFF hiçbir dosya silinmez.
olarak ayarlandığında DELETE, Otomatik Yükleyici dosyaları işlendikten 30 gün sonra otomatik olarak siler. Bunu yapmak için Otomatik Yükleyici'nin kaynak dizine yazma izinleri olmalıdır.
olarak ayarlandığında MOVE, Otomatik Yükleyici dosyaları işlendikten sonraki 30 gün içinde cloudFiles.cleanSource.moveDestination otomatik olarak belirtilen konuma taşır. Bunu yapmak için, Otomatik Yükleyici'nin hem kaynak dizinde hem de taşıma konumuna yazma izinlerine sahip olması gerekir.
Bir dosya, tablo değerli işlevinin sonucunda commit_time için cloud_files_state null olmayan bir değere sahipse işlenmiş olarak kabul edilir. Bakınız cloud_files_state tablo değerli fonksiyon. İşlemden sonraki 30 günlük ek bekleme, kullanılarak cloudFiles.cleanSource.retentionDurationyapılandırılabilir.
Not: Databricks, kaynak konumdan veri kullanan birden çok akış varsa bu seçeneğin kullanılmasını önermez çünkü en hızlı tüketici dosyaları siler ve daha yavaş kaynaklara alınmaz.
Not: Bu özelliğin etkinleştirilmesi için Otomatik Yükleyici'nin denetim noktasında ek durum koruması gerekir ve bu durum performans ek yüküne neden olur ancak tablo değerli işlevi aracılığıyla cloud_files_state daha iyi gözlemlenebilirlik sağlar. Bakınız cloud_files_state tablo değerli fonksiyon.
Not: cleanSource, belirli bir dosyayı MOVE mü yoksa DELETE mü yapacağına geçerli ayarı kullanarak karar verir. Örneğin, ayarın MOVE dosyanın ilk işlendiği zaman olduğunu, ancak 30 gün sonra dosya temizleme adayı olduğunda olarak değiştirildiğini DELETE varsayalım. Bu durumda cleanSource dosyayı siler.
Databricks Runtime 16.4 ve üzerinde kullanılabilir.
Varsayılan: KAPALI
cloudFiles.cleanSource.retentionDuration
Tür: Interval String
İşlenen dosyaların cleanSource ile arşivleme adayı olması için bekleme süresi. DELETE için 7 günden uzun olmalıdır. MOVE için en düşük kısıtlama yoktur.
Databricks Runtime 16.4 ve üzerinde kullanılabilir.
Varsayılan değer: 30 gün
cloudFiles.cleanSource.moveDestination
Tür: String
cloudFiles.cleanSource MOVE olarak ayarlandığında işlenen dosyaların arşivleneceği yol.
Taşıma konumu aşağıdaki yollarla kısıtlanmıştır:
  • Kaynak dizinin alt öğesi olmamalıdır (bu, arşivlenen dosyaların tekrar işlenmesine neden olur)
  • S3: Aynı S3 demetindeki bir dizin olmalıdır. Demetler arası taşımalar, dosyaların indirilip yeni demete yeniden yüklenmesini gerektirir ve bu da pahalı olabilir.
  • GCS: Aynı GCS demetindeki bir dizin olmalıdır. Demetler arası taşımalar, dosyaların indirilip yeni demete yeniden yüklenmesini gerektirir ve bu da pahalı olabilir.
  • Azure: Aynı Azure kapsayıcısında bir dizin olmalıdır. Kapsayıcılar arası taşımalar, dosyaların indirilip yeni kapsayıcıya yeniden yüklenmesini gerektirir ve bu da pahalı olabilir.

Otomatik Yükleyici bu dizinde yazma izinlerine sahip olmalıdır.
Databricks Runtime 16.4 ve üzerinde kullanılabilir.
Varsayılan değer: Yok
cloudFiles.format
Tür: String
Kaynak yoldaki veri dosyası biçimi. İzin verilen değerler şunlardır:

Varsayılan: Yok (gerekli seçenek)
cloudFiles.includeExistingFiles
Tür: Boolean
Mevcut dosyaların akış işleme giriş yoluna dahil edilip edilmeyeceği veya yalnızca ilk kurulumdan sonra gelen yeni dosyaların işlenmesi. Bu seçenek yalnızca bir akışı ilk kez başlattığınızda değerlendirilir. Akışı yeniden başlattıktan sonra bu seçeneğin değiştirilmesinin hiçbir etkisi olmaz.
Varsayılan: true
cloudFiles.inferColumnTypes
Tür: Boolean
Şema çıkarımı kullanıldığında tam sütun türlerinin çıkarılıp çıkarılmayacağı. Varsayılan olarak, JSON ve CSV veri kümeleri çıkarılırken sütunlar dize olarak çıkarılır. Daha fazla ayrıntı için bkz . şema çıkarımı .
Varsayılan: false
cloudFiles.maxBytesPerTrigger
Tür: Byte String
Her tetikleyicide işlenecek yeni bayt sayısı üst sınırı. Her mikrobatch değerini 10 GB veriyle sınırlamak için gibi 10g bir bayt dizesi belirtebilirsiniz. Bu geçici bir maksimum değerdir. Her birinde 3 GB olan dosyalarınız varsa, Azure Databricks bir mikrobatch içinde 12 GB işler. cloudFiles.maxFilesPerTrigger ile birlikte kullanıldığında, Azure Databricks, cloudFiles.maxFilesPerTrigger veya cloudFiles.maxBytesPerTrigger'nin alt sınırına kadar, hangisine önce ulaşılırsa onu tüketir. Bu seçenek, Trigger.Once() ile kullanıldığında hiçbir etkisi yoktur (Trigger.Once() kullanım dışı bırakılmıştır).
Varsayılan: Yok
cloudFiles.maxFileAge
Tür: Interval String
Yinelenen verileri kaldırma amacıyla bir dosya olayının ne kadar süre izlendiği. Databricks, veri alım hızınız saatte milyonlarca dosya ölçüsünde olmadıkça bu parametrenin ayarlanmasını önermez. Daha fazla ayrıntı için Dosya olay izleme bölümüne bakın.
Aşırı agresif ayarlama cloudFiles.maxFileAge , yinelenen veri yüklemesi veya eksik dosyalar gibi veri kalitesi sorunlarına neden olabilir. Bu nedenle Databricks, karşılaştırmalı veri alımı çözümlerinin önerdiğine benzer şekilde 90 gün gibi muhafazakar bir ayar cloudFiles.maxFileAgeönerir.
Varsayılan: Yok
cloudFiles.maxFilesPerTrigger
Tür: Integer
Her tetikleyicide işlenecek en fazla yeni dosya sayısı. cloudFiles.maxBytesPerTrigger ile birlikte kullanıldığında, Azure Databricks, cloudFiles.maxFilesPerTrigger veya cloudFiles.maxBytesPerTrigger'nin alt sınırına kadar, hangisine önce ulaşılırsa onu tüketir. Bu seçeneğin ile Trigger.Once() kullanıldığında hiçbir etkisi yoktur (kullanım dışı).
Varsayılan: 1000
cloudFiles.partitionColumns
Tür: String
Dosyaların dizin yapısından çıkarılmasını istediğiniz Hive stili bölüm sütunlarının virgülle ayrılmış listesi. Hive stili bölüm sütunları, gibi <base-path>/a=x/b=1/c=y/file.formatbir eşitlik işaretiyle birleştirilen anahtar değer çiftleridir. Bu örnekte bölüm sütunları , ave bşeklindedirc. Varsayılan olarak, şema çıkarımı kullanıyorsanız ve veri yüklemek için öğesini sağlıyorsanız <base-path> bu sütunlar şemanıza otomatik olarak eklenir. Bir şema sağlarsanız, Otomatik Yükleyici bu sütunların şemaya eklenmesini bekler. Bu sütunları şemanızın bir parçası olarak istemiyorsanız, bu sütunları yoksaymak için "" belirtebilirsiniz. Ayrıca, aşağıdaki örnekte olduğu gibi sütunların karmaşık dizin yapılarında dosya yolunun çıkarılmasını istediğinizde bu seçeneği kullanabilirsiniz:
<base-path>/year=2022/week=1/file1.csv
<base-path>/year=2022/month=2/day=3/file2.csv
<base-path>/year=2022/month=2/day=4/file3.csv
cloudFiles.partitionColumns olarak belirtilen year,month,day için year=2022 döndürür, ancak file1.csv ve month sütunları day şeklindedir.
month ve day, file2.csv ve file3.csv için doğru şekilde ayrıştırılır.
Varsayılan: Yok
cloudFiles.schemaEvolutionMode
Tür: String
Verilerde yeni sütunlar keşfedildikçe şemayı geliştirme modu. Varsayılan olarak, JSON veri kümeleri çıkarılırken sütunlar dize olarak çıkarılır. Daha fazla ayrıntı için bkz . şema evrimi .
Varsayılan: addNewColumns bir şema sağlanmadığında, none aksi takdirde
cloudFiles.schemaHints
Tür: String
Şema çıkarımı sırasında Otomatik Yükleyici'ye sağladığınız şema bilgileri. Daha fazla ayrıntı için şema ipuçlarına bakın.
Varsayılan: Yok
cloudFiles.schemaLocation
Tür: String
Çıkarsanan şemayı ve sonraki değişiklikleri depolama konumu. Daha fazla ayrıntı için bkz . şema çıkarımı .
Varsayılan: Hiçbiri (şemayı çıkarsamak için gereklidir)
cloudFiles.useStrictGlobber
Tür: Boolean
Apache Spark'taki diğer dosya kaynaklarının varsayılan globbing davranışına uyan sıkı bir globber kullanma seçeneğini değerlendirmek. Diğer ayrıntılar için bkz . Yaygın veri yükleme desenleri . Databricks Runtime 12.2 LTS ve üzerinde kullanılabilir.
Varsayılan: false
cloudFiles.validateOptions
Tür: Boolean
Otomatik Yükleyici seçeneklerinin doğrulanıp doğrulanmayacağı ve bilinmeyen veya tutarsız seçenekler için hata döndürüleceği.
Varsayılan: true

Dizin listeleme seçenekleri

Aşağıdaki seçenekler dizin listeleme moduyla ilgilidir.

Seçenekler
cloudFiles.useIncrementalListing (kullanım dışı)
Tür: String
Bu özellik kullanım dışı bırakıldı. Databricks, yerine cloudFiles.useIncrementalListing
Dizin listeleme modunda tam liste yerine artımlı döküm kullanılıp kullanılmaymayacağı. Varsayılan olarak, Otomatik Yükleyici belirli bir dizinin artımlı listeleme için geçerli olup olmadığını otomatik olarak algılamak için en iyi çabayı gösterir. Artımlı listeyi açıkça kullanabilir veya true veya false olarak ayarlayarak tam dizin listesini kullanabilirsiniz.
Sözcük temelli olmayan bir dizinde artımlı listelemenin yanlış etkinleştirilmesi, Otomatik Yükleyici'nin yeni dosyaları bulmasını engeller.
Azure Data Lake Storage (abfss://), S3 (s3://) ve GCS (gs://) ile çalışır.
Databricks Runtime 9.1 LTS ve üzerinde kullanılabilir.
Varsayılan: autoDatabricks Runtime 16.4 LTS ve altında, false Databricks Runtime 17.0 ve üzerinde
Kullanılabilir değerler: auto, true, false

Dosya bildirim seçenekleri

Aşağıdaki seçenekler dosya bildirim moduyla ilgilidir.

Seçenekler
cloudFiles.fetchParallelism
Tür: Integer
Kuyruğa alma hizmetinden ileti getirirken kullanılacak iş parçacığı sayısı.
cloudFiles.useManagedFileEvents ayarlandığında true kullanmayın.
Varsayılan: 1
cloudFiles.pathRewrites
Tür: JSON dizesi
Yalnızca birden çok S3 kovasından dosya bildirimleri alan bir queueUrl tanımlarsanız ve bu kovalardaki verilere erişmek amacıyla yapılandırılmış bağlama noktalarından yararlanmak istiyorsanız gereklidir. bucket/key yolunun ön ekini bağlama noktasıyla yeniden yazmak için bu seçeneği kullanın. Yalnızca ön ekler yeniden yazılabilir. Örneğin, yapılandırması {"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"} için yolu s3://<databricks-mounted-bucket>/path/2017/08/fileA.json, dbfs:/mnt/data-warehouse/2017/08/fileA.json olarak yeniden yazılır.
cloudFiles.useManagedFileEvents ayarlandığında true kullanmayın.
Varsayılan: Yok
cloudFiles.resourceTag
Tür: Map(String, String)
İlgili kaynakları ilişkilendirmeye ve tanımlamaya yardımcı olacak bir dizi anahtar-değer etiketi çifti, örneğin:
cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")
.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")
AWS hakkında daha fazla bilgi için Amazon SQS maliyet ayırma etiketleri ve Amazon SNS konusu için etiketleri yapılandırma konularına bakın. (1)
Azure hakkında daha fazla bilgi için, Adlandırma Kuyrukları ve Metadata ile properties.labels kapsamını inceleyin. Otomatik Yükleyici bu anahtar-değer etiket çiftlerini JSON'da etiket olarak depolar. (1)
GCP hakkında daha fazla bilgi için Etiketlerle kullanımı raporlama bölümüne bakın. (1)
cloudFiles.useManagedFileEvents ayarlandığında true kullanmayın. Bunun yerine bulut sağlayıcısı konsolunu kullanarak kaynak etiketlerini ayarlayın.
Varsayılan: Yok
cloudFiles.useManagedFileEvents
Önizleme: Dosya olayları için Otomatik Yükleyici desteği Genel Önizleme aşamasındadır. Yalnızca Databricks Runtime 14.3 LTS ve üzerinde kullanılabilir. Önizlemeye kaydolmak için Azure Databricks hesap ekibinize ulaşın.
olarak ayarlandığında true, Otomatik Yükleyici dış konumunuzdaki dosyaları bulmak için dosya olayları hizmetini kullanır. Bu seçeneği yalnızca yükleme yolu dosya olaylarının etkinleştirildiği bir dış konumdaysa kullanabilirsiniz. Bkz . Dosya olaylarıyla dosya bildirim modunu kullanma.
Otomatik Yükleyici son çalıştırmadan bu yana yeni dosyaları bulabildiği için dosya olayları dosya bulmada bildirim düzeyinde performans sağlar. Dizin listesinden farklı olarak, bu işlemin dizindeki tüm dosyaları listelemesi gerekmez.
Dosya olayları seçeneği etkin olsa bile Otomatik Yükleyici'nin dizin listesini kullandığı bazı durumlar vardır:
  • İlk yükleme sırasında, includeExistingFilestrue olarak ayarlandığında, Auto Loader başlatılmadan önce dizinde bulunan tüm dosyaları bulmak için tam bir dizin listelemesi yapılır.
  • Dosya olayları hizmeti, en son oluşturulan dosyaları önbelleğe alarak dosya bulmayı iyileştirir. Otomatik Yükleyici seyrek çalışıyorsa, bu önbelleğin süresi dolabilir ve Otomatik Yükleyici dosyaları bulmak ve önbelleği güncelleştirmek için dizin listesine geri döner. Bu senaryodan kaçınmak için Otomatik Yükleyici'yi en az yedi günde bir kez çalıştırın.
cloudFiles.useNotifications
Tür: Boolean
Yeni dosyaların ne zaman olduğunu belirlemek için dosya bildirim modunun kullanılıp kullanılmayacağını. ise falsedizin listeleme modunu kullanın. Bkz . Otomatik Yükleyici dosya algılama modlarını karşılaştırma.
cloudFiles.useManagedFileEvents ayarlandığında true kullanmayın.
Varsayılan: false

(1) Otomatik Yükleyici varsayılan olarak en iyi çaba temelinde aşağıdaki anahtar-değer etiket çiftlerini ekler:

  • vendor: Databricks
  • path: Verilerin yüklendiği konum. Etiketleme sınırlamaları nedeniyle GCP'de kullanılamıyor.
  • checkpointLocation: Akışın denetim noktasının konumu. Etiketleme sınırlamaları nedeniyle GCP'de kullanılamıyor.
  • streamId: Akış için genel olarak benzersiz bir tanımlayıcı.

Bu anahtar isimleri ayrılmıştır ve değerlerini değiştiremezsiniz.

Dosya biçimi seçenekleri

Otomatik Yükleyici ile JSON, CSV, PARQUET, AVRO, TEXT, BINARYFILE ve ORC dosyalarını alabilirsiniz.

Genel seçenekler

Aşağıdaki seçenekler tüm dosya biçimleri için geçerlidir.

Seçenek
ignoreCorruptFiles
Tür: Boolean
Bozuk dosyaların görmezden gelinmesi gerekip gerekmediği. True ise, Bozuk dosyalarla karşılaşıldığında Spark işleri çalışmaya devam eder ve okunan içerik yine döndürülür. numSkippedCorruptFiles olarak gözlemlenebilir
operationMetrics Delta Lake'in geçmiş sütunu. Databricks Runtime 11.3 LTS ve üzerinde kullanılabilir.
Varsayılan değer: false
ignoreMissingFiles
Tür: Boolean
Eksik dosyaların göz ardı edilip edilmeyeceği. Doğruysa, Spark işleri eksik dosyalarla karşılaşıldığında çalışmaya devam eder ve okunan içerik yine döndürülür. Databricks Runtime 11.3 LTS ve üzerinde kullanılabilir.
Varsayılan değer: Otomatik Yükleyici için false, true için COPY INTO (eski)
modifiedAfter
Tür: Timestamp String, örneğin, 2021-01-01 00:00:00.000000 UTC+0
Yalnızca sağlanan zaman damgasından sonra değişiklik zaman damgasına sahip dosyaları almak için filtre olarak isteğe bağlı bir zaman damgası.
Varsayılan değer: Yok
modifiedBefore
Tür: Timestamp String, örneğin, 2021-01-01 00:00:00.000000 UTC+0
Yalnızca sağlanan zaman damgasından önce değişiklik zaman damgasına sahip dosyaları almak için filtre olarak isteğe bağlı bir zaman damgası.
Varsayılan değer: Yok
pathGlobFilter veya fileNamePattern
Tür: String
Dosya seçmeye yönelik olası bir glob deseni. Eşdeğer
PATTERN, COPY INTO içinde (eski). fileNamePattern içinde read_fileskullanılabilir.
Varsayılan değer: Yok
recursiveFileLookup
Tür: Boolean
Bu seçenek, adları date=2019-07-01 gibi bir bölüm adlandırma düzenini izlemese bile iç içe geçmiş dizinlerde arama yapar.
Varsayılan değer: false

JSON Seçenekler

Seçenek
allowBackslashEscapingAnyCharacter
Tür: Boolean
Ters eğik çizginin başarılı olan herhangi bir karakterden kaçmasına izin verilip verilmeyeceği. Etkinleştirilmemişse, yalnızca JSON spesifikasyonunda açıkça listelenen karakterlerden kaçılabilir.
Varsayılan değer: false
allowComments
Tür: Boolean
Ayrıştırılmış içerik içinde Java, C ve C++ stil açıklamalarının ('/', '*'ve '//' çeşitlerinin) kullanılmasına izin verilip verilmeyeceği.
Varsayılan değer: false
allowNonNumericNumbers
Tür: Boolean
Bir sayı olmayan (NaN) belirteç kümesinin yasal kayan sayı değerleri olarak izin verilip verilmeyeceği.
Varsayılan değer: true
allowNumericLeadingZeros
Tür: Boolean
İntegral sayıların ek (yoksayılabilir) sıfırlarla başlamasına izin verilip verilmeyeceği (örneğin, 000001).
Varsayılan değer: false
allowSingleQuotes
Tür: Boolean
Dizeleri (adlar ve Dize değerleri) alıntılama için tek tırnak (kesme işareti, karakter '\') kullanımına izin verilip verilmeyeceği.
Varsayılan değer: true
allowUnquotedControlChars
Tür: Boolean
JSON dizelerinin kaçışsız denetim karakterlerini (sekme ve satır besleme karakterleri dahil olmak üzere 32'den küçük ASCII karakterleri) içerip içermemesi gerekip gerekmediği.
Varsayılan değer: false
allowUnquotedFieldNames
Tür: Boolean
Tırnak işareti olmadan yazılmış alan adlarının kullanımına izin verilip verilmeyeceği (JavaScript tarafından izin verilir, ancak JSON belirtimi tarafından izin verilmez).
Varsayılan değer: false
badRecordsPath
Tür: String
Hatalı JSON kayıtları hakkındaki bilgileri kaydetmek için dosyaları depolama yolu.
badRecordsPath Dosya tabanlı veri kaynağında seçeneğinin kullanılması aşağıdaki sınırlamalara sahiptir:
  • İşlem dışıdır ve tutarsız sonuçlara yol açabilir.
  • Geçici hatalar hata olarak değerlendirilir.

Varsayılan değer: Yok
columnNameOfCorruptRecord
Tür: String
Hatalı biçimlendirilmiş ve ayrıştırılamayan kayıtları depolama sütunu. mode ayrıştırma için olarak DROPMALFORMEDayarlanırsa, bu sütun boş olur.
Varsayılan değer: _corrupt_record
dateFormat
Tür: String
Tarih dizelerini ayrıştırma formatı.
Varsayılan değer: yyyy-MM-dd
dropFieldIfAllNull
Tür: Boolean
Şema çıkarımı sırasında tüm değerleri null olan veya boş olan dizi ve yapı sütunlarının yoksayılması gerekip gerekmediği.
Varsayılan değer: false
encoding veya charset
Tür: String
JSON dosyalarının kodlama adı. Seçeneklerin listesi için bkz java.nio.charset.Charset . UTF-16 UTF-32 olduğunda multiline ve true kullanamazsınız.
Varsayılan değer: UTF-8
inferTimestamp
Tür: Boolean
Zaman damgası dizelerinin TimestampType olarak çıkarılıp çıkarılmayacağının denenmesi. Olarak ayarlandığında
true, şema çıkarımı önemli ölçüde daha uzun sürebilir. cloudFiles.inferColumnTypes öğesini Otomatik Yükleyici ile kullanmak için etkinleştirmeniz gerekir.
Varsayılan değer: false
lineSep
Tür: String
Ardışık iki JSON kaydı arasındaki dize.
Varsayılan değer: Hiçbiri, \r, \r\n ve \n'yi kapsayan.
locale
Tür: String
Tanımlayıcıjava.util.Locale. JSON içinde varsayılan tarih, zaman damgası ve ondalık ayrıştırma işlemini etkiler.
Varsayılan değer: US
mode
Tür: String
Bozuk kayıtların işlenmesi konusunda ayrıştırma modu. PERMISSIVE, DROPMALFORMEDveya FAILFAST.
Varsayılan değer: PERMISSIVE
multiLine
Tür: Boolean
JSON kayıtlarının birden çok satıra yayılıp yayılmadığı.
Varsayılan değer: false
prefersDecimal
Tür: Boolean
Mümkün olduğunda dizeleri, float veya double türü yerine DecimalType olarak çıkarsamaya çalışır. Ayrıca, şema çıkarımını etkinleştirerek kullanmanız gerekir.
inferSchema veya cloudFiles.inferColumnTypes Otomatik Yükleyici ile kullanma.
Varsayılan değer: false
primitivesAsString
Tür: Boolean
Sayılar ve booleans gibi ilkel türlerin StringType olarak çıkarım yapılıp yapılmayacağı.
Varsayılan değer: false
readerCaseSensitive
Tür: Boolean
Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. Doğruysa, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını geri getirin; aksi takdirde verileri büyük/küçük harf duyarsız bir şekilde okuyun. Databricks Runtime'da kullanılabilir
13.3 ve üzeri.
Varsayılan değer: true
rescuedDataColumn
Tür: String
Veri türü uyuşmazlığı veya şema uyuşmazlığı (sütun kasası dahil) nedeniyle ayrıştırılmayan tüm verilerin ayrı bir sütuna toplanıp toplanmayacağı. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Diğer ayrıntılar için kurtarılan veri sütunu nedir? konusuna bakın.
COPY INTO (eski), COPY INTOkullanarak şemayı el ile ayarlayamadığınızdan kurtarılan veri sütununu desteklemez. Databricks, çoğu alım senaryosu için Otomatik Yükleyici'nin kullanılmasını önerir.
Varsayılan değer: Yok
singleVariantColumn
Tür: String
JSON belgesinin tamamının alınıp alınmayacağı, verilen dizeyi sütun adı olarak kullanarak tek bir Variant sütununa ayrıştırılmasına bağlıdır. Devre dışı bırakılırsa, JSON alanları kendi sütunlarına aktarılır.
Varsayılan değer: Yok
timestampFormat
Tür: String
Zaman damgası dizelerini ayrıştırma biçimi.
Varsayılan değer: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone
Tür: String
java.time.ZoneId Zaman damgalarını ve tarihleri ayrıştırırken kullanılacak.
Varsayılan değer: Yok

CSV Seçenekler

Seçenek
badRecordsPath
Tür: String
Bozuk CSV kayıtları hakkındaki bilgileri kaydetmek için dosyaları depolama yolu.
Varsayılan değer: Yok
charToEscapeQuoteEscaping
Tür: Char
Tırnak işaretinden kaçmak için kullanılan karakter. Örneğin, aşağıdaki kayıt için: [ " a\\", b ]
  • kaçış '\' karakteri tanımsızsa, kayıt ayrıştırılmaz. Ayrıştırıcı, karakterleri okur: [a],[\],["],[,],[ ],[b] ve kapanış tırnak işareti bulamadığından bir hata verir.
  • '\' kaçış karakteri '\'olarak tanımlandığında, kayıt iki değerle okunur: [a\] ve [b].

Varsayılan değer: '\0'
columnNameOfCorruptRecord
Otomatik Yükleyici desteklenmektedir. COPY INTO (eski sistem) için destek sağlanmamaktadır.
Tür: String
Hatalı biçimlendirilmiş ve ayrıştırılamayan kayıtları depolama sütunu. mode ayrıştırma için olarak DROPMALFORMEDayarlanırsa, bu sütun boş olur.
Varsayılan değer: _corrupt_record
comment
Tür: Char
Metin satırının başında bulunduğunda satır açıklamasını temsil eden karakteri tanımlar. Açıklama atlama özelliğini devre dışı bırakmak için kullanın '\0' .
Varsayılan değer: '\u0000'
dateFormat
Tür: String
Tarih dizelerini ayrıştırma formatı.
Varsayılan değer: yyyy-MM-dd
emptyValue
Tür: String
Boş bir değerin dize gösterimi.
Varsayılan değer: ""
encoding veya charset
Tür: String
CSV dosyalarının kodlama adı. Seçenekler listesi için bkz java.nio.charset.Charset . UTF-16 ve UTF-32 olduğunda multilinetruekullanılamaz.
Varsayılan değer: UTF-8
enforceSchema
Tür: Boolean
Belirtilen veya çıkarsanan şemanın CSV dosyalarına zorla uygulanıp uygulanmayacağı. Bu seçenek etkinleştirilirse, CSV dosyalarının üst bilgileri yoksayılır. Verileri kurtarmak ve şema evrimine izin vermek için Otomatik Yükleyici kullanılırken bu seçenek varsayılan olarak yoksayılır.
Varsayılan değer: true
escape
Tür: Char
Verileri ayrıştırırken kullanılacak kaçış karakteri.
Varsayılan değer: '\'
header
Tür: Boolean
CSV dosyalarının üst bilgi içerip içermediği. Otomatik Yükleyici, şemayı çıkarma sırasında dosyaların üst bilgileri olduğunu varsayar.
Varsayılan değer: false
ignoreLeadingWhiteSpace
Tür: Boolean
Ayrıştırılan her değer için baştaki boşlukların göz ardı edilip edilmeyeceği.
Varsayılan değer: false
ignoreTrailingWhiteSpace
Tür: Boolean
Ayrıştırılan her değer için sondaki boşlukların görmezden gelinip gelinmeyeceği.
Varsayılan değer: false
inferSchema
Tür: Boolean
Ayrıştırılan CSV kayıtlarının veri türlerinin çıkarılması mı yoksa tüm sütunların StringType olduğu varsayımı mı yapılacağı. true olarak ayarlanırsa, veriler üzerinde ek bir geçiş gerektirir. Otomatik Yükleyici için bunun yerine kullanın cloudFiles.inferColumnTypes .
Varsayılan değer: false
lineSep
Tür: String
Ardışık iki CSV kaydı arasındaki dize.
Varsayılan değer: Hiçbiri, \r, \r\n ve \n'yi kapsayan.
locale
Tür: String
Tanımlayıcıjava.util.Locale. CSV içinde varsayılan tarih, zaman damgası ve ondalık ayrıştırma işlemini etkiler.
Varsayılan değer: US
maxCharsPerColumn
Tür: Int
Ayrıştırmak için bir değerden beklenen karakter sayısı üst sınırı. Bellek hatalarını önlemek için kullanılabilir. Varsayılan değer -1 olup sınırsız anlamına gelir.
Varsayılan değer: -1
maxColumns
Tür: Int
Bir kaydın kaç sütuna sahip olabileceğinin sabit sınırı.
Varsayılan değer: 20480
mergeSchema
Tür: Boolean
Çeşitli dosyalar arasında şemayı çıkarmak ve her dosyanın şemasını birleştirmek. Şema çıkarıldığında Otomatik Yükleyici için varsayılan olarak etkindir.
Varsayılan değer: false
mode
Tür: String
Bozuk kayıtların işlenmesi konusunda ayrıştırma modu. Bunlardan biri 'PERMISSIVE'
'DROPMALFORMED' ve 'FAILFAST'.
Varsayılan değer: PERMISSIVE
multiLine
Tür: Boolean
CSV kayıtlarının birden çok satıra yayılıp yayılmadığı.
Varsayılan değer: false
nanValue
Tür: String
FloatType ve DoubleType sütunlarını ayrıştırırken, sayı olmayan bir değerin dize gösterimi.
Varsayılan değer: "NaN"
negativeInf
Tür: String
Negatif sonsuzluğun dize gösterimi, FloatType veya DoubleType sütunları ayrıştırılırken kullanılır.
Varsayılan değer: "-Inf"
nullValue
Tür: String
Null değerin dize gösterimi.
Varsayılan değer: ""
parserCaseSensitive (kullanım dışı)
Tür: Boolean
Dosyalar okunurken, başlıkta belirtilen sütunların şemayla büyük küçük harf duyarlı olarak hizalanıp hizalanmayacağına karar verilmesi. Bu, Otomatik Yükleyici için varsayılan olarakdır true . Etkinleştirilirse, büyük/küçük harfe göre farklılık gösteren sütunlar rescuedDataColumn içinde kurtarılır. Kullanımdan kaldırılmıştır, çünkü yerine readerCaseSensitive konulmuştur.
Varsayılan değer: false
positiveInf
Tür: String
FloatType veya DoubleType sütunlarının ayrıştırılması sırasında pozitif sonsuzluğun dize gösterimi.
Varsayılan değer: "Inf"
preferDate
Tür: Boolean
Mümkün olduğunda metinleri zaman damgası yerine tarih olarak algılama girişiminde bulunur. Şema çıkarımını kullanmanız için ya inferSchema'ü etkinleştirmeniz ya da kullanmanız gerekir.
cloudFiles.inferColumnTypes Otomatik Yükleyici ile.
Varsayılan değer: true
quote
Tür: Char
Alan sınırlayıcısının değerin bir parçası olduğu değerlerden kaçış için kullanılan karakter.
Varsayılan değer: "
readerCaseSensitive
Tür: Boolean
Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. Doğruysa, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını geri getirin; aksi takdirde verileri büyük/küçük harf duyarsız bir şekilde okuyun.
Varsayılan değer: true
rescuedDataColumn
Tür: String
Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf kullanımı dahil) nedeniyle ayrıştırılamayan tüm verilerin ayrı bir sütunda toplanması gerekip gerekmediği. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Daha fazla ayrıntı için kurtarılan veri sütunu nedir? konusuna bakın.
COPY INTO (eski), COPY INTOkullanarak şemayı el ile ayarlayamadığınızdan kurtarılan veri sütununu desteklemez. Databricks, çoğu alım senaryosu için Otomatik Yükleyici'nin kullanılmasını önerir.
Varsayılan değer: Yok
sep veya delimiter
Tür: String
Sütunlar arasındaki ayırıcı dize.
Varsayılan değer: ","
skipRows
Tür: Int
CSV dosyasının başından itibaren göz ardı edilmesi gereken satır sayısı (açıklamalı ve boş satırlar dahil). header doğruysa, üst bilgi ilk atlanmamış ve yorumlanmamış satır olur.
Varsayılan değer: 0
timestampFormat
Tür: String
Zaman damgası dizelerini ayrıştırma biçimi.
Varsayılan değer: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone
Tür: String
java.time.ZoneId Zaman damgalarını ve tarihleri ayrıştırırken kullanılacak.
Varsayılan değer: Yok
unescapedQuoteHandling
Tür: String
Kaçışsız tırnak işaretlerini işleme stratejisi. İzin verilen seçenekler:
  • STOP_AT_CLOSING_QUOTE: Girişte kaçışsız tırnaklar bulunursa, tırnak karakterini toplayın ve kapanış tırnağı bulunana kadar değeri tırnaklı bir değer olarak ayrıştırmaya devam edin.
  • BACK_TO_DELIMITER: Girişte kaçış karakteri kullanılmamış tırnak işaretleri bulunursa, değeri tanımsız bir değer olarak düşünün. Bu, ayrıştırıcının sep ile tanımlanan sınırlayıcı bulunana kadar, mevcut ayrıştırılan değerin tüm karakterlerini toplamasını sağlar. Değer içerisinde bir sınırlayıcı bulunmazsa, ayrıştırıcı bir sınırlayıcı veya satır sonu bulunana kadar girdiden karakterleri toplamaya devam edecektir.
  • STOP_AT_DELIMITER: Girişte kaçış karakteri kullanılmamış tırnak işaretleri bulunursa, değeri tanımsız bir değer olarak düşünün. Bu, ayrıştırıcının sep ile tanımlanan sınırlayıcıya kadar veya girişte bir satır sonu bulunana kadar tüm karakterleri biriktirmesini sağlar.
  • SKIP_VALUE: Girişte sıralanmamış tırnak işaretleri bulunursa, verilen değer için ayrıştırılan içerik atlanır (bir sonraki sınırlayıcı bulunana kadar) ve bunun yerine nullValue'de ayarlanan değer oluşturulur.
  • RAISE_ERROR: Girişte kaçmamış tırnak işaretleri bulunursa,
    TextParsingException fırlatılır.

Varsayılan değer: STOP_AT_DELIMITER

XML Seçenekler

Seçenek Açıklama Kapsam
rowTag Satır olarak değerlendirilecek XML dosyalarının satır etiketi. Örnek XML'de <books> <book><book>...<books>, uygun değer şeklindedir book. Bu gerekli bir seçenektir. okundu
samplingRatio Şema çıkarımı için kullanılan satırların bir bölümünü tanımlar. XML yerleşik işlevleri bu seçeneği yoksayar. Varsayılan: 1.0. okundu
excludeAttribute Öğelerdeki özniteliklerin dışlanıp dışlanmaymayacağı. Varsayılan: false. okundu
mode Ayrıştırma sırasında bozuk kayıtlarla ilgilenme modu.
PERMISSIVE: Bozuk kayıtlar için, hatalı biçimlendirilmiş dizeyi columnNameOfCorruptRecord tarafından yapılandırılan bir alana yerleştirir ve hatalı biçimlendirilmiş alanları null olarak ayarlar. Bozuk kayıtları tutmak için, kullanıcı tanımlı şemada string adlı columnNameOfCorruptRecord bir tür alanı ayarlayabilirsiniz. Bir şemada alan yoksa, ayrıştırma sırasında bozuk kayıtlar bırakılır. Bir şema çıkarıldığında, ayrıştırıcı, bir çıkış şemasına örtük olarak columnNameOfCorruptRecord alanı ekler.
DROPMALFORMED: Bozuk kayıtları yoksayar. Bu mod, XML yerleşik işlevleri için desteklenmez.
FAILFAST: Ayrıştırıcı bozuk kayıtlarla karşılaştığında bir istisna oluşturur.
okundu
inferSchema Eğer true ise, sonuçta elde edilen her DataFrame sütunu için uygun bir tür çıkarsamaya çalışır. Eğer false ise, elde edilen tüm sütunlar string türündedir. Varsayılan:
true. XML yerleşik işlevleri bu seçeneği yoksayar.
okundu
columnNameOfCorruptRecord Tarafından oluşturulan hatalı biçimlendirilmiş bir dize içeren yeni alanın yeniden adlandırılmasına izin verir
PERMISSIVE modu. Varsayılan: spark.sql.columnNameOfCorruptRecord.
okundu
attributePrefix Öznitelikleri öğelerden ayırt etmek için özniteliklere yönelik ön ek. Bu, alan adları için ön ek olacaktır. Varsayılan _ değeridir. XML okumak için boş olabilir, ancak yazmak için boş olamaz. okuma, yazma
valueTag Öznitelikleri veya alt öğeleri de olan öğelerdeki karakter verileri için kullanılan etiket. Kullanıcı, şemadaki alanı belirtebilir valueTag veya karakter verileri diğer öğelere veya özniteliklere sahip öğelerde mevcut olduğunda şema çıkarımı sırasında otomatik olarak eklenir. Varsayılan: _VALUE okuma,yazma
encoding Okuma için XML dosyalarını verilen kodlama türüne göre çözer. Yazmak için, kaydedilen XML dosyalarının kodlamasını (karakter kümesi) belirtir. XML yerleşik işlevleri bu seçeneği yoksayar. Varsayılan: UTF-8. okuma, yazma
ignoreSurroundingSpaces Okunan değerlerin etrafındaki boşlukların atlanıp atlanmayacağını belirler. Varsayılan: true. Yalnızca boşluktan oluşan karakter verileri yoksayılır. okundu
rowValidationXSDPath Her satırın XML'sini ayrı ayrı doğrulamak için kullanılan isteğe bağlı bir XSD dosyasının yolu. Doğrulanemeyen satırlar yukarıdaki gibi ayrıştırma hataları olarak değerlendirilir. XSD, sağlanan veya çıkarılmış şemayı başka bir şekilde etkilemez. okundu
ignoreNamespace Eğer true, XML öğeleri ve özniteliklerindeki ad alanlarının ön ekleri yoksayılır. Etiketler <abc:author> ve <def:author>, örneğin, her ikisi de yalnızca <author>olarak değerlendirilir. rowTag öğesinde ad alanları yoksayılamaz, yalnızca okunabilir alt öğeleri yoksayılabilir. XML ayrıştırma, false olsa bile ad alanı duyarlı değildir. Varsayılan: false. okundu
timestampFormat Tarih saat deseni biçimini izleyen özel zaman damgası biçim dizesi. Bu tür için timestamp geçerlidir. Varsayılan: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. okuma, yazma
timestampNTZFormat Zaman dilimi içermeyen zaman damgası için tarih ve saat deseni biçimine uygun özel biçim dizesi. Bu, TimestampNTZType türü için geçerlidir. Varsayılan:
yyyy-MM-dd'T'HH:mm:ss[.SSS]
okuma, yazma
dateFormat Datetime desenine uygun özel tarih formatı dizesi. Bu, tarih türü için geçerlidir. Varsayılan: yyyy-MM-dd. okuma, yazma
locale Yerel ayarı IETF BCP 47 biçiminde bir dil etiketi olarak ayarlar. Örneğin, locale tarihler ve zaman damgaları ayrıştırılırken kullanılır. Varsayılan: en-US. okundu
rootTag XML dosyalarının kök etiketi. Örneğin, <books> <book><book>...</books> için uygun değer books'dir. gibi books foo="bar"bir değer belirterek temel öznitelikler ekleyebilirsiniz. Varsayılan: ROWS. yaz
declaration Her çıktı XML dosyasının başında, rootTag etiketi öncesinde yazılacak XML bildiriminin içeriği. Örneğin, foo değeri, <?xml foo?>'in yazılmasına neden olur. Boş bir dizeye ayarlayarak baskılayın. Varsayılan: version="1.0"
encoding="UTF-8" standalone="yes".
yaz
arrayElementName Yazma sırasında, dizi değerli bir sütunun her öğesini saran XML öğesinin adı. Varsayılan: item. yaz
nullValue Null değerin dize gösterimini ayarlar. Varsayılan: string null. Bu olduğunda null, çözümleyici alanlar için öznitelikler ve öğeler oluşturmaz. okuma, yazma
compression Dosyaya kaydederken kullanılacak sıkıştırma kodu. Bu, bilinen büyük/küçük harfe duyarsız kısaltmalardan biri olabilir (none, bzip2, gzip, lz4, snappy), ve
deflate. ) XML yerleşik işlevleri bu seçeneği yoksayar. Varsayılan: none.
yaz
validateName Doğruysa, XML öğesi adı doğrulama hatası oluştuğunda bir hata atar. Örneğin, SQL alan adlarının boşlukları olabilir, ancak XML öğesi adları olamaz. Varsayılan:
true.
yaz
readerCaseSensitive rescuedDataColumn etkinleştirildiğinde büyük/küçük harf duyarlılığı davranışını açıklar. Doğruysa, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını geri getirin; aksi takdirde verileri büyük/küçük harf duyarsız bir şekilde okuyun. Varsayılan: true. okundu
rescuedDataColumn Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf kullanımı dahil) nedeniyle ayrıştırılamayan tüm verilerin ayrı bir sütunda toplanması gerekip gerekmediği. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Daha fazla ayrıntı için bkz . Kurtarılan veri sütunu nedir?.
COPY INTO (eski), COPY INTOkullanarak şemayı el ile ayarlayamadığınızdan kurtarılan veri sütununu desteklemez. Databricks, çoğu alım senaryosu için Otomatik Yükleyici'nin kullanılmasını önerir.
Varsayılan: Yok.
okundu
singleVariantColumn Tek değişkenli sütunun adını belirtir. Okuma için bu seçenek belirtilirse, xml kaydının tamamını tek bir Variant sütununa ayrıştırın ve verilen seçenek dizesi değeri sütunun adı olarak belirtin. Bu seçenek yazmak için sağlanmışsa, tek Variant sütununun değerini XML dosyalarına yazın. Varsayılan: none. okuma, yazma

PARQUET Seçenekler

Seçenek
datetimeRebaseMode
Tür: String
Julian ve Proleptik Gregoryen takvimler arasında tarih ve zaman damgası değerlerinin yeniden ayarlanmasını denetler. İzin verilen değerler: EXCEPTION, LEGACYve
CORRECTED.
Varsayılan değer: LEGACY
int96RebaseMode
Tür: String
Jülyen ve Proleptik Gregoryen takvimleri arasında INT96 zaman damgası değerlerinin yeniden düzenlenmesini kontrol eder. İzin verilen değerler: EXCEPTION, LEGACYve
CORRECTED.
Varsayılan değer: LEGACY
mergeSchema
Tür: Boolean
Çeşitli dosyalar arasında şemayı çıkarmak ve her dosyanın şemasını birleştirmek.
Varsayılan değer: false
readerCaseSensitive
Tür: Boolean
Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. Doğruysa, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını geri getirin; aksi takdirde verileri büyük/küçük harf duyarsız bir şekilde okuyun.
Varsayılan değer: true
rescuedDataColumn
Tür: String
Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf kullanımı dahil) nedeniyle ayrıştırılamayan tüm verilerin ayrı bir sütunda toplanması gerekip gerekmediği. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Daha fazla ayrıntı için kurtarılan veri sütunu nedir? konusuna bakın.
COPY INTO (eski), COPY INTOkullanarak şemayı el ile ayarlayamadığınızdan kurtarılan veri sütununu desteklemez. Databricks, çoğu alım senaryosu için Otomatik Yükleyici'nin kullanılmasını önerir.
Varsayılan değer: Yok

AVRO Seçenekler

Seçenek
avroSchema
Tür: String
Avro formatında kullanıcı tarafından sağlanan isteğe bağlı bir şema. Avro okunurken bu seçenek, gerçek Avro şemasıyla uyumlu ancak farklı olan gelişmiş bir şemaya ayarlanabilir. Seri durumdan çıkarma şeması, geliştirilen şemayla tutarlı olacaktır. Örneğin, varsayılan değere sahip bir ek sütun içeren gelişmiş bir şema ayarlarsanız, okuma sonucu yeni sütunu da içerir.
Varsayılan değer: Yok
datetimeRebaseMode
Tür: String
Julian ve Proleptik Gregoryen takvimler arasında tarih ve zaman damgası değerlerinin yeniden ayarlanmasını denetler. İzin verilen değerler: EXCEPTION, LEGACYve
CORRECTED.
Varsayılan değer: LEGACY
mergeSchema
Tür: Boolean
Çeşitli dosyalar arasında şemayı çıkarmak ve her dosyanın şemasını birleştirmek.
Avro için mergeSchema veri türlerinde esneklik sağlamaz.
Varsayılan değer: false
readerCaseSensitive
Tür: Boolean
Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. Doğruysa, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını geri getirin; aksi takdirde verileri büyük/küçük harf duyarsız bir şekilde okuyun.
Varsayılan değer: true
rescuedDataColumn
Tür: String
Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf kullanımı dahil) nedeniyle ayrıştırılamayan tüm verilerin ayrı bir sütunda toplanması gerekip gerekmediği. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir.
COPY INTO (eski), COPY INTOkullanarak şemayı el ile ayarlayamadığınızdan kurtarılan veri sütununu desteklemez. Databricks, çoğu alım senaryosu için Otomatik Yükleyici'nin kullanılmasını önerir.
Daha fazla ayrıntı için kurtarılan veri sütunu nedir? konusuna bakın.
Varsayılan değer: Yok

BINARYFILE Seçenekler

İkili dosyalar ek yapılandırma seçeneklerine sahip değildir.

TEXT Seçenekler

Seçenek
encoding
Tür: String
Metin dosyası satır ayırıcısının kodlama adı. Seçeneklerin listesi için bkz java.nio.charset.Charset. .
Dosyanın içeriği bu seçenekten etkilenmez ve as-isokunur.
Varsayılan değer: UTF-8
lineSep
Tür: String
Ardışık iki METİN kaydı arasındaki dize.
Varsayılan değer: Hiçbiri, \r, \r\n ve \n'yi kapsar
wholeText
Tür: Boolean
Bir dosyanın tek bir kayıt olarak okunup okunmayacağı.
Varsayılan değer: false

ORC Seçenekler

Seçenek
mergeSchema
Tür: Boolean
Çeşitli dosyalar arasında şemayı çıkarmak ve her dosyanın şemasını birleştirmek.
Varsayılan değer: false

Buluta özgü seçenekler

Otomatik Yükleyici, bulut altyapısını yapılandırmak için çeşitli seçenekler sağlar.

AWS'ye özgü seçenekler

Yalnızca cloudFiles.useNotifications = true seçtiyseniz ve Otomatik Yükleyici'nin bildirim hizmetlerini sizin için ayarlamasını istiyorsanız, aşağıdaki seçeneği sağlayın:

Seçenek
cloudFiles.region
Tür: String
Kaynak S3 demetinin bulunduğu ve AWS SNS ve SQS hizmetlerinin oluşturulacağı bölge.
Varsayılan: EC2 örneğinin bölgesi.

Önceden ayarlamış olduğunuz bir kuyruğun otomatik yükleyici tarafından kullanılmasını istiyorsanız ve cloudFiles.useNotifications = true seçeneğini seçerseniz, aşağıdaki seçeneği belirtin:

Seçenek
cloudFiles.queueUrl
Tür: String
SQS kuyruğunun URL'si. Sağlanırsa, Otomatik Yükleyici kendi AWS SNS ve SQS hizmetlerini ayarlamak yerine bu kuyruktan gelen olayları doğrudan kullanır.
Varsayılan: Yok

AWS kimlik doğrulama seçenekleri

Databricks hizmeti kimlik bilgilerini kullanmak için aşağıdaki kimlik doğrulama seçeneğini belirtin:

Seçenek
databricks.serviceCredential
Tür: String
Databricks hizmet kimlik bilgilerinizin adı. Databricks Runtime 16.1 ve üzerinde kullanılabilir.
Varsayılan: Yok

Databricks hizmeti kimlik bilgileri veya IAM rolleri kullanılamadığında, bunun yerine aşağıdaki kimlik doğrulama seçeneklerini sağlayabilirsiniz:

Seçenekler
cloudFiles.awsAccessKey
Tür: String
Kullanıcının AWS erişim anahtarı kimliği. ile cloudFiles.awsSecretKeysağlanmalıdır.
Varsayılan: Yok
cloudFiles.awsSecretKey
Tür: String
Kullanıcının AWS gizli erişim anahtarı. ile cloudFiles.awsAccessKeysağlanmalıdır.
Varsayılan: Yok
cloudFiles.roleArn
Tür: String
Gerektiğinde üstlenmek üzere bir IAM rolünün ARN'si. Rol, kümenizin örnek profilinden varsayılabilir veya cloudFiles.awsAccessKey ve cloudFiles.awsSecretKey ile kimlik bilgileri sağlanarak varsayılabilir.
Varsayılan: Yok
cloudFiles.roleExternalId
Tür: String
cloudFiles.roleArn kullanarak bir rolü üstlenirken sağlamanız gereken bir tanımlayıcı.
Varsayılan: Yok
cloudFiles.roleSessionName
Tür: String
Bir rol üstlenirken cloudFiles.roleArn kullanılarak kullanılacak isteğe bağlı oturum adı.
Varsayılan: Yok
cloudFiles.stsEndpoint
Tür: String
Bir rol üstlenilirken cloudFiles.roleArn kullanarak AWS STS'ye erişim sağlamak amacıyla isteğe bağlı bir uç nokta.
Varsayılan: Yok

Azure'a özgü seçenekler

Belirttiğinizde ve Otomatik Yükleyici'nin bildirim hizmetlerini sizin için ayarlamasını istiyorsanız aşağıdaki seçeneklerin cloudFiles.useNotifications = true tümü için değerler sağlamanız gerekir:

Seçenekler
cloudFiles.resourceGroup
Tür: String
Depolama hesabının oluşturulduğu Azure Kaynak Grubu.
Varsayılan: Yok
cloudFiles.subscriptionId
Tür: String
Kaynak grubunun oluşturulduğu Azure Abonelik Kimliği.
Varsayılan: Yok
databricks.serviceCredential
Tür: String
Databricks hizmet kimlik bilgilerinizin adı. Databricks Runtime 16.1 ve üzerinde kullanılabilir.
Varsayılan: Yok

Databricks hizmeti kimlik bilgileri kullanılamıyorsa, bunun yerine aşağıdaki kimlik doğrulama seçeneklerini sağlayabilirsiniz:

Seçenekler
cloudFiles.clientId
Tür: String
Hizmet sorumlusunun istemci kimliği veya uygulama kimliği.
Varsayılan: Yok
cloudFiles.clientSecret
Tür: String
Hizmet prensibinin istemci gizli anahtarı.
Varsayılan: Yok
cloudFiles.connectionString
Tür: String
Hesap erişim anahtarına veya paylaşılan erişim imzasını (SAS) temel alan depolama hesabının bağlantı dizesi.
Varsayılan: Yok
cloudFiles.tenantId
Tür: String
Hizmet sorumlusunun oluşturulduğu Azure Kiracı Kimliği.
Varsayılan: Yok

Önemli

Otomatik bildirim kurulumu, Databricks Runtime 9.1 ve sonraki sürümleriyle Azure Çin ve Kamu bölgelerinde kullanılabilir. Eski DBR sürümleri için bu bölgelerde dosya bildirimleriyle Otomatik Yükleyici'yi kullanabilmek için bir queueName sağlamanız gerekir.

Önceden ayarlamış olduğunuz bir kuyruğun otomatik yükleyici tarafından kullanılmasını istiyorsanız ve cloudFiles.useNotifications = true seçeneğini seçerseniz, aşağıdaki seçeneği belirtin:

Seçenek
cloudFiles.queueName
Tür: String
Azure kuyruğunun adı. Verildiği takdirde, bulut dosyaları kaynağı, kendi Azure Event Grid ve Kuyruk Depolama hizmetlerini kurmak yerine doğrudan bu kuyruktan gelen olayları işler. Bu durumda, databricks.serviceCredential veya cloudFiles.connectionString yalnızca kuyrukta okuma izni gerektirir.
Varsayılan: Yok

Google'a özgü seçenekler

Otomatik Yükleyici, Databrickshizmet kimlik bilgilerini kullanarak bildirim hizmetlerini sizin için otomatik olarak ayarlayabilir. Databricks hizmeti kimlik bilgileriyle oluşturulan hizmet hesabı, Otomatik Yükleyici akışlarını dosya bildirim modunda yapılandırma bölümünde belirtilen izinleri gerektirir.

Seçenekler
cloudFiles.projectId
Tür: String
GCS kovasının bulunduğu projenin ID'si. Google Cloud Pub/Sub aboneliği de bu proje içinde oluşturulacaktır.
Varsayılan: Yok
databricks.serviceCredential
Tür: String
Databricks hizmet kimlik bilgilerinizin adı. Databricks Runtime 16.1 ve üzerinde kullanılabilir.
Varsayılan: Yok

Databricks hizmeti kimlik bilgileri kullanılamıyorsa, Google Hizmet Hesapları'nı doğrudan kullanabilirsiniz. Google hizmet kurulumu izleyerek kümenizi bir hizmet hesabı varsayacak şekilde yapılandırabilir veya doğrudan aşağıdaki kimlik doğrulama seçeneklerini sağlayabilirsiniz:

Seçenekler
cloudFiles.client
Tür: String
Google Hizmet Hesabının istemci kimliği.
Varsayılan: Yok
cloudFiles.clientEmail
Tür: String
Google Hizmet Hesabının e-posta adresi.
Varsayılan: Yok
cloudFiles.privateKey
Tür: String
Google Hizmet Hesabı için oluşturulan özel anahtar.
Varsayılan: Yok
cloudFiles.privateKeyId
Tür: String
Google Hizmet Hesabı için oluşturulan özel anahtarın kimliği.
Varsayılan: Yok

Önceden ayarlamış olduğunuz bir kuyruğun otomatik yükleyici tarafından kullanılmasını istiyorsanız ve cloudFiles.useNotifications = true seçeneğini seçerseniz, aşağıdaki seçeneği belirtin:

Seçenek
cloudFiles.subscription
Tür: String
Google Cloud Pub/Sub aboneliğinin adı. Eğer sağlanırsa, bulut dosya kaynağı bu kuyruktan gelen bu etkinlikleri kullanır, kendi GCS Bildirimini ve Google Cloud Pub/Sub hizmetlerini ayarlamak yerine.
Varsayılan: Yok