Aracılığıyla paylaş


COPY INTO

Şunlar için geçerlidir:onay işareti evet olarak işaretlenmiş Databricks SQL onay işareti evet olarak işaretlenmiş Databricks Runtime

Bir dosya konumundaki verileri Delta tablosuna yükler. Bu yeniden denenebilir ve etkili bir işlemdir— Zaten yüklenmiş olan kaynak konumdaki dosyalar atlanır. Dosyalar yüklendikten sonra değiştirilmiş olsa bile bu durum geçerlidir. Örnekler için bkz. COPY INTOkullanarak yaygın veri yükleme desenleri.

Sözdizimi

COPY INTO target_table [ BY POSITION | ( col_name [ , <col_name> ... ] ) ]
  FROM { source_clause |
         ( SELECT expression_list FROM source_clause ) }
  FILEFORMAT = data_source
  [ VALIDATE [ ALL | num_rows ROWS ] ]
  [ FILES = ( file_name [, ...] ) | PATTERN = glob_pattern ]
  [ FORMAT_OPTIONS ( { data_source_reader_option = value } [, ...] ) ]
  [ COPY_OPTIONS ( { copy_option = value } [, ...] ) ]

source_clause
  source [ WITH ( [ CREDENTIAL { credential_name |
                                 (temporary_credential_options) } ]
                  [ ENCRYPTION (encryption_options) ] ) ]

Parametreler

  • target_table

    Var olan bir Delta tablosunu tanımlar. target_table zamansal belirtim veya seçenek belirtimi içermemelidir.

    Tablo adı aşağıdaki gibi delta.`/path/to/table` bir konum biçiminde sağlanmışsa Unity Kataloğu, yazılmakta olan konumlara erişimi yönetebilir. Dış konuma şu şekilde yazabilirsiniz:

    • Konumu dış konum olarak tanımlamak ve o dış konum üzerinde WRITE FILES izinlerine sahip olmak.

    • Adlandırılmış depolama kimlik bilgileri üzerinde, WRITE FILES kullanarak bir konuma yazma yetkisi sağlayan izinlere sahip olma: COPY INTO delta.`/some/location` WITH (CREDENTIAL <named-credential>)

    Diğer ayrıntılar için bkz. Unity Kataloğu'nu kullanarak bulut nesne depolamasına bağlanma .

  • BY POSITION | ( col_name [ , <col_name> ... ] )

    Kaynak sütunları sıralı konuma göre hedef tablo sütunlarıyla eşleştirir. Eşleşen sütunların tür ataması otomatik olarak yapılır.

    Bu parametre yalnızca üst bilgisiz CSV dosya biçimi için desteklenir. FILEFORMAT = CSV belirtmek zorundasınız. FORMAT_OPTIONS ayrıca ("headers" = "false") olarak ayarlanmalıdır (FORMAT_OPTIONS ("headers" = "false") varsayılandır).

    Söz dizimi seçeneği 1: BY POSITION

    • Kaynak sütunları hedef tablo sütunlarıyla sıralı konuma göre otomatik olarak eşleştirir.
      • Varsayılan isim eşleştirme, eşleştirme için kullanılmaz.
      • IDENTITY ve GENERATED hedef tablonun sütunları, kaynak sütunlarla eşleştirilirken yoksayılır.
      • Kaynak sütunların sayısı filtrelenen hedef tablo sütunlarına eşit değilse hata COPY INTO verir.

    Söz dizimi seçeneği 2: ( col_name [ , <col_name> ... ] )

    • Kaynak sütunları, virgülle ayrılmış parantez içinde bir hedef tablo sütun adı listesi kullanarak göreli konuma göre belirtilen hedef tablo sütunlarıyla eşleştirir.
      • Özgün tablo sütun sırası ve sütun adları eşleştirme için kullanılmaz.
      • IDENTITY sütun ve GENERATED sütunlar sütun adı listesinde belirtilemez, aksi takdirde COPY INTO hataya neden olur.
      • Belirtilen sütunlar çoğaltılamaz.
      • Kaynak sütun sayısı belirtilen tablo sütunlarına COPY INTO eşit olmadığında bir hata oluşur.
      • Sütun adı listesinde belirtilmeyen sütunlar için, eğer mevcutsa, varsayılan değerleri COPY INTO atar; aksi takdirde NULL atar. Herhangi bir sütun null olamazsa, COPY INTO bir hata oluşturur.
  • source

    Verilerin yüklenecek dosya konumu. Bu konumdaki dosyaların içinde FILEFORMATbelirtilen biçime sahip olması gerekir. Konum, URI biçiminde sağlanır.

    Kaynak konuma erişim şu şekilde sağlanabilir:

    • credential_name

      Depolama konumuna erişmek veya bu konuma yazmak için kullanılan kimlik bilgilerinin isteğe bağlı adı. Bu kimlik bilgilerini yalnızca dosya konumu bir dış konuma dahil değilse kullanırsınız. Bkz. credential_name.

    • Satır içi geçici kimlik bilgileri.

    • Kaynak konumunu dış konum olarak tanımlama ve Unity Kataloğu ile dış konum üzerinde READ FILES izinlerine sahip olma.

    • Unity Kataloğu aracılığıyla bir konumdan okuma yetkisi sağlayan izinlere sahip READ FILES adlandırılmış depolama kimlik bilgilerini kullanma.

    Yol, kullanma izniniz olan bir dış konum olarak tanımlanmışsa satır içi veya adlandırılmış kimlik bilgileri sağlamanız gerekmez. Daha fazla ayrıntı için bkz . Bulut depolamayı Azure Databricks'e bağlamak için dış konum oluşturma.

    Not olarak belirtin

    Kaynak dosya yolu bir kök yolsa, lütfen dosya yolunun sonuna eğik çizgi (/) ekleyin; örneğin, s3://my-bucket/.

    Kabul edilen kimlik bilgisi seçenekleri şunlardır:

    • ADLS ve Azure Blob Depolama için AZURE_SAS_TOKEN
    • AWS_ACCESS_KEY, AWS_SECRET_KEYve AWS_SESSION_TOKEN AWS S3 için

    Kabul edilen şifreleme seçenekleri şunlardır:

    • TYPE = 'AWS_SSE_C', ve MASTER_KEY AWS S3 için

bkz.geçici kimlik bilgileriyle kullanarak veri yükleme .

  • SELECT expression_list

    Delta tablosuna kopyalamadan önce kaynak verilerden belirtilen sütunları veya ifadeleri seçer. SELECT ifadelerle kullanabileceğiniz şeyler, pencere işlemleri de dahil olmak üzere her şey olabilir. Toplama ifadelerini yalnızca genel toplamalar için kullanabilirsiniz; bu söz dizimine sahip sütunlarda kullanamazsınız GROUP BY .

  • FILEFORMAT = data_source

    Yüklenecek kaynak dosyaların biçimi. Bir tanesi CSV, JSON, AVRO, ORC, PARQUET, TEXT, BINARYFILE.

  • VALIDATE

    Şunlar için geçerlidir:onay işareti evet olarak işaretlenmiş Databricks SQL onay işareti evet olarak işaretlenmiş Databricks Runtime 10.4 LTS ve üzeri

    Bir tabloya yüklenecek veriler doğrulanır ancak tabloya yazılmaz. Bu doğrulamalar şunlardır:

    • Verilerin ayrıştırılabilir olup olmadığı.
    • Şemanın tablonunkiyle eşleşip eşleşmediği veya şemanın geliştirilmesi gerekip gerekmediği.
    • Tüm boş olabilirlik ve denetim kısıtlamalarının karşılanıp karşılanmadığı.

    Varsayılan değer, yüklenecek tüm verileri doğrulamaktır. anahtar sözcüğüyle ROWS doğrulanacak bir dizi satır sağlayabilirsiniz, örneğin VALIDATE 15 ROWS. COPY INTO deyimi, ROWS anahtar sözcüğü ile 50'den az bir sayı kullanıldığında 50 satır veya daha az olan verilerin önizlemesini sağlar.

  • FILES

    Yüklenecek dosya adlarının listesi ve 1000 dosya sınırı. PATTERN ile belirtilemez.

  • PATTERN

    Kaynak dizinden yüklenecek dosyaları tanımlayan bir glob deseni. FILES ile belirtilemez.

    Desen Açıklama
    ? Herhangi bir tek karakterle eşleşir
    * Sıfır veya daha çok sayıda karakterle eşleşir
    [abc] {a,b,c} karakter kümesindeki tek bir karakterle eşleşir.
    [a-z] {a...z} karakter aralığındaki tek bir karakterle eşleşir.
    [^a] {a} karakter kümesinden veya aralıktan olmayan tek bir karakterle eşleşir. Karakterin ^ açılış parantezinin hemen sağında yer alması gerektiğini unutmayın.
    {ab,cd} {ab, cd} dize kümesindeki bir dizeyle eşleşir.
    {ab,c{de, fh}} {ab, cde, cfh} dize kümesindeki bir dizeyle eşleşir.
  • FORMAT_OPTIONS

    Belirtilen biçim için Apache Spark veri kaynağı okuyucusna geçirilecek seçenekler. Bkz. Her dosya biçimi için biçim seçenekleri .

  • COPY_OPTIONS

    COPY INTO komutunun çalışmasını denetleme seçenekleri.

    • force: boolean, varsayılan false. true olarak ayarlandığında, idemponansi devre dışı bırakılır ve dosyalar daha önce yüklenmiş olup olmadıklarına bakılmaksızın yüklenir.
    • mergeSchema: boolean, varsayılan false. olarak ayarlanırsa true, şema gelen verilere göre geliştirilebilir.

Eşzamanlı olarak COPY INTO çağır

COPY INTO aynı tabloda eşzamanlı çağrıları destekler. Eşzamanlı olarak COPY INTO dosya setleri üzerinde çağrıldığı sürece, her çağrının başarıyla sonuçlanması gerekir, aksi takdirde bir işlem çakışması ile karşılaşabilirsiniz. COPY INTO performansı geliştirmek için eşzamanlı olarak çağrılmamalıdır; birden çok dosya içeren tek COPY INTO bir komut genellikle her birinde tek bir dosyayla eşzamanlı COPY INTO komutları çalıştırmaktan daha iyi performans gösterir. COPY INTO şu durumlarda eşzamanlı olarak çağrılabilir:

  • Birden çok veri üreticisinin koordine etmek için kolay bir yolu yoktur ve tek bir çağrı yapamaz.
  • Çok büyük bir dizin, alt dizinler halinde sırayla işlenebiliyorsa. Çok fazla sayıda dosya içeren dizinleri alırken Databricks mümkün olduğunda Otomatik Yükleyici'nin kullanılmasını önerir.

Dosya meta verilerine erişme

Dosya tabanlı veri kaynaklarının meta verilerine erişmeyi öğrenmek için bkz . Dosya meta verileri sütunu.

Biçim seçenekleri

Genel seçenekler

Aşağıdaki seçenekler tüm dosya biçimleri için geçerlidir.

Seçenek
ignoreCorruptFiles
Tür: Boolean
Bozuk dosyaları yoksayma seçeneği. True ise, Bozuk dosyalarla karşılaşıldığında Spark işleri çalışmaya devam eder ve okunan içerik yine döndürülür. numSkippedCorruptFiles şeklinde gözlemlenebilir
operationMetrics Delta Lake geçmişi sütunu. Databricks Runtime 11.3 LTS ve üzerinde kullanılabilir.
Varsayılan değer: false
ignoreMissingFiles
Tür: Boolean
Eksik dosyaların göz ardı edilip edilmeyeceği. Doğruysa, Spark işleri eksik dosyalarla karşılaşıldığında çalışmaya devam eder ve okunan içerik yine döndürülür. Databricks Runtime 11.3 LTS ve üzerinde kullanılabilir.
Varsayılan değer: Otomatik Yükleyici için false, true için COPY INTO (eski)
modifiedAfter
Tür: Timestamp String, örneğin, 2021-01-01 00:00:00.000000 UTC+0
Yalnızca sağlanan zaman damgasından sonra değişiklik zaman damgasına sahip dosyaları almak için filtre olarak isteğe bağlı bir zaman damgası.
Varsayılan değer: Yok
modifiedBefore
Tür: Timestamp String, örneğin, 2021-01-01 00:00:00.000000 UTC+0
Yalnızca sağlanan zaman damgasından önce değişiklik zaman damgasına sahip dosyaları almak için filtre olarak isteğe bağlı bir zaman damgası.
Varsayılan değer: Yok
pathGlobFilter veya fileNamePattern
Tür: String
Dosya seçmeye yönelik olası bir glob deseni. Eşdeğer
PATTERN, COPY INTO (eski) içinde. fileNamePattern içinde read_fileskullanılabilir.
Varsayılan değer: Yok
recursiveFileLookup
Tür: Boolean
Bu seçenek, adları date=2019-07-01 gibi bir bölüm adlandırma düzenini izlemese bile iç içe geçmiş dizinlerde arama yapar.
Varsayılan değer: false

JSON Seçenekler

Seçenek
allowBackslashEscapingAnyCharacter
Tür: Boolean
Ters eğik çizginin başarılı olan herhangi bir karakterden kaçmasına izin verilip verilmeyeceği. Etkinleştirilmediğinde, yalnızca JSON spesifikasyonu tarafından açıkça listelenen karakterlerden kaçınılabilir.
Varsayılan değer: false
allowComments
Tür: Boolean
Ayrıştırılmış içerik içinde Java, C ve C++ stil açıklamalarının ('/', '*'ve '//' çeşitlerinin) kullanılmasına izin verilip verilmeyeceği.
Varsayılan değer: false
allowNonNumericNumbers
Tür: Boolean
Bir sayı olmayan (NaN) belirteç kümesinin yasal kayan sayı değerleri olarak izin verilip verilmeyeceği.
Varsayılan değer: true
allowNumericLeadingZeros
Tür: Boolean
İntegral sayıların ek (yoksayılabilir) sıfırlarla başlamasına izin verilip verilmeyeceği (örneğin, 000001).
Varsayılan değer: false
allowSingleQuotes
Tür: Boolean
Dizeleri (adlar ve Dize değerleri) alıntılama için tek tırnak (kesme işareti, karakter '\') kullanımına izin verilip verilmeyeceği.
Varsayılan değer: true
allowUnquotedControlChars
Tür: Boolean
JSON dizelerinin kaçışı yapılmamış denetim karakterleri (sekme ve satır besleme karakterleri dahil olmak üzere 32'den küçük ASCII karakterleri) içermesine izin verilip verilmeyeceği.
Varsayılan değer: false
allowUnquotedFieldNames
Tür: Boolean
Okunmamış alan adlarının kullanımına izin verilip verilmeyeceği (JavaScript tarafından izin verilir, ancak JSON belirtimi tarafından izin verilmez).
Varsayılan değer: false
badRecordsPath
Tür: String
Hatalı JSON kayıtları hakkındaki bilgileri kaydetmek için dosyaları depolama yolu.
badRecordsPath Dosya tabanlı veri kaynağında seçeneğinin kullanılması aşağıdaki sınırlamalara sahiptir:
  • İşlem dışıdır ve tutarsız sonuçlara yol açabilir.
  • Geçici hatalar hata olarak değerlendirilir.

Varsayılan değer: Yok
columnNameOfCorruptRecord
Tür: String
Hatalı biçimlendirilmiş ve ayrıştırılamayan kayıtları depolama sütunu. mode ayrıştırma için olarak DROPMALFORMEDayarlanırsa, bu sütun boş olur.
Varsayılan değer: _corrupt_record
dateFormat
Tür: String
Tarih dizelerini ayrıştırma formatı.
Varsayılan değer: yyyy-MM-dd
dropFieldIfAllNull
Tür: Boolean
Şema çıkarımı sırasında tümü null olan değerler veya boş diziler ve yapılar içeren sütunların göz ardı edilip edilmeyeceği.
Varsayılan değer: false
encoding veya charset
Tür: String
JSON dosyalarının kodlama adı. Seçeneklerin listesi için bkz java.nio.charset.Charset . UTF-16 UTF-32 olduğunda multiline ve true kullanamazsınız.
Varsayılan değer: UTF-8
inferTimestamp
Tür: Boolean
Zaman damgası dizelerinin TimestampType olarak çıkarılmaya çalışılıp çalışılmayacağı. Olarak ayarlandığında
true, şema çıkarımı önemli ölçüde daha uzun sürebilir. cloudFiles.inferColumnTypes'ı Otomatik Yükleyici ile kullanmak için etkinleştirmeniz gerekir.
Varsayılan değer: false
lineSep
Tür: String
Ardışık iki JSON kaydı arasındaki dize.
Varsayılan değer: Hiçbiri, bu \r, \r\n, ve \n öğelerini kapsar.
locale
Tür: String
Bir tanımlayıcı java.util.Locale. JSON içinde varsayılan tarih, zaman damgası ve ondalık ayrıştırma işlemini etkiler.
Varsayılan değer: US
mode
Tür: String
Hatalı biçimlendirilmiş kayıtların işlenmesi için ayrıştırıcı modu. PERMISSIVE, DROPMALFORMEDveya FAILFAST.
Varsayılan değer: PERMISSIVE
multiLine
Tür: Boolean
JSON kayıtlarının birden çok satıra yayılıp yayılmadığı.
Varsayılan değer: false
prefersDecimal
Tür: Boolean
Mümkün olduğunda, kayan veya çift tür yerine dizeleri DecimalType olarak yorumlamaya çalışır. Şema çıkarımını etkinleştirerek kullanmanız da gerekir.
inferSchema veya Otomatik Yükleyici ile cloudFiles.inferColumnTypes kullanımı.
Varsayılan değer: false
primitivesAsString
Tür: Boolean
Sayilar ve booleanlar gibi ilkel türlerin StringType olarak yorumlanıp yorumlanmayacağı.
Varsayılan değer: false
readerCaseSensitive
Tür: Boolean
Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. Doğruysa, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını kurtarın; aksi takdirde, verileri büyük/küçük harfe duyarlı olmayan bir şekilde okuyun. Databricks Runtime'da kullanılabilir
13.3 ve üzeri.
Varsayılan değer: true
rescuedDataColumn
Tür: String
Veri türü uyuşmazlığı veya şema uyuşmazlığı (sütun kasası dahil) nedeniyle ayrıştırılmayan tüm verilerin ayrı bir sütuna toplanıp toplanmayacağı. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Diğer ayrıntılar için kurtarılan veri sütunu nedir? konusuna bakın.
COPY INTO (eski), COPY INTOkullanarak şemayı el ile ayarlayamadığınızdan kurtarılan veri sütununu desteklemez. Databricks, çoğu alım senaryosu için Otomatik Yükleyici'nin kullanılmasını önerir.
Varsayılan değer: Yok
singleVariantColumn
Tür: String
JSON belgesinin tamamının alınıp alınmayacağı, verilen dizeyi sütun adı olarak kullanarak tek bir Variant sütununa ayrıştırılmasına bağlıdır. Devre dışı bırakılırsa, JSON alanları kendi sütunlarına aktarılır.
Varsayılan değer: Yok
timestampFormat
Tür: String
Zaman damgası dizelerini ayrıştırma biçimi.
Varsayılan değer: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone
Tür: String
java.time.ZoneId Zaman damgalarını ve tarihleri ayrıştırırken kullanılacak.
Varsayılan değer: Yok

CSV Seçenekler

Seçenek
badRecordsPath
Tür: String
Bozuk CSV kayıtları hakkındaki bilgileri kaydetmek için dosyaları depolama yolu.
Varsayılan değer: Yok
charToEscapeQuoteEscaping
Tür: Char
Alıntı işaretlerinden kaçmak için kullanılan karakteri kaçırmak amacıyla kullanılan karakter. Örneğin, aşağıdaki kayıt için: [ " a\\", b ]
  • kaçış '\' karakteri tanımsızsa, kayıt ayrıştırılmaz. Ayrıştırıcı şu karakterleri okur: [a],[\],["],[,],[ ],[b] ve kapanış tırnak işareti bulamadığından hata mesajı verir.
  • '\' kaçış karakteri '\'olarak tanımlandığında, kayıt iki değerle okunur: [a\] ve [b].

Varsayılan değer: '\0'
columnNameOfCorruptRecord
Otomatik Yükleyici için desteklenir. COPY INTO (eski sistem) için destek sağlanmamaktadır.
Tür: String
Hatalı biçimlendirilmiş ve ayrıştırılamayan kayıtları depolama sütunu. mode ayrıştırma için olarak DROPMALFORMEDayarlanırsa, bu sütun boş olur.
Varsayılan değer: _corrupt_record
comment
Tür: Char
Metin satırının başında bulunduğunda satır açıklamasını temsil eden karakteri tanımlar. Açıklama atlama özelliğini devre dışı bırakmak için kullanın '\0' .
Varsayılan değer: '\u0000'
dateFormat
Tür: String
Tarih dizelerini ayrıştırma formatı.
Varsayılan değer: yyyy-MM-dd
emptyValue
Tür: String
Boş bir değerin dize gösterimi.
Varsayılan değer: ""
encoding veya charset
Tür: String
CSV dosyalarının kodlama adı. Seçenekler listesi için bkz java.nio.charset.Charset . UTF-16 ve UTF-32 olduğunda multilinetruekullanılamaz.
Varsayılan değer: UTF-8
enforceSchema
Tür: Boolean
Belirtilen veya çıkarsanan şemanın CSV dosyalarına zorla uygulanıp uygulanmayacağı. Seçenek etkinleştirilirse, CSV dosyalarının üst bilgileri göz ardı edilir. Verileri kurtarmak ve şema evrimine izin vermek için Otomatik Yükleyici kullanılırken bu seçenek varsayılan olarak yoksayılır.
Varsayılan değer: true
escape
Tür: Char
Verileri ayrıştırırken kullanılacak kaçış karakteri.
Varsayılan değer: '\'
header
Tür: Boolean
CSV dosyalarının üst bilgi içerip içermediği. Auto Loader, şemayı çıkarırken dosyaların üst bilgileri olduğunu varsayar.
Varsayılan değer: false
ignoreLeadingWhiteSpace
Tür: Boolean
Ayrıştırılan her değer için baştaki boşlukların göz ardı edilip edilmeyeceği.
Varsayılan değer: false
ignoreTrailingWhiteSpace
Tür: Boolean
Her bir ayrıştırılmış değer için sondaki boşlukların görmezden gelip gelinmeyeceği.
Varsayılan değer: false
inferSchema
Tür: Boolean
Ayrıştırılan CSV kayıtlarının veri türlerinin çıkarılıp çıkarılmayacağı veya tüm sütunların StringType veri türünde olduğu varsayılacak mı. "true olarak ayarlanırsa, veriler üzerinde ek bir geçiş gerektirir." Otomatik Yükleyici için bunun yerine kullanın cloudFiles.inferColumnTypes .
Varsayılan değer: false
lineSep
Tür: String
Ardışık iki CSV kaydı arasındaki dize.
Varsayılan değer: Hiçbiri, bu \r, \r\n, ve \n öğelerini kapsar.
locale
Tür: String
Bir tanımlayıcı java.util.Locale. CSV içinde varsayılan tarih, zaman damgası ve ondalık ayrıştırma işlemini etkiler.
Varsayılan değer: US
maxCharsPerColumn
Tür: Int
Ayrıştırmak için bir değerden beklenen karakter sayısı üst sınırı. Bellek hatalarını önlemek için kullanılabilir. Varsayılan olarak -1 değeri, sınırsız anlamına gelir.
Varsayılan değer: -1
maxColumns
Tür: Int
Bir kaydın kaç sütuna sahip olabileceğinin sabit sınırı.
Varsayılan değer: 20480
mergeSchema
Tür: Boolean
Şemaların birden fazla dosya arasında çıkarılması ve her dosyanın şemasının birleştirilmesi gerekip gerekmediği. Şema çıkarıldığında Otomatik Yükleyici için varsayılan olarak etkindir.
Varsayılan değer: false
mode
Tür: String
Hatalı biçimlendirilmiş kayıtların işlenmesi için ayrıştırıcı modu. 'nin biri 'PERMISSIVE'
'DROPMALFORMED', 'FAILFAST'.
Varsayılan değer: PERMISSIVE
multiLine
Tür: Boolean
CSV kayıtlarının birden çok satıra yayılıp yayılmadığı.
Varsayılan değer: false
nanValue
Tür: String
Bir sayı olmayan değerin dize gösterimi, FloatType ve DoubleType sütunlarını ayrıştırırken kullanılır.
Varsayılan değer: "NaN"
negativeInf
Tür: String
FloatType veya DoubleType sütunlarını ayrıştırırken negatif sonsuzluğun dize temsili.
Varsayılan değer: "-Inf"
nullValue
Tür: String
Null değerin dize gösterimi.
Varsayılan değer: ""
parserCaseSensitive (kullanım dışı)
Tür: Boolean
Dosyalar okunurken, üst bilgide belirtilen sütunların, şema ile büyük/küçük harf duyarlı bir şekilde hizalanıp hizalanmayacağı. Bu, Otomatik Yükleyici için varsayılan olarakdır true . Büyük ve küçük harflerde farklılık gösteren sütunlar, etkinleştirildiğinde rescuedDataColumn içinde kurtarılır. Bu seçenek, readerCaseSensitive lehine kullanım dışı bırakılmıştır.
Varsayılan değer: false
positiveInf
Tür: String
FloatType veya DoubleType sütunları ayrıştırılırken pozitif sonsuzluğun dize gösterimi.
Varsayılan değer: "Inf"
preferDate
Tür: Boolean
Mümkün olduğunda dizeleri zaman damgası yerine tarih olarak çözümlemeye çalışır. Ayrıca, inferSchema etkinleştirerek veya başka bir yöntem kullanarak şema çıkarımından faydalanmanız gerekir.
cloudFiles.inferColumnTypes otomatik yükleyici ile.
Varsayılan değer: true
quote
Tür: Char
Alan sınırlayıcısının değerin bir parçası olduğu değerlerden kaçış için kullanılan karakter.
Varsayılan değer: "
readerCaseSensitive
Tür: Boolean
Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. Doğruysa, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını kurtarın; aksi takdirde, verileri büyük/küçük harfe duyarlı olmayan bir şekilde okuyun.
Varsayılan değer: true
rescuedDataColumn
Tür: String
Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf kullanımı dahil) nedeniyle ayrıştırılamayan tüm verilerin ayrı bir sütunda toplanması gerekip gerekmediği. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Daha fazla ayrıntı için kurtarılan veri sütunu nedir? konusuna bakın.
COPY INTO (eski), COPY INTOkullanarak şemayı el ile ayarlayamadığınızdan kurtarılan veri sütununu desteklemez. Databricks, çoğu alım senaryosu için Otomatik Yükleyici'nin kullanılmasını önerir.
Varsayılan değer: Yok
sep veya delimiter
Tür: String
Sütunlar arasındaki ayırıcı dize.
Varsayılan değer: ","
skipRows
Tür: Int
CSV dosyasının başından görmezden gelinmesi gereken satır sayısı (açıklamalı ve boş satırlar dahil). Eğer header doğruysa, başlık atlanmamış ve yorum eklenmemiş ilk satır olacaktır.
Varsayılan değer: 0
timestampFormat
Tür: String
Zaman damgası dizelerini ayrıştırma biçimi.
Varsayılan değer: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]
timeZone
Tür: String
java.time.ZoneId Zaman damgalarını ve tarihleri ayrıştırırken kullanılacak.
Varsayılan değer: Yok
unescapedQuoteHandling
Tür: String
Kaçış karakteri kullanılmamış tırnak işaretlerini ele alma stratejisi. İzin verilen seçenekler:
  • STOP_AT_CLOSING_QUOTE: Girişte kaçmamış tırnak işaretleri bulunursa, tırnak karakterini biriktirin ve kapanış tırnağı bulunana kadar değeri tırnak içinde bir değer olarak ayrıştırmaya devam edin.
  • BACK_TO_DELIMITER: Girişte kaçış karakteri kullanılmamış tırnak işaretleri bulunursa, değeri tanımsız bir değer olarak düşünün. Bu, sep tarafından tanımlanan sınırlayıcı bulunana kadar mevcut ayrıştırılan değerin tüm karakterlerini ayrıştırıcının toplamasını sağlar. Değerde bir sınırlayıcı bulunmadığında ayrıştırıcı, bir sınırlayıcı veya satır sonu bulunana kadar girişten karakterler biriktirmeye devam edecektir.
  • STOP_AT_DELIMITER: Girişte kaçış karakteri kullanılmamış tırnak işaretleri bulunursa, değeri tanımsız bir değer olarak düşünün. Bu, ayrıştırıcının, sep tarafından tanımlanan sınırlayıcı veya girişte bir satır sonu bulunana kadar tüm karakterleri biriktirmesini sağlar.
  • SKIP_VALUE: Girişte sıralanmamış tırnak işaretleri bulunursa, verilen değer için ayrıştırılan içerik atlanır (bir sonraki sınırlayıcı bulunana kadar) ve bunun yerine nullValue'de ayarlanan değer oluşturulur.
  • RAISE_ERROR: Girişte ayarlanmamış tırnak işaretleri bulunursa,
    TextParsingException atılacak.

Varsayılan değer: STOP_AT_DELIMITER

XML Seçenekler

Seçenek Açıklama Kapsam
rowTag Satır olarak işlem yapmak için ele alınacak XML dosyalarının satır etiketi. Örnek XML'de <books> <book><book>...<books>, uygun değer şeklindedir book. Bu gerekli bir seçenektir. okundu
samplingRatio Şema çıkarımı için kullanılan satırların bir bölümünü tanımlar. XML yerleşik işlevleri bu seçeneği yoksayar. Varsayılan: 1.0. okundu
excludeAttribute Öğelerdeki özniteliklerin dışlanıp dışlanmaymayacağı. Varsayılan: false. okundu
mode Ayrıştırma sırasında bozuk kayıtlarla ilgilenme modu.
PERMISSIVE: Bozuk kayıtlar için, hatalı biçimlendirilmiş dizeyi columnNameOfCorruptRecord tarafından yapılandırılan bir alana yerleştirir ve hatalı biçimlendirilmiş alanları null olarak ayarlar. Bozuk kayıtları tutmak için, kullanıcı tanımlı şemada string adlı columnNameOfCorruptRecord bir tür alanı ayarlayabilirsiniz. Bir şemada alan yoksa, ayrıştırma sırasında bozuk kayıtlar bırakılır. Bir şema çıkarırken, ayrıştırıcı, bir çıkış şemasına örtük olarak bir columnNameOfCorruptRecord alan ekler.
DROPMALFORMED: Bozuk kayıtları yoksayar. Bu mod, XML yerleşik işlevleri için desteklenmez.
FAILFAST: Ayrıştırıcı bozuk kayıtlarla karşılaştığında bir istisna fırlatır.
okundu
inferSchema Eğer true ise, her bir elde edilen DataFrame sütunu için uygun bir tür çıkarsamaya çalışır. Eğer false ise, elde edilen tüm sütunlar string türündedir. Varsayılan:
true. XML yerleşik işlevleri bu seçeneği yoksayar.
okundu
columnNameOfCorruptRecord Tarafından oluşturulan hatalı biçimlendirilmiş bir dize içeren yeni alanın yeniden adlandırılmasına izin verir
PERMISSIVE modu. Varsayılan: spark.sql.columnNameOfCorruptRecord.
okundu
attributePrefix Öznitelikleri öğelerden ayırt etmek için özniteliklere yönelik ön ek. Bu, alan adları için ön ek olacaktır. Varsayılan _ değeridir. XML okumak için boş olabilir, ancak yazmak için boş olamaz. okuma, yazma
valueTag Öznitelikleri veya alt öğeleri de olan öğelerdeki karakter verileri için kullanılan etiket. Kullanıcı, şemadaki alanı belirtebilir valueTag veya karakter verileri diğer öğelere veya özniteliklere sahip öğelerde mevcut olduğunda şema çıkarımı sırasında otomatik olarak eklenir. Varsayılan: _VALUE okuma,yazma
encoding Okuma için XML dosyalarını verilen kodlama türüne göre çözer. Yazmak için, kaydedilen XML dosyalarının kodlamasını (karakter kümesi) belirtir. XML yerleşik işlevleri bu seçeneği yoksayar. Varsayılan: UTF-8. okuma, yazma
ignoreSurroundingSpaces Okunan değerlerin çevresindeki beyaz boşlukların atlanıp atlanmayacağını tanımlar. Varsayılan: true. Yalnızca boşluktan oluşan karakter verileri yoksayılır. okundu
rowValidationXSDPath Her satırın XML'sini ayrı ayrı doğrulamak için kullanılan isteğe bağlı bir XSD dosyasının yolu. Doğrulanemeyen satırlar yukarıdaki gibi ayrıştırma hataları olarak değerlendirilir. XSD, sağlanan veya çıkarılmış şemayı başka bir şekilde etkilemez. okundu
ignoreNamespace Eğer true, XML öğeleri ve özniteliklerindeki ad alanlarının ön ekleri yoksayılır. Etiketler <abc:author> ve <def:author>, örneğin, her ikisi de yalnızca <author>olarak değerlendirilir. rowTag öğesindeki ad alanları göz ardı edilemez, yalnızca okunmuş alt öğeleri göz ardı edilebilir. XML ayrıştırma, false olsa bile ad alanı farkında değildir. Varsayılan: false. okundu
timestampFormat Datetime desenini izleyen özel zaman damgası biçim dizesi. Bu tür için timestamp geçerlidir. Varsayılan: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. okuma, yazma
timestampNTZFormat Saat dilimi belirtmeyen bir zaman damgası için tarih ve saat deseni formatına uyan özel biçim dizesi. Bu, TimestampNTZType türü için geçerlidir. Varsayılan:
yyyy-MM-dd'T'HH:mm:ss[.SSS]
okuma, yazma
dateFormat Tarih-saat deseni biçimini izleyen özel tarih biçimi dizesi. Bu, tarih türü için geçerlidir. Varsayılan: yyyy-MM-dd. okuma, yazma
locale Yerel ayarı IETF BCP 47 biçiminde bir dil etiketi olarak ayarlar. Örneğin, locale tarihler ve zaman damgaları ayrıştırılırken kullanılır. Varsayılan: en-US. okundu
rootTag XML dosyalarının kök etiketi. Örneğin, <books> <book><book>...</books> içinde uygun değer books şeklindedir. gibi books foo="bar"bir değer belirterek temel öznitelikler ekleyebilirsiniz. Varsayılan: ROWS. yaz
declaration Her çıktı XML dosyasının başında, rootTag'den önce yazılacak XML bildiriminin içeriği. Örneğin, bir foo değeri <?xml foo?>'in yazılmasına neden olur. Gizlemek için boş bir karakter dizisi ayarlayın. Varsayılan: version="1.0"
encoding="UTF-8" standalone="yes".
yaz
arrayElementName Dizi değerli bir sütunun her bir öğesini yazarken kapsayan XML öğesinin adı. Varsayılan: item. yaz
nullValue Null değerin dize gösterimini ayarlar. Varsayılan: string null. Bu null olduğunda, ayrıştırıcı alanlar için öznitelik ve öğe yazmaz. okuma, yazma
compression Dosyaya kaydederken kullanılacak sıkıştırma kodu. Bu, bilinen büyük/küçük harf ayrımı yapmayan kısaltılmış adlardan biri olabilir (none, bzip2, gzip, lz4, snappy ve
deflate. ) XML yerleşik işlevleri bu seçeneği yoksayar. Varsayılan: none.
yaz
validateName Eğer doğruysa, XML öğesi adı doğrulama hatasında bir hata atar. Örneğin, SQL alan adlarının boşlukları olabilir, ancak XML öğesi adları olamaz. Varsayılan:
true.
yaz
readerCaseSensitive rescuedDataColumn etkinleştirildiğinde büyük/küçük harf duyarlılığı davranışını belirtir. Doğruysa, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını kurtarın; aksi takdirde, verileri büyük/küçük harfe duyarlı olmayan bir şekilde okuyun. Varsayılan: true. okundu
rescuedDataColumn Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf kullanımı dahil) nedeniyle ayrıştırılamayan tüm verilerin ayrı bir sütunda toplanması gerekip gerekmediği. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Daha fazla ayrıntı için bkz . Kurtarılan veri sütunu nedir?.
COPY INTO (eski), COPY INTOkullanarak şemayı el ile ayarlayamadığınızdan kurtarılan veri sütununu desteklemez. Databricks, çoğu alım senaryosu için Otomatik Yükleyici'nin kullanılmasını önerir.
Varsayılan: Yok.
okundu
singleVariantColumn Tek değişkenli sütunun adını belirtir. Okuma için bu seçenek belirtilirse, xml kaydının tamamını tek bir Variant sütununa ayrıştırın ve verilen seçenek dizesi değeri sütunun adı olarak belirtin. Bu seçenek yazmak için sağlanmışsa, tek Variant sütununun değerini XML dosyalarına yazın. Varsayılan: none. okuma, yazma

PARQUET Seçenekler

Seçenek
datetimeRebaseMode
Tür: String
Julian ve Proleptik Gregoryen takvimler arasında tarih ve zaman damgası değerlerinin yeniden esas alınmasını denetler. İzin verilen değerler: EXCEPTION, LEGACYve
CORRECTED.
Varsayılan değer: LEGACY
int96RebaseMode
Tür: String
Julian ve Proleptik Gregoryen takvimler arasında INT96 zaman damgası değerlerinin yeniden düzenlenmesini denetler. İzin verilen değerler: EXCEPTION, LEGACYve
CORRECTED.
Varsayılan değer: LEGACY
mergeSchema
Tür: Boolean
Şemaların birden fazla dosya arasında çıkarılması ve her dosyanın şemasının birleştirilmesi gerekip gerekmediği.
Varsayılan değer: false
readerCaseSensitive
Tür: Boolean
Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. Doğruysa, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını kurtarın; aksi takdirde, verileri büyük/küçük harfe duyarlı olmayan bir şekilde okuyun.
Varsayılan değer: true
rescuedDataColumn
Tür: String
Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf kullanımı dahil) nedeniyle ayrıştırılamayan tüm verilerin ayrı bir sütunda toplanması gerekip gerekmediği. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir. Daha fazla ayrıntı için kurtarılan veri sütunu nedir? konusuna bakın.
COPY INTO (eski), COPY INTOkullanarak şemayı el ile ayarlayamadığınızdan kurtarılan veri sütununu desteklemez. Databricks, çoğu alım senaryosu için Otomatik Yükleyici'nin kullanılmasını önerir.
Varsayılan değer: Yok

AVRO Seçenekler

Seçenek
avroSchema
Tür: String
Avro biçiminde kullanıcı tarafından sağlanan isteğe bağlı şema. Avro okunurken bu seçenek, gerçek Avro şemasıyla uyumlu ancak farklı olan gelişmiş bir şemaya ayarlanabilir. Seri durumdan çıkarma şeması, geliştirilen şemayla tutarlı olacaktır. Örneğin, varsayılan değere sahip bir ek sütun içeren gelişmiş bir şema ayarlarsanız, okuma sonucu yeni sütunu da içerir.
Varsayılan değer: Yok
datetimeRebaseMode
Tür: String
Julian ve Proleptik Gregoryen takvimler arasında tarih ve zaman damgası değerlerinin yeniden esas alınmasını denetler. İzin verilen değerler: EXCEPTION, LEGACYve
CORRECTED.
Varsayılan değer: LEGACY
mergeSchema
Tür: Boolean
Şemaların birden fazla dosya arasında çıkarılması ve her dosyanın şemasının birleştirilmesi gerekip gerekmediği.
Avro, veri türlerini esnetmez.
Varsayılan değer: false
readerCaseSensitive
Tür: Boolean
Etkinleştirildiğinde rescuedDataColumn büyük/küçük harf duyarlılığı davranışını belirtir. Doğruysa, adları şemadan büyük/küçük harfe göre farklılık gösteren veri sütunlarını kurtarın; aksi takdirde, verileri büyük/küçük harfe duyarlı olmayan bir şekilde okuyun.
Varsayılan değer: true
rescuedDataColumn
Tür: String
Veri türü uyuşmazlığı ve şema uyuşmazlığı (sütun büyük/küçük harf kullanımı dahil) nedeniyle ayrıştırılamayan tüm verilerin ayrı bir sütunda toplanması gerekip gerekmediği. Bu sütun, Otomatik Yükleyici kullanılırken varsayılan olarak eklenir.
COPY INTO (eski), COPY INTOkullanarak şemayı el ile ayarlayamadığınızdan kurtarılan veri sütununu desteklemez. Databricks, çoğu alım senaryosu için Otomatik Yükleyici'nin kullanılmasını önerir.
Daha fazla ayrıntı için kurtarılan veri sütunu nedir? konusuna bakın.
Varsayılan değer: Yok

BINARYFILE Seçenekler

İkili dosyalar ek yapılandırma seçeneklerine sahip değildir.

TEXT Seçenekler

Seçenek
encoding
Tür: String
Metin dosyası satır ayırıcısının kodlama adı. Seçeneklerin listesi için bkz java.nio.charset.Charset. .
Dosyanın içeriği bu seçenekten etkilenmez ve as-isokunur.
Varsayılan değer: UTF-8
lineSep
Tür: String
Ardışık iki TEXT kaydı arasındaki bir dize.
Varsayılan değer: Yok, bu \r, \r\n ve \n kapsar
wholeText
Tür: Boolean
Bir dosyanın tek bir kayıt olarak okunup okunmayacağı.
Varsayılan değer: false

ORC Seçenekler

Seçenek
mergeSchema
Tür: Boolean
Şemaların birden fazla dosya arasında çıkarılması ve her dosyanın şemasının birleştirilmesi gerekip gerekmediği.
Varsayılan değer: false