Možnosti automatického zavaděče

Článek
08/14/2024

Možnosti konfigurace specifické pro cloudFiles zdroj mají předponu cloudFiles , aby byly v samostatném oboru názvů od jiných možností zdroje strukturovaného streamování.

Běžné možnosti automatického zavaděče
Možnosti výpisu adresáře
Možnosti oznámení o souboru
Možnosti formátu souboru
Možnosti specifické pro cloud

Běžné možnosti automatického zavaděče

Pro režim oznámení adresářů nebo souborů můžete nakonfigurovat následující možnosti.

Možnost
`cloudFiles.allowOverwrites` Typ: `Boolean` Určuje, jestli chcete povolit změny vstupního souboru adresáře, aby přepsaly existující data. K povolení této konfigurace existuje několik upozornění. Pokud se soubor znovu připojí nebo přepíše, přečtěte si článek o tom, jestli se soubor znovu zpracuje. Výchozí hodnota: `false`
`cloudFiles.backfillInterval` Typ: `Interval String` Automatický zavaděč může v daném intervalu aktivovat asynchronní obnovení. například `1 day` jednou denně, nebo `1 week` k obnovení jednou týdně. Systémy oznámení událostí souborů nezaručují 100% doručení všech nahraných souborů, takže můžete pomocí backfills zaručit, že všechny soubory se nakonec zpracují, dostupné v Databricks Runtime 8.4 (EoS) a vyšší. Výchozí hodnota: None
`cloudFiles.format` Typ: `String` Formát datového souboru ve zdrojové cestě. Mezi povolené hodnoty patří: - `avro`: Soubor Avro - `binaryFile`: Binární soubor - `csv`: Čtení souborů CSV - `json`: Soubor JSON - `orc`: SOUBOR ORC - `parquet`: Čtení souborů Parquet pomocí Azure Databricks - `text`:Textový soubor Výchozí hodnota: Žádná (povinná možnost)
`cloudFiles.includeExistingFiles` Typ: `Boolean` Zda zahrnout existující soubory do vstupní cesty zpracování datového proudu nebo zpracovat pouze nové soubory přicházející po počátečním nastavení. Tato možnost se vyhodnotí jenom při prvním spuštění datového proudu. Změna této možnosti po restartování streamu nemá žádný vliv. Výchozí hodnota: `true`
`cloudFiles.inferColumnTypes` Typ: `Boolean` Určuje, zda se mají při odvozování schématu odvozovat přesné typy sloupců. Ve výchozím nastavení se sloupce při odvozování datových sad JSON a CSV odvozují jako řetězce. Další podrobnosti najdete v části odvozování schématu. Výchozí hodnota: `false`
`cloudFiles.maxBytesPerTrigger` Typ: `Byte String` Maximální početnovýchch Můžete zadat bajtový řetězec, například `10g` omezit jednotlivé mikrobatchy na 10 GB dat. Jedná se o měkké maximum. Pokud máte soubory, které jsou 3 GB, Azure Databricks zpracuje 12 GB v mikrobatchu. Při použití společně `cloudFiles.maxFilesPerTrigger`s Azure Databricks spotřebovává až nižší limit `cloudFiles.maxFilesPerTrigger` nebo `cloudFiles.maxBytesPerTrigger`, podle toho, co je dosaženo jako první. Tato možnost nemá žádný vliv při použití `Trigger.Once()` (`Trigger.Once()` je zastaralá). Výchozí hodnota: None
`cloudFiles.maxFileAge` Typ: `Interval String` Jak dlouho se sleduje událost souboru pro účely odstranění duplicitních dat. Databricks nedoporučuje tento parametr ladit, pokud neingestujete data v pořadí milionů souborů za hodinu. Další podrobnosti najdete v části Uchovávání událostí. Příliš agresivní ladění `cloudFiles.maxFileAge` může způsobit problémy s kvalitou dat, jako je duplicitní příjem dat nebo chybějící soubory. Proto Databricks doporučuje konzervativní nastavení pro `cloudFiles.maxFileAge`, například 90 dní, což je podobné tomu, jaké srovnatelné řešení pro příjem dat doporučují. Výchozí hodnota: None
`cloudFiles.maxFilesPerTrigger` Typ: `Integer` Maximální počet novýchsouborůch Při použití společně `cloudFiles.maxBytesPerTrigger`s Azure Databricks spotřebovává až nižší limit `cloudFiles.maxFilesPerTrigger` nebo `cloudFiles.maxBytesPerTrigger`, podle toho, co je dosaženo jako první. Tato možnost nemá žádný vliv při použití s `Trigger.Once()` (zastaralé). Výchozí hodnota: 1000
`cloudFiles.partitionColumns` Typ: `String` Čárkami oddělený seznam sloupců oddílů stylu Hive, které byste chtěli odvodit z adresářové struktury souborů. Sloupce oddílů stylu Hive jsou páry klíč-hodnota sloučené znaménkem rovnosti, jako je například `<base-path>/a=x/b=1/c=y/file.format`. V tomto příkladu jsou `a`sloupce oddílů , `b`a `c`. Ve výchozím nastavení se tyto sloupce automaticky přidají do schématu, pokud používáte odvozování schématu `<base-path>` a poskytujete pro načtení dat. Pokud zadáte schéma, automatický zavaděč očekává, že budou tyto sloupce zahrnuty do schématu. Pokud nechcete, aby tyto sloupce byly součástí schématu, můžete tyto sloupce ignorovat `""` . Tuto možnost můžete použít také v případě, že chcete, aby sloupce odvodily cestu k souboru ve složitých adresářových strukturách, například v následujícím příkladu: `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` Určení `cloudFiles.partitionColumns` , jak `year,month,day` se vrátí `year=2022` pro `file1.csv`, ale `month` `day` sloupce budou `null`. `month` a `day` bude správně analyzován pro `file2.csv` a `file3.csv`. Výchozí hodnota: None
`cloudFiles.schemaEvolutionMode` Typ: `String` Režim pro vývoj schématu, protože v datech jsou zjištěny nové sloupce. Ve výchozím nastavení se sloupce při odvozování datových sad JSON odvozují jako řetězce. Další podrobnosti najdete v vývoji schématu. Výchozí hodnota: `"addNewColumns"` pokud schéma není zadané. `"none"` jinak.
`cloudFiles.schemaHints` Typ: `String` Informace o schématu, které zadáte automatickému zavaděče během odvození schématu Další podrobnosti najdete v nápovědě schématu . Výchozí hodnota: None
`cloudFiles.schemaLocation` Typ: `String` Umístění pro uložení odvozeného schématu a následných změn. Další podrobnosti najdete v části odvozování schématu. Výchozí hodnota: Žádné (povinné při odvození schématu)
`cloudFiles.useStrictGlobber` Typ: `Boolean` Zda použít striktní globber, který odpovídá výchozímu chování globbingu jiných zdrojů souborů v Apache Sparku. Další podrobnosti najdete v tématu Běžné vzorce načítání dat. K dispozici ve službě Databricks Runtime 12.2 LTS a novějších. Výchozí hodnota: `false`
`cloudFiles.validateOptions` Typ: `Boolean` Určuje, jestli chcete ověřit možnosti automatického zavaděče a vrátit chybu pro neznámé nebo nekonzistentní možnosti. Výchozí hodnota: `true`

Možnosti výpisu adresáře

Následující možnosti jsou relevantní pro režim výpisu adresáře.

Možnost

Možnost
`cloudFiles.useIncrementalListing` (zastaralé) Typ: `String` Tato funkce je zastaralá. Databricks místo režimu oznámení souborů doporučuje používat režim oznámení souborů. `cloudFiles.useIncrementalListing`. Zda se má přírůstkový výpis používat místo úplného výpisu v režimu výpisu adresáře. Auto Loader ve výchozím nastavení snaží automaticky zjistit, jestli je daný adresář použitelný pro přírůstkový výpis. Přírůstkový výpis můžete explicitně použít nebo použít úplný výpis adresáře tak, že ho nastavíte jako `true` nebo `false` v uvedeném pořadí. Nesprávné povolení přírůstkového výpisu v ne lexikálním adresáři brání automatickému zavaděče ve zjišťování nových souborů. Funguje s Azure Data Lake Storage Gen2 (`abfss://`), S3 (`s3://`) a GCS (`gs://`). K dispozici ve službě Databricks Runtime 9.1 LTS a novějších. Výchozí hodnota: `auto` Dostupné hodnoty: `auto`, `truefalse`

cloudFiles.useIncrementalListing (zastaralé)

Typ: String

Tato funkce je zastaralá. Databricks místo režimu oznámení souborů doporučuje používat režim oznámení souborů.
cloudFiles.useIncrementalListing.

Zda se má přírůstkový výpis používat místo úplného výpisu v režimu výpisu adresáře. Auto Loader ve výchozím nastavení snaží automaticky zjistit, jestli je daný adresář použitelný pro přírůstkový výpis. Přírůstkový výpis můžete explicitně použít nebo použít úplný výpis adresáře tak, že ho nastavíte jako true nebo false v uvedeném pořadí.

Nesprávné povolení přírůstkového výpisu v ne lexikálním adresáři brání automatickému zavaděče ve zjišťování nových souborů.

Funguje s Azure Data Lake Storage Gen2 (abfss://), S3 (s3://) a GCS (gs://).

K dispozici ve službě Databricks Runtime 9.1 LTS a novějších.

Výchozí hodnota: auto

Dostupné hodnoty: auto, truefalse

Možnosti oznámení o souboru

Následující možnosti jsou relevantní pro režim oznámení souboru.

Možnost
`cloudFiles.fetchParallelism` Typ: `Integer` Počet vláken, která se mají použít při načítání zpráv ze služby fronty Výchozí hodnota: 1
`cloudFiles.pathRewrites` Typ: Řetězec JSON Vyžaduje se pouze v případě, že zadáte `queueUrl` oznámení o souborech z více kontejnerů S3 a chcete využít přípojné body nakonfigurované pro přístup k datům v těchto kontejnerech. Tuto možnost použijte k přepsání předpony `bucket/key` cesty přípojným bodem. Přepsat lze pouze předpony. Například pro konfiguraci `{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}`, cesta `s3://<databricks-mounted-bucket>/path/2017/08/fileA.json` se přepíše na `dbfs:/mnt/data-warehouse/2017/08/fileA.json`. Výchozí hodnota: None
`cloudFiles.resourceTag` Typ: `Map(String, String)` Řada párů značek klíč-hodnota, které pomáhají přidružit a identifikovat související prostředky, například: `cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")` `.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")` Další informace o AWS najdete v tématu o přidělování nákladů Amazon SQS a konfiguraci značek pro téma Amazon SNS. (1) Další informace o Azure najdete v tématu Pojmenování front a metadat a pokrytí `properties.labels` v odběrech událostí. Auto Loader ukládá tyto páry značek klíč-hodnota ve formátu JSON jako popisky. (1) Další informace o GCP najdete v tématu Vytváření sestav využití s popisky. (1) Výchozí hodnota: None
`cloudFiles.useNotifications` Typ: `Boolean` Zda použít režim oznámení souboru k určení, kdy existují nové soubory. Pokud `false`použijete režim výpisu adresáře. Viz Porovnání režimů detekce souborů automatického zavaděče. Výchozí hodnota: `false`

(1) Automaticky zavaděč přidá následující páry značek klíč-hodnota ve výchozím nastavení na základě maximálního úsilí:

vendor: Databricks
path: Umístění, ze kterého se data načítají. V GCP není k dispozici kvůli omezením označování.
checkpointLocation: Umístění kontrolního bodu datového proudu. V GCP není k dispozici kvůli omezením označování.
streamId: Globálně jedinečný identifikátor datového proudu.

Tyto názvy klíčů jsou rezervované a nemůžete přepsat jejich hodnoty.

Možnosti formátu souboru

Pomocí automatického zavaděče můžete ingestovat JSON, CSV, PARQUET, AVRO, TEXT, , BINARYFILEa ORC soubory.

Obecné možnosti
JSON volby
CSV volby
XML volby
PARQUET volby
AVRO volby
BINARYFILE volby
TEXT volby
ORC volby

Obecné možnosti

Následující možnosti platí pro všechny formáty souborů.

Možnost
`ignoreCorruptFiles` Typ: `Boolean` Zda se mají ignorovat poškozené soubory. Pokud je hodnota true, úlohy Sparku se budou dál spouštět při výskytu poškozených souborů a obsah, který jste si přečetli, se vrátí. Pozorovatelný jako `numSkippedCorruptFiles` v `operationMetrics` sloupec historie Delta Lake. K dispozici ve službě Databricks Runtime 11.3 LTS a vyšší. Výchozí hodnota: `false`
`ignoreMissingFiles` Typ: `Boolean` Zda se mají ignorovat chybějící soubory. Pokud je hodnota true, úlohy Sparku se budou dál spouštět při výskytu chybějících souborů a obsah, který byl přečtený, se vrátí. K dispozici ve službě Databricks Runtime 11.3 LTS a vyšší. Výchozí hodnota: `false` (`true` pro `COPY INTO`)
`modifiedAfter` Zadejte: `Timestamp String`například `2021-01-01 00:00:00.000000 UTC+0` Volitelné časové razítko pro ingestování souborů, které mají časové razítko změny po zadaném časovém razítku. Výchozí hodnota: None
`modifiedBefore` Zadejte: `Timestamp String`například `2021-01-01 00:00:00.000000 UTC+0` Volitelné časové razítko pro ingestování souborů, které mají časové razítko změny před zadaným časovým razítkem. Výchozí hodnota: None
`pathGlobFilter` nebo `fileNamePattern` Typ: `String` Potenciální vzor globu, který se má poskytnout pro výběr souborů. Ekvivalent k `PATTERN` v `COPY INTO`. `fileNamePattern` lze použít v `read_files`. Výchozí hodnota: None
`recursiveFileLookup` Typ: `Boolean` Určuje, jestli se má během odvozování schématu přeskočit odvozování oddílů. To nemá vliv na to, které soubory jsou načteny. Výchozí hodnota: `false`

`JSON` volby

Možnost
`allowBackslashEscapingAnyCharacter` Typ: `Boolean` Zda povolit zpětné lomítko řídicí libovolný znak, který je úspěšný. Pokud není povoleno, můžou být řídicí znaky, které jsou explicitně uvedeny ve specifikaci JSON. Výchozí hodnota: `false`
`allowComments` Typ: `Boolean` Bez ohledu na to, jestli chcete povolit použití komentářů ke stylu Jazyka Java, C a C++ (`'/'`, `'*'`a `'//'` odrůd) v rámci analyzovaného obsahu, nebo ne. Výchozí hodnota: `false`
`allowNonNumericNumbers` Typ: `Boolean` Určuje, jestli se má sada tokenů not a-a-number (`NaN`) povolit jako číselné hodnoty s plovoucí desetinou čárkou. Výchozí hodnota: `true`
`allowNumericLeadingZeros` Typ: `Boolean` Určuje, jestli chcete, aby integrální čísla začínala dalšími (ignorovatelnými) nulami (například `000001`). Výchozí hodnota: `false`
`allowSingleQuotes` Typ: `Boolean` Zda povolit použití jednoduchých uvozovek (apostrof, znak `'\'`) pro uvozovky (názvy a řetězcové hodnoty). Výchozí hodnota: `true`
`allowUnquotedControlChars` Typ: `Boolean` Jestli chcete povolit, aby řetězce JSON obsahovaly nepotřebné řídicí znaky (ZNAKY ASCII s hodnotou menší než 32, včetně znaků tabulátoru a odřádkování), nebo ne. Výchozí hodnota: `false`
`allowUnquotedFieldNames` Typ: `Boolean` Určuje, jestli chcete povolit použití necitovaných názvů polí (které jsou povoleny JavaScriptem, ale ne specifikací JSON). Výchozí hodnota: `false`
`badRecordsPath` Typ: `String` Cesta k ukládání souborů pro záznam informací o špatných záznamech JSON. Výchozí hodnota: None
`columnNameOfCorruptRecord` Typ: `String` Sloupec pro ukládání záznamů, které jsou poškozené a nelze je analyzovat. `mode` Pokud je analýza nastavená jako `DROPMALFORMED`, bude tento sloupec prázdný. Výchozí hodnota: `_corrupt_record`
`dateFormat` Typ: `String` Formát pro analýzu řetězců kalendářních dat. Výchozí hodnota: `yyyy-MM-dd`
`dropFieldIfAllNull` Typ: `Boolean` Určuje, jestli chcete ignorovat sloupce všech hodnot null nebo prázdných polí a struktur během odvozování schématu. Výchozí hodnota: `false`
`encoding` nebo `charset` Typ: `String` Název kódování souborů JSON. Seznam `java.nio.charset.Charset` možností najdete v tématu. Nelze použít `UTF-16` a `UTF-32` kdy `multiline` je `true`. Výchozí hodnota: `UTF-8`
`inferTimestamp` Typ: `Boolean` Zda vyzkoušet a odvodit řetězce časového razítka `TimestampType`jako . Při nastavení na `true`, odvození schématu může trvat výrazně déle. Musíte povolit `cloudFiles.inferColumnTypes` použití s automatickým zavaděčem. Výchozí hodnota: `false`
`lineSep` Typ: `String` Řetězec mezi dvěma po sobě jdoucími záznamy JSON. Výchozí hodnota: Žádný, který pokrývá `\r`, `\r\n`a `\n`
`locale` Typ: `String` Identifikátor `java.util.Locale` . Ovlivňuje výchozí datum, časové razítko a parsování desetinných míst v rámci JSON. Výchozí hodnota: `US`
`mode` Typ: `String` Režim analyzátoru pro zpracování poškozených záznamů Jeden z , z `'PERMISSIVE'`, `'DROPMALFORMED'`nebo `'FAILFAST'`. Výchozí hodnota: `PERMISSIVE`
`multiLine` Typ: `Boolean` Určuje, jestli záznamy JSON pokrývají více řádků. Výchozí hodnota: `false`
`prefersDecimal` Typ: `Boolean` Pokud je to možné, pokusí se řetězce odvodit jako `DecimalType` plovoucí nebo dvojitý typ. Musíte také použít odvození schématu, a to buď povolením `inferSchema` nebo s `cloudFiles.inferColumnTypes` automatickým zavaděčem. Výchozí hodnota: `false`
`primitivesAsString` Typ: `Boolean` Zda odvodit primitivní typy, jako jsou čísla a logické hodnoty jako `StringType`. Výchozí hodnota: `false`
`readerCaseSensitive` Typ: `Boolean` Určuje chování citlivosti případu, pokud `rescuedDataColumn` je povoleno. Pokud je pravda, zachorání sloupce dat, jejichž názvy se liší písmeny od schématu; v opačném případě čte data bez rozlišování velkých a malých písmen. K dispozici v Databricks Runtime 13.3 a vyšší. Výchozí hodnota: `true`
`rescuedDataColumn` Typ: `String` Jestli chcete shromáždit všechna data, která nelze analyzovat kvůli neshodě datového typu nebo neshodě schématu (včetně písmen sloupců) do samostatného sloupce. Tento sloupec je ve výchozím nastavení zahrnutý při použití automatického zavaděče. Další podrobnosti najdete v části Co je zachráněný datový sloupec?. Výchozí hodnota: None
`singleVariantColumn` Typ: `String` Určuje, jestli chcete ingestovat celý dokument JSON, parsovaný do jednoho sloupce Variant s daným řetězcem jako názvem sloupce. Pokud je tato možnost zakázaná, pole JSON se ingestují do vlastních sloupců. Výchozí hodnota: None
`timestampFormat` Typ: `String` Formát pro analýzu řetězců časových razítek. Výchozí hodnota: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Typ: `String` Používá `java.time.ZoneId` se při analýze časových razítek a kalendářních dat. Výchozí hodnota: None

`CSV` volby

Možnost
`badRecordsPath` Typ: `String` Cesta k ukládání souborů pro záznam informací o špatných záznamech CSV. Výchozí hodnota: None
`charToEscapeQuoteEscaping` Typ: `Char` Znak použitý k řídicímu znaku použitému pro uvozovky. Například pro následující záznam: `[ " a\\", b ]` - Pokud je znak k řídicímu znaku `'\'` nedefinovaný, záznam nebude analyzován. Analyzátor přečte znaky: `[a],[\],["],[,],[ ],[b]` a vyvolá chybu, protože nemůže najít pravou uvozovku. - Pokud je znak pro řídicí `'\'` znak definován jako `'\'`, záznam bude přečteno s 2 hodnotami: `[a\]` a `[b]`. Výchozí hodnota: `'\0'`
`columnNameOfCorruptRecord` > [! POZNÁMKA] >> Podporováno pro automatický zavaděč. Nepodporuje se pro `COPY INTO`. Typ: `String` Sloupec pro ukládání záznamů, které jsou poškozené a nelze je analyzovat. `mode` Pokud je analýza nastavená jako `DROPMALFORMED`, bude tento sloupec prázdný. Výchozí hodnota: `_corrupt_record`
`comment` Typ: `Char` Definuje znak, který představuje komentář řádku při nalezení na začátku řádku textu. Slouží `'\0'` k zakázání vynechání komentářů. Výchozí hodnota: `'\u0000'`
`dateFormat` Typ: `String` Formát pro analýzu řetězců kalendářních dat. Výchozí hodnota: `yyyy-MM-dd`
`emptyValue` Typ: `String` Řetězcové znázornění prázdné hodnoty Výchozí hodnota: `""`
`encoding` nebo `charset` Typ: `String` Název kódování souborů CSV. Podívejte `java.nio.charset.Charset` se na seznam možností. `UTF-16` a `UTF-32` nelze ji použít, pokud `multiline` je `true`. Výchozí hodnota: `UTF-8`
`enforceSchema` Typ: `Boolean` Zda se má vynuceně použít zadané nebo odvozené schéma u souborů CSV. Pokud je tato možnost povolená, záhlaví souborů CSV se ignorují. Tato možnost se ve výchozím nastavení ignoruje při použití automatického zavaděče k záchraně dat a povolení vývoje schématu. Výchozí hodnota: `true`
`escape` Typ: `Char` Řídicí znak, který se má použít při analýze dat. Výchozí hodnota: `'\'`
`header` Typ: `Boolean` Určuje, jestli soubory CSV obsahují záhlaví. Automatický zavaděč předpokládá, že soubory mají při odvození schématu hlavičky. Výchozí hodnota: `false`
`ignoreLeadingWhiteSpace` Typ: `Boolean` Zda se mají ignorovat úvodní prázdné znaky pro každou analyzovanou hodnotu. Výchozí hodnota: `false`
`ignoreTrailingWhiteSpace` Typ: `Boolean` Zda se mají ignorovat koncové prázdné znaky pro každou analyzovanou hodnotu. Výchozí hodnota: `false`
`inferSchema` Typ: `Boolean` Zda chcete odvodit datové typy analyzovaných záznamů CSV nebo předpokládat, že všechny sloupce jsou .`StringType` Vyžaduje další předávání dat, pokud je nastaveno na `true`hodnotu . V případě automatického zavaděče použijte `cloudFiles.inferColumnTypes` místo toho. Výchozí hodnota: `false`
`lineSep` Typ: `String` Řetězec mezi dvěma po sobě jdoucími záznamy CSV. Výchozí hodnota: Žádný, který pokrývá `\r`, `\r\n`a `\n`
`locale` Typ: `String` Identifikátor `java.util.Locale` . Ovlivňuje výchozí datum, časové razítko a parsování desetinných míst v rámci sdíleného svazku clusteru. Výchozí hodnota: `US`
`maxCharsPerColumn` Typ: `Int` Maximální počet znaků očekávaných od hodnoty k analýze Lze použít k zabránění chybám paměti. Výchozí hodnota `-1`znamená neomezenou hodnotu. Výchozí hodnota: `-1`
`maxColumns` Typ: `Int` Pevný limit počtu sloupců, které může záznam obsahovat. Výchozí hodnota: `20480`
`mergeSchema` Typ: `Boolean` Určuje, jestli chcete schéma odvodit napříč více soubory a sloučit schéma jednotlivých souborů. Při odvození schématu je ve výchozím nastavení povoleno automatické zavaděče. Výchozí hodnota: `false`
`mode` Typ: `String` Režim analyzátoru pro zpracování poškozených záznamů Jeden z , z `'PERMISSIVE'`, `'DROPMALFORMED'`a `'FAILFAST'`. Výchozí hodnota: `PERMISSIVE`
`multiLine` Typ: `Boolean` Určuje, jestli záznamy CSV pokrývají více řádků. Výchozí hodnota: `false`
`nanValue` Typ: `String` Řetězcové vyjádření hodnoty, která není číslo při analýze `FloatType` a `DoubleType` sloupcích. Výchozí hodnota: `"NaN"`
`negativeInf` Typ: `String` Řetězcové znázornění záporného nekonečna při analýze `FloatType` nebo `DoubleType` sloupcích. Výchozí hodnota: `"-Inf"`
`nullValue` Typ: `String` Řetězcové vyjádření hodnoty null Výchozí hodnota: `""`
`parserCaseSensitive` (zastaralé) Typ: `Boolean` Při čtení souborů, zda chcete zarovnat sloupce deklarované v záhlaví s rozlišováním velkých a malých písmen schématu. Toto nastavení je `true` ve výchozím nastavení automatického zavaděče. Sloupce, které se liší podle případu, se v `rescuedDataColumn` případě povolení zachorání. Tato možnost byla zastaralá ve prospěch `readerCaseSensitive`. Výchozí hodnota: `false`
`positiveInf` Typ: `String` Řetězcové vyjádření kladného nekonečna při analýze `FloatType` nebo `DoubleType` sloupcích. Výchozí hodnota: `"Inf"`
`preferDate` Typ: `Boolean` Pokusí se odvodit řetězce jako kalendářní data místo časového razítka, pokud je to možné. Musíte také použít odvození schématu, a to buď povolením `inferSchema` , nebo použitím `cloudFiles.inferColumnTypes` s automatickým zavaděčem. Výchozí hodnota: `true`
`quote` Typ: `Char` Znak použitý pro escaping hodnoty, kde oddělovač polí je součástí hodnoty. Výchozí hodnota: `"`
`readerCaseSensitive` Typ: `Boolean` Určuje chování citlivosti případu, pokud `rescuedDataColumn` je povoleno. Pokud je pravda, zachorání sloupce dat, jejichž názvy se liší písmeny od schématu; v opačném případě čte data bez rozlišování velkých a malých písmen. Výchozí hodnota: `true`
`rescuedDataColumn` Typ: `String` Určuje, jestli se mají shromažďovat všechna data, která nelze analyzovat z důvodu neshody datového typu a neshody schématu (včetně písmen sloupců) do samostatného sloupce. Tento sloupec je ve výchozím nastavení zahrnutý při použití automatického zavaděče. Další podrobnosti najdete v části Co je záchranný sloupec dat?. Výchozí hodnota: None
`sep` nebo `delimiter` Typ: `String` Řetězec oddělovače mezi sloupci. Výchozí hodnota: `","`
`skipRows` Typ: `Int` Počet řádků od začátku souboru CSV, které by se měly ignorovat (včetně komentářů a prázdných řádků). Pokud `header` je hodnota true, záhlaví bude první vynechaný a nekommentovaný řádek. Výchozí hodnota: `0`
`timestampFormat` Typ: `String` Formát pro analýzu řetězců časových razítek. Výchozí hodnota: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Typ: `String` Používá `java.time.ZoneId` se při analýze časových razítek a kalendářních dat. Výchozí hodnota: None
`unescapedQuoteHandling` Typ: `String` Strategie pro zpracování nepotřebných uvozovek. Povolené možnosti: - `STOP_AT_CLOSING_QUOTE`: Pokud jsou ve vstupu nalezeny neuskutečené uvozovky, nashromážděte znak uvozovky a pokračujte parsováním hodnoty jako uvozovky, dokud se nenajde pravá uvozovka. - `BACK_TO_DELIMITER`: Pokud jsou ve vstupu nalezeny neuskutečené uvozovky, zvažte hodnotu jako necitovanou hodnotu. Tím se analyzátoru nahromáždí všechny znaky aktuální analyzované hodnoty, dokud se nenajde oddělovač definovaný pomocí `sep` . Pokud se v hodnotě nenajde žádný oddělovač, analyzátor bude pokračovat ve shromažďování znaků ze vstupu, dokud se nenajde oddělovač nebo konec řádku. - `STOP_AT_DELIMITER`: Pokud jsou ve vstupu nalezeny neuskutečené uvozovky, zvažte hodnotu jako necitovanou hodnotu. Tím se analyzátoru nahromáždí všechny znaky, dokud se ve vstupu nenajde oddělovač definovaný oddělovačem `sep`nebo konce řádku. - `SKIP_VALUE`: Pokud jsou ve vstupu nalezeny neuskutečněné uvozovky, obsah analyzovaný pro danou hodnotu se přeskočí (dokud se nenajde další oddělovač) a místo toho se vytvoří hodnota nastavená `nullValue` . - `RAISE_ERROR`: Pokud jsou ve vstupu nalezeny neuskutečené uvozovky, `TextParsingException` bude vyvolán. Výchozí hodnota: `STOP_AT_DELIMITER`

`XML` volby

Možnost	Popis	Obor
`rowTag`	Značka řádku souborů XML, která má být považována za řádek. V příkladu XML `<books> <book><book>...<books>`je `book`příslušná hodnota . Tato možnost je povinná.	přečteno
`samplingRatio`	Definuje zlomek řádků používaných pro odvozování schématu. Předdefinované funkce XML tuto možnost ignorují. Výchozí hodnota: `1.0`.	přečteno
`excludeAttribute`	Zda vyloučit atributy v prvcích. Výchozí hodnota: `false`.	přečteno
`mode`	Režim práce s poškozenými záznamy během analýzy `PERMISSIVE`: U poškozených záznamů umístí poškozený řetězec do pole nakonfigurovaného `columnNameOfCorruptRecord`pomocí a nastaví poškozená pole na `null`hodnotu . Chcete-li zachovat poškozené záznamy, můžete nastavit `string` pole typu pojmenované `columnNameOfCorruptRecord` ve schématu definovaném uživatelem. Pokud schéma pole neobsahuje, během analýzy se zahodí poškozené záznamy. Při odvození schématu analyzátor implicitně přidá `columnNameOfCorruptRecord` pole ve výstupním schématu. `DROPMALFORMED`: Ignoruje poškozené záznamy. Tento režim není podporován pro předdefinované funkce XML. `FAILFAST`: Vyvolá výjimku, když analyzátor splňuje poškozené záznamy.	přečteno
`inferSchema`	Pokud `true`se pokusí odvodit odpovídající typ pro každý výsledný sloupec datového rámce. Pokud `false`jsou všechny výsledné sloupce typu `string` . Výchozí: `true`. Předdefinované funkce XML tuto možnost ignorují.	přečteno
`columnNameOfCorruptRecord`	Umožňuje přejmenování nového pole, které obsahuje poškozený řetězec vytvořený uživatelem `PERMISSIVE` režim. Výchozí hodnota: `spark.sql.columnNameOfCorruptRecord`.	přečteno
`attributePrefix`	Předpona atributů k rozlišení atributů od prvků. Toto bude předpona pro názvy polí. Výchozí hodnota je `_`. Může být prázdný pro čtení XML, ale ne pro zápis.	čtení, zápis
`valueTag`	Značka použitá pro data znaků v elementech, které mají také atributy nebo podřízené elementy. Uživatel může zadat `valueTag` pole ve schématu nebo se automaticky přidá během odvozování schématu, když jsou data znaků přítomna v prvcích s jinými prvky nebo atributy. Výchozí: `_VALUE`	čtení, zápis
`encoding`	Pro čtení dekóduje soubory XML daným typem kódování. Pro zápis určuje kódování (znakovou sadu) uložených souborů XML. Předdefinované funkce XML tuto možnost ignorují. Výchozí hodnota: `UTF-8`.	čtení, zápis
`ignoreSurroundingSpaces`	Definuje, jestli se mají vynechat okolní prázdné znaky z hodnot, které se čtou. Výchozí hodnota: `true`. Data znaků pouze prázdných znaků se ignorují.	přečteno
`rowValidationXSDPath`	Cesta k volitelnému souboru XSD, který se používá k ověření XML pro každý řádek jednotlivě. Řádky, které se nepodaří ověřit, se považují za parsované chyby jako výše. XSD jinak nemá vliv na zadané schéma ani na odvození.	přečteno
`ignoreNamespace`	Pokud `true`jsou předpony oborů názvů u elementů a atributů XML ignorovány. Značky `<abc:author>` a `<def:author>`, například, jsou považovány za to, že oba jsou jen `<author>`. Obory názvů nelze u elementu `rowTag` ignorovat, pouze jeho podřízené položky pro čtení. Analýza XML není v oboru názvů ani v případě, že `false`. Výchozí hodnota: `false`.	přečteno
`timestampFormat`	Vlastní řetězec formátu časového razítka, který se řídí formátem vzoru data a času. To platí pro `timestamp` typ. Výchozí hodnota: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`.	čtení, zápis
`timestampNTZFormat`	Řetězec vlastního formátu pro časové razítko bez časového pásma, které se řídí formátem vzoru data a času. To platí pro typ TimestampNTZType. Výchozí: `yyyy-MM-dd'T'HH:mm:ss[.SSS]`	čtení, zápis
`dateFormat`	Vlastní řetězec formátu data, který se řídí formátem vzoru datetime. To platí pro typ data. Výchozí hodnota: `yyyy-MM-dd`.	čtení, zápis
`locale`	Nastaví národní prostředí jako značku jazyka ve formátu IETF BCP 47. Používá se například `locale` při analýze kalendářních dat a časových razítek. Výchozí hodnota: `en-US`.	přečteno
`rootTag`	Kořenová značka souborů XML. Například v `<books> <book><book>...</books>`, odpovídající hodnota je `books`. Základní atributy můžete zahrnout zadáním hodnoty, jako `books foo="bar"`je . Výchozí hodnota: `ROWS`.	zápis
`declaration`	Obsah deklarace XML pro zápis na začátku každého výstupního souboru XML před `rootTag`. Například hodnota `foo` příčin `<?xml foo?>` , které se mají zapsat. Nastavte prázdný řetězec, který chcete potlačit. Výchozí: `version="1.0"` `encoding="UTF-8" standalone="yes"`.	zápis
`arrayElementName`	Název elementu XML, který při psaní uzavře každý prvek sloupce s hodnotou pole. Výchozí hodnota: `item`.	zápis
`nullValue`	Nastaví řetězcovou reprezentaci hodnoty null. Výchozí hodnota: řetězec `null`. V takovém případě `null`analyzátor nezapisuje atributy a prvky pro pole.	čtení, zápis
`compression`	Komprimační kód, který se použije při ukládání do souboru. Může to být jeden ze známých zkrácených názvů bez rozlišování velkých a malých písmen (`none`, , `bzip2gzip`,`lz4` , `snappy`a) `deflate`). Předdefinované funkce XML tuto možnost ignorují. Výchozí hodnota: `none`.	zápis
`validateName`	Pokud je true, vyvolá chybu při ověření názvu elementu XML. Například názvy polí SQL můžou mít mezery, ale názvy elementů XML nemohou. Výchozí: `true`.	zápis
`readerCaseSensitive`	Určuje chování citlivosti případu při povolení rescuedDataColumn. Pokud je pravda, zachorání sloupce dat, jejichž názvy se liší písmeny od schématu; v opačném případě čte data bez rozlišování velkých a malých písmen. Výchozí hodnota: `true`.	přečteno
`rescuedDataColumn`	Jestli chcete shromáždit všechna data, která nelze analyzovat kvůli neshodě datového typu a neshodě schématu (včetně písmen sloupců) k samostatnému sloupci. Tento sloupec je ve výchozím nastavení zahrnutý při použití automatického zavaděče. Další podrobnosti najdete v tématu Co je záchranná datová sloupec?. Výchozí hodnota: Žádné.	přečteno

`PARQUET` volby

Možnost
`datetimeRebaseMode` Typ: `String` Řídí znovubasování hodnot DATE a TIMESTAMP mezi Julianem a Proleptic gregoriánskými kalendáři. Povolené hodnoty: `EXCEPTION`, `LEGACY`a `CORRECTED`. Výchozí hodnota: `LEGACY`
`int96RebaseMode` Typ: `String` Řídí znovubasování hodnot časového razítka INT96 mezi Julianem a Proleptic gregoriánskými kalendáři. Povolené hodnoty: `EXCEPTION`, `LEGACY`a `CORRECTED`. Výchozí hodnota: `LEGACY`
`mergeSchema` Typ: `Boolean` Určuje, jestli chcete schéma odvodit napříč více soubory a sloučit schéma jednotlivých souborů. Výchozí hodnota: `false`
`readerCaseSensitive` Typ: `Boolean` Určuje chování citlivosti případu, pokud `rescuedDataColumn` je povoleno. Pokud je pravda, zachorání sloupce dat, jejichž názvy se liší písmeny od schématu; v opačném případě čte data bez rozlišování velkých a malých písmen. Výchozí hodnota: `true`
`rescuedDataColumn` Typ: `String` Určuje, jestli se mají shromažďovat všechna data, která nelze analyzovat z důvodu neshody datového typu a neshody schématu (včetně písmen sloupců) do samostatného sloupce. Tento sloupec je ve výchozím nastavení zahrnutý při použití automatického zavaděče. Další podrobnosti najdete v části Co je záchranný sloupec dat?. Výchozí hodnota: None

`AVRO` volby

Možnost
`avroSchema` Typ: `String` Volitelné schéma poskytované uživatelem ve formátu Avro Při čtení Avro lze tuto možnost nastavit na vyvinuté schéma, které je kompatibilní, ale liší se se skutečným schématem Avro. Schéma deserializace bude konzistentní s vyvíjeným schématem. Pokud například nastavíte vyvíjené schéma obsahující jeden další sloupec s výchozí hodnotou, výsledek čtení bude obsahovat i nový sloupec. Výchozí hodnota: None
`datetimeRebaseMode` Typ: `String` Řídí znovubasování hodnot DATE a TIMESTAMP mezi Julianem a Proleptic gregoriánskými kalendáři. Povolené hodnoty: `EXCEPTION`, `LEGACY`a `CORRECTED`. Výchozí hodnota: `LEGACY`
`mergeSchema` Typ: `Boolean` Určuje, jestli chcete schéma odvodit napříč více soubory a sloučit schéma jednotlivých souborů. `mergeSchema` pro Avro neuvolní datové typy. Výchozí hodnota: `false`
`readerCaseSensitive` Typ: `Boolean` Určuje chování citlivosti případu, pokud `rescuedDataColumn` je povoleno. Pokud je pravda, zachorání sloupce dat, jejichž názvy se liší písmeny od schématu; v opačném případě čte data bez rozlišování velkých a malých písmen. Výchozí hodnota: `true`
`rescuedDataColumn` Typ: `String` Určuje, jestli se mají shromažďovat všechna data, která nelze analyzovat z důvodu neshody datového typu a neshody schématu (včetně písmen sloupců) do samostatného sloupce. Tento sloupec je ve výchozím nastavení zahrnutý při použití automatického zavaděče. Další podrobnosti najdete v části Co je záchranný sloupec dat?. Výchozí hodnota: None

`BINARYFILE` volby

Binární soubory nemají žádné další možnosti konfigurace.

`TEXT` volby

Možnost
`encoding` Typ: `String` Název kódování souborů TEXT. Seznam `java.nio.charset.Charset` možností najdete v tématu. Výchozí hodnota: `UTF-8`
`lineSep` Typ: `String` Řetězec mezi dvěma po sobě jdoucími záznamy TEXT. Výchozí hodnota: Žádný, který pokrývá `\r`, `\r\n` a `\n`
`wholeText` Typ: `Boolean` Určuje, jestli se má soubor číst jako jeden záznam. Výchozí hodnota: `false`

`ORC` volby

Možnost
`mergeSchema` Typ: `Boolean` Určuje, jestli chcete schéma odvodit napříč více soubory a sloučit schéma jednotlivých souborů. Výchozí hodnota: `false`

Možnosti specifické pro cloud

Auto Loader nabízí řadu možností konfigurace cloudové infrastruktury.

Konkrétní možnosti AWS
Konkrétní možnosti Azure
Možnosti specifické pro Google

Konkrétní možnosti AWS

Zadejte následující možnost pouze v případě, že zvolíte cloudFiles.useNotifications = true a chcete, aby auto loader nastavil služby oznámení za vás:

Možnost
`cloudFiles.region` Typ: `String` Oblast, ve které se nachází zdrojový kbelík S3 a kde se vytvoří služby AWS SNS a SQS. Výchozí hodnota: Oblast instance EC2.

Zadejte následující možnost pouze v případě, že zvolíte cloudFiles.useNotifications = true a chcete, aby auto loader používal frontu, kterou jste už nastavili:

Možnost
`cloudFiles.queueUrl` Typ: `String` Adresa URL fronty SQS. Pokud je k dispozici, auto loader přímo využívá události z této fronty místo nastavení vlastní služby AWS SNS a SQS. Výchozí hodnota: None

Pomocí následujících možností můžete zadat přihlašovací údaje pro přístup k sítím AWS SNS a SQS, pokud role IAM nejsou dostupné nebo když ingestujete data z různých cloudů.

Možnost
`cloudFiles.awsAccessKey` Typ: `String` ID přístupového klíče AWS pro uživatele. Musí být k dispozici s `cloudFiles.awsSecretKey`. Výchozí hodnota: None
`cloudFiles.awsSecretKey` Typ: `String` Tajný přístupový klíč AWS pro uživatele. Musí být k dispozici s `cloudFiles.awsAccessKey`. Výchozí hodnota: None
`cloudFiles.roleArn` Typ: `String` ARN role IAM, která se má předpokládat. Roli lze předpokládat z profilu instance clusteru nebo poskytnutím přihlašovacích údajů. `cloudFiles.awsAccessKey` a `cloudFiles.awsSecretKey`. Výchozí hodnota: None
`cloudFiles.roleExternalId` Typ: `String` Identifikátor, který má být zadán za předpokladu, že role používá `cloudFiles.roleArn`. Výchozí hodnota: None
`cloudFiles.roleSessionName` Typ: `String` Volitelný název relace, který se má použít při za předpokladu role pomocí `cloudFiles.roleArn`. Výchozí hodnota: None
`cloudFiles.stsEndpoint` Typ: `String` Volitelný koncový bod pro přístup k AWS STS při za předpokladu role pomocí `cloudFiles.roleArn`. Výchozí hodnota: None

Konkrétní možnosti Azure

Pokud zadáte cloudFiles.useNotifications = true hodnoty pro všechny následující možnosti a chcete, aby automatické zavaděč nastavil služby oznámení za vás:

Možnost
`cloudFiles.clientId` Typ: `String` ID klienta nebo ID aplikace instančního objektu. Výchozí hodnota: None
`cloudFiles.clientSecret` Typ: `String` Tajný klíč klienta instančního objektu. Výchozí hodnota: None
`cloudFiles.connectionString` Typ: `String` Připojovací řetězec pro účet úložiště na základě přístupového klíče účtu nebo sdíleného přístupového podpisu (SAS). Výchozí hodnota: None
`cloudFiles.resourceGroup` Typ: `String` Skupina prostředků Azure, ve které se účet úložiště vytvoří. Výchozí hodnota: None
`cloudFiles.subscriptionId` Typ: `String` ID předplatného Azure, ve kterém je skupina prostředků vytvořená. Výchozí hodnota: None
`cloudFiles.tenantId` Typ: `String` ID tenanta Azure, ve kterém se vytvoří instanční objekt. Výchozí hodnota: None

Důležité

Automatizované nastavení oznámení je dostupné v oblastech Azure China a Government s modulem Databricks Runtime 9.1 a novějším. Pro starší verze DBR je nutné zadat queueName funkci automatického zavaděče s oznámeními o souborech v těchto oblastech.

Zadejte následující možnost pouze v případě, že zvolíte cloudFiles.useNotifications = true a chcete, aby auto loader používal frontu, kterou jste už nastavili:

Možnost
`cloudFiles.queueName` Typ: `String` Název fronty Azure. Pokud je k dispozici, zdroj cloudových souborů přímo využívá události z této fronty místo nastavení vlastních služeb Azure Event Grid a Queue Storage. V takovém případě vaše `cloudFiles.connectionString` oprávnění ke čtení ve frontě vyžaduje jenom oprávnění ke čtení. Výchozí hodnota: None

Možnosti specifické pro Google

Automatický zavaděč vám může automaticky nastavit služby oznámení pomocí účtů služeb Google. Cluster můžete nakonfigurovat tak, aby předpokládal účet služby pomocí nastavení služby Google. Oprávnění, která váš účet služby potřebuje, jsou zadána v režimu oznámení o souboru automatického zavaděče?. V opačném případě můžete pro ověřování zadat následující možnosti, pokud chcete, aby auto loader nastavil služby oznámení za vás.

Možnost
`cloudFiles.client` Typ: `String` ID klienta účtu služby Google. Výchozí hodnota: None
`cloudFiles.clientEmail` Typ: `String` E-mail účtu služby Google. Výchozí hodnota: None
`cloudFiles.privateKey` Typ: `String` Privátní klíč vygenerovaný pro účet služby Google. Výchozí hodnota: None
`cloudFiles.privateKeyId` Typ: `String` ID privátního klíče vygenerovaného pro účet služby Google. Výchozí hodnota: None
`cloudFiles.projectId` Typ: `String` ID projektu, ve které je kontejner GCS. V rámci tohoto projektu se vytvoří také předplatné Google Cloud Pub/Sub. Výchozí hodnota: None

Zadejte následující možnost pouze v případě, že zvolíte cloudFiles.useNotifications = true a chcete, aby auto loader používal frontu, kterou jste už nastavili:

Možnost
`cloudFiles.subscription` Typ: `String` Název předplatného Google Cloud Pub/Sub. Pokud je k dispozici, zdroj cloudových souborů využívá události z této fronty místo nastavení vlastních oznámení GCS a služeb Google Cloud Pub/Sub. Výchozí hodnota: None

Sdílet prostřednictvím

Možnosti automatického zavaděče

Běžné možnosti automatického zavaděče

Možnosti výpisu adresáře

Možnosti oznámení o souboru

Možnosti formátu souboru

Obecné možnosti

`JSON` volby

`CSV` volby

`XML` volby

`PARQUET` volby

`AVRO` volby

`BINARYFILE` volby

`TEXT` volby

`ORC` volby

Možnosti specifické pro cloud

Konkrétní možnosti AWS

Konkrétní možnosti Azure

Možnosti specifické pro Google

Váš názor

Další materiály

Sdílet prostřednictvím

Možnosti automatického zavaděče

Běžné možnosti automatického zavaděče

Možnosti výpisu adresáře

Možnosti oznámení o souboru

Možnosti formátu souboru

Obecné možnosti

JSON volby

CSV volby

XML volby

PARQUET volby

AVRO volby

BINARYFILE volby

TEXT volby

ORC volby

Možnosti specifické pro cloud

Konkrétní možnosti AWS

Konkrétní možnosti Azure

Možnosti specifické pro Google

Váš názor

Další materiály

`JSON` volby

`CSV` volby

`XML` volby

`PARQUET` volby

`AVRO` volby

`BINARYFILE` volby

`TEXT` volby

`ORC` volby