Naslaginformatie over Spark-API-opties

Deze pagina bevat beschikbare invoer- en uitvoeropties voor Spark-API's die gegevens lezen en schrijven.

Opties voor DataFrameReader

Gebruik deze opties met DataFrameReader.option(), DataFrameReader.options(), read_files, COPY INTO en Auto Loader om te bepalen hoe Azure Databricks gegevensbestanden leest.

Example

In het volgende voorbeeld wordt het lezen van JSON-bestanden ingesteld multiLineTrue :

Python

df = spark.read.format("json").option("multiLine", True).load("/path/to/data")

Scala

val df = spark.read.format("json").option("multiLine", "true").load("/path/to/data")

SQL

SELECT * FROM read_files("/path/to/data", format => "json", multiLine => true)

Gemeenschappelijk

De volgende opties zijn van toepassing op alle bestandsindelingen.

Key	Verstek	Geldige waarden	Description
`ignoreCorruptFiles`	`false`	`true`, `false`	Of beschadigde bestanden moeten worden genegeerd. Als dit waar is, worden de Spark-taken nog steeds uitgevoerd wanneer beschadigde bestanden worden aangetroffen en wordt de gelezen inhoud nog steeds teruggegeven. Voor `COPY INTO`kunt u overgeslagen beschadigde bestanden observeren, zoals `numSkippedCorruptFiles` in de kolom van de `operationMetrics` Delta Lake-geschiedenis. Beschikbaar in Databricks Runtime 11.3 LTS en hoger.
`ignoredPathSegmentRegex`	`^[._]`	Een Java tekenreeks voor reguliere expressies	Hiermee bepaalt u welke bestanden en mappen worden overgeslagen als verborgen tijdens het weergeven van bestanden. De regex wordt vergeleken met elke afzonderlijke map en bestandsnaam onder het pad dat wordt gelezen. Namen die overeenkomen, worden overgeslagen uit bestandsvermeldingen, partitiedetectie en leesbewerkingen, en een overeenkomende mapnaam sluit de volledige substructuur uit. De standaardinstelling `^[._]` slaat namen over die beginnen met `_` of `.`. Stel deze in op een lege tekenreeks om het filter uit te schakelen en verborgen bestanden weer te geven, inclusief interne spark-markeringsbestanden, zoals `_SUCCESS` en bestanden onder `_temporary`. Ongeacht de regex en `_metadata_common_metadata` namen worden altijd vermeld, worden namen die eindigen `._COPYING_` altijd overgeslagen en `_`-voorvoegsel partitiemappen die `=` altijd worden bewaard. In tegenstelling tot `pathGlobFilter`, een insluitingsstijl glob die alleen wordt toegepast op leaf-bestandsnamen, is dit een uitgesloten regex toegepast op elk padonderdeel en de twee kunnen worden gecombineerd. U kunt dit ook instellen met de `spark.sql.files.ignoredPathSegmentRegex` Spark-configuratie en de optie voor gegevensbronnen heeft voorrang wanneer beide zijn ingesteld. Beschikbaar in Databricks Runtime 19 en hoger.
`ignoreMissingFiles`	`false` voor Automatisch laden, `true` voor `COPY INTO` (verouderd)	`true`, `false`	Of ontbrekende bestanden moeten worden genegeerd. Indien waar, worden de Spark-taken nog steeds uitgevoerd wanneer er ontbrekende bestanden optreden en de inhoud nog steeds wordt geretourneerd. Beschikbaar in Databricks Runtime 11.3 LTS en hoger.
`modifiedAfter`	None	Een tijdstempeltekenreeks	Een optionele tijdstempel als filter om alleen bestanden op te nemen die een wijzigingstijdstempel hebben na de opgegeven tijdstempel.
`modifiedBefore`	None	Een tijdstempeltekenreeks	Een optionele tijdstempel als filter om alleen bestanden op te nemen met een wijzigingstijdstempel vóór de opgegeven tijdstempel.
`pathGlobFilter` of `fileNamePattern`	None	Een glob-patroontekenreeks	Een potentieel globpatroon voor het kiezen van bestanden. Gelijk aan `PATTERN` in `COPY INTO` (verouderd). `fileNamePattern` kan worden gebruikt in `read_files`.
`recursiveFileLookup`	`false`	`true`, `false`	Wanneer `true`, deze optie doorzoekt geneste mappen, zelfs als hun namen geen partitienaamschema volgen, zoals `date=2019-07-01`.

Avro

De volgende opties zijn van toepassing bij het lezen van Avro-bestanden.

Key	Verstek	Geldige waarden	Description
`avroSchema`	None	Een Avro-schematekenreeks	Optioneel schema dat is opgegeven door een gebruiker in Avro-indeling. Bij het lezen van Avro kan deze optie worden ingesteld op een ontwikkeld schema dat compatibel is, maar verschilt van het werkelijke Avro-schema. Het deserialisatieschema is consistent met het ontwikkelde schema. Als u bijvoorbeeld een ontwikkeld schema instelt dat één extra kolom met een standaardwaarde bevat, bevat het leesresultaat ook de nieuwe kolom.
`avroSchemaEvolutionMode`	`none`	`none`, `restart`	De ontwikkeling van schema's afhandelen bij het gebruik van een schemaregister. `none` negeert schemawijzigingen en gaat door met de taak. `restart` genereert een `UnknownFieldException` wanneer schemawijzigingen worden gedetecteerd en vereist opnieuw opstarten van een taak.
`datetimeRebaseMode`	`LEGACY`	`EXCEPTION`, , `LEGACYCORRECTED`	Hiermee bepaalt u de herbepaling van de DATUM- en TIJDSTEMPEL-waarden tussen de Juliaanse en Proleptisch Gregoriaanse kalenders.
`enableStableIdentifiersForUnionType`	`false`	`true`, `false`	Of u stabiele veldnamen wilt gebruiken voor Avro Union-typen. Wanneer deze optie is ingeschakeld, worden veldnamen van het samenvoegtype afgeleid van hun typenamen in kleine letters (bijvoorbeeld `member_int`, `member_string`). Hiermee wordt een uitzondering gegenereerd als twee typenamen identiek zijn na het verlagen.
`mergeSchema`	`false`	`true`, `false`	Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. `mergeSchema` Avro versoepelt de gegevenstypen niet.
`mode`	`FAILFAST`	`FAILFAST`, , `PERMISSIVEDROPMALFORMED`	Parsermodus voor het verwerken van beschadigde records. `FAILFAST` retourneert een uitzondering. `PERMISSIVE` hiermee stelt u onjuiste velden in op null. `DROPMALFORMED` laat slechte records op de achtergrond vallen.
`readerCaseSensitive`	`true`	`true`, `false`	Hiermee specificeert u de hoofdlettergevoeligheid wanneer `rescuedDataColumn` is ingeschakeld. Indien waar, kunt u de gegevenskolommen redden waarvan de namen verschillen per geval van het schema. Als dit onwaar is, leest u de gegevens op een niet-hoofdlettergevoelige manier.
`recursiveFieldMaxDepth`	None	`0` tot en met `15`	De maximale recursiediepte voor recursieve Avro-velden. Ingesteld op `1` het afkappen van alle recursieve velden, `2` om één recursieniveau toe te staan, enzovoort `15`. Wanneer niet-begin- of `0`recursieve velden niet zijn toegestaan.
`rescuedDataColumn`	None	Een kolomnaamtekenreeks	Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. `COPY INTO` (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van `COPY INTO`. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's. Voor meer informatie, raadpleeg Wat is de kolom met geredde gegevens?.
`stableIdentifierPrefixForUnionType`	`member_`	Elke tekenreeks	Het voorvoegsel dat moet worden gebruikt voor stabiele samenvoegingsveldnamen wanneer `enableStableIdentifiersForUnionType=true`.

CSV

De volgende opties zijn van toepassing bij het lezen van CSV-bestanden.

Key	Verstek	Geldige waarden	Description
`badRecordsPath`	None	Een padtekenreeks	Het pad voor het opslaan van bestanden met informatie over ongeldige CSV-records.
`charToEscapeQuoteEscaping`	`\0`	Eén teken	Het teken dat wordt gebruikt om het teken te escapen dat wordt gebruikt voor aanhalingstekens. Bijvoorbeeld voor de volgende record: `[ " a\\", b ]` Als het teken om aan de `'\'` escape-code te ontsnappen niet is gedefinieerd, wordt de record niet geparseerd. De parser leest de tekens: `[a],[\],["],[,],[ ],[b]` en geeft een foutmelding omdat er geen afsluitend aanhalingsteken kan worden gevonden. Als het teken om aan het `'\'` te ontsnappen gedefinieerd is als `'\'`, wordt het record gelezen met 2 waarden: `[a\]` en `[b]`.
`columnNameOfCorruptRecord`	`_corrupt_record`	Een kolomnaamtekenreeks	Ondersteund voor automatisch laden. Niet ondersteund voor `COPY INTO` (verouderd). De kolom voor het opslaan van records die misvormd zijn en niet kunnen worden geparseerd. Als het `mode` voor parseren is ingesteld als `DROPMALFORMED`, is deze kolom leeg.
`comment`	`\0`	Eén teken	Hiermee definieert u het teken dat een regelcommentaar aangeeft wanneer deze wordt gevonden aan het begin van een tekstregel. Hiermee `'\0'` schakelt u het overslaan van opmerkingen uit.
`dateFormat`	`yyyy-MM-dd`	Een tekenreeks voor datumnotatie	De notatie voor het parseren van datumtekenreeksen.
`emptyValue`	Lege tekenreeks	Elke tekenreeks	Tekenreeksweergave van een lege waarde.
`enableDateTimeParsingFallback`	`false`	`true`, `false`	Of u wilt terugvallen op het verouderde datum- en tijdstempelparseringsgedrag wanneer een waarde niet kan worden geparseerd met de opgegeven indeling. Wanneer `false`parseringsfouten een fout veroorzaken of null produceren, afhankelijk van `mode`.
`encoding` of `charset`	`UTF-8`	Een `java.nio.charset.Charset` naam	De naam van de codering van de CSV-bestanden. Zie `java.nio.charset.Charset` voor de lijst met opties. `UTF-16` en `UTF-32` kunnen niet worden gebruikt wanneer `multilinetrue` is.
`enforceSchema`	`true`	`true`, `false`	Of u het opgegeven of afgeleid schema geforceerd wilt toepassen op de CSV-bestanden. Als de optie is ingeschakeld, worden headers van CSV-bestanden genegeerd. Deze optie wordt standaard genegeerd wanneer u AutoLoader gebruikt om gegevens te redden en schemaontwikkeling mogelijk te maken.
`escape`	`\`	Eén teken	Het escape-teken dat moet worden gebruikt bij het parseren van de gegevens.
`extension`	`csv`	Een tekenreeks voor bestandsextensies	De verwachte bestandsnaamextensie voor leesbewerkingen. Bestanden zonder deze extensie worden uitgefilterd.
`failOnUnknownFields`	`false`	`true`, `false`	Of dit mislukt wanneer de CSV-record kolommen bevat die niet aanwezig zijn in het schema. Wanneer `false`, niet-herkende kolommen op de achtergrond worden verwijderd of gered, afhankelijk `rescuedDataColumn`van .
`failOnWidenedFields`	`false`	`true`, `false`	Of een veldwaarde niet kan worden geparseerd als het gedeclareerde schematype zonder breder te worden. Wanneer `false`, typebrede waarden op de achtergrond worden gered, afhankelijk `rescuedDataColumn`van . De instelling `failOnUnknownFields=true` kan de effecten van deze optie maskeren.
`header`	`false`	`true`, `false`	Of de CSV-bestanden een koptekst bevatten. Auto Loader gaat ervan uit dat bestanden headers hebben bij het uitstellen van het schema.
`ignoreLeadingWhiteSpace`	`false`	`true`, `false`	Of u voorloopspaties voor elke geparseerde waarde wilt negeren.
`ignoreTrailingWhiteSpace`	`false`	`true`, `false`	Hiermee wordt aangegeven of u volgspaties voor elke geparseerde waarde wilt negeren.
`inferSchema`	`false`	`true`, `false`	Of u de gegevenstypen van de geparseerde CSV-records wilt afleiden of ervan wilt uitgaan dat alle kolommen van `StringType`zijn. Vereist een extra pass over de gegevens indien ingesteld op `true`. Voor Auto Loader moet je in plaats daarvan `cloudFiles.inferColumnTypes` gebruiken.
`inputBufferSize`	`1048576` (1 MB)	Positieve gehele getallen	De buffergrootte in bytes voor de CSV-parser. Handig voor het afstemmen van het geheugengebruik bij het parseren van grote CSV-bestanden.
`lineSep`	Geen, die betrekking heeft `\r`op , `\r\n`en `\n`	Een tekenreeks	Een tekst tussen twee opeenvolgende CSV-records.
`locale`	`US`	Een `java.util.Locale` id	Een Java landinstelling die van invloed is op de standaarddatum, tijdstempel en decimale parsering in het CSV-bestand.
`maxCharsPerColumn`	`-1`	Positieve gehele getallen, of `-1` voor onbeperkt	Maximum aantal tekens dat wordt verwacht van een waarde om te parseren. Kan worden gebruikt om geheugenfouten te voorkomen. Standaard ingesteld op `-1`, wat onbeperkt betekent.
`maxColumns`	`20480`	Positieve gehele getallen	De vaste limiet van het aantal kolommen dat een record kan hebben.
`mergeSchema`	`false`	`true`, `false`	Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Standaard ingeschakeld voor Auto Loader bij het afleiden van het schema.
`mode`	`PERMISSIVE`	`PERMISSIVE`, , `DROPMALFORMEDFAILFAST`	Parsermodus voor het omgaan met verkeerd gevormde records.
`multiLine`	`false`	`true`, `false`	Of de CSV-records meerdere regels omvatten.
`nanValue`	`NaN`	Elke tekenreeks	De tekenreeksweergave van een niet-getal waarde bij het parseren van `FloatType`- en `DoubleType`-kolommen.
`negativeInf`	`-Inf`	Elke tekenreeks	De tekenreeksweergave van negatief oneindig bij het parseren van de kolommen `FloatType` of `DoubleType`.
`nullValue`	Lege tekenreeks	Elke tekenreeks	Tekenreeksweergave van een null-waarde.
`parserCaseSensitive` (afgeschaft)	`false`	`true`, `false`	Tijdens het lezen van bestanden moet worden bepaald of kolommen in de koptekst hoofdlettergevoelig moeten worden uitgelijnd met het schema. Dit is `true` standaard voor autolaadprogramma's. Kolommen die in lettergrootte verschillen, worden in de `rescuedDataColumn` hersteld indien ingeschakeld. Deze optie is afgeschaft ten gunste van `readerCaseSensitive`.
`positiveInf`	`Inf`	Elke tekenreeks	De tekenreeksweergave van positieve oneindigheid bij het parseren van `FloatType`- of `DoubleType`-kolommen.
`preferDate`	`true`	`true`, `false`	Probeert indien mogelijk strings als datums te interpreteren in plaats van als een tijdstempel. U moet ook schemadeductie gebruiken door het in- `inferSchema` of gebruiken `cloudFiles.inferColumnTypes` van automatisch laden.
`quote`	`"`	Eén teken	Het teken dat wordt gebruikt voor het escapen van waarden waarin het veldscheidingsteken deel uitmaakt van de waarde.
`readerCaseSensitive`	`true`	`true`, `false`	Hiermee specificeert u de hoofdlettergevoeligheid wanneer `rescuedDataColumn` is ingeschakeld. Indien waar, kunt u de gegevenskolommen redden waarvan de namen verschillen per geval van het schema. Als dit onwaar is, leest u de gegevens op een niet-hoofdlettergevoelige manier.
`rescuedDataColumn`	None	Een kolomnaamtekenreeks	Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Voor meer informatie, raadpleeg Wat is de kolom met geredde gegevens?. `COPY INTO` (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van `COPY INTO`. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.
`sep` of `delimiter`	`,`	Een tekenreeks	De scheidingstekenreeks tussen kolommen.
`singleVariantColumn`	None	Een kolomnaamtekenreeks	Als deze is ingesteld op een kolomnaam, leest u de hele CSV-record in één `VariantType` kolom met die naam in plaats van elk veld in een eigen kolom te parseren. Vereist `header=true`.
`skipRows`	`0`	Positieve gehele getallen of `0`	Het aantal rijen vanaf het begin van het CSV-bestand dat moet worden genegeerd, inclusief opmerkingen en lege rijen. Als `header` waar is, is de koptekst de eerste niet-overgeslagen en niet als commentaar gemarkeerde rij.
`timeFormat`	`HH:mm:ss`	Een tekenreeks voor tijdnotatie	De notatie voor het parseren van `TimeType` kolomwaarden.
`timestampFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`	Tekenreeks voor tijdstempelnotatie	Het formaat voor het parseren van tijdstempelreeksen.
`timestampNTZFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS]`	Tekenreeks voor tijdstempelnotatie	De notatie voor het parseren van tijdstempels zonder tijdzonetekenreeksen (`TimestampNTZType`).
`timeZone`	None	Een `java.time.ZoneId` tekenreeks	De `java.time.ZoneId` te gebruiken bij het parseren van tijdstempels en datums.
`unescapedQuoteHandling`	`STOP_AT_DELIMITER`	`STOP_AT_CLOSING_QUOTE`, `BACK_TO_DELIMITER`, `STOP_AT_DELIMITER`, `SKIP_VALUE`, , `RAISE_ERROR`	De aanpak voor het omgaan met niet-ontsloten aanhalingstekens. Het gedrag van elke toegestane optie is als volgt: `STOP_AT_CLOSING_QUOTE`: Als er ongemarkeerde aanhalingstekens worden gevonden in de invoer, moet u het aanhalingsteken accumuleren en doorgaan met het parseren van de waarde als een gequote waarde, totdat er een afsluitend aanhalingsteken wordt gevonden. `BACK_TO_DELIMITER`: Als er niet-escapete aanhalingstekens worden gevonden in de invoer, kunt u de waarde beschouwen als een waarde zonder aanhalingstekens. Hierdoor verzamelt de parser alle tekens van de huidige geparseerde waarde totdat het scheidingsteken dat is gedefinieerd door `sep` is gevonden. Als er geen scheidingsteken in de waarde wordt gevonden, blijft de parser tekens uit de invoer accumuleren totdat een scheidingsteken of regeleinde is gevonden. `STOP_AT_DELIMITER`: Als er niet-escapete aanhalingstekens worden gevonden in de invoer, kunt u de waarde beschouwen als een waarde zonder aanhalingstekens. Hierdoor verzamelt de parser alle tekens totdat het scheidingsteken dat is gedefinieerd door `sep` of een regeleinde in de invoer wordt gevonden. `SKIP_VALUE`: Als niet-omsloten aanhalingstekens in de invoer worden gevonden, wordt de inhoud die voor de opgegeven waarde is geëxtraheerd overgeslagen (totdat het volgende scheidingsteken is gevonden) en de waarde die in `nullValue` is ingesteld, wordt in plaats daarvan geproduceerd. `RAISE_ERROR`: Als er onopgezichtige aanhalingstekens worden gevonden in de invoer, wordt er een `TextParsingException` gegenereerd.

Excel

De volgende opties zijn van toepassing bij het lezen van Excel bestanden.

Key	Verstek	Geldige waarden	Description
`dataAddress`	None	Een celbereik of bladnaamtekenreeks	Het celbereik dat moet worden gelezen in Excel syntaxis. Als u dit weglaat, worden alle geldige cellen uit het eerste blad gelezen. Gebruik `SheetName!C5:H10` deze functie om een bereik te lezen van een benoemd blad, `C5:H10` om een bereik te lezen van het eerste blad of `SheetName` om alle gegevens uit een specifiek blad te lezen.
`headerRows`	`0`	`0`, `1`	Het aantal initiële rijen dat moet worden gebruikt als kolomnaamkoppen. Wanneer `dataAddress` dit is opgegeven, is dit van toepassing binnen het celbereik. Wanneer `0`, kolomnamen worden automatisch gegenereerd als `_c1`, `_c2`, `_c3`, enzovoort.
`ignoreMissingSheet`	`false`	`true`, `false`	Of u bestanden die niet het blad bevatten dat is opgegeven, `dataAddress`op de achtergrond wilt overslaan. Wanneer `false`er een fout optreedt als er een bestand ontbreekt in het aangevraagde blad. Alleen van toepassing wanneer een bladnaam is opgegeven in `dataAddress`.
`includePhoneticRuns`	`false`	`true`, `false`	Of fonetische aantekeningen (zoals pinyin of furigana) moeten worden samengevoegd met celtekenreekswaarden bij het lezen van XLSX-bestanden.
`operation`	`readSheet`	`readSheet`, `listSheets`	De bewerking die moet worden uitgevoerd op de Excel werkmap. `readSheet` leest gegevens uit een blad. `listSheets` retourneert een struct met velden `sheetIndex: long` en `sheetName: String` voor elk blad.
`timestampNTZFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS]`	Tekenreeks voor tijdstempelnotatie	Aangepaste notatietekenreeks voor tijdstempel-zonder-tijdzonewaarden die zijn opgeslagen als tekenreeksen in Excel. Aangepaste datumnotaties volgen de notaties bij Datum/tijd-patronen.
`dateFormat`	`yyyy-MM-dd`	Een tekenreeks voor datumnotatie	Tekenreeks voor aangepaste notatie voor tekenreekswaarden gelezen als `Date`. Aangepaste datumnotaties volgen de notaties bij Datum/tijd-patronen.

JSON

De volgende opties zijn van toepassing bij het lezen van JSON-bestanden.

Key	Verstek	Geldige waarden	Description
`allowBackslashEscapingAnyCharacter`	`false`	`true`, `false`	Of backslashes toegestaan zijn om karakters die hen opvolgen te ontsnappen. Als dit niet is ingeschakeld, kunnen alleen tekens die expliciet door de JSON-specificatie zijn vermeld, worden geëscaped.
`allowComments`	`false`	`true`, `false`	Of het gebruik van opmerkingen in java-, C- en C++-stijl (`'/'`, `'*'`en `'//'` variëteiten) binnen geparseerde inhoud al dan niet is toegestaan.
`allowNonNumericNumbers`	`true`	`true`, `false`	Hiermee wordt aangegeven of de reeks niet-nummer tokens (`NaN`) als geldige drijvende getalwaarden kunnen worden gebruikt.
`allowNumericLeadingZeros`	`false`	`true`, `false`	Of u wilt toestaan dat integrale getallen beginnen met extra (negeerbare) nullen (bijvoorbeeld `000001`).
`allowSingleQuotes`	`true`	`true`, `false`	Hiermee wordt aangegeven of enkele aanhalingstekens (apostrof, teken `'\'`) kunnen worden toegestaan voor het citeren van strings (namen en waarden).
`allowUnquotedControlChars`	`false`	`true`, `false`	Of JSON-tekenreeksen ongescapete besturingstekens mogen bevatten (ASCII-tekens met een waarde kleiner dan 32, inclusief tab- en regelinvoertekens) of niet.
`allowUnquotedFieldNames`	`false`	`true`, `false`	Of u het gebruik van niet-aanhalingeerde veldnamen wilt toestaan, die zijn toegestaan door JavaScript, maar niet door de JSON-specificatie.
`alternateVariantEncoding`	None	`Z85`	De codering die wordt gebruikt voor variantwaarden in de bron-JSON. Ingesteld op `Z85` het decoderen van variantwaarden die zijn gecodeerd met Base85 in plaats van opgeslagen als inline JSON.
`badRecordsPath`	None	Een padtekenreeks	Het pad voor het opslaan van bestanden met informatie over ongeldige JSON-records. Het gebruik van de `badRecordsPath` optie in een gegevensbron op basis van bestanden heeft de volgende beperkingen: Het is niet-transactioneel en kan leiden tot inconsistente resultaten. Tijdelijke fouten worden behandeld als fouten.
`columnNameOfCorruptRecord`	`_corrupt_record`	Een kolomnaamtekenreeks	De kolom voor het opslaan van records die misvormd zijn en niet kunnen worden geparseerd. Als het `mode` voor parseren is ingesteld als `DROPMALFORMED`, is deze kolom leeg.
`dateFormat`	`yyyy-MM-dd`	Een tekenreeks voor datumnotatie	De notatie voor het parseren van datumtekenreeksen.
`dropFieldIfAllNull`	`false`	`true`, `false`	Of kolommen van alle null-waarden of lege matrices en structs tijdens schemadeductie moeten worden genegeerd.
`encoding` of `charset`	`UTF-8`	Een `java.nio.charset.Charset` naam	De naam van de codering van de JSON-bestanden. Zie `java.nio.charset.Charset` voor een lijst met opties. U kunt niet gebruiken `UTF-16` en `UTF-32` wanneer `multiline` is `true`.
`inferTimestamp`	`false`	`true`, `false`	Of je al dan niet wilt proberen om tijdstempelreeksen af te leiden als een `TimestampType`. Wanneer dit is ingesteld, kan het aanzienlijk langer duren voordat schemadeductie is ingesteld `true`. U moet `cloudFiles.inferColumnTypes` inschakelen om te gebruiken met Auto Loader.
`lineSep`	Geen, die betrekking heeft `\r`op , `\r\n`en `\n`	Een tekenreeks	Een string tussen twee opeenvolgende JSON-records.
`locale`	`US`	Een `java.util.Locale` id	Een Java landinstellingen-id die van invloed is op de standaarddatum, tijdstempel en decimale parsering binnen de JSON.
`maxNestingDepth`	`500`	Positieve gehele getallen	De maximaal toegestane nestdiepte voor JSON-objecten en matrices. Verhoog deze waarde voor diep geneste documenten.
`maxNumLen`	`1000`	Positieve gehele getallen	De maximale lengte van het aantal tokens in de JSON-invoer. Verhoog deze waarde voor JSON met grote numerieke letterlijke waarden.
`maxStringLen`	Onbeperkt	Positieve gehele getallen	De maximale lengte van tekenreekswaarden in de JSON-invoer. Ingesteld om het geheugengebruik te beperken bij het parseren van JSON met grote tekenreeksen.
`mode`	`PERMISSIVE`	`PERMISSIVE`, , `DROPMALFORMEDFAILFAST`	Parsermodus voor het omgaan met verkeerd gevormde records.
`multiLine`	`false`	`true`, `false`	Of de JSON-records meerdere regels omvatten.
`prefersDecimal`	`false`	`true`, `false`	Probeert tekenreeksen af te leiden als `DecimalType` in plaats van float- of double-type, indien mogelijk. U moet ook schemadeductie gebruiken door het in- `inferSchema` of gebruiken `cloudFiles.inferColumnTypes` van automatisch laden.
`primitivesAsString`	`false`	`true`, `false`	Of primitieve typen zoals getallen en booleaanse waarden als `StringType` moeten worden afgeleid.
`readerCaseSensitive`	`true`	`true`, `false`	Hiermee specificeert u de hoofdlettergevoeligheid wanneer `rescuedDataColumn` is ingeschakeld. Indien waar, kunt u de gegevenskolommen redden waarvan de namen verschillen per geval van het schema. Als dit onwaar is, leest u de gegevens op een niet-hoofdlettergevoelige manier. Beschikbaar in Databricks Runtime 13.3 en hoger.
`rescuedDataColumn`	None	Een kolomnaamtekenreeks	Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd als gevolg van een niet-overeenkomend gegevenstype of niet-overeenkomende schema's (inclusief kolombehuizing) naar een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Raadpleeg voor meer details Wat is de kolom met geredde data?. `COPY INTO` (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van `COPY INTO`. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.
`singleVariantColumn`	None	Een kolomnaamtekenreeks	Als deze optie is ingesteld op een kolomnaam, neemt u de hele JSON-record op als één VARIANT-kolom met de opgegeven naam in plaats van elk veld in een eigen kolom te parseren. De doeltabel moet een kolom van het type VARIANT met die naam bevatten.
`timestampFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`	Tekenreeks voor tijdstempelnotatie	Het formaat voor het parseren van tijdstempelreeksen.
`timestampNTZFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS]`	Tekenreeks voor tijdstempelnotatie	De notatie voor het parseren van tijdstempels zonder tijdzonetekenreeksen (`TimestampNTZType`).
`timeZone`	None	Een `java.time.ZoneId` tekenreeks	De `java.time.ZoneId` te gebruiken bij het parseren van tijdstempels en datums.
`upgradeExceptionAsBadRecord`	`false`	`true`, `false`	Of u type-upgradeuitzondering wilt behandelen (bijvoorbeeld wanneer een waarde niet kan worden uitgebreid naar het opgegeven kolomtype) als slechte records in plaats van een uitzondering te genereren.

Kafka

Zie DataStreamReader Kafka-opties voor de volledige lijst met opties voor Kafka-lezers. De volgende opties zijn alleen van toepassing op batchleesbewerkingen met behulp van spark.read.format("kafka").

Key	Verstek	Geldige waarden	Description
`endingOffsets`	`latest`	`latest`of een JSON-offsettekenreeks	Waar kan ik stoppen met lezen. In de JSON-tekenreeks `-1` is de meest recente offset. `-2`, wat de vroegste verschuiving is, is niet toegestaan als een eindverrekening. Dit is een voorbeeld van een JSON-offsettekenreeks: `{"topicA":{"0":50,"1":-1}}`.
`endingOffsetsByTimestamp`	None	Een JSON-tijdstempeltekenreeks	Eindverschuivingen per partitie die zijn opgegeven als tijdstempels in milliseconden. Bijvoorbeeld: `{"topicA":{"0":2000,"1":3000}}`.
`endingTimestamp`	None	Positieve gehele getallen of `0`	Globale eindtijdstempel in milliseconden die worden toegepast op alle partities.

ORC

De volgende opties zijn van toepassing bij het lezen van ORC-bestanden.

Key	Verstek	Geldige waarden	Description
`mergeSchema`	`false`	`true`, `false`	Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen.

Parket

De volgende opties zijn van toepassing bij het lezen van Parquet-bestanden.

Key	Verstek	Geldige waarden	Description
`datetimeRebaseMode`	`LEGACY`	`EXCEPTION`, , `LEGACYCORRECTED`	Hiermee bepaalt u de herbepaling van de DATUM- en TIJDSTEMPEL-waarden tussen de Juliaanse en Proleptisch Gregoriaanse kalenders.
`int96RebaseMode`	`LEGACY`	`EXCEPTION`, , `LEGACYCORRECTED`	Hiermee regelt u de rebasing van de INT96-tijdstempelwaarden bij Julian- en Proleptische Gregoriaanse kalenders.
`mergeSchema`	`false`	`true`, `false`	Of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen.
`readerCaseSensitive`	`true`	`true`, `false`	Hiermee specificeert u de hoofdlettergevoeligheid wanneer `rescuedDataColumn` is ingeschakeld. Indien waar, kunt u de gegevenskolommen redden waarvan de namen verschillen per geval van het schema. Als dit onwaar is, leest u de gegevens op een niet-hoofdlettergevoelige manier.
`rescuedDataColumn`	None	Een kolomnaamtekenreeks	Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege: een gegevenstype komt niet overeen en het schema komt niet overeen (inclusief kolombehuizing) in een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Voor meer informatie, raadpleeg Wat is de kolom met geredde gegevens?. `COPY INTO` (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van `COPY INTO`. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.

Statusarchief

Gebruik deze opties met spark.read.format("statestore") of de read_statestore functie met de tabelwaarde om statusgegevens van structured streaming te lezen. Zie Lees informatie over de status van Structured Streaming.

Key	Verstek	Geldige waarden	Description
`batchId`	Meest recente batch-id	Positieve gehele getallen of `0`	De doelbatch waaruit moet worden gelezen. Gebruik dit om een query uit te voeren op een eerdere status van de query. De batch moet worden vastgelegd, maar nog niet worden opgeschoond.
`operatorId`	`0`	Positieve gehele getallen of `0`	De doeloperator waaruit moet worden gelezen. Gebruik deze query wanneer de query meerdere stateful operators heeft.
`storeName`	`DEFAULT`	Elke tekenreeks	De naam van het doelstatusarchief waaruit moet worden gelezen. Gebruik deze functie wanneer de stateful operator meerdere exemplaren van het statusarchief heeft. U moet een `storeName` van beide opgeven of `joinSide` voor een stream-stream-join, maar niet voor beide.
`joinSide`	None	`left`, `right`	De doelzijde waaruit moet worden gelezen voor een stream-stream-join. U moet een `storeName` van beide opgeven of `joinSide` voor een stream-stream-join, maar niet voor beide.
`snapshotStartBatchId`	None	Positieve gehele getallen of `0`	De batch-id van de momentopname die moet worden gebruikt als uitgangspunt bij het lezen. De lezer herbouwt de status door wijzigingen van deze momentopname opnieuw af te spelen tot `batchId`. Handig wanneer een momentopname beschadigd is. Moet samen met `snapshotPartitionId`. Kan niet gebruiken met `readChangeFeed`. Ondersteunt het statusarchief met HDFS-ondersteuning en het RocksDB-statusarchief waarvoor controlepunten voor changelogs zijn ingeschakeld. Beschikbaar in Databricks Runtime 15.4 LTS en hoger.
`snapshotPartitionId`	None	Positieve gehele getallen of `0`	Indien opgegeven, leest de query deze partitie alleen. Moet samen met `snapshotStartBatchId`. Kan niet gebruiken met `readChangeFeed`. Beschikbaar in Databricks Runtime 15.4 LTS en hoger.
`readChangeFeed`	`false`	`true`, `false`	Wanneer , retourneert `true`statuswijzigingen binnen een opgegeven bereik van batches tussen `changeStartBatchId` en `changeEndBatchId`. Vereist `changeStartBatchId`. Kan niet gebruiken met`joinSide`, `batchId`of `snapshotStartBatchIdsnapshotPartitionId`. Beschikbaar in Databricks Runtime 16.4 LTS en hoger. Zie Wijzigingen in de status Structured Streaming lezen voor meer informatie.
`changeStartBatchId`	None	Positieve gehele getallen of `0`	De batch-id voor het wijzigingsfeedbereik. Vereist wanneer `readChangeFeedtrue` is. Alleen van toepassing wanneer `readChangeFeed` is ingesteld op `true`. Beschikbaar in Databricks Runtime 16.4 LTS en hoger.
`changeEndBatchId`	Meest recente batch-id	Positieve gehele getallen of `0`	De eindbatch-id voor het wijzigingenfeedbereik. Moet groter dan of gelijk aan `changeStartBatchId`zijn. Alleen van toepassing wanneer `readChangeFeed` is ingesteld op `true`. Beschikbaar in Databricks Runtime 16.4 LTS en hoger.
`stateVarName`	None	Elke tekenreeks	De naam van de statusvariabele die moet worden gelezen. De naam van de statusvariabele is de unieke naam van elke variabele binnen de `init` functie van een `StatefulProcessor` operator die door de `transformWithState` operator wordt gebruikt. Vereist wanneer u de `transformWithState` operator gebruikt. Beschikbaar in Databricks Runtime 16.4 LTS en hoger.
`readRegisteredTimers`	`false`	`true`, `false`	Wanneer `true`worden geregistreerde timers gelezen die door de `transformWithState` operator worden gebruikt. Alleen van toepassing op de `transformWithState` operator. Beschikbaar in Databricks Runtime 16.4 LTS en hoger.
`flattenCollectionTypes`	`true`	`true`, `false`	Wanneer `true`, worden de records die worden geretourneerd voor toewijzings- en lijststatusvariabelen afgevlakt. Wanneer `false`, retourneert records als spark SQL `Array` of `Map`. Alleen van toepassing op de `transformWithState` operator. Beschikbaar in Databricks Runtime 16.4 LTS en hoger.

Tekst

De volgende opties zijn van toepassing bij het lezen van tekstbestanden.

Key	Verstek	Geldige waarden	Description
`encoding`	`UTF-8`	Een `java.nio.charset.Charset` naam	De naam van de codering van het scheidingsteken voor tekstbestandsregeldelers. De inhoud van het bestand wordt niet beïnvloed door deze optie en wordt gelezen as-is.
`lineSep`	Geen, die betrekking heeft `\r`op , `\r\n` en `\n`	Een tekenreeks	Een reeks tussen twee opeenvolgende TEKST-records.
`wholeText`	`false`	`true`, `false`	Of u een bestand als één record wilt lezen.

XML

De volgende opties zijn van toepassing bij het lezen van XML-bestanden.

Key	Verstek	Geldige waarden	Description
`rowTag`	None	Elke tekenreeks	De rijtag van de XML-bestanden die moeten worden behandeld als een rij. In het voorbeeld-XML `<book> <page><page>...<book>`is `page`de juiste waarde. Dit is een vereiste optie.
`samplingRatio`	`1.0`	`0.0` tot en met `1.0`	Definieert een fractie van rijen die worden gebruikt voor schemadeductie. Ingebouwde XML-functies negeren deze optie.
`excludeAttribute`	`false`	`true`, `false`	Of kenmerken in elementen moeten worden uitgesloten.
`mode`	None	`PERMISSIVE`, , `DROPMALFORMEDFAILFAST`	Modus voor het verwerken van beschadigde records tijdens het parseren. `PERMISSIVE`: Voor beschadigde records plaatst u de ongeldige tekenreeks in een veld dat is geconfigureerd door `columnNameOfCorruptRecord`en stelt u onjuiste velden in op `null`. Als u beschadigde records wilt behouden, kunt u een `string` typeveld instellen met de naam `columnNameOfCorruptRecord` in een door de gebruiker gedefinieerd schema. Als een schema het veld niet heeft, worden beschadigde records verwijderd tijdens het parseren. Wanneer een schema wordt afgeleid, voegt de parser impliciet een `columnNameOfCorruptRecord`-veld toe in een uitvoerschema. `DROPMALFORMED`: Hiermee worden beschadigde records genegeerd. Deze modus wordt niet ondersteund voor ingebouwde XML-functies. `FAILFAST`: Genereert een uitzondering wanneer de parser beschadigde gegevens tegenkomt.
`inferSchema`	`true`	`true`, `false`	Wanneer `true`, wordt geprobeerd om een geschikt type af te leiden voor elke resulterende DataFrame-kolom. Als `false`alle resulterende kolommen van het `string` type zijn. Ingebouwde XML-functies negeren deze optie.
`columnNameOfCorruptRecord`	`spark.sql.columnNameOfCorruptRecord`	Een kolomnaamtekenreeks	Hiermee kunt u de naam van het nieuwe veld wijzigen dat een ongeldige tekenreeks bevat die is gemaakt door `PERMISSIVE` de modus.
`attributePrefix`	None	Elke tekenreeks	Het voorvoegsel voor kenmerken om kenmerken te onderscheiden van elementen. Dit is het voorvoegsel voor veldnamen. De standaardwaarde is `_`. Kan leeg zijn voor het lezen van XML, maar niet voor schrijven. Is ook van toepassing op XML-opties van DataFrameWriter.
`valueTag`	`_VALUE`	Elke tekenreeks	De tag die wordt gebruikt voor de karakterdata in elementen die ook attribuut(en) of kindelement(en) bevatten. Gebruiker kan het `valueTag` veld in het schema opgeven of het wordt automatisch toegevoegd tijdens schemadeductie wanneer tekengegevens aanwezig zijn in elementen met andere elementen of kenmerken. Is ook van toepassing op XML-opties van DataFrameWriter.
`encoding`	`UTF-8`	Een `java.nio.charset.Charset` naam	Voor het lezen decodeert u de XML-bestanden op basis van het opgegeven coderingstype. Voor schrijven geeft u codering (charset) van opgeslagen XML-bestanden op. Ingebouwde XML-functies negeren deze optie. Is ook van toepassing op XML-opties van DataFrameWriter.
`ignoreSurroundingSpaces`	`true`	`true`, `false`	Of witruimten rondom waarden moeten worden overgeslagen. Karaktergegevens die alleen uit witruimte bestaan worden genegeerd.
`rowValidationXSDPath`	None	Een bestandspadtekenreeks	Pad naar een optioneel XSD-bestand dat wordt gebruikt om de XML voor elke rij afzonderlijk te valideren. Rijen die niet kunnen worden gevalideerd, worden behandeld als parseringsfouten. De XSD heeft anders geen invloed op het schema, ongeacht of dit is opgegeven of afgeleid.
`ignoreNamespace`	`false`	`true`, `false`	Als `true` wordt toegepast, worden de voorvoegsels van naamruimten op XML-elementen en -kenmerken genegeerd. Tags `<abc:author>` en `<def:author>`, bijvoorbeeld, worden behandeld alsof ze alleen `<author>`zijn. Naamruimten kunnen niet worden genegeerd op het `rowTag` element, alleen de leesbare kindelementen. XML-parsering is niet naamruimtebewust, zelfs niet als `false`.
`timestampFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`	Tekenreeks voor tijdstempelnotatie	Aangepaste tekenreeks voor tijdstempelnotatie die de datum/tijd-patroonnotatie volgt. Dit is van toepassing op `timestamp` het type. Is ook van toepassing op XML-opties van DataFrameWriter.
`timestampNTZFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS]`	Tekenreeks voor tijdstempelnotatie	Aangepaste formaatstring voor tijdstempel zonder tijdzone die het datumpatroon volgt. Dit is van toepassing op het type TimestampNTZType. Is ook van toepassing op XML-opties van DataFrameWriter.
`dateFormat`	`yyyy-MM-dd`	Een tekenreeks voor datumnotatie	Aangepaste datumnotatiestring die het datum/tijd-patroon volgt. Dit is van toepassing op het datumtype. Is ook van toepassing op XML-opties van DataFrameWriter.
`locale`	`en-US`	Een IETF BCP 47-taaltag	Hiermee stelt u een locale in als taaltag volgens de IETF BCP 47-indeling. Wordt bijvoorbeeld `locale` gebruikt tijdens het parseren van datums en tijdstempels.
`nullValue`	snaar `null`	Elke tekenreeks	Hiermee stelt u de tekenreeksweergave van een null-waarde in. Als dit het geval is `null`, schrijft de parser geen kenmerken en elementen voor velden. Is ook van toepassing op XML-opties van DataFrameWriter.
`readerCaseSensitive`	`true`	`true`, `false`	Hiermee geeft u het hoofdlettergevoeligheidsgedrag op wanneer rescuedDataColumn is ingeschakeld. Indien waar, kunt u de gegevenskolommen redden waarvan de namen verschillen per geval van het schema. Als dit onwaar is, leest u de gegevens op een niet-hoofdlettergevoelige manier.
`rescuedDataColumn`	None	Een kolomnaamtekenreeks	Of u alle gegevens wilt verzamelen die niet kunnen worden geparseerd vanwege een niet-overeenkomend gegevenstype en niet-overeenkomende schema's (inclusief kolombehuizing) naar een afzonderlijke kolom. Deze kolom wordt standaard opgenomen bij het gebruik van automatisch laden. Zie Wat is de kolom met geredde gegevens? voor meer informatie. `COPY INTO` (verouderd) biedt geen ondersteuning voor de kolom met geredde gegevens, omdat u het schema niet handmatig kunt instellen met behulp van `COPY INTO`. Databricks raadt het gebruik van autolaadprogramma's aan voor de meeste opnamescenario's.
`singleVariantColumn`	`none`	Een kolomnaamtekenreeks	Hiermee geeft u de naam van de kolom met één variant op. Als deze optie is opgegeven voor lezen, parseert u de hele XML-record in één variantkolom met de opgegeven optietekenreekswaarde als de naam van de kolom. Als deze optie is opgegeven voor schrijven, schrijft u de waarde van de kolom Met één variant naar XML-bestanden. Is ook van toepassing op XML-opties van DataFrameWriter.
`useLegacyXMLParser`	`true`	`true`, `false`	Of u de verouderde XML-parser wilt gebruiken. De verouderde parser heeft minder strenge validatie voor ongeldige inhoud, maar is minder geheugenefficiënt. Ingesteld om u aan te `false` kiezen voor de strengere standaardparser.
`wildcardColName`	`xs_any`	Een kolomnaamtekenreeks	De kolomnaam die wordt gebruikt om XML-elementen vast te leggen die overeenkomen met het jokerteken (`xs:any`) schema-element. Kan niet samen met `rescuedDataColumn`.

Opties voor DataStreamReader

Gebruik deze opties voor DataStreamReader.option() het configureren van streaming-leesbewerkingen uit Delta Lake-tabellen en andere bronnen op basis van bestanden.

Zie DataFrameReader-opties voor opties voor bestandsindelingen (JSON, CSV, Parquet en andere).

Zie cloudFiles.* () voor opties voor automatisch laden.

Example

In het volgende voorbeeld wordt ingesteld maxFilesPerTrigger op 10 een Delta Lake-tabelstroom:

Python

df = spark.readStream.format("delta").option("maxFilesPerTrigger", 10).load("/path/to/delta-table")

Scala

val df = spark.readStream.format("delta").option("maxFilesPerTrigger", "10").load("/path/to/delta-table")

Gemeenschappelijk

De volgende opties zijn van toepassing op Delta Lake-tabellen en andere streamingbronnen op basis van bestanden.

Key	Verstek	Geldige waarden	Description
`cleanSource`	`off`	`off`, , `deletearchive`	Bronbestanden verwerken nadat ze door de stream zijn verwerkt. `off` neemt geen actie. `delete` Hiermee verwijdert u het bronbestand definitief. `archive` verplaatst het bestand naar `sourceArchiveDir`. Indien ingesteld op `archive`, `sourceArchiveDir` moet ook worden ingesteld. Is niet van toepassing op Delta Lake-tabelstreaming.
`fileNameOnly`	`false`	`true`, `false`	Of u al verwerkte bestanden alleen per bestandsnaam wilt identificeren in plaats van op volledig pad. Wanneer `true`bestanden op verschillende paden met dezelfde bestandsnaam worden behandeld als hetzelfde bestand en niet opnieuw worden verwerkt. Is niet van toepassing op Delta Lake-tabelstreaming.
`latestFirst`	`false`	`true`, `false`	Of u nu eerst de laatst gewijzigde bestanden binnen elke microbatch wilt verwerken. Handig als u de meest recente gegevens zo snel mogelijk wilt verwerken. Wanneer `true` en `maxFilesPerTrigger` of `maxBytesPerTrigger` is ingesteld, `maxFileAge` wordt genegeerd. Is niet van toepassing op Delta Lake-tabelstreaming.
`maxBytesPerTrigger`	None	Positieve gehele getallen	Voorlopig maximum voor de hoeveelheid gegevens die voor elke microbatch wordt verwerkt. Een batch kan meer verwerken dan de limiet als de kleinste invoereenheid deze overschrijdt. Wanneer de microbatch samen wordt `maxFilesPerTrigger`gebruikt, verwerkt de microbatch gegevens totdat een van beide limieten eerst wordt bereikt. Voor Auto Loader moet je in plaats daarvan `cloudFiles.maxBytesPerTrigger` gebruiken. Zie Algemeen.
`maxCachedFiles`	`10000`	Positieve gehele getallen of `0`	Maximum aantal niet-verwerkte bestanden dat in de cache moet worden opgeslagen voor volgende microbatches. Ingesteld om `0` caching uit te schakelen. Verhoog deze waarde wanneer de bronmap veel nieuwe bestanden voor elke trigger bevat. Is niet van toepassing op Delta Lake-tabelstreaming.
`maxFileAge`	`7d`	Een duurtekenreeks zoals `7d` of `4h`	Maximale leeftijd van bestanden die worden beschouwd voor verwerking, ten opzichte van de tijdstempel van het meest recent gewijzigde bestand in plaats van de huidige systeemtijd. Bestanden die ouder zijn dan deze drempelwaarde worden genegeerd. Genegeerd wanneer `latestFirst` en `truemaxFilesPerTrigger` of `maxBytesPerTrigger` is ingesteld. Is niet van toepassing op Delta Lake-tabelstreaming.
`maxFilesPerTrigger`	`1000` voor Delta Lake en Auto Loader. Geen maximum voor andere bronnen op basis van bestanden.	Positieve gehele getallen	Bovengrens voor het aantal nieuwe bestanden dat in elke microbatch wordt verwerkt. Wanneer de microbatch samen wordt `maxBytesPerTrigger`gebruikt, verwerkt de microbatch gegevens totdat een van beide limieten eerst wordt bereikt. Voor Auto Loader moet je in plaats daarvan `cloudFiles.maxFilesPerTrigger` gebruiken. Zie Algemeen.
`sourceArchiveDir`	None	Een padtekenreeks	Pad naar de archiefmap wanneer `cleanSource` deze is ingesteld op `archive`. Bronbestanden worden na verwerking naar dit pad verplaatst, waarbij de relatieve mapstructuur behouden blijft. Is niet van toepassing op Delta Lake-tabelstreaming.

Automatisch laadprogramma

Gebruik deze opties met de cloudFiles bron om automatisch laden te configureren voor streamingopname vanuit cloudopslag. Opties die specifiek zijn voor de cloudFiles bron, worden voorafgegaan door cloudFiles ze in een afzonderlijke naamruimte te houden van andere opties voor gestructureerd streamen .

Gemeenschappelijk

De volgende opties zijn van toepassing op alle autolaadprogrammaconfiguraties.

Key	Verstek	Geldige waarden	Description
`cloudFiles.allowOverwrites`	`false`	`true`, `false`	Of wijzigingen in invoerbestanden bestaande gegevens mogen overschrijven. Voor aandachtspunten bij de configuratie, zie Wordt het bestand opnieuw verwerkt door Auto Loader wanneer het bestand wordt toegevoegd of overschreven?.
`cloudFiles.backfillInterval`	None	Een duurtekenreeks zoals `1 day` of `1 week`	Auto Loader kan asynchrone backfills activeren op een bepaald interval. Zie Reguliere backfills activeren met behulp van cloudFiles.backfillInterval voor meer informatie. Niet gebruiken wanneer `cloudFiles.useManagedFileEvents` is ingesteld op `true`.
`cloudFiles.cleanSource`	`OFF`	`OFF`, , `DELETEMOVE`	Hiermee wordt aangegeven of verwerkte bestanden automatisch uit de invoermap moeten worden verwijderd of verplaatst. Als deze is ingesteld op `OFF` (standaard), worden er geen bestanden verwijderd. Wanneer `DELETE` is ingesteld, worden bestanden 30 dagen nadat ze zijn verwerkt automatisch verwijderd. Hiervoor moet Auto Loader schrijfmachtigingen hebben voor de bronmap. Wanneer ingesteld op `MOVE`, worden bestanden binnen `cloudFiles.cleanSource.moveDestination` 30 dagen na verwerking automatisch naar de opgegeven locatie verplaatst. Hiervoor moet Auto Loader schrijfmachtigingen hebben voor zowel de bronmap als de verplaatsingslocatie. Een bestand wordt beschouwd als verwerkt wanneer het een niet-null-waarde heeft voor `commit_time` in het resultaat van de `cloud_files_state` functie met tabelwaarde. Zie `cloud_files_state` tabelwaardefunctie. De extra wachttijd van 30 dagen na verwerking kan worden geconfigureerd met behulp van `cloudFiles.cleanSource.retentionDuration`. Bekijk de volgende overwegingen voordat u het inschakelt `cloudFiles.cleanSource`: Azure Databricks raadt het gebruik van deze optie niet aan als er meerdere streams zijn die gegevens van de bronlocatie verbruiken, omdat de snelste consument de bestanden verwijdert en ze niet worden opgenomen in de tragere bronnen. Voor het inschakelen van deze functie moet automatisch laden de extra status in het controlepunt behouden, wat prestatieoverhead oplevert, maar verbeterde waarneembaarheid mogelijk maakt via de `cloud_files_state` functie met tabelwaarde. Zie `cloud_files_state` tabelwaardefunctie. `cleanSource` gebruikt de huidige instelling om te bepalen of een `MOVE` bepaald bestand of `DELETE` een bepaald bestand. Stel dat de instelling was `MOVE` toen het bestand oorspronkelijk werd verwerkt, maar werd gewijzigd in `DELETE` toen het bestand 30 dagen later een kandidaat werd voor het opschonen. In dit geval wordt het bestand verwijderd door cleanSource. Bestanden worden niet gegarandeerd opgeschoond zodra het `retentionDuration` verloopt. Om de kosten laag te houden, verwijdert Auto Loader bestanden gelijktijdig met stroomverwerking en wordt beëindigd zodra de stroomverwerking is voltooid of wordt beëindigd. Bestanden die kandidaten waren voor opschonen, maar niet konden worden opgeschoond tijdens de stroomverwerking, worden de volgende keer dat AutoLoader wordt uitgevoerd, opgehaald. Beschikbaar in Databricks Runtime 16.4 en hoger.
`cloudFiles.cleanSource.retentionDuration`	`30 days`	Een CalendarInterval-tekenreeks zoals `14 days`, `2 weeks`of `1 month`	De hoeveelheid tijd die moet worden gewacht voordat verwerkte bestanden kandidaten worden voor archivering met `cleanSource`. Moet langer zijn dan 7 dagen voor `DELETE`. Geen minimale beperking voor `MOVE`. Beschikbaar in Databricks Runtime 16.4 en hoger.
`cloudFiles.cleanSource.moveDestination`	None	Een cloudopslag- of Unity Catalog-volumepad	Pad waarnaar verwerkte bestanden moeten worden gearchiveerd wanneer `cloudFiles.cleanSource` is ingesteld op `MOVE`. Dit kan een cloudopslagpad of een Unity Catalog-volumepad zijn (bijvoorbeeld `/Volumes/my_catalog/my_schema/my_volume/archive/`). De locatie voor verplaatsen moet: Wees geen onderliggend element van de bronmap. Als u de verplaatsingsbestemming in de bronmap plaatst, worden de gearchiveerde bestanden opnieuw opgenomen. Zich op dezelfde externe locatie, volume of DBFS-koppeling bevinden als de bron. Verplaatsingen tussen verschillende buckets en containers worden niet ondersteund en resulteren in een fout. Auto Loader moet schrijfmachtigingen hebben voor deze map. Beschikbaar in Databricks Runtime 16.4 en hoger.
`cloudFiles.format`	Geen (vereiste optie)	`avro`, `binaryFile`, `csv`, `json`, `orc`, `parquet`, , `text`, `xml`	De indeling van het gegevensbestand in het bronpad. Geldige waarden zijn: `avro`: Avro-bestanden `binaryFile`: Binaire bestanden `csv`: CSV-bestanden `json`: JSON-bestanden `orc`: ORC-bestanden `parquet`: Parquet-bestanden `text`: TXT-bestanden `xml`: XML-bestanden
`cloudFiles.includeExistingFiles`	`true`	`true`, `false`	Of u bestaande bestanden in het invoerpad voor stroomverwerking wilt opnemen of alleen nieuwe bestanden wilt verwerken die binnenkomen na de eerste installatie. Deze optie wordt alleen geëvalueerd wanneer u een stream voor de eerste keer start. Als u deze optie wijzigt nadat de stream opnieuw is opgestart, heeft dit geen effect.
`cloudFiles.inferColumnTypes`	`false`	`true`, `false`	Of u exacte kolomtypen wilt afleiden bij het gebruik van schemadeductie. Kolommen worden standaard afgeleid als tekenreeksen bij het afleiden van JSON- en CSV-gegevenssets. Zie schemadeductie voor meer informatie.
`cloudFiles.maxBytesPerTrigger`	None	Een bytetekenreeks zoals `10g`	Het maximum aantal nieuwe bytes dat in elke trigger moet worden verwerkt. Dit is een zacht maximum. Als u bestanden hebt die elk 3 GB zijn, verwerkt Azure Databricks 12 GB in een microbatch. Een afzonderlijk bestand wordt nooit verdeeld over microbatches; het wordt altijd volledig verwerkt binnen één, zelfs wanneer de grootte ervan deze limiet overschrijdt. Wanneer Azure Databricks samen met `cloudFiles.maxFilesPerTrigger` wordt gebruikt, verbruikt Azure Databricks tot de ondergrens van `cloudFiles.maxFilesPerTrigger` of `cloudFiles.maxBytesPerTrigger`, afhankelijk van welke het eerst wordt bereikt. Deze optie heeft geen effect wanneer deze wordt gebruikt met `Trigger.Once()` (`Trigger.Once()` is verouderd). In Databricks Runtime 18.0 en hoger is deze optie dynamisch geconfigureerd en hoeft deze niet handmatig te worden ingesteld.
`cloudFiles.maxFileAge`	None	Een duurtekenreeks	Hoe lang een bestandsgebeurtenis wordt bijgehouden voor ontdubbelingsdoeleinden. Databricks raadt u aan deze parameter niet af te stemmen, tenzij u gegevens opneemt in de volgorde van miljoenen bestanden per uur. Zie de sectie over het bijhouden van bestandsevenementen voor meer informatie. Het afstemmen `cloudFiles.maxFileAge` kan te agressief leiden tot problemen met gegevenskwaliteit, zoals dubbele opname of ontbrekende bestanden. Daarom raadt Databricks een conservatieve instelling aan voor `cloudFiles.maxFileAge`, zoals 90 dagen, die vergelijkbaar is met wat vergelijkbare oplossingen voor gegevensopname aanbevelen.
`cloudFiles.maxFilesPerTrigger`	`1000`	Positieve gehele getallen	Het maximum aantal nieuwe bestanden dat in elke trigger moet worden verwerkt. Wanneer Azure Databricks samen met `cloudFiles.maxBytesPerTrigger` wordt gebruikt, verbruikt Azure Databricks tot de ondergrens van `cloudFiles.maxFilesPerTrigger` of `cloudFiles.maxBytesPerTrigger`, afhankelijk van welke het eerst wordt bereikt. Deze optie heeft geen effect wanneer deze wordt gebruikt met `Trigger.Once()` (afgeschaft). In Databricks Runtime 18.0 en hoger is deze optie dynamisch geconfigureerd en hoeft deze niet handmatig te worden ingesteld.
`cloudFiles.partitionColumns`	None	Een door komma's gescheiden lijst met kolomnamen	Een door komma's gescheiden lijst met partitiekolommen in Hive-stijl die u wilt afleiden uit de mapstructuur van de bestanden. Partitiekolommen in Hive-stijl zijn sleutel-waardeparen gecombineerd door een gelijkheidsteken zoals `<base-path>/a=x/b=1/c=y/file.format`. In dit voorbeeld zijn `a`de partitiekolommen , `b`en `c`. Deze kolommen worden standaard automatisch toegevoegd aan uw schema als u schemadeductie gebruikt en de `<base-path>` gegevens opgeeft waaruit gegevens moeten worden geladen. Als u een schema opgeeft, verwacht Auto Loader dat deze kolommen worden opgenomen in het schema. Als u deze kolommen niet wilt gebruiken als onderdeel van uw schema, kunt u deze kolommen negeren `""` . Daarnaast kunt u deze optie gebruiken als u wilt dat kolommen het bestandspad in complexe mapstructuren worden afgeleid, zoals in het onderstaande voorbeeld: `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` Het specificeren van `cloudFiles.partitionColumns` als `year,month,day` retourneert `year=2022` voor `file1.csv`, maar de kolommen `month` en `day` zijn `null`. `month` en `day` worden correct geparseerd voor `file2.csv` en `file3.csv`.
`cloudFiles.schemaEvolutionMode`	`addNewColumns` wanneer een schema niet is opgegeven, `none` anders	`addNewColumns`,`none`,`rescue`,`failOnNewColumns`	De modus voor het bijwerken van het schema wanneer nieuwe kolommen in de gegevens worden ontdekt. Standaard worden kolommen afgeleid als tekenreeksen bij het afleiden van JSON-gegevenssets. Zie de ontwikkeling van schema's voor meer informatie.
`cloudFiles.schemaHints`	None	Een schematekenreeks	Schemagegevens die u opgeeft voor automatisch laden tijdens schemadeductie. Zie schemahints voor meer informatie.
`cloudFiles.schemaLocation`	Geen (vereist om het schema af te leiden)	Een padtekenreeks	De locatie voor het opslaan van het afgeleid schema en de volgende wijzigingen. Zie schemadeductie voor meer informatie.
`cloudFiles.useStrictGlobber`	`false`	`true`, `false`	Of u een strikte globber wilt gebruiken die overeenkomt met het standaardgedrag voor globbing van andere bestandsbronnen in Apache Spark. Zie Algemene patronen voor het laden van gegevens voor meer informatie. Beschikbaar in Databricks Runtime 12.2 LTS en hoger.
`cloudFiles.validateOptions`	`true`	`true`, `false`	Het al dan niet valideren van Autoloader-opties en het geven van een foutmelding voor onbekende of inconsistente opties.

Adreslijstvermelding

De volgende optie is van toepassing wanneer u de modus voor adreslijstvermeldingen gebruikt.

Key	Verstek	Geldige waarden	Description
`cloudFiles.useIncrementalListing` (afgeschaft)	`auto` in Databricks Runtime 17.2 en lager, `false` op Databricks Runtime 17.3 en hoger	`auto`, , `truefalse`	Deze functie is afgeschaft. Databricks raadt aan om de modus voor bestandsmeldingen te gebruiken met bestandsevenementen in plaats van `cloudFiles.useIncrementalListing`. Of u de incrementele vermelding wilt gebruiken in plaats van de volledige vermelding in de modus voor adreslijstvermeldingen. Auto Loader zet standaard de beste moeite in om automatisch te detecteren of een bepaalde map geschikt is voor het incrementeel vermelden. U kunt de incrementele vermelding expliciet gebruiken of de volledige adreslijstvermelding gebruiken door deze in te stellen als `true` of `false` respectievelijk. Het onjuist inschakelen van incrementele vermeldingen in een niet-lexisch geordende map voorkomt dat Auto Loader nieuwe bestanden ontdekt. Werkt met Azure Data Lake Storage (`abfss://`), S3 (`s3://`) en GCS (`gs://`). Beschikbaar in Databricks Runtime 9.1 LTS en hoger.

Bestandsmelding

Zie Voor informatie over het configureren van de modus voor bestandsmeldingen, inclusief vereiste cloudmachtigingen, installatie-instructies en verificatiemethoden, autoladerstreams configureren in de modus voor bestandsmeldingen.

Key	Verstek	Geldige waarden	Description
`cloudFiles.fetchParallelism`	`1`	Positieve gehele getallen	Het aantal threads dat moet worden gebruikt bij het ophalen van berichten uit de wachtrijservice. Niet gebruiken wanneer `cloudFiles.useManagedFileEvents` is ingesteld op `true`.
`cloudFiles.pathRewrites`	None	Een JSON-toewijzingstekenreeks	Alleen vereist als u een `queueUrl` bestand opgeeft dat bestandsmeldingen van meerdere S3-buckets ontvangt en u koppelpunten wilt gebruiken die zijn geconfigureerd voor toegang tot gegevens in deze containers. Gebruik deze optie om het voorvoegsel van het `bucket/key` pad te herschrijven met het aankoppelpunt. Alleen voorvoegsels kunnen opnieuw worden geschreven. Voor de configuratie `{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}`wordt het pad `s3://<databricks-mounted-bucket>/path/2017/08/fileA.json` bijvoorbeeld herschreven naar `dbfs:/mnt/data-warehouse/2017/08/fileA.json`. Niet gebruiken wanneer `cloudFiles.useManagedFileEvents` is ingesteld op `true`.
`cloudFiles.resourceTag`	None	Sleutelwaardetekenreeksen	Een reeks sleutel-waardetagparen om gerelateerde resources te koppelen en te identificeren, bijvoorbeeld: `cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")` `.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")` Niet gebruiken wanneer `cloudFiles.useManagedFileEvents` is ingesteld op `true`. Stel in plaats daarvan resourcetags in met behulp van de cloudproviderconsole. Zie Resourcetags voor cloudproviders voor meer informatie.
`cloudFiles.useManagedFileEvents`	`false`	`true`, `false`	Wanneer dit is ingesteld `true`, gebruikt Auto Loader de service voor bestandsevenementen om bestanden op uw externe locatie te detecteren. U kunt deze optie alleen gebruiken als het laadpad zich op een externe locatie bevindt waarop bestandsevenementen zijn ingeschakeld. Zie De modus Bestandsmelding gebruiken met bestandsevenementen. Bestandsgebeurtenissen bieden prestaties op het niveau van bestandsdetectie, omdat Auto Loader nieuwe bestanden kan detecteren na de laatste uitvoering. In tegenstelling tot mapvermelding hoeft dit proces niet alle bestanden in de map weer te geven. Er zijn enkele situaties waarin Automatisch laden gebruikmaakt van een mapvermelding, ook al is de optie bestandsevenementen ingeschakeld: Tijdens het initiale laden, wanneer `includeExistingFiles` is ingesteld op `true`, vindt er een volledige directorylijst plaats om alle bestanden te ontdekken die aanwezig waren in de map voordat Auto Loader werd gestart. De bestands gebeurtenissenservice optimaliseert bestandsdetectie door de laatst gemaakte bestanden in de cache op te slaan. Als automatisch laadprogramma niet regelmatig wordt uitgevoerd, kan deze cache verlopen en wordt automatisch laadprogramma teruggezet naar de mappenlijst om bestanden te detecteren en de cache bij te werken. Om dit scenario te voorkomen, roept u autolader ten minste één keer per zeven dagen aan. Zie Wanneer gebruikt Auto Loader met bestandsevenementen een lijst met mappen? voor een uitgebreide lijst met situaties waarin Auto Loader gebruikmaakt van mapvermelding met deze optie. Beschikbaar in Databricks Runtime 14.3 LTS en hoger.
`cloudFiles.listOnStart`	`false`	`true`, `false`	Als dit is ingesteld `true`op, voert Auto Loader een volledige directoryvermelding uit wanneer de stream wordt gestart, in plaats van te beginnen met het vervolgtoken in het controlepunt. Gebruik deze optie om fouten te herstellen, zoals `CF_MANAGED_FILE_EVENTS_INVALID_CONTINUATION_TOKEN`. Zie Hoe herstel ik een `CF_MANAGED_FILE_EVENTS_INVALID_CONTINUATION_TOKEN` fout?
`cloudFiles.useNotifications`	`false`	`true`, `false`	Of u de modus voor bestandsmeldingen wilt gebruiken om te bepalen wanneer er nieuwe bestanden zijn. Als `false`, gebruik de directorylistingmodus. Zie Vergelijk de detectiemodi voor automatisch laden van bestanden. Niet gebruiken wanneer `cloudFiles.useManagedFileEvents` is ingesteld op `true`.

Resourcetags van cloudproviders

Auto Loader voegt standaard de volgende sleutel-waarde tagparen toe op basis van best effort:

vendor: Databricks
path: de locatie waar de gegevens worden geladen. Niet beschikbaar in GCP vanwege labelbeperkingen.
checkpointLocation: De locatie van het controlepunt van de stream. Niet beschikbaar in GCP vanwege labelbeperkingen.
streamId: Een wereldwijd unieke id voor de stream.

Databricks behoudt deze sleutelnamen voor en u kunt hun waarden niet overschrijven.

Voor meer informatie over Azure, zie Naamgevingswachtrijen en metagegevens en de dekking van properties.labels in gebeurtenisabonnementen. Auto Loader slaat deze sleutel-waarde tagparen op in JSON als labels.

Cloudspecifiek

Auto Loader heeft opties voor het configureren van de cloudinfrastructuur voor bestandsmeldingsmodus. Zie Voor de vereiste cloudmachtigingen en installatie-instructies autolaadprogramma's configureren in de modus voor bestandsmeldingen.

Azure

U moet waarden opgeven voor alle volgende opties als u opgeeft cloudFiles.useNotifications = true en u wilt dat automatisch laden de meldingsservices voor u instelt:

Key	Verstek	Geldige waarden	Description
`cloudFiles.resourceGroup`	None	Elke tekenreeks	De Azure resourcegroep waarin het opslagaccount wordt gemaakt.
`cloudFiles.subscriptionId`	None	Elke tekenreeks	De Azure-abonnements-id waarin de resourcegroep wordt gemaakt.
`databricks.serviceCredential`	None	Elke tekenreeks	De naam van uw Databricks-servicereferentie. Beschikbaar in Databricks Runtime 16.1 en hoger.

Als er geen Databricks-servicereferentie beschikbaar is, kunt u in plaats daarvan de volgende verificatieopties opgeven:

Key	Verstek	Geldige waarden	Description
`cloudFiles.clientId`	None	Elke tekenreeks	De client-id of de toepassings-id van de serviceprincipal.
`cloudFiles.clientSecret`	None	Elke tekenreeks	Het clientgeheim van de service-principal.
`cloudFiles.connectionString`	None	Een verbindingsreeks	De verbindingsreeks voor het opslagaccount, gebaseerd op de toegangssleutel van het account of de SAS (Shared Access Signature).
`cloudFiles.tenantId`	None	Elke tekenreeks	De Azure tenant-id waarin de service-principal wordt gemaakt.

Geef de volgende optie alleen op als u instelt cloudFiles.useNotifications = true en u wilt dat automatisch laden een bestaande wachtrij gebruikt:

Key	Verstek	Geldige waarden	Description
`cloudFiles.queueName`	None	Elke tekenreeks	De naam van de Azure-wachtrij. Indien opgegeven, verbruikt de bron van cloudbestanden rechtstreeks gebeurtenissen uit deze wachtrij in plaats van eigen Azure Event Grid- en Queue Storage-services in te stellen. In dat geval zijn voor uw `databricks.serviceCredential` of `cloudFiles.connectionString` alleen leesrechten voor de wachtrij vereist.

Delta Lake

De volgende opties zijn van toepassing bij het lezen vanuit een Delta Lake-tabel met behulp van spark.readStream.

Key	Verstek	Geldige waarden	Description
`allowSourceColumnDrop`	None	Een versienummer of `always`	Ingesteld op een versienummer van een Delta-tabel of `always` om de stroom door te laten gaan nadat kolommen uit het brontabelschema zijn verwijderd. Wanneer deze is ingesteld op een versienummer, worden alle schemawijzigingen tot die versie bevestigd. Vereist `schemaTrackingLocation`. Zie Kolommen hernoemen en verwijderen met kolomtoewijzing van Delta Lake.
`allowSourceColumnRename`	None	Een versienummer of `always`	Ingesteld op een versienummer van een Delta-tabel of `always` om de stroom door te laten gaan nadat de naam van kolommen in de brontabel is gewijzigd. Wanneer deze is ingesteld op een versienummer, worden alle schemawijzigingen tot die versie bevestigd. Vereist `schemaTrackingLocation`. Zie Kolommen hernoemen en verwijderen met kolomtoewijzing van Delta Lake.
`allowSourceColumnTypeChange`	None	Een versienummer of `always`	Ingesteld op een versienummer van de Delta-tabel of `always` om de stroom door te laten gaan nadat de kolomtypen zijn gewijzigd in de brontabel. Wanneer deze is ingesteld op een versienummer, worden alle schemawijzigingen tot die versie bevestigd. Vereist `schemaTrackingLocation`. Zie Type breder maken.
`excludeRegex`	None	Een Java regex-tekenreeks	Een normaal expressiepatroon. Bestanden waarvan de paden overeenkomen met het patroon, worden uitgesloten van het lezen van streaming. Handig voor het filteren van bestanden die niet voldoen aan de verwachte naamconventie.
`failOnDataLoss`	`true`	`true`, `false`	Of de streamingquery mislukt als brongegevens zijn verwijderd vanwege logboekretentie (`logRetentionDuration`). Ingesteld om `false` ontbrekende gegevens over te slaan en door te gaan met verwerken. Zie Gegevensretentie configureren voor tijdreis-query's.
`ignoreChanges` (afgeschaft)	`false`	`true`, `false`	Beschikbaar in Databricks Runtime 11.3 LTS en lager. Opnieuw verzonden gegevensbestanden na wijzigingsbewerkingen zoals `UPDATE`, `MERGE INTO`, `DELETE`of `OVERWRITE`. Ongewijzigde rijen kunnen naast nieuwe rijen worden verzonden, zodat downstreamgebruikers dubbele waarden moeten verwerken. Verwijderingen worden niet naar de volgende stap doorgegeven. Vervangen door `skipChangeCommits` databricks Runtime 12.2 LTS en hoger.
`ignoreDeletes` (afgeschaft)	`false`	`true`, `false`	Hiermee worden transacties genegeerd die gegevens op partitiegrenzen verwijderen (alleen volledige partities worden verwijderd). Verwerkt geen verwijderingen, updates of andere wijzigingen buiten partities. Gebruik in plaats daarvan `skipChangeCommits`.
`readChangeFeed` of `readChangeData`	`false`	`true`, `false`	Of u het lezen van de wijzigingengegevensfeed voor de streamingquery wilt inschakelen. Wanneer deze optie is ingeschakeld, verzendt de stream wijzigingen op rijniveau (invoegingen, updates en verwijderingen) met extra metagegevenskolommen. Zie Wijzigingenfeed gebruiken voor Azure Databricks.
`schemaTrackingLocation`	None	Een padtekenreeks	Pad naar een map waarin Delta Lake schemawijzigingen voor het lezen van streaming bijhoudt. Vereist bij het streamen van tabellen met kolomtoewijzing ingeschakeld en met behulp van opties voor het afhandelen van `allowSourceColumn*` de ontwikkeling van schema's. Moet binnen de `checkpointLocation` streamingquery vallen. Zie Kolommen hernoemen en verwijderen met kolomtoewijzing van Delta Lake.
`skipChangeCommits`	`false`	`true`, `false`	Hiermee worden transacties genegeerd die bestaande records en processen verwijderen of wijzigen, worden alleen toegevoegd. Databricks raadt deze optie aan voor de meeste workloads die geen gegevensfeeds wijzigen. Beschikbaar in Databricks Runtime 12.2 LTS en hoger. Zie Upstream-wijzigingsdoorvoeren overslaan met `skipChangeCommits`.
`startingTimestamp`	Meest recente beschikbaar	Een tijdstempeltekenreeks zoals `2019-01-01T00:00:00.000Z` of een datumtekenreeks zoals `2019-01-01`	Tijdstempel waaruit moet worden gelezen. De stroom leest alle tabelwijzigingen die zijn doorgevoerd op of na de opgegeven tijdstempel. Als de tijdstempel voorafgaat aan alle beschikbare tabeldoorvoeringen, begint de stream vanaf de vroegste beschikbare doorvoer. Kan niet samen met `startingVersion`. Genegeerd als het streamingcontrolepunt al bestaat.
`startingVersion`	Meest recente beschikbaar	Een positief geheel getal, `0`of `latest`	Delta-tabelversie waaruit u kunt beginnen met lezen. De stream leest alle wijzigingen die zijn doorgevoerd op of na de opgegeven versie. Geef `latest` op om alleen te beginnen met de meest recente wijzigingen. Kan niet samen met `startingTimestamp`. Genegeerd als het streamingcontrolepunt al bestaat. Zie Werken met tabelgeschiedenis.
`withEventTimeOrder`	`false`	`true`, `false`	Verdeelt de eerste momentopname van de tabel in buckets voor gebeurtenistijd om te voorkomen dat records onjuist worden gemarkeerd als late gebeurtenissen en verwijderd in stateful query's met watermerken. Kan niet worden gewijzigd nadat de eerste momentopnameverwerking is gestart zonder het controlepunt te verwijderen. Beschikbaar in Databricks Runtime 11.3 LTS en hoger. Zie Eerste momentopname van het proces zonder gegevensverlies.

Kafka

Gebruik deze opties met een spark.readStream.format("kafka") van de volgende opties:spark.read.format("kafka")

Key	Verstek	Geldige waarden	Description
`assign`	None	Een JSON-tekenreeks zoals `{"topicA":[0,1],"topicB":[2,4]}`	De specifieke partities die moeten worden gebruikt. U moet precies een van de `subscribe`, `subscribePattern`of `assign` opties opgeven.
`failOnDataLoss`	`true`	`true`, `false`	Of de query mislukt als gegevens mogelijk verloren zijn gegaan, bijvoorbeeld vanwege verwijderde onderwerpen of offsetafkapping. Ingesteld om `false` ontbrekende gegevens over te slaan en door te gaan. Databricks schat conservatief of gegevens verloren zijn gegaan. Dit kan echter valse waarschuwingen veroorzaken.
`fetchoffset.numretries`	`3`	Positieve gehele getallen of `0`	Het aantal nieuwe pogingen bij het ophalen van Kafka-offsets mislukt.
`fetchoffset.retryintervalms`	`1000`	Positieve gehele getallen of `0`	Het interval in milliseconden tussen nieuwe pogingen voor het ophalen van verschuivingen.
`groupIdPrefix`	`spark-kafka-source` (streaming), `spark-kafka-relation` (batch)	Elke tekenreeks	Het aangepaste voorvoegsel dat moet worden gebruikt voor de automatisch gegenereerde Kafka-consumentengroep-id. Als `kafka.group.id` deze optie expliciet is ingesteld, negeert de connector deze optie.
`kafka.group.id`	None	Elke tekenreeks	De Kafka-consumentengroep-id die moet worden gebruikt bij het lezen. Wees voorzichtig: query's die dezelfde groeps-id delen, verstoren elkaar en kunnen alleen gedeeltelijke gegevens lezen. Dit kan gebeuren bij het uitvoeren van gelijktijdige batch- en streamingworkloads of bij het snel opnieuw opstarten van query's. Als deze optie is ingesteld, `groupIdPrefix` wordt deze genegeerd. Als u problemen wilt minimaliseren, stelt u de Kafka-consumentenconfiguratie `session.timeout.ms` in op een kleine waarde.
`includeHeaders`	`false`	`true`, `false`	Of u Kafka-berichtkoppen wilt opnemen als een kolom in de uitvoer.
`kafkaconsumer.polltimeoutms`	None	Positieve gehele getallen	De time-out in milliseconden voor de aanroep van de Kafka-consument `poll()` .
`kafka.bootstrap.servers`	None	Een door komma's gescheiden lijst `host:port` met tekenreeksen	Een door komma's gescheiden lijst met host:poortadressen voor Kafka-brokers. Hiermee stelt u de eigenschap van `bootstrap.servers` de Kafka-client in. Als u merkt dat er geen gegevens uit Kafka zijn, controleert u deze lijst met brokeradressen op onjuiste adressen. Als de adreslijst van de broker onjuist is, zijn er mogelijk geen fouten. Kafka-clients gaan ervan uit dat de brokers uiteindelijk beschikbaar zijn en het voor altijd opnieuw proberen wanneer ze netwerkfouten ontvangen.
`maxRecordsPerPartition`	None	Positieve gehele getallen	Het maximum aantal records voor elke Spark-partitie. Wanneer de connector is ingesteld, worden Kafka-partities gesplitst, zodat elke Spark-partitie maximaal zoveel records leest. U kunt deze optie ook gebruiken met `minPartitions`. Wanneer beide opties zijn ingesteld, gebruikt Spark welke optie resulteert in meer partities.
`minPartitions`	None	Positieve gehele getallen	Het minimale aantal Spark-partities dat moet worden gelezen uit Kafka. Wanneer de connector is ingesteld, worden grote Kafka-partities gesplitst om parallelle uitvoering te vergroten. Als deze niet is ingesteld, maakt Spark één partitie voor elke Kafka-onderwerppartitie. Handig voor het verwerken van scheeftrekken van gegevens of piekbelastingen. Met deze optie worden Kafka-consumenten voor elke trigger opnieuw geïnitialiseerd, wat van invloed kan zijn op de prestaties met SSL.
`startingOffsets`	`latest` (streaming), `earliest` (batch)	`earliest`, `latest`of een JSON-offsettekenreeks	De verschuiving waaruit de query begint met lezen. In de JSON-tekenreeks `-1` is de meest recente offset. `-2` is de vroegste verschuiving. Bijvoorbeeld: `{"topicA":{"0":23,"1":-2}}`. Voor streamingquery's geldt deze optie alleen wanneer een nieuwe query wordt gestart. Hervate query's maken altijd gebruik van het controlepunt. Tijdens een query beginnen nieuwe partities met het lezen van de eerste offset. Voor batchquery's `latest` is dit niet toegestaan.
`startingOffsetsByTimestamp`	None	Een JSON-tijdstempeltekenreeks zoals `{"topicA":{"0":1000,"1":2000}}`	Een lijst met begin offsets voor elke partitie, opgegeven als tijdstempels in milliseconden. Wanneer er geen offset bestaat voor een tijdstempel, wordt het querygedrag bepaald door `startingOffsetsByTimestampStrategy`. Voor streamingquery's geldt deze optie alleen wanneer een nieuwe query wordt gestart. Hervate query's maken altijd gebruik van het controlepunt. Tijdens een query beginnen nieuwe partities met het lezen van de eerste offset.
`startingOffsetsByTimestampStrategy`	`error`	`error`, `latest`	De strategie die moet worden gebruikt wanneer er geen offset wordt gevonden voor een tijdstempel die is opgegeven in `startingOffsetsByTimestamp` of `startingTimestamp`. `error` genereert een uitzondering. `latest` maakt gebruik van de meest recente beschikbare offset.
`startingTimestamp`	None	Positieve gehele getallen of `0`	De globale begintijdstempel in milliseconden die van toepassing is op alle partities. Wanneer er geen offset bestaat voor de tijdstempel, wordt het gedrag bepaald door `startingOffsetsByTimestampStrategy`.
`subscribe`	None	Een door komma's gescheiden lijst met onderwerpnamen	De onderwerpen waarop u zich wilt abonneren. U moet precies een van de `subscribe`, `subscribePattern`of `assign` opties opgeven.
`subscribePattern`	None	Een Java regex-tekenreeks	Het patroon dat wordt gebruikt om u te abonneren op onderwerpen. U moet precies een van de `subscribe`, `subscribePattern`of `assign` opties opgeven. Bijvoorbeeld: `topic.*`.

De volgende opties zijn alleen van toepassing op streaming-leesbewerkingen met spark.readStream.format("kafka"):

Key	Verstek	Geldige waarden	Description
`bytesEstimateWindowLength`	`300s`	Duurtekenreeksen zoals `10m` of `600s`	Het tijdvenster dat wordt gebruikt om de resterende bytes voor de `estimatedTotalBytesBehindLatest` metrische waarde te schatten. Zie Kafka-metrieken ophalen.
`maxOffsetsPerTrigger`	None	Positieve gehele getallen	Het maximum aantal offsets dat per triggerinterval moet worden verwerkt. Verschuivingen worden proportioneel verdeeld over onderwerppartities.
`maxTriggerDelay`	`15m`	Duurtekenreeksen zoals `10m` of `600s`	De maximale tijd die moet worden gewacht voordat `minOffsetsPerTrigger` deze wordt geactiveerd.
`minOffsetsPerTrigger`	None	Positieve gehele getallen	Het minimale aantal offsets dat moet worden verzameld voordat een microbatch wordt geactiveerd. Wanneer `maxTriggerDelay` dit is bereikt, wordt de microbatch ongeacht uitgevoerd.

Zie spark.read.format("kafka") voor offsetopties die alleen van toepassing zijn op batchleesbewerkingen.

Authenticatie

Databricks raadt u aan een Unity Catalog-servicereferentie te gebruiken voor verificatie bij door de cloud beheerde Kafka-services (AWS MSK, Azure Event Hubs of Google Cloud Managed Kafka).

Key	Verstek	Geldige waarden	Description
`databricks.serviceCredential`	None	Elke tekenreeks	De naam van een Unity Catalog-servicereferentie voor verificatie bij door de cloud beheerde Kafka-services. Beschikbaar in Databricks Runtime 16.1 en hoger.
`databricks.serviceCredential.scope`	None	Elke tekenreeks	Het OAuth-bereik voor de servicereferentie. Stel dit alleen in wanneer Azure Databricks het bereik voor uw Kafka-service niet automatisch kan afleiden.

Wanneer een servicereferentie niet beschikbaar is, gebruikt u SASL-/SSL-opties (doorgegeven als kafka.* eigenschappen). Wanneer u een servicereferentie gebruikt, hoeft u niet op te geven kafka.sasl.mechanism, kafka.sasl.jaas.configof kafka.security.protocol.

Key	Verstek	Geldige waarden	Description
`kafka.security.protocol`	None	Een tekenreeks van het beveiligingsprotocol, zoals `SASL_SSL`, `SSLPLAINTEXT`	Het beveiligingsprotocol voor brokercommunicatie.
`kafka.sasl.mechanism`	None	Een SASL-mechanismetekenreeks, zoals `PLAIN`, `SCRAM-SHA-256`, `SCRAM-SHA-512`, , `OAUTHBEARERAWS_MSK_IAM`	Het SASL-mechanisme.
`kafka.sasl.jaas.config`	None	Een JAAS-configuratietekenreeks	De configuratietekenreeks voor JAAS-aanmelding.
`kafka.sasl.login.callback.handler.class`	None	Een volledig gekwalificeerde klassenaam	De volledig gekwalificeerde klassenaam van een callback-handler voor aanmelding voor SASL-verificatie.
`kafka.sasl.client.callback.handler.class`	None	Een volledig gekwalificeerde klassenaam	De volledig gekwalificeerde klassenaam van een client callback-handler voor SASL-verificatie.
`kafka.ssl.truststore.location`	None	Een bestandspadtekenreeks	Het pad naar het SSL-vertrouwensarchiefbestand.
`kafka.ssl.truststore.password`	None	Elke tekenreeks	Het wachtwoord voor het SSL-vertrouwensarchiefbestand.
`kafka.ssl.keystore.location`	None	Een bestandspadtekenreeks	Het pad naar het SSL-sleutelarchiefbestand.
`kafka.ssl.keystore.password`	None	Elke tekenreeks	Het wachtwoord voor het SSL-sleutelarchiefbestand.

Zie Verificatie voor volledige instructies voor het instellen van verificatie.

Pub/sub

Gebruik deze opties om spark.readStream.format("pubsub") u te abonneren op Google Pub/Sub. De opties subscriptionId, topicIden projectId zijn vereist.

Key	Verstek	Geldige waarden	Description
`subscriptionId`	None	Elke tekenreeks	Verplicht. De id van het pub-/subabonnement. De connector maakt het abonnement als het niet bestaat.
`topicId`	None	Elke tekenreeks	Verplicht. De pub-/subonderwerp-id.
`projectId`	None	Elke tekenreeks	Verplicht. De Google Cloud-project-id.
`numFetchPartitions`	Het helft van het aantal uitvoerders dat beschikbaar is bij de initialisatie van de stream	Positieve gehele getallen	Het aantal parallelle Spark-taken waarmee rijen uit het abonnement worden opgehaald.
`maxBytesPerTrigger`	None	Positieve gehele getallen	Een zachte limiet voor het aantal bytes dat per microbatch moet worden verwerkt.
`maxRecordsPerFetch`	`1000`	Positieve gehele getallen	Het aantal rijen dat per taak moet worden opgehaald voordat deze wordt verwerkt.
`maxFetchPeriod`	`10s`	Een duurtekenreeks zoals `1s` of `1m`	De tijdsduur die elke taak besteedt aan het ophalen voordat rijen worden verwerkt. Azure Databricks wordt aangeraden de standaardwaarde te gebruiken.
`deleteSubscriptionOnStreamStop`	`false`	`true`, `false`	Wanneer `true`, het abonnement, van `subscriptionId`, wordt verwijderd wanneer de streamingquery eindigt.
`serviceCredential`	None	Elke tekenreeks	De naam van een Azure Databricks-servicereferentie voor verificatie bij Pub/Sub. Beschikbaar in Databricks Runtime 16.1 en hoger.
`clientEmail`	None	Een e-mailadrestekenreeks	Het e-mailadres van het Google-serviceaccount. Vereist wanneer u geen servicereferentie gebruikt.
`clientId`	None	Elke tekenreeks	De client-id van het Google-serviceaccount. Vereist wanneer u geen servicereferentie gebruikt.
`privateKey`	None	Een tekenreeks met een persoonlijke sleutel	De persoonlijke sleutel voor het Google-serviceaccount. Vereist wanneer u geen servicereferentie gebruikt.
`privateKeyId`	None	Elke tekenreeks	De persoonlijke sleutel-id voor het Google-serviceaccount. Vereist wanneer u geen servicereferentie gebruikt.

Zie Abonneren op Google Pub/Sub voor meer informatie over Pub/Sub.

Pulsar

Gebruik deze opties om spark.readStream.format("pulsar") vanuit Apache Pulsar te streamen. Beschikbaar in Databricks Runtime 14.1 en hoger.

De volgende opties zijn vereist. U moet precies een van topic, topicsof topicsPattern.

Key	Verstek	Geldige waarden	Description
`service.url`	None	Een URL-tekenreeks voor de Pulsar-service	De Pulsar voor de Pulsar `serviceURL` dienst, bijvoorbeeld `pulsar://broker.example.com:6650`.
`topic`	None	Elke tekenreeks	Eén onderwerpnaam die moet worden gebruikt.
`topics`	None	Een door komma's gescheiden lijst met onderwerpnamen	Een door komma's gescheiden lijst met onderwerpnamen die moeten worden gebruikt.
`topicsPattern`	None	Een Java regex-tekenreeks	Een Java regex-tekenreeks die overeenkomt met onderwerpnamen.

De volgende opties worden ook ondersteund:

Key	Verstek	Geldige waarden	Description
`admin.url`	None	Een URL-tekenreeks	De HTTP-URL van de Pulsar-beheerservice. Vereist wanneer `maxBytesPerTrigger` deze is ingesteld.
`allowDifferentTopicSchemas`	`false`	`true`, `false`	Als meerdere onderwerpen met verschillende schema's worden gelezen, gebruikt u deze optie om automatische deserialisatie van onderwerpwaarden op basis van schema's uit te schakelen. Alleen de onbewerkte waarden worden geretourneerd wanneer dit wordt `true`.
`failOnDataLoss`	`true`	`true`, `false`	Of de query mislukt wanneer gegevens verloren gaan. Gegevensverlies kan bijvoorbeeld optreden wanneer onderwerpen worden verwijderd of berichten verlopen vanwege bewaarbeleid.
`maxBytesPerTrigger`	None	Positieve gehele getallen	Een zachte limiet voor het aantal bytes dat per microbatch moet worden verwerkt. Vereist `admin.url`.
`pollTimeoutMs`	`120000`	Positieve gehele getallen	De time-out voor het lezen van berichten van Pulsar in milliseconden.
`predefinedSubscription`	None	Elke tekenreeks	De vooraf gedefinieerde abonnementsnaam die door de connector wordt gebruikt om de voortgang van de Spark-toepassing bij te houden.
`startingOffsets`	`latest`	`latest`, `earliest`of een JSON-offsettekenreeks	Waar moet ik beginnen met lezen.
`subscriptionPrefix`	None	Elke tekenreeks	Het voorvoegsel dat door de connector wordt gebruikt om een willekeurig abonnement te genereren om de voortgang van de Spark-toepassing bij te houden.
`waitingForNonExistedTopic`	`false`	`true`, `false`	Of de connector wacht totdat de gewenste onderwerpen worden gemaakt.

U kunt aanvullende configuraties voor de Pulsar-client, -beheerder en -lezer opgeven met behulp van de volgende optiepatronen:

Patroon	Configuratieopties
`pulsar.admin.*`	Configuratie van Pulsar-beheerder
`pulsar.client.*`	Pulsar-clientconfiguratie, inclusief verificatieopties zoals `pulsar.client.authPluginClassName` en `pulsar.client.authParams`.
`pulsar.reader.*`	Configuratie van Pulsar-lezer

Zie Verificatie voor meer informatie over Pulsar-client- en beheerdersverificatieopties.

Authenticatie

Azure Databricks biedt ondersteuning voor truststore- en sleutelopslagverificatie voor Pulsar. Azure Databricks raadt het gebruik van geheimen aan om verificatiedetails op te slaan. Zie Geheimbeheer.

Key	Verstek	Geldige waarden	Description
`pulsar.client.authPluginClassName`	None	Een volledig gekwalificeerde klassenaam	De volledig gekwalificeerde klassenaam van de verificatieinvoegtoepassing. Bijvoorbeeld: `org.apache.pulsar.client.impl.auth.AuthenticationTls`.
`pulsar.client.authParams`	None	Een referentietekenreeks	Verificatiereferenties die als tekenreeks worden doorgegeven aan de verificatie-invoegtoepassing. Bijvoorbeeld: `tlsCertFile:/path/to/my-role.cert.pem,tlsKeyFile:/path/to/my-role.key-pk8.pem`.
`pulsar.client.useKeyStoreTls`	`false`	`true`, `false`	Wanneer `true`, schakelt u TLS-configuratie op basis van KeyStore in in plaats van PEM-indelingsbestanden.
`pulsar.client.tlsTrustStoreType`	None	Elke tekenreeks	De indeling van het TLS-vertrouwensarchiefbestand. Bijvoorbeeld: `JKS`.
`pulsar.client.tlsTrustStorePath`	None	Een bestandspadtekenreeks	Het pad naar het TLS-vertrouwensarchiefbestand met vertrouwde CA-certificaten. Vereist wanneer `pulsar.client.useKeyStoreTlstrue` is.
`pulsar.client.tlsTrustStorePassword`	None	Elke tekenreeks	Het wachtwoord voor het TLS-vertrouwensarchiefbestand.

Als de stream gebruikmaakt van een PulsarAdmin, kunt u ook de volgende opties instellen:

Key	Verstek	Geldige waarden	Description
`pulsar.admin.authPluginClassName`	None	Een volledig gekwalificeerde klassenaam	De volledig gekwalificeerde klassenaam van de verificatie-invoegtoepassing voor de Pulsar-beheerdersclient.
`pulsar.admin.authParams`	None	Een referentietekenreeks	Verificatiereferenties voor de Pulsar-clientverificatie-invoegtoepassing voor beheerders.
`pulsar.admin.useTls`	None	`true`, `false`	Of tls moet worden gebruikt voor de clientverbinding van de Pulsar-beheerder.
`pulsar.admin.tlsAllowInsecureConnection`	None	`true`, `false`	Of u onveilige TLS-verbindingen wilt toestaan voor de Pulsar-beheerdersclient.
`pulsar.admin.tlsTrustCertsFilePath`	None	Een bestandspadtekenreeks	Pad naar het vertrouwde TLS-certificaatbestand voor de Pulsar-beheerclient.
`pulsar.admin.useKeyStoreTls`	None	`true`, `false`	Of u TLS op basis van KeyStore wilt gebruiken voor de Pulsar-beheerclient.
`pulsar.admin.tlsTrustStoreType`	None	Elke tekenreeks	De indeling van het TLS-vertrouwensarchief voor de Pulsar-beheerclient. Bijvoorbeeld: `JKS`.
`pulsar.admin.tlsTrustStorePath`	None	Een bestandspadtekenreeks	Pad naar het TLS-vertrouwensarchiefbestand voor de Pulsar-beheerclient. Vereist wanneer `pulsar.admin.useKeyStoreTlstrue` is.
`pulsar.admin.tlsTrustStorePassword`	None	Elke tekenreeks	Wachtwoord voor het TLS-vertrouwensarchief van de Pulsar-beheerderclient.

Zie Verifiëren bij Pulsar voor voorbeelden van verificatie.

Opties voor DataFrameWriter

Gebruik deze opties met DataFrameWriter.option() en DataFrameWriterV2.option() om te bepalen hoe Azure Databricks gegevens schrijft.

Example

In het volgende voorbeeld wordt ingesteld mergeSchema op True het schrijven van een Delta Lake-tabel:

Python

df.write.format("delta").option("mergeSchema", True).saveAsTable("my_table")

Scala

df.write.format("delta").option("mergeSchema", "true").saveAsTable("my_table")

Avro

De volgende opties zijn van toepassing bij het schrijven van Avro-bestanden.

Key	Verstek	Geldige waarden	Description
`avroSchema`	None	Een JSON-schematekenreeks	Het volledige Avro-schema als een JSON-tekenreeks. Gebruik deze optie om Spark SQL-typen te converteren naar specifieke Avro-typen. Van toepassing op Avro-bestanden lezen en schrijven.
`avroSchemaUrl`	None	Een URL-tekenreeks	Een URL die verwijst naar een Avro-schemabestand. Gebruik in plaats van `avroSchema` wanneer het schema extern wordt opgeslagen. Wederzijds uitsluiten met `avroSchema`. Van toepassing op Avro-bestanden lezen en schrijven.
`compression`	`snappy`	`uncompressed`, , `deflatesnappy (default)`, `bzip2`, , , `xzzstandard`	Compressiecodec die moet worden gebruikt bij het schrijven. Van toepassing op Avro-bestanden lezen en schrijven.
`recordName`	`topLevelRecord`	Elke tekenreeks	De recordnaam op het hoogste niveau in het Avro-uitvoerschema. Van toepassing op Avro-bestanden lezen en schrijven.
`positionalFieldMatching`	`false`	`true`, `false`	Of kolommen moeten worden vergeleken tussen het Spark-schema en het Avro-schema op veldpositie in plaats van op naam. Van toepassing op Avro-bestanden lezen en schrijven.
`recordNamespace`	Lege tekenreeks	Elke tekenreeks	De naamruimte voor de record op het hoogste niveau in het Avro-uitvoerschema. Van toepassing op Avro-bestanden lezen en schrijven.

Delta Lake en Apache Iceberg

De volgende opties zijn van toepassing bij het schrijven van Delta Lake- en Apache Iceberg-tabellen.

Key	Verstek	Geldige waarden	Description
`clusterByAuto`	`false`	`true`, `false`	Of automatische liquide clustering moet worden ingeschakeld, waarbij Azure Databricks clusteringkolommen selecteert op basis van querypatronen. Alleen geldig met `mode("overwrite")`. Kan niet worden gebruikt met `append` de modus. Beschikbaar in Databricks Runtime 16.4 en hoger. Is van toepassing op Liquid Clustering gebruiken voor tabellen.
`mergeSchema`	None	`true`, `false`	Of u de ontwikkeling van schema's voor de schrijfbewerking wilt inschakelen. Nieuwe kolommen in het dataframe van de bron worden toegevoegd aan het doeltabelschema. Van toepassing op batch- en streaming-toevoegbewerkingen. Is van toepassing op Update-tabelschema's met schemaontwikkeling.
`overwriteSchema`	None	`true`, `false`	Of u het tabelschema en de partitionering wilt vervangen bij het overschrijven. Vereist `mode("overwrite")` zonder `replaceWhere`. Kan niet worden gebruikt met `partitionOverwriteMode`. Is van toepassing op Update-tabelschema's met schemaontwikkeling.
`partitionOverwriteMode`	None	`static`, `dynamic`	De partitie overschrijfmodus. Stel dit in om `dynamic` alleen partities met nieuwe gegevens te overschrijven, waardoor alle andere partities ongewijzigd blijven. Verouderde modus, niet ondersteund op serverloze berekeningen of Databricks SQL. Van toepassing op selectief overschrijven van gegevens met Delta Lake.
`replaceOn`	None	Een booleaanse expressietekenreeks	Een Booleaanse expressie die overeenkomt met rijen in de doeltabel om te vervangen door rijen uit de bronquery. Kan verwijzen naar kolommen uit zowel de doeltabel als de bronquery. Rijen in het doel die overeenkomen met een bronrij worden verwijderd en vervangen. Als de bron leeg is, worden er geen verwijderingen uitgevoerd. Gebruik `targetAlias` dit om kolomverwijzingen niet eenduidig te maken. Beschikbaar in Databricks Runtime 17.1 en hoger. Van toepassing op selectief overschrijven van gegevens met Delta Lake.
`replaceUsing`	None	Een door komma's gescheiden lijst met kolomnamen	Een door komma's gescheiden lijst met kolomnamen die worden gebruikt om rijen tussen de doeltabel en de bronquery te vergelijken. Zowel het doel als de bron moeten alle vermelde kolommen bevatten. Rijen in het doel die overeenkomen met een bronrij onder gelijkheidsvergelijking worden verwijderd en vervangen. `NULL` waarden worden behandeld als niet gelijk en komen niet overeen. Beschikbaar in Databricks Runtime 16.3 en hoger. Van toepassing op selectief overschrijven van gegevens met Delta Lake.
`replaceWhere`	None	Een tekenreeks voor predicaatexpressie	Een predicaatexpressie. Atomisch overschrijft alleen de records die overeenkomen met het predicaat. Van toepassing op selectief overschrijven van gegevens met Delta Lake.
`targetAlias`	None	Elke tekenreeks	Een tekenreeksalias voor de doeltabel. Gebruik deze indeling met `replaceOn` of `replaceWhere` om kolomverwijzingen te ontkoppelen wanneer de voorwaarde verwijst naar kolommen uit zowel de doeltabel als de bronquery. Van toepassing op selectief overschrijven van gegevens met Delta Lake.
`txnAppId`	None	Elke tekenreeks	Een unieke tekenreeks die de toepassing identificeert voor idempotente schrijfbewerkingen.`foreachBatch` Gebruik dit samen om `txnVersion` precies één keer schrijfbewerkingen naar meerdere Delta Lake-tabellen te garanderen. Is van toepassing op Gebruik `foreachBatch` voor idempotente tabelschrijfbewerkingen.
`txnVersion`	None	Een monotonisch toenemend geheel getal	Een monotonisch toenemend aantal dat wordt gebruikt als transactieversie voor idempotente schrijfbewerkingen.`foreachBatch` Gebruik dit samen om `txnAppId` precies één keer schrijfbewerkingen naar meerdere Delta Lake-tabellen te garanderen. Is van toepassing op Gebruik `foreachBatch` voor idempotente tabelschrijfbewerkingen.
`optimizeWrite`	None	`true`, `false`	Hiermee wordt aangegeven of automatisch optimaliseren voor deze schrijfbewerking moet worden ingeschakeld. Hiermee wordt de `spark.databricks.delta.optimizeWrite.enabled` configuratie overschreven. Is van toepassing op Wat is Delta Lake in Azure Databricks?.
`userMetadata`	None	Elke tekenreeks	Een door de gebruiker gedefinieerde tekenreeks die is toegevoegd aan de doorvoermetagegevens voor de schrijfbewerking. Zichtbaar in de uitvoer van `DESCRIBE HISTORY`. Van toepassing op Verrijken-tabellen met aangepaste metagegevens.

CSV

De volgende opties zijn van toepassing bij het schrijven van CSV-bestanden.

Key	Verstek	Geldige waarden	Description
`charToEscapeQuoteEscaping`	`\0` (niet ingeschakeld)	Eén teken	Het teken dat wordt gebruikt om het escape-teken te ontsnappen wanneer het afwijkt van het aanhalingsteken. Van toepassing op CSV (DataFrameWriter).
`compression`	`none`	`none (default)`, `bzip2`, `gzip`, `lz4`, `snappy`, , `deflate`, `zstd`	Compressiecodec die moet worden gebruikt bij het schrijven. Van toepassing op CSV (DataFrameWriter).
`dateFormat`	`yyyy-MM-dd`	Een tekenreeks voor datumnotatie	Tekenreeks opmaken voor datumkolomwaarden. Van toepassing op CSV (DataFrameWriter).
`emptyValue`	Lege tekenreeks	Elke tekenreeks	De tekenreeks die is geschreven voor lege (niet-null) waarden. Van toepassing op CSV (DataFrameWriter).
`encoding`	`UTF-8`	Een `java.nio.charset.Charset` naam	De tekencodering voor de uitvoerbestanden. Van toepassing op CSV (DataFrameWriter).
`escape`	`\`	Eén teken	Het teken dat wordt gebruikt om waarden tussen aanhalingstekens te ontsnappen. Van toepassing op CSV (DataFrameWriter).
`escapeQuotes`	`true`	`true`, `false`	Of u aanhalingstekens tussen aanhalingstekens in veldwaarden tussen aanhalingstekens wilt ontsnappen. Van toepassing op CSV (DataFrameWriter).
`header`	`false`	`true`, `false`	Of u kolomnamen wilt schrijven als de eerste regel van de uitvoer. Van toepassing op CSV (DataFrameWriter).
`ignoreLeadingWhiteSpace`	`false`	`true`, `false`	Of u voorloopspaties wilt knippen van waarden bij het schrijven. Van toepassing op CSV (DataFrameWriter).
`ignoreTrailingWhiteSpace`	`false`	`true`, `false`	Of u volgspaties van waarden wilt knippen tijdens het schrijven. Van toepassing op CSV (DataFrameWriter).
`lineSep`	`\n`	Een tekenreeks	De tekenreeks voor regelscheidingstekens die tussen records wordt gebruikt. Van toepassing op CSV (DataFrameWriter).
`locale`	`en-US`	Een `java.util.Locale` id	Een `java.util.Locale`-id. Een Java landinstelling die van invloed is op de standaarddatum, tijdstempel en decimale parsering in het CSV-bestand.
`nullValue`	Lege tekenreeks	Elke tekenreeks	Tekenreeks die is geschreven voor null-waarden. Van toepassing op CSV (DataFrameWriter).
`quote`	`"`	Eén teken	Het teken dat wordt gebruikt voor het aanhalen van veldwaarden die het scheidingsteken bevatten. Van toepassing op CSV (DataFrameWriter).
`quoteAll`	`false`	`true`, `false`	Of alle veldwaarden tussen aanhalingstekens moeten worden geplaatst, ongeacht de inhoud. Van toepassing op CSV (DataFrameWriter).
`sep`	`,`	Een tekenreeks	Het veldscheidingsteken. Van toepassing op CSV (DataFrameWriter).
`timestampFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`	Tekenreeks voor tijdstempelnotatie	De notatietekenreeks voor tijdstempelkolomwaarden. Van toepassing op CSV (DataFrameWriter).
`timestampNTZFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS]`	Tekenreeks voor tijdstempelnotatie	Tekenreeks opmaken voor tijdstempel zonder tijdzonekolomwaarden.a0>

Excel

De volgende opties zijn van toepassing bij het schrijven van Excel bestanden.

Key	Verstek	Geldige waarden	Description
`dataAddress`	None	Een bladnaam of celverwijzingstekenreeks	De bladnaam of begincel voor de schrijfbewerking. Als u dit weglaat, schrijft u naar een blad met de naam `Sheet1` beginnend bij cel `A1`. Accepteert een bladnaam (`SheetName`) of één celverwijzing (`SheetName!A1`). Celbereiken worden niet ondersteund voor schrijfbewerkingen.
`dateFormatInWrite`	`yyyy-mm-dd`	Een tekenreeks Excel datumnotatie	Excel tekenreeks voor celopmaak toegepast op `Date` kolommen. Maakt gebruik van Excel notatiesyntaxis.
`headerRows`	`0`	`0`, `1`	Of u kolomnamen als eerste rij wilt schrijven.
`timestampNTZFormat`	`yyyy-mm-dd hh:mm:ss`	Een tekenreeks met de tijdstempelnotatie Excel	Excel tekenreeks voor celopmaak die is toegepast op kolommen `TimestampNTZ` en `Timestamp`. Maakt gebruik van Excel notatiesyntaxis.
`version`	`xlsx`	`xlsx`, `xls`	De versie van de Excel-bestandsindeling die moet worden geschreven.

JSON

De volgende opties zijn van toepassing bij het schrijven van JSON-bestanden.

Key	Verstek	Geldige waarden	Description
`compression`	`none`	`none`, `bzip2`, `gzip`, `lz4`, `snappy`, , `deflate`, `zstd`	Compressiecodec die moet worden gebruikt bij het schrijven. Van toepassing op json (DataFrameWriter).
`dateFormat`	`yyyy-MM-dd`	Een tekenreeks voor datumnotatie	Tekenreeks opmaken voor datumkolomwaarden. Van toepassing op json (DataFrameWriter).
`encoding`	`UTF-8`	Een `java.nio.charset.Charset` naam	De tekencodering voor de uitvoerbestanden. Van toepassing op json (DataFrameWriter).
`ignoreNullFields`	waarde van `spark.sql.jsonGenerator.ignoreNullFields`	`true`, `false`	Hiermee wordt aangegeven of velden met null-waarden uit de JSON-uitvoer moeten worden weggelaten. Van toepassing op json (DataFrameWriter).
`lineSep`	`\n`	Een tekenreeks	De tekenreeks voor regelscheidingstekens die tussen records wordt gebruikt. Van toepassing op json (DataFrameWriter).
`locale`	`en-US`	Een `java.util.Locale` id	Een Java landinstellingen-id die van invloed is op de standaarddatum, tijdstempel en decimale parsering binnen de JSON.
`pretty`	`false`	`true`, `false`	Of u de JSON-uitvoer (ingesprongen, multiline) wilt inschakelen.
`sortKeys`	`false`	`true`, `false`	Of u de sleutels van JSON-objecten alfabetisch in de uitvoer wilt sorteren. Handig voor het produceren van deterministische uitvoer.
`timestampFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`	Tekenreeks voor tijdstempelnotatie	De notatietekenreeks voor tijdstempelkolomwaarden. Van toepassing op json (DataFrameWriter).
`timestampNTZFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS]`	Tekenreeks voor tijdstempelnotatie	Tekenreeks opmaken voor tijdstempel zonder tijdzonekolomwaarden.a0>
`writeNonAsciiCharacterAsCodePoint`	`false`	`true`, `false`	Of u niet-ASCII-tekens wilt coderen als `\uXXXX` Unicode-escapereeksen in plaats van letterlijke UTF-8 tekens in de uitvoer.

ORC

De volgende opties zijn van toepassing bij het schrijven van ORC-bestanden.

Key	Verstek	Geldige waarden	Description
`compression`	`zstd`	`none`, `uncompressed`, `snappy`, `zlib`, `lzo`, `zstd`, , `lz4`, `brotli`	Compressiecodec die moet worden gebruikt bij het schrijven. Van toepassing op orc (DataFrameWriter).

Parket

De volgende opties zijn van toepassing bij het schrijven van Parquet-bestanden.

Key	Verstek	Geldige waarden	Description
`compression`	`snappy`	`none`, , `uncompressedsnappy`, `gzip`, , `lzo`, `brotli`, `lz4lz4_rawzstd`	Compressiecodec die moet worden gebruikt bij het schrijven. Van toepassing op parquet (DataFrameWriter).
`spark.sql.parquet.outputTimestampType`	`INT96`	`INT96`, , `TIMESTAMP_MICROSTIMESTAMP_MILLIS`	Het fysieke type dat wordt gebruikt om tijdstempelkolommen te coderen. Gebruik `INT96` deze functie voor compatibiliteit met verouderde Parquet-lezers die geen ondersteuning bieden voor de standaard timestamptypen.

Tekst

De volgende opties zijn van toepassing bij het schrijven van tekstbestanden.

Key	Verstek	Geldige waarden	Description
`compression`	`none`	`none`, `bzip2`, `gzip`, `lz4`, `snappy`, , `deflate`, `zstd`	Compressiecodec die moet worden gebruikt bij het schrijven. Van toepassing op tekst (DataFrameWriter).
`encoding`	`UTF-8`	Een `java.nio.charset.Charset` naam	De tekencodering voor de uitvoerbestanden.
`lineSep`	`\n`	Een tekenreeks	De tekenreeks voor regelscheidingstekens die tussen records wordt gebruikt. Van toepassing op tekst (DataFrameWriter).

XML

De volgende opties zijn van toepassing bij het schrijven van XML-bestanden.

Key	Verstek	Geldige waarden	Description
`arrayElementName`	`item`	Elke tekenreeks	De elementnaam voor matrixelementen zonder expliciete naam. Van toepassing op xml (DataFrameWriter).
`attributePrefix`	`_`	Elke tekenreeks	Het voorvoegsel dat is voorafgegaan aan veldnamen die overeenkomen met XML-kenmerken. Van toepassing op xml (DataFrameWriter).
`compression`	`none`	`none`, `bzip2`, `gzip`, `lz4`, `snappy`, , `deflate`, `zstd`	Compressiecodec die moet worden gebruikt bij het schrijven. Van toepassing op xml (DataFrameWriter).
`dateFormat`	`yyyy-MM-dd`	Een tekenreeks voor datumnotatie	Tekenreeks opmaken voor datumkolomwaarden. Van toepassing op xml (DataFrameWriter).
`declaration`	`version="1.0" encoding="UTF-8" standalone="yes"`	Een XML-declaratietekenreeks of een lege tekenreeks die moet worden onderdrukt	De XML-declaratietekenreeks die boven aan elk uitvoerbestand is geschreven. Ingesteld op een lege tekenreeks om de declaratie te onderdrukken. Van toepassing op xml (DataFrameWriter).
`encoding`	`UTF-8`	Een `java.nio.charset.Charset` naam	De tekencodering voor de uitvoerbestanden. Van toepassing op xml (DataFrameWriter).
`indent`	4 spaties	Elke tekenreeks	De tekenreeks die wordt gebruikt om onderliggende elementen in de uitvoer te laten inspringen. Stel deze in op een lege tekenreeks om inspringing uit te schakelen en elke rij op één regel te schrijven.
`locale`	`en-US`	Een `java.util.Locale` id	Een Java landinstellingen-id die van invloed is op de standaarddatum, tijdstempel en decimale opmaak in de XML.
`nullValue`	`null`	Elke tekenreeks	De tekenreeks die is geschreven voor null-waarden. Wanneer deze waarde is ingesteld `null`, worden kenmerken en onderliggende elementen voor null-velden weggelaten. Van toepassing op xml (DataFrameWriter).
`rootTag`	`ROWS`	Elke tekenreeks	De hoofdelementtag waarmee alle rijelementen in de uitvoer worden verpakt. Van toepassing op xml (DataFrameWriter).
`rowTag`	`ROW`	Elke tekenreeks	De elementtag die een rij in de uitvoer vertegenwoordigt. Van toepassing op xml (DataFrameWriter).
`singleVariantColumn`	None	Een kolomnaamtekenreeks	De naam van de kolom Met één variant die moet worden geschreven naar XML-bestanden. Van toepassing op xml (DataFrameWriter).
`timestampFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`	Tekenreeks voor tijdstempelnotatie	De notatietekenreeks voor tijdstempelkolomwaarden. Van toepassing op xml (DataFrameWriter).
`timestampNTZFormat`	`yyyy-MM-dd'T'HH:mm:ss[.SSS]`	Tekenreeks voor tijdstempelnotatie	Tekenreeks opmaken voor tijdstempel zonder tijdzonekolomwaarden. Van toepassing op xml (DataFrameWriter).
`validateName`	`true`	`true`, `false`	Of een uitzondering moet worden gegenereerd als een kolomnaam geen geldige XML-element-id is. Van toepassing op xml (DataFrameWriter).
`valueTag`	`_VALUE`	Elke tekenreeks	De veldnaam die wordt gebruikt voor tekengegevens in XML-elementen die ook kenmerken of onderliggende elementen bevatten. Van toepassing op xml (DataFrameWriter).

Opties voor DataStreamWriter

Gebruik deze opties om DataStreamWriter.option() streaming-schrijfbewerkingen te configureren.

Example

In het volgende voorbeeld wordt de locatie van het controlepunt voor een stream ingesteld:

Python

(df.writeStream
  .format("delta")
  .option("checkpointLocation", "/path/to/checkpoint")
  .start("/path/to/table"))

Scala

df.writeStream
  .format("delta")
  .option("checkpointLocation", "/path/to/checkpoint")
  .start("/path/to/table")

Gemeenschappelijk

De volgende opties zijn van toepassing op alle streaming-schrijfbewerkingen.

Key	Verstek	Geldige waarden	Description
`checkpointLocation`	Geen (vereist)	Een padtekenreeks	Pad naar de controlepuntmap voor de streamingquery. Vereist voor fouttolerantie en exact-eenmaal verwerkingsgaranties. Elke streamingquery moet een unieke controlepuntlocatie gebruiken. Databricks raadt aan controlepunten op te slaan in een Unity Catalog-volume of cloudopslagpad. Zie Controlepunten voor gestructureerd streamen.
`path`	None	Een padtekenreeks	Uitvoerpad voor streaming-sinks op basis van bestanden, zoals Parquet. Alleen van toepassing op bestandsindelingen.

Console-sink

De volgende opties zijn van toepassing bij het schrijven van streams naar de console-sink.

Key	Verstek	Geldige waarden	Description
`numRows`	`20`	Positieve gehele getallen	Het aantal rijen dat moet worden weergegeven voor elke microbatch bij het schrijven naar de console-sink.
`truncate`	`true`	`true`, `false`	Of lange tekenreeksen moeten worden afgekapt bij het weergeven van rijen. Ingesteld op het `false` weergeven van volledige tekenreekswaarden.

Delta Lake

De volgende opties zijn van toepassing bij het schrijven van een stroom naar een Delta Lake-tabel met behulp van format("delta"). Opties voor alleen overschrijven, zoals overwriteSchema, replaceWhereen partitionOverwriteMode worden niet ondersteund voor streaming-schrijfbewerkingen.

Key	Verstek	Geldige waarden	Description
`mergeSchema`	`false`	`true`, `false`	Of u het Delta Lake-tabelschema wilt ontwikkelen wanneer het streaming DataFrame nieuwe kolommen bevat. Alleen van toepassing op de toevoeguitvoermodus. Is van toepassing op Update-tabelschema's met schemaontwikkeling.
`userMetadata`	None	Elke tekenreeks	Een door de gebruiker gedefinieerde tekenreeks die is toegevoegd aan de doorvoermetagegevens voor de schrijfbewerking. Zichtbaar in de uitvoer van `DESCRIBE HISTORY`. Van toepassing op Verrijken-tabellen met aangepaste metagegevens.

Bestandssink

De volgende optie is van toepassing bij het schrijven van een stream naar bestandsindelingen (Parquet, JSON, CSV, ORC, tekst). Zie DataFrameWriter-opties voor specifieke indelingen.

Key	Verstek	Geldige waarden	Description
`retention`	None	Een tijdtekenreeks zoals `7 days` of `24 hours`	Hoe lang het bewaren van sinkmetagegevensbestanden die worden gebruikt voor fouttolerantie en compressie. Wanneer deze niet is ingesteld, worden metagegevensbestanden voor onbepaalde tijd bewaard.

Kafka-sink

De volgende opties zijn van toepassing bij het schrijven naar Kafka.

Key	Verstek	Geldige waarden	Description
`kafka.bootstrap.servers`	None	Een door komma's gescheiden lijst `host:port` met tekenreeksen	Verplicht. Een door komma's gescheiden lijst met Kafka-brokeradressen `host:port` .
`topic`	None	Elke tekenreeks	Het Kafka-doelonderwerp voor alle rijen. Vereist als het DataFrame geen kolom bevat `topic` .
`kafka.*`	None	Elke configuratiewaarde voor kafka-producenten	Elke Kafka-producentconfiguratie voorafgegaan door `kafka.`. Bijvoorbeeld: `kafka.compression.type`.

Geheugensink

De volgende opties zijn van toepassing bij het schrijven van streams naar de geheugensink.

Key	Verstek	Geldige waarden	Description
`queryName`	Geen (vereist)	Elke tekenreeks	De naam van de in-memory tabel waarnaar de query schrijft. Vereist voor de geheugensink. Ook configureerbaar via `.queryName()`.
`mode`	`exactlyonce`	`exactlyonce`, `atleastonce`	Leveringsgarantie voor de geheugensink. `exactlyonce` maakt gebruik van microbatchmodus met exactly-once semantiek. `atleastonce` maakt gebruik van continue modus met ten minste één keer semantiek.

Spark-functieopties

Sommige ingebouwde Spark SQL-functies accepteren een options kaart waarmee het parserings- of serialisatiegedrag wordt beheerd. Geef opties door als een Python dict of een Scala-Map[String, String].

Example

In het volgende voorbeeld wordt een JSON-kolom geparseerd terwijl onjuiste records worden verwijderd:

Python

from pyspark.sql.functions import from_json
from pyspark.sql.types import StructType, StructField, StringType

schema = StructType([StructField("name", StringType())])
df = df.withColumn("parsed", from_json("json_col", schema, {"mode": "DROPMALFORMED"}))

Scala

import org.apache.spark.sql.functions.from_json
import org.apache.spark.sql.types._

val schema = StructType(Seq(StructField("name", StringType)))
val df = df.withColumn("parsed", from_json(col("json_col"), schema, Map("mode" -> "DROPMALFORMED")))

Avro

Avro-functies accepteren dezelfde opties als de bijbehorende DataFrame-opties:

from_avro en schema_of_avro gebruik Avro-opties voor DataFrameReader.
to_avro maakt gebruik van Avro-opties voor DataFrameWriter.

Example

In het volgende voorbeeld wordt een Avro-kolom gedecodeert waarvoor schemaontwikkeling is ingeschakeld:

Python

from pyspark.sql.functions import from_avro

df = df.withColumn("decoded", from_avro("avro_col", json_schema, {"avroSchemaEvolutionMode": "restart"}))

Scala

import org.apache.spark.sql.avro.functions.from_avro

val df = df.withColumn("decoded", from_avro(col("avro_col"), jsonSchema, Map("avroSchemaEvolutionMode" -> "restart")))

Daarnaast accepteren de schemaregistervarianten from_avro de volgende opties:to_avro

Key	Verstek	Geldige waarden	Description
`schemaId`	None	Een geheel getal van een schema-id	Schema-id uit het Confluent-schemaregister dat moet worden gebruikt bij het decoderen van Avro-gegevens die zijn gecodeerd met een schema dat niet compatibel is met `jsonFormatSchema`. `from_avro` Alleen van toepassing op.
`confluent.schema.registry.*`	None	Elke confluent SR-clienteigenschapswaarde	Confluent Schema Registry-clientconfiguratie-eigenschappen. Geef een Confluent SR-clienteigenschap door met behulp van dit voorvoegsel, bijvoorbeeld `confluent.schema.registry.basic.auth.user.info` voor basisverificatiereferenties. Vereist voor de schemaregistervarianten van `from_avro` en `to_avro`.

CSV

CSV-functies accepteren dezelfde opties als de bijbehorende DataFrame-opties:

from_csv en schema_of_csv gebruik CSV-opties voor DataFrameReader.
to_csv maakt gebruik van CSV-opties voor DataFrameWriter.

Example

In het volgende voorbeeld wordt CSV gelezen met een aangepast scheidingsteken en NULL een aangepaste waarde:

Python

from pyspark.sql.functions import from_csv
from pyspark.sql.types import StructType, StructField, IntegerType, StringType

schema = StructType([StructField("id", IntegerType()), StructField("name", StringType())])
df = df.withColumn("parsed", from_csv("csv_col", schema, {"sep": "|", "nullValue": "N/A"}))

Scala

import org.apache.spark.sql.functions.from_csv
import org.apache.spark.sql.types._

val schema = StructType(Seq(StructField("id", IntegerType), StructField("name", StringType)))
val df = df.withColumn("parsed", from_csv(col("csv_col"), schema, Map("sep" -> "|", "nullValue" -> "N/A")))

JSON

JSON-functies accepteren dezelfde opties als de bijbehorende DataFrame-opties:

from_json en schema_of_json gebruik JSON-opties voor DataFrameReader.
to_json maakt gebruik van DataFrameWriter JSON-opties.

Example

In het volgende voorbeeld wordt JSON geschreven met NULL velden genegeerd en mooie opmaak ingeschakeld:

Python

from pyspark.sql.functions import to_json

df = df.withColumn("json_str", to_json("struct_col", {"pretty": "true", "ignoreNullFields": "true"}))

Scala

import org.apache.spark.sql.functions.to_json

val df = df.withColumn("json_str", to_json(col("struct_col"), Map("pretty" -> "true", "ignoreNullFields" -> "true")))

Protobuf

from_protobuf en to_protobuf gebruik geen gegevensbron op basis van bestanden. Protobuf-gegevens worden altijd gelezen en geschreven als binaire kolommen met behulp van deze functies. Opties worden doorgegeven als hoofdlettergevoelig Map[String, String] .

Example

In het volgende voorbeeld wordt een Protobuf-kolom gedecodeert met behulp van de PERMISSIVE-modus:

Python

from pyspark.sql.functions import from_protobuf

df = df.withColumn("decoded", from_protobuf("proto_col", "MyMessage", "/path/to/descriptor.desc",
    {"mode": "PERMISSIVE", "enums.as.ints": "true"}))

Scala

import org.apache.spark.sql.protobuf.functions.from_protobuf

val df = df.withColumn("decoded", from_protobuf(col("proto_col"), "MyMessage", "/path/to/descriptor.desc",
    Map("mode" -> "PERMISSIVE", "enums.as.ints" -> "true")))

Protobuf-functies gebruiken de volgende opties:

Key	Verstek	Geldige waarden	Description
`mode`	`FAILFAST`	`FAILFAST`, `PERMISSIVE`	Beschadigde records verwerken. `FAILFAST` retourneert een uitzondering. `PERMISSIVE` hiermee stelt u onjuiste velden in op null. Van toepassing op `from_protobuf`.
`recursive.fields.max.depth`	`-1` (uitgeschakeld)	`0` tot en met `10`	Maximale recursiediepte voor recursieve Protobuf-velden. Ingesteld om `0` recursieve veldondersteuning uit te schakelen. Van toepassing op `from_protobuf`.
`convert.any.fields.to.json`	`false`	`true`, `false`	Of u Protobuf-velden `Any` wilt converteren naar een JSON-tekenreeks in plaats van een `STRUCT`. Van toepassing op `from_protobuf`.
`emit.default.values`	`false`	`true`, `false`	Of velden met nul of standaardwaarden moeten worden verzonden (proto3-semantiek). Wanneer `false`, velden met standaardwaarden worden weggelaten uit de uitvoer. Van toepassing op `from_protobuf`.
`enums.as.ints`	`false`	`true`, `false`	Of u enumvelden wilt weergeven als geheel getalwaarden in plaats van tekenreeksen. Van toepassing op `from_protobuf`.
`upcast.unsigned.ints`	`false`	`true`, `false`	Of u wilt upcasten `uint32` naar `Long` en `uint64` om een overloop van gehele getallen te `Decimal(20,0)` voorkomen. Van toepassing op `from_protobuf`.
`unwrap.primitive.wrapper.types`	`false`	`true`, `false`	Of u wrappertypen (bijvoorbeeld `google.protobuf` en `Int32Value`) wilt uitpakken `StringValue` voor de bijbehorende primitieve Spark-typen. Van toepassing op `from_protobuf`.
`retain.empty.message.types`	`false`	`true`, `false`	Of u lege Protobuf-berichttypen in het uitvoerschema wilt behouden door een dummykolom in te voegen. Van toepassing op `from_protobuf`.
`schema.registry.subject`	None	Elke tekenreeks	Onderwerpnaam schemaregister. Vereist bij het gebruik van de schemaregistervarianten van `from_protobuf` en `to_protobuf`.
`schema.registry.address`	None	Een `host:port` tekenreeks	SchemaRegisteradres (host en poort). Vereist bij het gebruik van de schemaregistervarianten van `from_protobuf` en `to_protobuf`.
`schema.registry.protobuf.name`	None	Elke tekenreeks	Hiermee geeft u op welk Protobuf-bericht moet worden gebruikt wanneer het onderwerp van het schemaregister meerdere berichten bevat. Optional.
`schema.registry.schema.evolution.mode`	`"restart"`	`"restart"`, `"none"`	Hoe schemawijzigingen worden verwerkt wanneer een nieuwere schema-id wordt gedetecteerd in een binnenkomende record. `"restart"` beëindigt de query met een `UnknownFieldException`; configureer taken om opnieuw op te starten bij het niet ophalen van wijzigingen. `"none"` negeert wijzigingen in schema-id's en parseert nieuwere records met het oorspronkelijke schema.
`confluent.schema.registry.<option>`	—	Elke geldige confluent schemaregister-clientoptiewaarde	Geef een Confluent Schema Registry-clientoptie door met behulp van het voorvoegsel `"confluent.schema.registry"`. Stel bijvoorbeeld in `"confluent.schema.registry.basic.auth.credentials.source"` op `"USER_INFO"` en `"confluent.schema.registry.basic.auth.user.info"` om `"<KEY>:<SECRET>"` basisverificatie te configureren.

XML

XML-functies accepteren dezelfde opties als de bijbehorende DataFrame-opties:

from_xml en schema_of_xml gebruik XML-opties voor DataFrameReader.
to_xml maakt gebruik van XML-opties voor DataFrameWriter.

Example

In het volgende voorbeeld wordt XML geschreven met aangepaste hoofd- en rijtags:

Python

from pyspark.sql.functions import to_xml

df = df.withColumn("xml_str", to_xml("struct_col", {"rootTag": "records", "rowTag": "record"}))

Scala

import org.apache.spark.sql.functions.to_xml

val df = df.withColumn("xml_str", to_xml(col("struct_col"), Map("rootTag" -> "records", "rowTag" -> "record")))

Feedback

Is deze pagina nuttig?

Last updated on 2026-07-27