`from_xml`-functie

Van toepassing op: vinkje als ja aan Databricks SQL Databricks Runtime 14.1 en hoger

Belangrijk

Deze functie is beschikbaar als openbare preview.

Retourneert een struct of een variantwaarde die wordt ontleed uit het xmlStr met behulp van schema.

Syntaxis

from_xml(xmlStr, schema [, options])

Argumenten

xmlStr: Een STRING expressie die één XML-record opgeeft
schema: Een STRING expressie of aanroep van schema_of_xml functie.
options: Een optionele letterlijke MAP<STRING,STRING> waarde die instructies aangeeft.

Retouren

Een STRUCT met veldnamen en -typen die overeenkomen met de schemadefinitie of een VARIANT waarde als het schema één Variant type is.

xmlStr moet juist gevormd zijn met betrekking tot schema en options. Als xmlStr niet kan worden geparseerd, dan wordt NULL geretourneerd.

schema moet worden gedefinieerd als door komma's gescheiden kolomnaam en gegevenstypeparen, zoals wordt gebruikt in bijvoorbeeld CREATE TABLE. In Databricks Runtime 16.4 en hoger schema kan ook worden gedefinieerd als één VARIANT type.

options, indien opgegeven, kan een van de volgende zijn:

excludeAttribute (standaard false): Of kenmerken in elementen moeten worden uitgesloten.
mode (standaard PERMISSIVE): staat een modus toe voor het verwerken van beschadigde records tijdens het parseren.
- PERMISSIVE: wanneer het een beschadigde record tegenkomt, plaatst het de ongeldige tekenreeks in een veld dat is geconfigureerd door columnNameOfCorruptRecord, en zet het de ongeldige velden op null. Als u beschadigde records wilt behouden, kunt u een tekenreekstypeveld met de naam columnNameOfCorruptRecord instellen in een door de gebruiker gedefinieerd schema. Als een schema het veld niet heeft, worden beschadigde records verwijderd tijdens het parseren. Bij het afleiden van een schema wordt er impliciet een columnNameOfCorruptRecord-veld aan een uitvoerschema toegevoegd.
- FAILFAST: werpt een uitzondering op wanneer het beschadigde records tegenkomt.
columnNameOfCorruptRecord (standaard is de waarde die is opgegeven in spark.sql.columnNameOfCorruptRecord): staat toe om de naam te wijzigen van het nieuwe veld dat een malformede reeks heeft, gecreëerd door de PERMISSIVE modus. Dit vervangt spark.sql.columnNameOfCorruptRecord.
inferSchema (standaard true): als , probeert trueeen geschikt type af te leiden voor elk resulterend kenmerk, zoals een Booleaanse waarde, numeriek of datumtype. Als false, zijn alle resulterende kolommen van stringtype.
prefersDecimal (standaard false): interpreteert alle drijvende-kommawaarden als een decimaal type. Als de waarden niet in decimalen passen, worden ze afgeleid als dubbele waarden.
attributePrefix (standaard _): het voorvoegsel voor kenmerken om kenmerken te onderscheiden van elementen. Dit is het voorvoegsel voor veldnamen. Kan een lege tekenreeks zijn.
valueTag (standaard _VALUE): de tag die wordt gebruikt voor de tekengegevens binnen elementen die ook kenmerk(en) of onderliggende elementen bevatten.
encoding (standaard UTF-8): decodeert de XML-bestanden op basis van het opgegeven coderingstype.
ignoreSurroundingSpaces (standaard true): Hiermee definieert u of omringende witruimten van waarden die worden gelezen, moeten worden overgeslagen.
rowValidationXSDPath: Pad naar een XSD-bestand dat wordt gebruikt om de XML voor elke rij afzonderlijk te valideren. Rijen die niet kunnen worden gevalideerd, worden behandeld als parseringsfouten zoals hierboven. De XSD heeft verder geen invloed op het verstrekte of afgeleide schema.
ignoreNamespace (standaard false): Als true, worden voorvoegsels van naamruimten bij XML-elementen en attributen genegeerd. Tags <abc:author> en <def:author> worden bijvoorbeeld behandeld alsof beide alleen <author>zijn. Houd er rekening mee dat naamruimten niet kunnen worden genegeerd voor het rowTag element, alleen de onderliggende elementen. Houd er rekening mee dat XML-parsering over het algemeen niet naamruimte-bewust is, ongeacht de 'false' conditie.
timestampFormat (standaard yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]): stelt de tekenreeks in die een tijdstempelnotatie aangeeft. Aangepaste datumnotaties volgen de notaties bij Datum/tijd-patronen. Dit is van toepassing op het type tijdstempel.
timestampNTZFormat (standaard yyyy-MM-dd'T'HH:mm:ss[.SSS]): stelt de tekenreeks in die een tijdstempel aangeeft zonder tijdzone-indeling. Aangepaste datumnotaties volgen de notaties bij Datum/tijd-patronen. Dit is van toepassing op het type TimestampNTZType.
dateFormat (standaard yyyy-MM-dd): stelt de tekststring in die een datumnotatie aangeeft. Aangepaste datumnotaties volgen de notaties bij Datum/tijd-patronen. Dit is van toepassing op het datumtype.
locale (standaard is en-US): stelt een locale in als taalcode in IETF BCP 47-indeling. Dit wordt bijvoorbeeld gebruikt tijdens het parseren van datums en tijdstempels.
nullValue (standaard is null): hiermee stelt u de tekenreeksweergave van een null-waarde in.

Wanneer de optie mode is ingesteld op FAILFAST, wordt Azure Databricks MALFORMED_RECORD_IN_PARSING als de invoer niet voldoet aan het schema.

Algemene foutvoorwaarden

MALFORMED_RECORD_IN_PARSING

Voorbeelden

> SELECT from_xml('<p><a>1</a><b>0.8</b></p>', 'a INT, b DOUBLE');
 {"a":1,"b":0.8}

> SELECT from_xml('<p><time>26/08/2015</time></p>', 'time Timestamp', map('timestampFormat', 'dd/MM/yyyy'));
 { "time": "2015-08-26T00:00:00.000+0000"}

> SELECT from_xml('<p><teacher>Alice</teacher><student><name>Bob</name><rank>1</rank></student><student><name>Charlie</name><rank>2</rank></student></p>',
                  'STRUCT<teacher: STRING, student: ARRAY<STRUCT<name: STRING, rank: INT>>>');
 {"teacher":"Alice","student":[{"name":"Bob","rank":1},{"name":"Charlie","rank":2}]}

> SELECT from_xml('<p><a>1</a><b>0.8</b></p>', 'VARIANT');
 {"p":{"a":1,"b":0.8}}

> SELECT from_xml('not xml', 'a INT', map('mode', 'FAILFAST'));
  Error: MALFORMED_RECORD_IN_PARSING

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-19

Delen via

from_xml-functie