from_xml

Analizza una colonna che contiene una stringa XML in una riga con lo schema specificato. Restituisce null, nel caso di una stringa non verificabile.

Sintassi

from pyspark.sql import functions as sf

sf.from_xml(col, schema, options=None)

Parametri

Parametro	TIPO	Description
`col`	`pyspark.sql.Column` o str	Nome di colonna o colonna in formato XML.
`schema`	`StructType`, `pyspark.sql.Column` o str	Valore letterale stringa StructType, Column o Python con una stringa formattata DDL da usare durante l'analisi della colonna Xml.
`options`	dict, facoltativo	Opzioni per controllare l'analisi. Accetta le stesse opzioni dell'origine dati Xml.

Restituzioni

pyspark.sql.Column: nuova colonna di tipo complesso da un determinato oggetto XML.

Esempi

Esempio 1: Analisi di XML con uno schema stringa formattato DDL

import pyspark.sql.functions as sf
data = [(1, '''<p><a>1</a></p>''')]
df = spark.createDataFrame(data, ("key", "value"))
# Define the schema using a DDL-formatted string
schema = "STRUCT<a: BIGINT>"
# Parse the XML column using the DDL-formatted schema
df.select(sf.from_xml(df.value, schema).alias("xml")).collect()

[Row(xml=Row(a=1))]

Esempio 2: Analisi xml con uno StructType schema

import pyspark.sql.functions as sf
from pyspark.sql.types import StructType, LongType
data = [(1, '''<p><a>1</a></p>''')]
df = spark.createDataFrame(data, ("key", "value"))
schema = StructType().add("a", LongType())
df.select(sf.from_xml(df.value, schema)).show()

+---------------+
|from_xml(value)|
+---------------+
|            {1}|
+---------------+

Esempio 3: Analisi xml con ArrayType in schema

import pyspark.sql.functions as sf
data = [(1, '<p><a>1</a><a>2</a></p>')]
df = spark.createDataFrame(data, ("key", "value"))
# Define the schema with an Array type
schema = "STRUCT<a: ARRAY<BIGINT>>"
# Parse the XML column using the schema with an Array
df.select(sf.from_xml(df.value, schema).alias("xml")).collect()

[Row(xml=Row(a=[1, 2]))]

Esempio 4: Analisi xml con schema_of_xml

import pyspark.sql.functions as sf
# Sample data with an XML column
data = [(1, '<p><a>1</a><a>2</a></p>')]
df = spark.createDataFrame(data, ("key", "value"))
# Generate the schema from an example XML value
schema = sf.schema_of_xml(sf.lit(data[0][1]))
# Parse the XML column using the generated schema
df.select(sf.from_xml(df.value, schema).alias("xml")).collect()

[Row(xml=Row(a=[1, 2]))]

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-02-01