XML 文字列を解析し、そのスキーマを DDL 形式で推論します。
構文
from pyspark.sql import functions as sf
sf.schema_of_xml(xml, options=None)
パラメーター
| パラメーター | タイプ | Description |
|---|---|---|
xml |
pyspark.sql.Column または str |
XML 文字列または XML 文字列を含む折りたたみ可能な文字列列。 |
options |
dict、省略可能 | 解析を制御するオプション。 XML データソースと同じオプションを受け入れます。 |
返品ポリシー
pyspark.sql.Column: 指定された XML から解析された StructType の文字列形式。
例示
例 1: 単一の要素を使用した単純な XML の解析
from pyspark.sql import functions as sf
df = spark.range(1)
df.select(sf.schema_of_xml(sf.lit('<p><a>1</a></p>')).alias("xml")).collect()
[Row(xml='STRUCT<a: BIGINT>')]
例 2: 配列内の複数の要素を含む XML の解析
from pyspark.sql import functions as sf
df.select(sf.schema_of_xml(sf.lit('<p><a>1</a><a>2</a></p>')).alias("xml")).collect()
[Row(xml='STRUCT<a: ARRAY<BIGINT>>')]
例 3: 属性を除外するオプションを使用した XML の解析
from pyspark.sql import functions as sf
schema = sf.schema_of_xml('<p><a attr="2">1</a></p>', {'excludeAttribute':'true'})
df.select(schema.alias("xml")).collect()
[Row(xml='STRUCT<a: BIGINT>')]
例 4: 複雑な構造を持つ XML の解析
from pyspark.sql import functions as sf
df.select(
sf.schema_of_xml(
sf.lit('<root><person><name>Alice</name><age>30</age></person></root>')
).alias("xml")
).collect()
[Row(xml='STRUCT<person: STRUCT<age: BIGINT, name: STRING>>')]
例 5: 入れ子になった配列を使用した XML の解析
from pyspark.sql import functions as sf
df.select(
sf.schema_of_xml(
sf.lit('<data><values><value>1</value><value>2</value></values></data>')
).alias("xml")
).collect()
[Row(xml='STRUCT<values: STRUCT<value: ARRAY<BIGINT>>>')]