Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Parseert een kolom met een CSV-tekenreeks in een rij met het opgegeven schema. Retourneert null als de tekenreeks niet kan worden geparseerd.
Syntaxis
from pyspark.sql import functions as sf
sf.from_csv(col, schema, options=None)
Parameterwaarden
| Kenmerk | Typologie | Description |
|---|---|---|
col |
pyspark.sql.Column of str |
Een kolom- of kolomnaam in CSV-indeling. |
schema |
pyspark.sql.Column of str |
Een kolom, of letterlijke Python-tekenreeks met schema in DDL-indeling, die moet worden gebruikt bij het parseren van de CSV-kolom. |
options |
dicteren, optioneel | Opties voor het beheren van parseren. Accepteert dezelfde opties als de CSV-gegevensbron. |
Retouren
pyspark.sql.Column: Een kolom met geparseerde CSV-waarden.
Voorbeelden
Voorbeeld 1: Een eenvoudige CSV-tekenreeks parseren
from pyspark.sql import functions as sf
data = [("1,2,3",)]
df = spark.createDataFrame(data, ("value",))
df.select(sf.from_csv(df.value, "a INT, b INT, c INT")).show()
+---------------+
|from_csv(value)|
+---------------+
| {1, 2, 3}|
+---------------+
Voorbeeld 2: het schema afleiden met behulp van schema_of_csv
from pyspark.sql import functions as sf
data = [("1,2,3",)]
value = data[0][0]
df.select(sf.from_csv(df.value, sf.schema_of_csv(value))).show()
+---------------+
|from_csv(value)|
+---------------+
| {1, 2, 3}|
+---------------+
Voorbeeld 3: Voorloopspaties in de CSV-tekenreeks negeren
from pyspark.sql import functions as sf
data = [(" abc",)]
df = spark.createDataFrame(data, ("value",))
options = {'ignoreLeadingWhiteSpace': True}
df.select(sf.from_csv(df.value, "s string", options)).show()
+---------------+
|from_csv(value)|
+---------------+
| {abc}|
+---------------+
Voorbeeld 4: Een CSV-tekenreeks parseren met een ontbrekende waarde
from pyspark.sql import functions as sf
data = [("1,2,",)]
df = spark.createDataFrame(data, ("value",))
df.select(sf.from_csv(df.value, "a INT, b INT, c INT")).show()
+---------------+
|from_csv(value)|
+---------------+
| {1, 2, NULL}|
+---------------+
Voorbeeld 5: Een CSV-tekenreeks parseren met een ander scheidingsteken
from pyspark.sql import functions as sf
data = [("1;2;3",)]
df = spark.createDataFrame(data, ("value",))
options = {'delimiter': ';'}
df.select(sf.from_csv(df.value, "a INT, b INT, c INT", options)).show()
+---------------+
|from_csv(value)|
+---------------+
| {1, 2, 3}|
+---------------+