Nota
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare ad accedere o a cambiare directory.
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare a cambiare directory.
Estrae una parte specificata da un URL. Se viene specificata una chiave, restituisce il valore del parametro di query associato.
Sintassi
from pyspark.sql import functions as sf
sf.parse_url(url, partToExtract, key=None)
Parametri
| Parametro | TIPO | Description |
|---|---|---|
url |
pyspark.sql.Column o str |
Colonna di stringhe, ognuna che rappresenta un URL. |
partToExtract |
pyspark.sql.Column o str |
Colonna di stringhe, ognuna che rappresenta la parte da estrarre dall'URL. |
key |
pyspark.sql.Column o str, facoltativo |
Colonna di stringhe, ognuna che rappresenta la chiave di un parametro di query nell'URL. |
Restituzioni
pyspark.sql.Column: nuova colonna di stringhe, ognuna che rappresenta il valore della parte estratta dall'URL.
Esempi
Esempio 1: Estrazione della parte di query da un URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "QUERY")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| query=1|
+--------------------+
Esempio 2: Estrazione del valore di un parametro di query specifico da un URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "QUERY", "query")],
["url", "part", "key"]
)
df.select(sf.parse_url(df.url, df.part, df.key)).show()
+-------------------------+
|parse_url(url, part, key)|
+-------------------------+
| 1|
+-------------------------+
Esempio 3: Estrazione della parte del protocollo da un URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "PROTOCOL")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| https|
+--------------------+
Esempio 4: Estrazione della parte host da un URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "HOST")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| spark.apache.org|
+--------------------+
Esempio 5: Estrazione della parte del percorso da un URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "PATH")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| /path|
+--------------------+