Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Extraheert een opgegeven onderdeel uit een URL. Als er een sleutel is opgegeven, wordt de bijbehorende queryparameterwaarde geretourneerd.
Syntaxis
from pyspark.sql import functions as sf
sf.parse_url(url, partToExtract, key=None)
Parameterwaarden
| Kenmerk | Typologie | Description |
|---|---|---|
url |
pyspark.sql.Column of str |
Een kolom met tekenreeksen die elk een URL vertegenwoordigen. |
partToExtract |
pyspark.sql.Column of str |
Een kolom met tekenreeksen, die elk het onderdeel vertegenwoordigen dat moet worden opgehaald uit de URL. |
key |
pyspark.sql.Column of str, optioneel |
Een kolom met tekenreeksen, die elk de sleutel van een queryparameter in de URL vertegenwoordigen. |
Retouren
pyspark.sql.Column: Een nieuwe kolom met tekenreeksen, die elk de waarde van het geëxtraheerde deel uit de URL vertegenwoordigen.
Voorbeelden
Voorbeeld 1: het queryonderdeel extraheren uit een URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "QUERY")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| query=1|
+--------------------+
Voorbeeld 2: de waarde van een specifieke queryparameter extraheren uit een URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "QUERY", "query")],
["url", "part", "key"]
)
df.select(sf.parse_url(df.url, df.part, df.key)).show()
+-------------------------+
|parse_url(url, part, key)|
+-------------------------+
| 1|
+-------------------------+
Voorbeeld 3: het protocolonderdeel extraheren uit een URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "PROTOCOL")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| https|
+--------------------+
Voorbeeld 4: het hostonderdeel extraheren uit een URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "HOST")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| spark.apache.org|
+--------------------+
Voorbeeld 5: het padonderdeel uit een URL extraheren
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "PATH")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| /path|
+--------------------+