Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Wyodrębnia określoną część z adresu URL. Jeśli podano klucz, zwraca skojarzona wartość parametru zapytania.
Składnia
from pyspark.sql import functions as sf
sf.parse_url(url, partToExtract, key=None)
Parametry
| Parameter | Typ | Description |
|---|---|---|
url |
pyspark.sql.Column lub str |
Kolumna ciągów, z których każdy reprezentuje adres URL. |
partToExtract |
pyspark.sql.Column lub str |
Kolumna ciągów, z których każda reprezentuje część do wyodrębnienia z adresu URL. |
key |
pyspark.sql.Column lub str, opcjonalnie |
Kolumna ciągów, z których każdy reprezentuje klucz parametru zapytania w adresie URL. |
Zwraca
pyspark.sql.Column: Nowa kolumna ciągów, z których każda reprezentuje wartość wyodrębnionej części z adresu URL.
Przykłady
Przykład 1. Wyodrębnianie części zapytania z adresu URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "QUERY")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| query=1|
+--------------------+
Przykład 2. Wyodrębnianie wartości określonego parametru zapytania z adresu URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "QUERY", "query")],
["url", "part", "key"]
)
df.select(sf.parse_url(df.url, df.part, df.key)).show()
+-------------------------+
|parse_url(url, part, key)|
+-------------------------+
| 1|
+-------------------------+
Przykład 3. Wyodrębnianie części protokołu z adresu URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "PROTOCOL")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| https|
+--------------------+
Przykład 4. Wyodrębnianie części hosta z adresu URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "HOST")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| spark.apache.org|
+--------------------+
Przykład 5. Wyodrębnianie części ścieżki z adresu URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "PATH")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| /path|
+--------------------+