Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Extrae una parte especificada de una dirección URL. Si se proporciona una clave, devuelve el valor del parámetro de consulta asociado.
Syntax
from pyspark.sql import functions as sf
sf.parse_url(url, partToExtract, key=None)
Parámetros
| Parámetro | Tipo | Description |
|---|---|---|
url |
pyspark.sql.Column o str |
Columna de cadenas, cada una que representa una dirección URL. |
partToExtract |
pyspark.sql.Column o str |
Columna de cadenas, cada una que representa la parte que se va a extraer de la dirección URL. |
key |
pyspark.sql.Column o str, opcional |
Columna de cadenas, cada una que representa la clave de un parámetro de consulta en la dirección URL. |
Devoluciones
pyspark.sql.Column: una nueva columna de cadenas, cada una que representa el valor de la parte extraída de la dirección URL.
Examples
Ejemplo 1: Extracción del elemento de consulta de una dirección URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "QUERY")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| query=1|
+--------------------+
Ejemplo 2: Extracción del valor de un parámetro de consulta específico de una dirección URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "QUERY", "query")],
["url", "part", "key"]
)
df.select(sf.parse_url(df.url, df.part, df.key)).show()
+-------------------------+
|parse_url(url, part, key)|
+-------------------------+
| 1|
+-------------------------+
Ejemplo 3: Extracción del elemento de protocolo de una dirección URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "PROTOCOL")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| https|
+--------------------+
Ejemplo 4: Extracción del elemento host de una dirección URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "HOST")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| spark.apache.org|
+--------------------+
Ejemplo 5: Extracción de la parte de ruta de acceso de una dirección URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "PATH")],
["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
| /path|
+--------------------+