다음을 통해 공유


parse_url

URL에서 지정된 부분을 추출합니다. 키가 제공되면 연결된 쿼리 매개 변수 값을 반환합니다.

문법

from pyspark.sql import functions as sf

sf.parse_url(url, partToExtract, key=None)

매개 변수

매개 변수 유형 Description
url pyspark.sql.Column 또는 str 각각 URL을 나타내는 문자열 열입니다.
partToExtract pyspark.sql.Column 또는 str URL에서 추출할 부분을 나타내는 문자열 열입니다.
key pyspark.sql.Column 또는 str, 선택 사항 URL에서 쿼리 매개 변수의 키를 나타내는 문자열 열입니다.

Returns

pyspark.sql.Column: URL에서 추출된 부분의 값을 나타내는 문자열의 새 열입니다.

예시

예제 1: URL에서 쿼리 부분 추출

from pyspark.sql import functions as sf
df = spark.createDataFrame(
  [("https://spark.apache.org/path?query=1", "QUERY")],
  ["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
|             query=1|
+--------------------+

예제 2: URL에서 특정 쿼리 매개 변수 값 추출

from pyspark.sql import functions as sf
df = spark.createDataFrame(
  [("https://spark.apache.org/path?query=1", "QUERY", "query")],
  ["url", "part", "key"]
)
df.select(sf.parse_url(df.url, df.part, df.key)).show()
+-------------------------+
|parse_url(url, part, key)|
+-------------------------+
|                        1|
+-------------------------+

예제 3: URL에서 프로토콜 부분 추출

from pyspark.sql import functions as sf
df = spark.createDataFrame(
  [("https://spark.apache.org/path?query=1", "PROTOCOL")],
  ["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
|               https|
+--------------------+

예제 4: URL에서 호스트 부분 추출

from pyspark.sql import functions as sf
df = spark.createDataFrame(
  [("https://spark.apache.org/path?query=1", "HOST")],
  ["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
|    spark.apache.org|
+--------------------+

예제 5: URL에서 경로 부분 추출

from pyspark.sql import functions as sf
df = spark.createDataFrame(
  [("https://spark.apache.org/path?query=1", "PATH")],
  ["url", "part"]
)
df.select(sf.parse_url(df.url, df.part)).show()
+--------------------+
|parse_url(url, part)|
+--------------------+
|               /path|
+--------------------+