Поделиться через


Предложения

Разбивает строку на массивы предложений, где каждое предложение является массивом слов.

country Аргументы language являются необязательными. Если они опущены:

  • Если они опущены, Locale.ROOT - locale(language='', country='') используется. Языковой Locale.ROOT стандарт считается базовым языковым стандартом всех языковых стандартов и используется в качестве языкового или нейтрального языкового стандарта для операций с учетом языкового стандарта.
  • Если опущено country , locale(language, country='') используется.

Если они имеют значение NULL:

  1. Если они оба null, Locale.US - locale(language='en', country='US') используется.
  2. language Если значение null и country значение не равно NULL, Locale.US - locale(language='en', country='US') используется.
  3. language Если значение не равно NULL и country значение NULL, locale(language) используется.
  4. Если это не так null, locale(language, country) используется.

Для соответствующей функции Databricks SQL смотрите функцию sentences.

Синтаксис

from pyspark.databricks.sql import functions as dbf

dbf.sentences(string=<string>, language=<language>, country=<country>)

Параметры

Параметр Тип Description
string pyspark.sql.Column или str строка, которая должна быть разделена
language pyspark.sql.Column или str, optional язык языкового стандарта
country pyspark.sql.Column или str, optional страна языкового стандарта

Возвраты

pyspark.sql.Column: массивы разделенных предложений.

Примеры

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)