Udostępnij przez


Zdań

Dzieli ciąg na tablice zdań, gdzie każde zdanie jest tablicą wyrazów.

Argumenty language i country są opcjonalne. Gdy zostaną pominięte:

  • Jeśli oba te elementy zostaną pominięte, zostanie użyta Locale.ROOT - locale(language='', country='') wartość . Element Locale.ROOT jest uważany za podstawowe ustawienia regionalne wszystkich ustawień regionalnych i jest używany jako ustawienia regionalne neutralne dla języka/kraju dla operacji wrażliwych na ustawienia regionalne.
  • country Jeśli parametr zostanie pominięty, locale(language, country='') zostanie użyty element .

Gdy mają wartość null:

  1. Jeśli są one oba null, Locale.US - locale(language='en', country='US') parametr jest używany.
  2. Jeśli parametr language ma wartość null, a country parametr nie ma wartości null, Locale.US - locale(language='en', country='US') jest używany.
  3. Jeśli parametr language nie ma wartości null i country ma wartość null, locale(language) parametr jest używany.
  4. Jeśli żadna locale(language, country) z nich nie ma nullwartości , parametr jest używany.

Aby uzyskać odpowiednią funkcję SQL usługi Databricks, zobacz sentences funkcja.

Składnia

from pyspark.databricks.sql import functions as dbf

dbf.sentences(string=<string>, language=<language>, country=<country>)

Parametry

Parameter Typ Description
string pyspark.sql.Column lub str ciąg, który ma zostać podzielony
language pyspark.sql.Column lub str, optional język ustawień regionalnych
country pyspark.sql.Column lub str, optional kraj ustawień regionalnych

Zwraca

pyspark.sql.Column: tablice podzielonych zdań.

Przykłady

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)