次の方法で共有


文章

文字列を文の配列に分割します。各文は単語の配列です。

language引数とcountry引数は省略可能です。 省略した場合:

  • 両方を省略すると、 Locale.ROOT - locale(language='', country='') が使用されます。 Locale.ROOTは、すべてのロケールの基本ロケールと見なされ、ロケールに依存する操作の言語/国に依存しないロケールとして使用されます。
  • countryを省略すると、locale(language, country='')が使用されます。

null の場合:

  1. 両方が nullの場合は、 Locale.US - locale(language='en', country='US') が使用されます。
  2. languageが null で、countryが null でない場合は、Locale.US - locale(language='en', country='US')が使用されます。
  3. languageが null ではなく、countryが null の場合は、locale(language)が使用されます。
  4. どちらも nullされていない場合は、 locale(language, country) が使用されます。

対応する Databricks SQL 関数については、 sentences 関数を参照してください。

構文

from pyspark.databricks.sql import functions as dbf

dbf.sentences(string=<string>, language=<language>, country=<country>)

パラメーター

パラメーター タイプ Description
string pyspark.sql.Column または str 分割する文字列
language pyspark.sql.Column または str, optional ロケールの言語
country pyspark.sql.Column または str, optional ロケールの国

返品ポリシー

pyspark.sql.Column: 分割文の配列。

例示

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)