文字列を文の配列に分割します。各文は単語の配列です。
language引数とcountry引数は省略可能です。 省略した場合:
- 両方を省略すると、
Locale.ROOT - locale(language='', country='')が使用されます。Locale.ROOTは、すべてのロケールの基本ロケールと見なされ、ロケールに依存する操作の言語/国に依存しないロケールとして使用されます。 -
countryを省略すると、locale(language, country='')が使用されます。
null の場合:
- 両方が
nullの場合は、Locale.US - locale(language='en', country='US')が使用されます。 -
languageが null で、countryが null でない場合は、Locale.US - locale(language='en', country='US')が使用されます。 -
languageが null ではなく、countryが null の場合は、locale(language)が使用されます。 - どちらも
nullされていない場合は、locale(language, country)が使用されます。
対応する Databricks SQL 関数については、 sentences 関数を参照してください。
構文
from pyspark.databricks.sql import functions as dbf
dbf.sentences(string=<string>, language=<language>, country=<country>)
パラメーター
| パラメーター | タイプ | Description |
|---|---|---|
string |
pyspark.sql.Column または str |
分割する文字列 |
language |
pyspark.sql.Column または str, optional |
ロケールの言語 |
country |
pyspark.sql.Column または str, optional |
ロケールの国 |
返品ポリシー
pyspark.sql.Column: 分割文の配列。
例示
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)