Bagikan melalui


Kalimat

Memisahkan string menjadi array kalimat-kalimat, di mana setiap kalimat adalah array kata-kata.

Argumen language dan country bersifat opsional. Ketika mereka dihilangkan:

  • Jika keduanya dihilangkan, digunakan Locale.ROOT - locale(language='', country='') . Locale.ROOT dianggap sebagai lokal dasar semua lokal, dan digunakan sebagai lokal netral bahasa/negara untuk operasi sensitif lokal.
  • Jika dihilangkan country , digunakan locale(language, country='') .

Ketika null:

  1. Jika keduanya null, keduanya Locale.US - locale(language='en', country='US') digunakan.
  2. language Jika null dan country tidak null, Locale.US - locale(language='en', country='US') digunakan.
  3. language Jika tidak null dan country null, digunakanlocale(language).
  4. Jika tidak ada null, locale(language, country) digunakan.

Untuk fungsi Databricks SQL yang sesuai, lihat sentences fungsi.

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.sentences(string=<string>, language=<language>, country=<country>)

Parameter-parameternya

Pengaturan Tipe Description
string pyspark.sql.Column atau str string yang akan dipisahkan
language pyspark.sql.Column atau str, optional bahasa lokal
country pyspark.sql.Column atau str, optional negara lokal

Pengembalian Barang

pyspark.sql.Column: array kalimat terpisah.

Examples

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)