Bagikan melalui


WordsSegmenter Kelas

Definisi

Kelas segmenter yang dapat membandingkan teks yang disediakan menjadi kata atau batang kata (tergantung pada bahasa tertentu).

public ref class WordsSegmenter sealed
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, Windows.Foundation.UniversalApiContract)]
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
class WordsSegmenter final
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, "Windows.Foundation.UniversalApiContract")]
class WordsSegmenter final
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, typeof(Windows.Foundation.UniversalApiContract))]
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
public sealed class WordsSegmenter
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, "Windows.Foundation.UniversalApiContract")]
public sealed class WordsSegmenter
function WordsSegmenter(language)
Public NotInheritable Class WordsSegmenter
Warisan
Object Platform::Object IInspectable WordsSegmenter
Atribut

Persyaratan Windows

Rangkaian perangkat
Windows 10 (diperkenalkan dalam 10.0.10240.0 - for Xbox, see UWP features that aren't yet supported on Xbox)
API contract
Windows.Foundation.UniversalApiContract (diperkenalkan dalam v1.0)

Keterangan

Untuk bahasa yang tidak menggunakan spasi antar kata (seperti Jepang, Cina, Korea, dan Thailand), penggunaan segmenter adalah satu-satunya cara untuk mendapatkan kata-kata individual untuk skenario pemrosesan tekstual seperti pencarian kata kunci.

Bahasa yang disediakan ketika objek ini dibangun dicocokkan dengan bahasa dengan pemecah kata pada sistem, dan aturan segmentasi kata terbaik yang tersedia digunakan. Bahasa tidak perlu menjadi salah satu bahasa yang didukung aplikasi. Jika tidak ada aturan bahasa yang didukung yang tersedia khusus untuk bahasa tersebut, aturan netral bahasa digunakan (implementasi Unicode Standard Annex #29 Unicode Text Segmentation), dan properti ResolvedLanguage diatur ke "und" (bahasa yang tidak ditentukan).

Untuk skenario pencarian kata kunci, selalu disarankan untuk meminta segmenter dalam bahasa konten teks.

Untuk skenario pemeriksaan ejaan, beberapa segmenter bahasa (seperti Jerman) dapat mengembalikan beberapa segmen batang kata untuk satu kata majemuk. Sebaliknya, API pemeriksaan ejaan mungkin mengharapkan kata-kata disimpan bersama-sama sebagai satu kata. Untuk bahasa tersebut, Anda dapat memilih untuk memaksa aturan segmentasi netral bahasa dengan secara eksplisit meminta segmenter "und" (bahasa yang tidak ditentukan). Namun, melakukannya akan sangat mengurangi kualitas pemecahan bahasa yang tidak berspasi. Oleh karena itu, disarankan agar Anda menggunakan LANGUAGE.Script API untuk menentukan apakah bahasa konten menggunakan salah satu skrip non-spasi berikut:

Skrip Bahasa
Bopo Bopomofo
Brah Brahmi
Egyp Hieroglif Mesir
Goth Gothic
Hang Hangul
Hang Hiragana
Hang Hangul Lama
Hani Han
Italia Miring Lama
Java Jawa
Kana Katakana
Khar Kharoshthi
Khmr Khmer
Laoo Laos
Lisu Lisu
Mymr Myanmar
Talu Tai Lue Baru
Thailand Thailand
Tibt Tibet
Xsux Runcing
Yiii Yi

Jika tidak ada skrip ini yang ditemukan, maka harus aman untuk menggunakan "und" untuk segmentasi skenario pemeriksaan ejaan.

Konstruktor

WordsSegmenter(String)

Membuat objek WordsSegmenter . Lihat pengenalan di WordsSegmenter untuk deskripsi tentang bagaimana bahasa yang diberikan ke konstruktor ini digunakan.

Properti

ResolvedLanguage

Mendapatkan bahasa aturan yang digunakan oleh objek WordsSegmenter ini.

"und" (tidak ditentukan) dikembalikan jika kita menggunakan aturan netral bahasa.

Metode

GetTokenAt(String, UInt32)

Menentukan dan mengembalikan kata atau batang kata yang berisi atau mengikuti indeks tertentu ke dalam teks yang disediakan.

GetTokens(String)

Menentukan dan mengembalikan semua kata atau batang kata dalam teks yang disediakan.

Tokenize(String, UInt32, WordSegmentsTokenizingHandler)

Memanggil handler yang disediakan dengan dua iterator yang melakukan iterasi melalui kata-kata sebelum dan mengikuti indeks tertentu ke dalam teks yang disediakan.

Berlaku untuk