Share via


WordsSegmenter 类

定义

一种能够根据特定语言) 将所提供的文本分段为单词或词干 (的分段器类。

public ref class WordsSegmenter sealed
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, Windows.Foundation.UniversalApiContract)]
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
class WordsSegmenter final
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, "Windows.Foundation.UniversalApiContract")]
class WordsSegmenter final
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, typeof(Windows.Foundation.UniversalApiContract))]
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
public sealed class WordsSegmenter
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, "Windows.Foundation.UniversalApiContract")]
public sealed class WordsSegmenter
function WordsSegmenter(language)
Public NotInheritable Class WordsSegmenter
继承
Object Platform::Object IInspectable WordsSegmenter
属性

Windows 要求

设备系列
Windows 10 (在 10.0.10240.0 - for Xbox, see UWP features that aren't yet supported on Xbox 中引入)
API contract
Windows.Foundation.UniversalApiContract (在 v1.0 中引入)

注解

对于在单词 ((如日语、中文、朝鲜语和泰文) )之间不使用空格的语言,使用分段器是获取文本处理方案(如关键字 (keyword) 搜索)的各个单词的唯一方法。

构造此对象时提供的语言将与系统上具有断字符的语言匹配,并使用可用的最佳词段规则。 语言不需要是应用支持的语言之一。 如果没有特定于该语言的支持语言规则,则 (Unicode 标准附件 #29 Unicode 文本分段) 的实现使用中性语言规则,并将 ResolvedLanguage 属性设置为“und” (不确定语言) 。

对于关键字 (keyword) 搜索方案,始终建议使用文本内容的语言请求段程序。

对于拼写检查方案,某些语言段 ((如德语) )可能会返回单个复合词的多个词干段。 相比之下,拼写检查 API 可能希望将单词作为单个单词保存在一起。 对于此类语言,可以选择通过显式请求“und” (未确定的语言) 段程序来强制实施中性语言分段规则。 但是,这样做将大大降低非空格语言的中断质量。 因此,建议使用 Language.Script API 来确定内容语言是否使用以下非间隔脚本之一:

脚本 语言
Bopo Bopomofo
兄弟 Brahmi
Egyp 埃及象形文字
Goth 哥特式
挂起 朝鲜文字
挂起 Hiragana
挂起 旧朝鲜文
哈尼语
Ital 古意大利文
Java 爪哇文
假名 片假名
Khar Kharoshthi
Khmr 高棉语
Laoo 老挝语
傈僳族 傈僳族
Mymr 缅甸
Talu 西双版纳新傣文
泰语 泰语
Tibt 藏语
Xsux 楔 形
Y iii 彝语

如果找不到这些脚本,则应安全地使用“und”进行拼写检查方案分段。

构造函数

WordsSegmenter(String)

创建 WordsSegmenter 对象。 有关如何使用提供给此构造函数的语言的说明,请参阅 WordsSegmenter 中的简介。

属性

ResolvedLanguage

获取此 WordsSegmenter 对象使用的规则的语言。

如果我们使用非特定语言的规则,则返回“und” (未确定) 。

方法

GetTokenAt(String, UInt32)

确定并返回在提供的文本中包含或遵循指定索引的单词或词干。

GetTokens(String)

确定并返回所提供的文本中的所有单词或词干。

Tokenize(String, UInt32, WordSegmentsTokenizingHandler)

使用两个迭代器调用提供的处理程序,这些迭代器通过给定索引之前和之后的单词循环访问所提供的文本。

适用于