WordsSegmenter 类
定义
重要
一些信息与预发行产品相关,相应产品在发行之前可能会进行重大修改。 对于此处提供的信息,Microsoft 不作任何明示或暗示的担保。
一种能够根据特定语言) 将所提供的文本分段为单词或词干 (的分段器类。
public ref class WordsSegmenter sealed
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, Windows.Foundation.UniversalApiContract)]
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
class WordsSegmenter final
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, "Windows.Foundation.UniversalApiContract")]
class WordsSegmenter final
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, typeof(Windows.Foundation.UniversalApiContract))]
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
public sealed class WordsSegmenter
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, "Windows.Foundation.UniversalApiContract")]
public sealed class WordsSegmenter
function WordsSegmenter(language)
Public NotInheritable Class WordsSegmenter
- 继承
- 属性
Windows 要求
设备系列 |
Windows 10 (在 10.0.10240.0 - for Xbox, see UWP features that aren't yet supported on Xbox 中引入)
|
API contract |
Windows.Foundation.UniversalApiContract (在 v1.0 中引入)
|
注解
对于在单词 ((如日语、中文、朝鲜语和泰文) )之间不使用空格的语言,使用分段器是获取文本处理方案(如关键字 (keyword) 搜索)的各个单词的唯一方法。
构造此对象时提供的语言将与系统上具有断字符的语言匹配,并使用可用的最佳词段规则。 语言不需要是应用支持的语言之一。 如果没有特定于该语言的支持语言规则,则 (Unicode 标准附件 #29 Unicode 文本分段) 的实现使用中性语言规则,并将 ResolvedLanguage 属性设置为“und” (不确定语言) 。
对于关键字 (keyword) 搜索方案,始终建议使用文本内容的语言请求段程序。
对于拼写检查方案,某些语言段 ((如德语) )可能会返回单个复合词的多个词干段。 相比之下,拼写检查 API 可能希望将单词作为单个单词保存在一起。 对于此类语言,可以选择通过显式请求“und” (未确定的语言) 段程序来强制实施中性语言分段规则。 但是,这样做将大大降低非空格语言的中断质量。 因此,建议使用 Language.Script API 来确定内容语言是否使用以下非间隔脚本之一:
脚本 | 语言 |
---|---|
Bopo | Bopomofo |
兄弟 | Brahmi |
Egyp | 埃及象形文字 |
Goth | 哥特式 |
挂起 | 朝鲜文字 |
挂起 | Hiragana |
挂起 | 旧朝鲜文 |
哈尼语 | 汉 |
Ital | 古意大利文 |
Java | 爪哇文 |
假名 | 片假名 |
Khar | Kharoshthi |
Khmr | 高棉语 |
Laoo | 老挝语 |
傈僳族 | 傈僳族 |
Mymr | 缅甸 |
Talu | 西双版纳新傣文 |
泰语 | 泰语 |
Tibt | 藏语 |
Xsux | 楔 形 |
Y iii | 彝语 |
如果找不到这些脚本,则应安全地使用“und”进行拼写检查方案分段。
构造函数
WordsSegmenter(String) |
创建 WordsSegmenter 对象。 有关如何使用提供给此构造函数的语言的说明,请参阅 WordsSegmenter 中的简介。 |
属性
ResolvedLanguage |
获取此 WordsSegmenter 对象使用的规则的语言。 如果我们使用非特定语言的规则,则返回“und” (未确定) 。 |
方法
GetTokenAt(String, UInt32) |
确定并返回在提供的文本中包含或遵循指定索引的单词或词干。 |
GetTokens(String) |
确定并返回所提供的文本中的所有单词或词干。 |
Tokenize(String, UInt32, WordSegmentsTokenizingHandler) |
使用两个迭代器调用提供的处理程序,这些迭代器通过给定索引之前和之后的单词循环访问所提供的文本。 |