字词提取转换编辑器(“高级”选项卡)
可以使用 “字词提取转换编辑器” 对话框的 “高级” 选项卡,指定频率、长度等提取属性以及指定是提取字词还是提取短语。
若要了解有关字词提取转换的详细信息,请参阅 Term Extraction Transformation。
选项
名词
指定转换仅提取各个名词。
名词短语
指定转换仅提取名词短语。
名词和名词短语
指定转换既提取名词也提取名词短语。
频率
指定分数为字词的频率。
TFIDF
指定分数为字词的 TFIDF 值。 TFIDF 分数是字词频率和文档频率倒数的乘积,其定义如下:TFIDF of a Term T = (frequency of T) * log( (#rows in Input) / (#rows having T) )。
频率阈值
指定某个词或短语必须出现多少次以后才对其进行提取。 默认值为 2。
字词的最大长度
指定短语的最大长度(字)。 此选项仅影响名词短语。 默认值为 12。
使用区分大小写的字词提取
指定是否将提取设置为区分大小写。 默认值为 False
。
配置错误输出
使用“配置错误输出” 对话框可以为导致错误的行指定错误处理方式。
另请参阅
Integration Services 错误和消息引用
字词提取转换编辑器(“字词提取”选项卡)
字词提取转换编辑器(“排除”选项卡)
字词查找转换