字词提取转换编辑器(“高级”选项卡)

可以使用**“字词提取转换编辑器”对话框的“高级”**选项卡,指定频率、长度等提取属性以及指定是提取字词还是提取短语。

若要了解有关字词提取转换的详细信息,请参阅字词提取转换

选项

  • 名词
    指定转换仅提取各个名词。

  • 名词短语
    指定转换仅提取名词短语。

  • 名词和名词短语
    指定转换既提取名词也提取名词短语。

  • 频率
    指定分数为字词的频率。

  • TFIDF
    指定分数为字词的 TFIDF 值。 TFIDF 分数是字词频率和文档频率倒数的乘积,其定义如下:TFIDF of a Term T = (frequency of T) * log( (#rows in Input) / (#rows having T) )

  • 频率阈值
    指定某个词或短语必须出现多少次以后才对其进行提取。 默认值为 2。

  • 字词的最大长度
    指定短语的最大长度(字)。 此选项仅影响名词短语。 默认值为 12。

  • 使用区分大小写的字词提取
    指定是否将提取设置为区分大小写。 默认值为 False。

  • 配置错误输出
    使用配置错误输出对话框可以为导致错误的行指定错误处理方式。

请参阅

参考

字词提取转换编辑器(“字词提取”选项卡)

字词提取转换编辑器(“排除”选项卡)

概念

Integration Services 错误和消息引用

字词查找转换