詞彙擷取轉換編輯器 (進階索引標籤)
使用 [詞彙擷取轉換編輯器] 對話方塊的 [進階] 索引標籤,即可指定擷取的屬性,例如頻率、長度和是否擷取單字或片語。
若要深入了解詞彙擷取轉換,請參閱<詞彙擷取轉換>。
選項
名詞
指定轉換只擷取個別的名詞。名詞片語
指定轉換只擷取名詞片語。名詞和名詞片語
指定轉換同時擷取名詞和名詞片語。頻率
指定分數是詞彙的頻率。TFIDF
指定分數是詞彙的 TFIDF 值。 TFIDF 分數是「詞彙頻率」和「反向文件頻率」的乘積,定義為:TFIDF of a Term T = (frequency of T) * log( (#rows in Input) / (#rows having T) )。頻率臨界值
指定擷取單字或片語前,該單字或片語必須出現的次數。 預設值是 2。詞彙最大長度
指定在文字中,片語的最大長度。 此選項只會影響名詞片語。 預設值是 12。使用區分大小寫的詞彙擷取
指定擷取是否區分大小寫。 預設值是 False。設定錯誤輸出
使用 [設定錯誤輸出] 對話方塊,即可指定造成錯誤之資料列的錯誤處理。