詞彙查閱轉換
「詞彙查閱」轉換會比對從轉換輸入資料行的文字中擷取的詞彙,以及參考資料表中的詞彙。然後,它會計算查閱資料表中的詞彙在輸入資料集中出現的次數,並將計數與參考資料表的詞彙一起寫入轉換輸出中的資料行。此轉換包括單字頻率統計資料,對基於輸入文字建立自訂單字清單很有用處。
在「詞彙查閱」轉換執行查閱之前,它會使用與「詞彙擷取」轉換相同的方法從輸入資料行的文字中擷取單字:
文字分解為句子。
句子分解為單字。
單字會正規化。
若要進一步自訂要比對的詞彙,可以設定「詞彙查閱」轉換,以執行區分大小寫的比對。
「詞彙查閱」會使用下列規則執行查閱並傳回值:
如果設定轉換執行區分大小寫的比對,則會捨棄使區分大小寫比較失敗的比對。例如,會將 student 及 STUDENT 視為不同的單字。
[!附註]
未大寫的單字可與在句子開頭大寫的單字進行比對。例如,當 Student 為句子第一個單字時,student 與 Student 之間的比對則會成功。
如果名詞或名詞片語的複數形式存在於參考資料表中,則查閱只會比對名詞或名詞片語的複數形式。例如,students 的所有執行個體都會在 student 的執行個體之外另行計數。
如果在參考資料表中找到單字的單數形式,則單字或片語的單數及複數形式都會與單數形式比對。例如,如果查閱資料表包含 student,且轉換找到單字 student 及 students,則會將這兩個單字作為查閱詞彙 student 的相符部份進行計數。
如果輸入資料行中的文字是還原的名詞片語,則只有該名詞片語中的最後一個單字會受正規化影響。例如,doctors appointments 的還原版本是 doctors appointment。
當查閱項目在參考集中包含重疊的詞彙 (即,在一個以上參考記錄中找到子詞彙) 時,「詞彙查閱」轉換只會傳回一個查閱結果。下列範例顯示查閱項目包含重疊子詞彙時的結果。此處的重疊子詞彙為 Windows,其在兩個參考詞彙中均有找到。不過,轉換不會傳回兩個結果,只傳回單一參考詞彙 Microsoft Windows。第二個參考詞彙 Windows XP Home Edition SP1 則不會傳回。
項目 |
值 |
---|---|
輸入詞彙 |
Microsoft Windows XP Home Edition SP |
參考詞彙 |
Microsoft Windows、Windows XP Home Edition SP1 |
輸出 |
Microsoft Windows |
「詞彙查閱」轉換可以比對包含特殊字元的名詞及名詞片語,且參考資料表中的資料可能包含這些字元。特殊字元如下:%、@、&、$、#、*、:、;、.、,、!、?、<、>、+、=、^、~、|、\、/、(、)、[、]、{、}、“和‘。
「詞彙查閱」轉換只可以使用具有 DT_WSTR 或 DT_NTEXT 資料類型的資料行。如果資料行包含文字,但不具有這些資料類型的其中之一,則「資料轉換」可以將具有 DT_WSTR 或 DT_NTEXT 資料類型的資料行加入資料流程,並將資料行值複製至新資料行。然後,「資料轉換」的輸出可以用作「詞彙查閱」轉換的輸入。如需詳細資訊,請參閱<資料轉換>。
「詞彙查閱」轉換輸入資料行包含 InputColumnType 屬性,指出資料行的用法。InputColumnType 可包含下列值:
值 0 表示資料行只傳遞至輸出,且不在查閱中使用。
值 1 表示資料行只在查閱中使用。
值 2 表示資料行傳遞至輸出,且亦在查閱中使用。
InputColumnType 屬性設為 0 或 2 的轉換輸出資料行包含資料行的 CustomLineageID 屬性,其包含上游資料流程元件指派給該資料行的歷程識別碼。
「詞彙查閱」轉換會將兩個資料行新增到轉換輸出,以預設的 Term 和 Frequency 來命名。Term 包含了查閱資料表中的詞彙,而 Frequency 包含了參考資料表中的詞彙發生在輸入資料集內的次數。這些資料行不包含 CustomLineageID 屬性。
查閱資料表必須是 SQL Server 2000、SQL Server 或 Access 資料庫中的資料表。如果將「詞彙擷取」轉換的輸出儲存為資料表,則此資料表可以當做參考資料表使用,但是也可以使用其他資料表。在您可以使用「詞彙查閱」轉換之前,一般檔案、Excel 活頁簿或其他來源中的文字必須匯入至 SQL Server 資料庫或 Access 資料庫。
「詞彙查閱」轉換會使用個別 OLE DB 連接,以連接到參考資料表。如需詳細資訊,請參閱<OLE DB 連接管理員>。
「詞彙查閱」轉換以完全預先快取模式運作。在執行階段,「詞彙查閱」轉換在處理任何轉換輸入資料列之前,會從參考資料表讀取詞彙,並將其儲存於其私用記憶體中。
因為輸入資料行資料列中的詞彙可能重複,所以「詞彙查閱」轉換的輸出一般比轉換輸入擁有更多的資料列。
轉換擁有一項輸入和一項輸出。但它不支援錯誤輸出。
設定詞彙查閱轉換
您可以透過「SSIS 設計師」或以程式設計的方式設定屬性。
如需有關可在 [詞彙查閱轉換編輯器] 對話方塊中設定之屬性的詳細資訊,請按一下下列主題之一:
如需有關可以在 [進階編輯器] 對話方塊中或以程式設計方式設定之屬性的詳細資訊,請按一下下列其中一個主題:
如需有關如何設定屬性的詳細資訊,請參閱<如何:設定資料流程元件的屬性>。
|