Sdílet prostřednictvím


Transformace vyhledávání termínů

platí pro:SQL Server SSIS Integration Runtime ve službě Azure Data Factory

Transformace vyhledávání termínů porovnává termíny extrahované z textu ve vstupním sloupci transformace s termíny v referenční tabulce. Potom spočítá počet výskytů termínu ve vyhledávací tabulce ve vstupní sadě dat a zapíše počet společně s termínem z referenční tabulky do sloupců ve výstupu transformace. Tato transformace je užitečná pro vytvoření vlastního seznamu slov na základě vstupního textu, který je úplný se statistikou četnosti slov.

Než transformace vyhledávání termínů provede vyhledávání, extrahuje slova z textu ve vstupním sloupci pomocí stejné metody jako transformace extrakce termínů:

  • Text je rozdělený na věty.

  • Věty jsou rozdělené na slova.

  • Slova jsou normalizována.

Chcete-li dále přizpůsobit, které termíny se mají shodovat, je možné nakonfigurovat transformaci vyhledávání termínů tak, aby prováděla shodu s rozlišováním malých a velkých písmen.

Odpovídá

Vyhledávání termínů provede vyhledávání a vrátí hodnotu pomocí následujících pravidel:

  • Pokud je transformace nakonfigurována tak, aby prováděla shody citlivé na velikost písmen, shody, které selžou při porovnání citlivém na velikost písmen, se zahodí. Například student a STUDENT se považují za samostatná slova.

    Poznámka:

    Slovo, které není napsáno velkými písmeny, lze spárovat se slovem, které začíná velkým písmenem na začátku věty. Například shoda mezi studentem a studentem bude úspěšná, když je student prvním slovem ve větě.

  • Pokud existuje množná forma podstatného jména nebo podstatné jmenné fráze v referenční tabulce, vyhledávání odpovídá pouze množné formě podstatného jména nebo podstatné jmenné fráze. Například všechny instance studentů by se počítaly odděleně od instancí studenta.

  • Pokud je v referenční tabulce nalezena pouze forma v jednotném čísle, odpovídají jednotné i množné číslo slova nebo fráze formě v jednotném čísle. Pokud například vyhledávací tabulka obsahuje studenta a transformace najde slova studenta a studenty, budou obě slova počítána jako shoda pro studenta vyhledávacího termínu.

  • Pokud je text ve vstupním sloupci lemmatizovaná podstatná fráze, bude normalizace ovlivněna pouze posledním slovem ve frázi podstatného jména. Například lemmatizovaná verze lékařských objednávek je lékařská objednávka.

Pokud vyhledávací položka obsahuje termíny, které se překrývají v referenční sadě, nachází se v několika referenčních záznamech dílčí termín- transformace vyhledávání termínů vrátí pouze jeden výsledek vyhledávání. Následující příklad ukazuje výsledek, když vyhledávací položka obsahuje překrývající se dílčí termín. Překrývající se dílčí termín je v tomto případě Windows, který se nachází ve dvou referenčních termínech. Transformace ale nevrací dva výsledky, ale vrátí pouze jeden referenční termín, Windows. Druhý referenční termín Windows 7 Professional není nalezen.

Položka Hodnota
Vstupní termín Windows 7 Professional
Referenční termíny Windows, Windows 7 Professional
Výstup Windows

Transformace vyhledávání termínů může odpovídat podstatným jmenům a podstatným frázím, které obsahují speciální znaky, a data v referenční tabulce mohou obsahovat tyto znaky. Speciální znaky jsou následující: %, @, &, $, #, *, :, ;, ., ,, !, ?, , , +, =, ^, ~, |, \, /, (, ), [, ], {, }, " a '.

Datové typy

Transformace vyhledávání termínů může použít pouze sloupec, který má datový typ DT_WSTR nebo DT_NTEXT. Pokud sloupec obsahuje text, ale nemá jeden z těchto datových typů, transformace převodu dat může přidat sloupec s DT_WSTR nebo DT_NTEXT datový typ do toku dat a zkopírovat hodnoty sloupce do nového sloupce. Výstup transformace převodu dat se pak dá použít jako vstup do transformace vyhledávání termínů. Další informace naleznete v tématu Transformace převodu dat.

Konfigurace transformace vyhledávání termínů

Vstupní sloupce transformace Vyhledání výrazu zahrnují vlastnost InputColumnType, která určuje použití sloupce. InputColumnType může obsahovat následující hodnoty:

  • Hodnota 0 označuje, že sloupec je předán pouze do výstupu a nepoužívá se ve vyhledávání.

  • Hodnota 1 označuje, že se sloupec používá pouze ve vyhledávání.

  • Hodnota 2 označuje, že se sloupec předává výstupu, a navíc se používá i ve vyhledávání.

Výstupní sloupce transformace, jejichž InputColumnType vlastnost je nastavena na hodnotu 0 nebo 2, zahrnují CustomLineageID vlastnost sloupce, která obsahuje identifikátor rodokmenu přiřazený ke sloupci nadřazenou komponentou toku dat.

Transformace vyhledávání termínů přidá do výstupu transformace dva sloupce s názvem Term (Term ) a Frequency (Frekvence). Termín obsahuje termín z vyhledávací tabulky a frekvence obsahuje počet výskytů termínu v referenční tabulce ve vstupní sadě dat. Tyto sloupce nezahrnují vlastnost CustomLineageID.

Vyhledávací tabulka musí být tabulka v SQL Serveru nebo accessové databázi. Pokud je výstup z transformace extrakce termínů uložen do tabulky, může být tato tabulka použita jako referenční, ale lze použít i jiné tabulky. Text v plochých souborech, excelových sešitech nebo jiných zdrojích musí být před použitím transformace vyhledávání termínů importován do databáze SQL Serveru nebo accessové databáze.

Transformace vyhledávání termínů používá samostatné připojení OLE DB pro připojení k referenční tabulce. Další informace naleznete v tématu OLE DB Connection Manager.

Transformace vyhledávání termínů funguje v plně přednačteném režimu. Transformace vyhledávání termínů za běhu čte termíny z referenční tabulky a ukládá je do privátní paměti předtím, než zpracuje všechny vstupní řádky transformace.

Vzhledem k tomu, že termíny ve vstupním řádku sloupce se můžou opakovat, výstup transformace vyhledávání termínů obvykle obsahuje více řádků než vstup transformace.

Transformace má jeden vstup a jeden výstup. Nepodporuje chybové výstupy.

Vlastnosti můžete nastavit prostřednictvím návrháře SSIS nebo programově.

Další informace o vlastnostech, které můžete nastavit v dialogovém okně Rozšířený editor nebo programově, klikněte na jedno z následujících témat:

Další informace o nastavení vlastností naleznete v tématu Nastavení vlastností komponenty toku dat.

Editor transformací vyhledávání termínů (karta Vyhledávání termínů)

Pomocí karty Vyhledávání termínů v dialogovém okně Editoru transformace vyhledávání termínů můžete namapovat vstupní sloupec na vyhledávací sloupec v referenční tabulce a poskytnout alias pro každý výstupní sloupec.

Možnosti

Dostupné vstupní sloupce
Pomocí zaškrtávacích políček vyberte vstupní sloupce, které mají být beze změny předány do výstupu. Přetáhněte vstupní sloupec do seznamu Dostupné referenční sloupce a namapujte ho na vyhledávací sloupec v referenční tabulce. Vstupní a vyhledávací sloupce musí mít odpovídající podporované datové typy, a to buď DT_NTEXT, nebo DT_WSTR. Vyberte čáru mapování a kliknutím pravým tlačítkem myši upravte mapování v dialogovém okně Vytvořit relace .

Dostupné referenční sloupce
Zobrazí dostupné sloupce v referenční tabulce. Zvolte sloupec, který obsahuje seznam termínů, které se mají shodovat.

sloupec Pass-Through
Vyberte ze seznamu dostupných vstupních sloupců. Výběry se projeví ve výběru zaškrtávacího políčka v tabulce Dostupné vstupní sloupce .

Alias výstupního sloupce
Zadejte alias pro každý výstupní sloupec. Výchozí hodnota je název sloupce; můžete ale zvolit libovolný jedinečný popisný název.

Konfigurace chybového výstupu
Dialogové okno Konfigurovat výstup chyby slouží k určení možností zpracování chyb pro řádky, které způsobují chyby.

Editor transformací vyhledávání termínů (karta Referenční tabulka)

Pomocí karty Referenční tabulka v dialogovém okně Editor transformace vyhledávání termínů určete připojení k referenční (vyhledávací) tabulce.

Možnosti

Správce připojení OLE DB
V seznamu vyberte existujícího správce připojení nebo kliknutím na Nový vytvořte nové připojení.

Nový
Vytvořte nové připojení pomocí dialogového okna Konfigurovat Správce připojení OLE DB .

Název referenční tabulky
Výběrem položky ze seznamu vyberte vyhledávací tabulku nebo zobrazení z databáze. Tabulka nebo zobrazení by měla obsahovat sloupec s existujícím seznamem termínů, se kterými se dá porovnat text ve zdrojovém sloupci.

Konfigurace chybového výstupu
Dialogové okno Konfigurovat výstup chyby slouží k určení možností zpracování chyb pro řádky, které způsobují chyby.

Editor transformace vyhledávání termínů (pokročilá karta)

Pomocí karty Upřesnit v dialogovém okně Editor transformace vyhledávání termínů určete, zda má být vyhledávání citlivé na velká a malá písmena.

Možnosti

Použijte vyhledávání termínů s rozlišováním malých a velkých písmen
Určete, jestli je vyhledávání citlivé na malá a velká písmena. Výchozí hodnota je false.

Konfigurace chybového výstupu
Dialogové okno Konfigurovat výstup chyby slouží k určení možností zpracování chyb pro řádky, které způsobují chyby.

Viz také

Informace o chybách a zprávách integračních služeb
Extrakce a transformace termínů