Sdílet prostřednictvím


Transformace extrakce termínů

platí pro:SQL Server SSIS Integration Runtime ve službě Azure Data Factory

Transformace extrakce termínů extrahuje termíny z textu ve vstupním sloupci transformace a potom zapíše termíny do výstupního sloupce transformace. Transformace funguje pouze s anglickým textem a používá vlastní anglický slovník a lingvistické informace o angličtině.

Pomocí transformace extrakce termínů můžete zjistit obsah datové sady. Například text, který obsahuje e-mailové zprávy, může poskytnout užitečnou zpětnou vazbu k produktům, abyste mohli pomocí transformace extrakce termínů extrahovat témata diskuzí ve zprávách jako způsob analýzy zpětné vazby.

Extrahované termíny a datové typy

Transformace pro extrakci termínů může extrahovat pouze podstatná jména, pouze sousloví, nebo jak podstatná jména, tak sousloví. Podstatné jméno je jedno podstatné jméno; fráze podstatných jmen je alespoň dvě slova, z nichž jedno je podstatné jméno a druhé je podstatné jméno nebo přídavné jméno. Pokud například transformace používá možnost pouze podstatných jmen, extrahuje termíny, jako jízdní kolo a krajina; pokud transformace používá možnost slovních spojení s podstatným jménem, extrahuje termíny, jako nové modré kolo, cyklistická přilba a krabicová jízdní kola.

Články a zájmenná slova nejsou extrahovány. Transformace extrakce termínů například extrahuje termín kolo z textu kolo, moje kolo a to kolo.

Transformace extrakce termínů vygeneruje skóre pro každý termín, který extrahuje. Skóre může být buď hodnota TFIDF, nebo nezpracovaná frekvence, což znamená, kolikrát se normalizovaný termín zobrazuje ve vstupu. V obou případech je skóre reprezentováno skutečným číslem, které je větší než 0. Například skóre TFIDF může mít hodnotu 0,5 a frekvence by byla hodnota jako 1,0 nebo 2,0.

Výstup transformace extrakce termínů zahrnuje pouze dva sloupce. Jeden sloupec obsahuje extrahované termíny a druhý sloupec obsahuje skóre. Výchozí názvy sloupců jsou Termín a Skóre. Protože textový sloupec ve vstupu může obsahovat více termínů, výstup transformace extrakce termínů obvykle obsahuje více řádků než vstup.

Pokud se extrahované termíny zapisují do tabulky, dají se použít jinými vyhledávacími transformacemi, jako jsou vyhledávání termínů, přibližné vyhledávání a transformace vyhledávání.

Transformace extrakce termínů může pracovat pouze s textem ve sloupci, který má datový typ DT_WSTR nebo DT_NTEXT. Pokud sloupec obsahuje text, ale nemá jeden z těchto datových typů, lze transformaci převodu dat použít k přidání sloupce s datovým typem DT_WSTR nebo DT_NTEXT do toku dat a zkopírování hodnot sloupců do nového sloupce. Výstup transformace převodu dat se pak dá použít jako vstup transformace extrakce termínů. Další informace naleznete v tématu Transformace převodu dat.

Podmínky vyloučení

Volitelně může transformace extrakce termínů odkazovat na sloupec v tabulce, která obsahuje termíny vyloučení, což znamená termíny, které by transformace měla přeskočit, když extrahuje termíny ze sady dat. To je užitečné, když už byla sada termínů identifikována jako nekonvenční v určitém podniku a odvětví, obvykle proto, že k tomuto termínu dochází s takovou vysokou frekvencí, že se jedná o slovo šumu. Například při extrahování termínů ze sady dat, která obsahuje informace o zákaznické podpoře o konkrétní značce automobilů, může být název značky samotný vyloučen, protože je zmíněn příliš často, aby měl význam. Proto musí být hodnoty v seznamu vyloučení přizpůsobené sadě dat, se kterou pracujete.

Když do seznamu vyloučení přidáte termín, budou vyloučeny také všechny výrazy a fráze podstatných jmen, které tento termín obsahují. Pokud například seznam vyloučení obsahuje jednoslovná data, budou vyloučeny také všechny termíny, které obsahují toto slovo, jako jsou data, dolování dat, integrita dat a ověření dat . Pokud chcete vyloučit pouze složené sloučeniny, které obsahují data slova, musíte tyto složené termíny explicitně přidat do seznamu vyloučení. Pokud například chcete extrahovat výskyty dat, ale vyloučit ověření dat, přidáte do seznamu vyloučení ověření dat a zajistíte, aby se data ze seznamu vyloučení odebrala.

Referenční tabulka musí být tabulka v SQL Serveru nebo accessové databázi. Transformace extrakce termínů používá samostatné připojení OLE DB pro připojení k referenční tabulce. Další informace naleznete v tématu OLE DB Connection Manager.

Transformace extrakce termínů funguje v plně přednačteném režimu. Transformace extrakce termínů za běhu načte termíny vyloučení z referenční tabulky a uloží je do privátní paměti předtím, než zpracuje všechny vstupní řádky transformace.

Extrakce termínů z textu

Transformace extrakce termínů z textu provede následující úlohy.

Identifikace slov

Nejprve transformace extrakce termínů identifikuje slova provedením následujících úloh:

  • Oddělení textu na slova pomocí mezer, konců řádků a dalších ukončujících slov v anglickém jazyce. Například interpunkční znaménka jako ? a : jsou znaky způsobující dělení slov.

  • Zachování slov propojených spojovníky nebo podtržítky Například slova chráněná proti kopírování a jen pro čtení zůstávají jedním slovem.

  • Ponechání zkratek, které zahrnují tečky, beze změny. Například společnost A.B.C by byla tokenizována jako ABC a Společnost.

  • Rozdělení slov na speciální znaky Například slovo datum a čas se extrahují jako datum a čas, (kolo) jako kolo a C# se považuje za C. Speciální znaky se zahodí a nedají se lexikalizovat.

  • Rozpoznání, kdy by speciální znaky, jako je apostrof, neměly rozdělovat slova. Například slovo kolo není rozděleno na dvě slova a poskytuje jednoslovné kolo (podstatné jméno).

  • Rozdělení časových výrazů, peněžních výrazů, e-mailových adres a poštovních adres Například datum 31. ledna 2004 je oddělené do tří tokenů leden, 31 a 2004.

Označená slova

Za druhé, extrakce termínů označuje slova jako jednu z následujících slovních druhů:

  • Podstatné jméno v jednotném tvaru. Například jízdní kola a brambory.

  • Podstatné jméno v množném čísle. Například jízdní kola a brambory. Všechna podstatná jména v množném čísle, která nejsou lemmatizována, podléhají stemmingu.

  • Správné podstatné jméno v jednotném tvaru. Například Duben a Peter.

  • Správné podstatné jméno v množném čísle. Například Aprils a Peters. Aby mohlo být vlastní jméno podrobeno algoritmickému zpracování, musí být součástí interního slovníku, který je omezen na standardní anglická vlastní jména.

  • Adjektivní jméno. Například modrá.

  • Srovnávací adjektivní jméno, které porovnává dvě věci. Například vyšší a vyšší.

  • Superlativum adjektivní, které identifikuje věc, která má kvalitu nad nebo pod úrovní alespoň dvou dalších. Například nejvyšší a nejvyšší.

  • Číslo. Například 62 a 2004.

Slova, která nejsou jednou z těchto částí řeči, se zahodí. Například slovesa a zájmena se zahodí.

Poznámka:

Označování částí řeči je založeno na statistickém modelu a označování nemusí být zcela přesné.

Pokud je transformace extrakce termínů nakonfigurována tak, aby extrahovala pouze podstatná jména, jsou extrahována pouze slova, která jsou označena jako jednotné číslo nebo množné číslo podstatných jmen a vlastní jména.

Pokud je transformace extrakce termínů nakonfigurovaná tak, aby extrahovali jenom podstatná spojení, slova označená jako podstatná jména, správná podstatná jména, přídavná jména a čísla se můžou zkombinovat tak, aby obsahovala podstatnou frázi, ale fráze musí obsahovat alespoň jedno slovo, které je označené jako jednotné nebo množné číslo jména nebo správné podstatné jméno. Například podstatná fráze nejvyšší hory kombinuje slovo označené jako superlativ adjektivní (nejvyšší) a slovo označené jako podstatné jméno (hora).

Pokud je extrakce termínů nakonfigurovaná tak, aby extrahovala podstatná jména i nominální fráze, použijí se pravidla pro podstatná jména i pravidla pro nominální fráze. Transformace například extrahuje kolo a krásné modré kolo z textu mnoho krásných modrých kol.

Poznámka:

Extrahované termíny zůstávají předmětem maximální délky období a prahové hodnoty četnosti, kterou transformace používá.

Slova s odstraněnými kmeny

Transformace extrakce termínů také zpracovává podstatná jména tak, aby extrahovala pouze jednotné číslo podstatného jména. Transformace například extrahuje člověka z mužů, myš z myší a kolo z jízdních kol. Transformace používá svůj slovník k vytvoření podstatných jmen. Gerundy jsou považovány za podstatná jména, pokud jsou ve slovníku.

Transformace extrakce termínů vychází ze slov do jejich slovníkové formy, jak je znázorněno v těchto příkladech pomocí interního slovníku transformace extrakce termínů.

  • Odstraňování "s" z podstatných jmen. Například jízdní kola se stanou jízdními koly.

  • Odebírání jmen. Například příběhy se stanou příběhem.

  • Načtení jednotného čísla pro nepravidelná podstatná jména ze slovníku. Například geese se stává husou.

Normalizovaná slova

Transformace extrakce termínů normalizuje termíny, které jsou velkými písmeny pouze z důvodu jejich pozice ve větě, a používá místo toho jejich nefaktelizovanou formu. Například ve frázích Psi honí kočky a horské cesty jsou strmé, psi a hory by byly normalizovány na psa a horu.

Transformace extrakce termínů normalizuje slova tak, aby velká a malá verze slov nebyla považována za odlišné termíny. Například v textu Vidíte mnoho jízdních kol v Seattlu a Jízdní kola jsou modrá, jízdní kola a Jízdní kola jsou rozpoznána jako stejný termín a transformace uchovává pouze kolo. Správná podstatná jména a slova, která nejsou uvedená v interním slovníku, nejsou normalizovány.

normalizace rozlišující velikost písmen

Transformace extrakce termínů je možné nakonfigurovat tak, aby zvážila malá a velká slova jako odlišné termíny nebo jako různé varianty stejného termínu.

  • Pokud je transformace nakonfigurovaná tak, aby rozpoznala rozdíly v případě, že se termíny jako Metoda a metoda extrahují jako dva různé termíny. Velká písmena, která nejsou prvním slovem ve větě, nejsou nikdy normalizována a jsou označena jako správná podstatná jména.

  • Pokud je transformace nakonfigurovaná tak, aby nerozlišovala malá a velká písmena, jsou termíny jako Method a metoda rozpoznány jako varianty jednoho termínu. Seznam extrahovaných termínů může obsahovat metodu nebo metodu v závislosti na tom, které slovo se vyskytuje jako první ve vstupní sadě dat. Pokud je metoda velké písmeno pouze proto, že je prvním slovem ve větě, je extrahována v normalizované formě.

Hranice vět a slov

Transformace extrakce termínů odděluje text na věty pomocí následujících znaků jako hranic vět:

  • Znaky zalomení řádku ASCII 0x0d (návrat na začátek řádku) a 0x0a (odřádkování). Pokud chcete tento znak použít jako hranici věty, musí být dva nebo více znaků konce řádku za sebou.

  • Spojovníky (-). Pokud chcete tento znak použít jako hranici věty, nesmí být znak vlevo ani vpravo od spojovníku písmeno.

  • Podtržítko (_). Pokud chcete tento znak použít jako hranici věty, nesmí být znak vlevo ani vpravo od spojovníku písmeno.

  • Všechny znaky Unicode, které jsou menší než nebo rovny 0x19, nebo větší než nebo rovno 0x7b.

  • Kombinace čísel, interpunkčních značek a abecedních znaků Například A23B#99 vrátí termín A23B.

  • Znaky %, @, &, $, #, *, :, ;, ., ,, !, ?, , , +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", a '.

    Poznámka:

    Zkratky, které obsahují jedno nebo více tečk (.), nejsou odděleny do více vět.

Transformace pro extrakci termínů pak větu rozdělí na slova pomocí následujících hranic slov.

  • Prostor

  • Tab

  • ASCII 0x0d (návrat vozíku)

  • ASCII 0x0a (odřádkování)

    Poznámka:

    Pokud je apostrof ve slově, které je zkratkou, například jsme nebo je to, slovo je rozloženo u apostrofu; jinak se odstraní písmena za apostrofem. Například we're je rozděleno na we a 're, a bicycle's je zkráceno na bicycle.

Konfigurace transformace extrakce termínů

Transformace extrakce textu používá k vygenerování výsledků interní algoritmy a statistické modely. Je možné, že budete muset několikrát spustit transformaci extrakce termínů a prozkoumat výsledky a nakonfigurovat transformaci tak, aby vygenerovala typ výsledků, které fungují pro vaše řešení dolování textu.

Transformace extrakce termínů má jeden běžný vstup, jeden výstup a jeden chybový výstup.

Vlastnosti můžete nastavit prostřednictvím návrháře SSIS nebo programově.

Další informace o vlastnostech, které můžete nastavit v dialogovém okně Rozšířený editor nebo programově, klikněte na jedno z následujících témat:

Další informace o nastavení vlastností naleznete v tématu Nastavení vlastností komponenty toku dat.

Editor transformace extrakce termínů (karta extrakce termínů)

Pomocí karty Extrakce termínů v dialogovém okně Editor transformace extrakce termínů zadejte textový sloupec obsahující text, který se má extrahovat.

Možnosti

Dostupné vstupní sloupce
Pomocí zaškrtávacích políček vyberte jeden textový sloupec, který chcete použít k extrakci termínů.

Term
Zadejte název výstupního sloupce, který bude obsahovat extrahované termíny.

Partitura
Zadejte název výstupního sloupce, který bude obsahovat skóre pro každý extrahovaný termín.

Konfigurace chybového výstupu
Dialogové okno Konfigurovat výstup chyby slouží k určení zpracování chyb u řádků, které způsobují chyby.

Editor transformací pro extrakci termínů (karta vyloučení)

Pomocí karty Vyloučení v dialogovém okně Editor transformace extrakce termínů nastavte připojení k tabulce vyloučení a zadejte sloupce, které obsahují podmínky vyloučení.

Možnosti

Použijte vylučovací termíny
Určete, zda chcete vyloučit konkrétní termíny během extrakce termínů zadáním sloupce, který obsahuje podmínky vyloučení. Pokud se rozhodnete vyloučit termíny, musíte zadat následující vlastnosti zdroje.

Správce připojení OLE DB
Vyberte existujícího správce připojení OLE DB nebo kliknutím na Nový vytvořte nové připojení.

Nový
Pomocí dialogového okna Konfigurovat správce připojení OLE DB vytvořte nové připojení k databázi.

Tabulka nebo zobrazení
Vyberte tabulku nebo zobrazení, které obsahuje podmínky vyloučení.

sloupce
Vyberte sloupec v tabulce nebo zobrazení, který obsahuje podmínky vyloučení.

Konfigurace chybového výstupu
Dialogové okno Konfigurovat výstup chyby slouží k určení zpracování chyb u řádků, které způsobují chyby.

Editor transformace extrakce termínů (Pokročilá karta)

Na kartě Pokročilé v dialogovém okně Editor transformace extrakce termínů můžete určit vlastnosti extrakce, jako jsou například frekvence, délka a zda se mají extrahovat jednotlivá slova nebo celé fráze.

Možnosti

Podstatné jméno
Určete, že transformace extrahuje pouze jednotlivá podstatná jména.

Jmenná fráze
Určete, že transformace extrahuje pouze nominální fráze.

Podstatné jméno a substantivní fráze
Uveďte, že transformace extrahuje jak podstatná jména, tak nominální fráze.

Četnost
Uveďte, že skóre je frekvence termínu.

TFIDF
Upřesněte, že skóre je hodnota termínu TFIDF. Skóre TFIDF je součin frekvence termínu a inverzní frekvence dokumentů definovaný jako: TFIDF termínu T = (frekvence T) * log( (#řádků ve vstupu) / (#řádků obsahujících T) )

Prahová hodnota frekvence
Zadejte počet výskytů slova nebo fráze před jeho extrahováním. Výchozí hodnota je 2.

Maximální délka období
Zadejte maximální délku fráze slovy. Tato možnost má vliv jenom na podstatná jména. Výchozí hodnota je 12.

Extrahování termínů s rozlišením malých a velkých písmen
Určete, zda má být extrakce citlivá na velikost písmen. Výchozí hodnota je false.

Konfigurace chybového výstupu
Dialogové okno Konfigurovat výstup chyby slouží k určení zpracování chyb u řádků, které způsobují chyby.

Viz také

Informace o chybách a zprávách integračních služeb
Transformace vyhledávání termínů