Jegyzet
Az oldalhoz való hozzáférés engedélyezést igényel. Próbálhatod be jelentkezni vagy könyvtárat váltani.
Az oldalhoz való hozzáférés engedélyezést igényel. Megpróbálhatod a könyvtár váltását.
A következőkre vonatkozik:SQL Server
SSIS integrációs futtatókörnyezet az Azure Data Factory-ban
A Kifejezéskinyerés átalakítás kifejezéseket nyer ki egy átalakítási bemeneti oszlop szövegéből, majd egy átalakítási kimeneti oszlopba írja a kifejezéseket. Az átalakítás csak angol szöveggel működik, és saját angol szótárt és nyelvi információkat használ az angolról.
A Kifejezéskiemelés átalakítással felderítheti az adathalmaz tartalmát. Az e-maileket tartalmazó szövegek például hasznos visszajelzést adhatnak a termékekről, így a Kifejezéskiemelés átalakítással kinyerheti az üzenetekben szereplő vitafórumokat a visszajelzés elemzésének módjaként.
Kinyert kifejezések és adattípusok
A kifejezéskiemelési átalakítás csak főneveket, főnévi kifejezéseket, illetve főneveket és főneves fázisokat képes kinyerni. A főnév egyetlen főnév; A főnévi kifejezések legalább két szóból áll, amelyek közül az egyik főnév, a másik pedig főnév vagy melléknév. Ha például az átalakítás a csak főneveket érintő beállítást használja, olyan kifejezéseket nyer ki, mint a kerékpár és tájkép; ha az átalakítás a főnévi kifejezés beállítást használja, olyan kifejezéseket nyer ki, mint az új kék kerékpár, kerékpáros sisak és dobozos kerékpárok.
A cikkek és a névmások nem nyerhetők ki. A Kifejezéskiemelés átalakítás például kinyeri a kerékpár kifejezést a kerékpár, a kerékpár és a kerékpár szövegéből.
A Kifejezéskinyerés átalakítás minden egyes kinyert kifejezéshez létrehoz egy pontszámot. A pontszám lehet TFIDF-érték vagy nyers gyakoriság, ami azt jelenti, hogy a normalizált kifejezés hányszor jelenik meg a bemenetben. A pontszámot mindkét esetben 0-nál nagyobb valós szám jelöli. Előfordulhat például, hogy a TFIDF-pontszám értéke 0,5, a gyakoriság pedig 1,0 vagy 2,0.
A Kifejezéskinyerés átalakítás kimenete csak két oszlopot tartalmaz. Az egyik oszlop tartalmazza a kinyert kifejezéseket, a másik oszlop pedig a pontszámot. Az oszlopok alapértelmezett neve a Kifejezés és a Pontszám. Mivel a bemenet szövegoszlopa több kifejezést is tartalmazhat, a Kifejezéskinyerés átalakítás kimenete általában több sort tartalmaz, mint a bemenet.
Ha a kinyert kifejezések egy táblába vannak írva, más keresési átalakítások is használhatók, például a Kifejezéskeresés, a Homályos keresés és a Keresési átalakítások.
A Kifejezéskinyerés átalakítás csak olyan oszlop szövegével használható, amely DT_WSTR vagy DT_NTEXT adattípussal rendelkezik. Ha egy oszlop szöveget tartalmaz, de nem rendelkezik ilyen adattípussal, az adatkonvertálási átalakítással hozzáadhat egy oszlopot az adatfolyamhoz DT_WSTR vagy DT_NTEXT adattípussal, és az oszlopértékeket átmásolhatja az új oszlopba. Az adatkonvertálási átalakítás kimenete ezután használható a kifejezéskinyerési átalakítás bemeneteként. További információ: Adatkonverziós transzformáció.
Kizárási feltételek
A Kifejezéskinyerés átalakítás opcionálisan hivatkozhat egy olyan tábla oszlopára, amely kizárási kifejezéseket tartalmaz, ami azt jelenti, hogy az átalakításnak ki kell hagynia ezeket a kifejezéseket, amikor kifejezéseket nyer ki egy adatkészletből. Ez akkor hasznos, ha egy adott üzletben és iparágban már jelentéktelennek azonosították a kifejezéseket, általában azért, mert a kifejezés olyan nagy gyakorisággal fordul elő, hogy zajszóvá válik. Ha például olyan adatkészletből nyer ki kifejezéseket, amely egy adott autómárkára vonatkozó ügyféltámogatási információkat tartalmaz, maga a márkanév kizárható, mert túl gyakran említik, hogy jelentőséggel bírjon. Ezért a kizárási listában szereplő értékeket testre kell szabni ahhoz az adatkészlethez, amellyel dolgozik.
Amikor kifejezéseket ad hozzá a kizárási listához, a kifejezéseket tartalmazó kifejezések és főnevek is ki lesznek zárva. Ha például a kizárási lista tartalmazza az egyetlen szó adatait, akkor a szó összes kifejezése, például az adatok, az adatbányászat, az adatintegritás és az adatérvényesítés is ki lesz zárva. Ha csak az adatokat tartalmazó vegyületeket szeretné kizárni, explicit módon fel kell vennie ezeket az összetett kifejezéseket a kizárási listára. Ha például ki szeretné nyerni az adatok előfordulásait, de ki szeretné zárni az adatérvényesítést, adatérvényesítést kell hozzáadnia a kizárási listához, és gondoskodnia kell arról, hogy az adatok törlődjenek a kizárási listából.
A referenciatáblának egy SQL Server- vagy Access-adatbázis táblájának kell lennie. A Kifejezéskinyerés átalakítás egy külön OLE DB-kapcsolatot használ a referenciatáblához való csatlakozáshoz. További információ: OLE DB Connection Manager.
A Kifejezéskinyerés átalakítása teljesen előre gyorsítótárazott módban működik. Futásidőben a Terminuskivonás átalakítás beolvassa a kizárt kifejezéseket a referenciatáblából, és a saját memóriájában tárolja őket, mielőtt bármilyen átalakítási bemeneti sort feldolgozna.
Kifejezések kinyerése szövegből
Ha kifejezéseket szeretne kinyerni a szövegből, a Kifejezéskinyerés átalakítás a következő feladatokat hajtja végre.
Szavak azonosítása
Először is a kifejezéskinyerés átalakítás a következő feladatok végrehajtásával azonosítja a szavakat:
Szöveg elválasztása szavakra szóközök, sortörések és más szóhatárolók használatával angol nyelven. Az írásjelek, mint például ? és :, szóelválasztó karakterek.
Kötőjelek vagy aláhúzásjelek által összekapcsolt szavak megőrzése. A másolásvédett és az írásvédett szavak például egy szóval maradnak.
A pontokat tartalmazó mozaikszavak megőrzése. Az A.B.C vállalat például ABC-ként és vállalatként lesz tokenizálva.
Szavak felosztása speciális karakterek mentén. A dátum/idő szó például dátum és idő formát ölt, kerékpárként válik kerékpár, és a C# C-ként kezelendő. A speciális karaktereket eldobjuk, és nem lehet őket lexikalizálni.
Felismerve, hogy a speciális karakterek, például az aposztróf nem osztják fel a szavakat. A kerékpár szó például nem két szóra van felosztva, és az egyetlen kerékpár ( főnév) kifejezést adja meg.
Időkifejezések, pénzügyi kifejezések, e-mail-címek és postai címek felosztása. A dátum, például 2004. január 31., három elemre van bontva: január, 31 és 2004.
Címkézett szavak
Másodszor, a Kifejezéskiemelés transzformáció a következő beszédrészek egyikeként jelöli meg a szavakat:
Egy főnév a szinguláris formában. Például kerékpár és burgonya.
Egy főnév többes számban. Például kerékpárok és burgonya. Minden többes számú főnév, amely nincs lemmatizálva, tövesítésnek van alávetve.
A tulajdonnév egyes szám formában. Például April és Peter.
Egy helyes főnév a többes számban. Például Aprils és Peters. Ahhoz, hogy a megfelelő főnévre vonatkozni lehessen, a belső lexikonnak kell lennie, amely a szabványos angol szavakra korlátozódik.
Egy melléknév. Például kék.
Összehasonlító melléknév, amely két dolgot hasonlít össze. Például magasabb és magasabb.
Egy szuperlatív melléknév, amely azonosít egy olyan dolgot, amelynek minősége legalább két másik szintnél magasabb vagy alacsonyabb. Például a legmagasabb és a legmagasabb.
Egy szám. Például : 62 és 2004.
Azok a szavak, amelyek nem tartoznak a beszéd ezen részei közé, elvetik. Például az igék és a névmások elvetése.
Megjegyzés:
A beszédrészek címkézése statisztikai modellen alapul, és előfordulhat, hogy a címkézés nem teljesen pontos.
Ha a Kifejezéskiemelés átalakítás úgy van konfigurálva, hogy csak főneveket nyerjen ki, csak a főnevek és a megfelelő főnevek egyes vagy többes számú formájának címkézett szavak lesznek kinyerve.
Ha a Kifejezés kinyerése átalakítás úgy van konfigurálva, hogy csak főnévi kifejezéseket nyerjen ki, a főnévként, a megfelelő főnevekként, melléknevekként és számokként megjelölt szavak kombinálhatók főnévként, de a kifejezésnek tartalmaznia kell legalább egy olyan szót, amely a főnév vagy a megfelelő főnév egyes vagy többes formáját tartalmazza. A legmagasabb hegy főnévi kifejezése például egy szuperlatív melléknévként (legmagasabb) címkézett szót és egy főnévként (hegy) címkézett szót egyesít.
Ha a kifejezéskiemelés úgy van konfigurálva, hogy a főneveket és a főnévi kifejezéseket is kinyerje, a főnevekre és a főnevekre vonatkozó szabályok egyaránt érvényesek. Az átalakítás például kerékpárt és gyönyörű kék kerékpárt von ki a szövegből: sok gyönyörű kék kerékpár.
Megjegyzés:
A kinyert kifejezésekre továbbra is az átalakítás által használt maximális időtartam és gyakorisági küszöbérték vonatkozik.
Szótövek
A kifejezéskivonatoló transzformáció a főnevek egyes számú alakját szótövet képezve vonja ki. Az átalakítás például a férfiból, az egérből az egér és a kerékpárokból a kerékpárt nyeri ki. Az átalakítás a szótárát használja a főnevek szótövezéséhez. A gerundokat főnevekként kezelik, ha a szótárban szerepelnek.
A Kifejezéskinyerés transzformáció a szavakat a szótári alakjukra származtatja, ahogyan az ezekben a példákban látható, a Kifejezéskinyerés transzformáción belüli szótár használatával.
S eltávolítása a főnevekből. A kerékpárok például kerékpár lesz.
Az es eltávolítása a főnevekből. A történetek például történet lesznek.
A szabálytalan főnevek egyes számú alakját a szótárból olvassuk ki. Például a libáklibává válnak.
Normalizált szavak
A Kifejezés Kinyerés átalakítás normalizálja azokat a kifejezéseket, amelyek csak a mondatban elfoglalt helyük miatt kezdődnek nagybetűvel, és helyette a nem nagybetűs formájukat használja. A kifejezésekben például a kutyák üldözik a macskákat és a hegyi utak meredekek, a kutyák és a hegy normalizálódik kutyára és hegyre.
A Kifejezéskinyerés átalakítás normalizálja a szavakat, hogy a feltőkésített és a kisbetűs változatokat ne kezeljük különböző kifejezésekként. A szövegben például sok kerékpár látható Seattle-ben , a kerékpárok kékek, a kerékpárok és a kerékpárok azonos kifejezésként vannak felismerve, és az átalakítás csak a kerékpárokat tartja meg. A belső szótárban nem szereplő megfelelő főnevek és szavak nem normalizálódnak.
Kis- és nagybetűérzékeny normalizálás
A Kifejezéskiemelés átalakítás konfigurálható úgy, hogy a kis- és nagybetűket különálló kifejezésként vagy ugyanazon kifejezés különböző változataiként vegye figyelembe.
Ha az átalakítás úgy van konfigurálva, hogy felismerje a különbségeket, a metódushoz és a metódushoz hasonló kifejezések két különböző kifejezésként lesznek kinyerve. A nagybetűs szavak, amelyek nem a mondatok első szavai, soha nem normalizálódnak, és megfelelő főnevekként vannak megjelölve.
Ha az átalakítás kis- és nagybetűkre nem érzékeny, olyan kifejezések, mint a Metódus és a metódus, egyetlen kifejezés variánsaként lesznek felismerve. A kinyert kifejezések listája tartalmazhat metódust vagy metódust attól függően, hogy melyik szó szerepel először a bemeneti adatkészletben. Ha a metódus csak azért van nagybetűvel írva, mert ez egy mondat első szója, akkor normalizált formában kivonható.
Mondat- és szóhatárok
A Kifejezéskinyerés átalakítás mondatokra bontja a szöveget a következő karaktereket használva mondathatárként:
Az ASCII sortörés karakterek 0x0d (kocsivissza) és 0x0a (soremelés). Ha ezt a karaktert mondathatárként szeretné használni, két vagy több sortörési karakternek kell lennie egy sorban.
Kötőjelek (-). Ha ezt a karaktert mondathatárként szeretné használni, sem a bal oldali, sem a jobb oldali karakter nem lehet betű.
Aláhúzás (_). Ha ezt a karaktert mondathatárként szeretné használni, sem a bal oldali, sem a jobb oldali karakter nem lehet betű.
Minden Olyan Unicode-karakter, amely kisebb vagy egyenlő 0x19, vagy nagyobb, mint 0x7b.
Számok, írásjelek és betűrendes karakterek kombinációja. Az A23B#99 például az A23B kifejezést adja vissza.
A karakterek, %, @, &, $, #, *, :, ;, .,
, , !, ?,, , +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", és '. Megjegyzés:
Az egy vagy több pontot (.) tartalmazó mozaikszavak nem lesznek több mondatra bontva.
A Kifejezéskiemelés transzformáció ezután szavakra bontja a mondatot a következő szóhatárok használatával:
Space
Tab
ASCII 0x0d (kocsivissza)
ASCII 0x0a (vonalcsatorna)
Megjegyzés:
Ha egy aposztróf egy olyan szóban van, amely összehúzódás, például mi vagyunk , vagy az, akkor a szó megszakad az aposztrófnál; ellenkező esetben a rendszer levágja az aposztrófot követő betűket. Például: a "we're" szét van bontva "we" és "'re" részekre, és a "bicycle's" le van rövidítve "bicycle"-ra.
A kifejezéskinyerési átalakítás konfigurálása
A Szövegkinyerés átalakítás belső algoritmusokat és statisztikai modelleket használ az eredmények létrehozásához. Előfordulhat, hogy többször is le kell futtatnia a kifejezéskinyerési átalakítást, és meg kell vizsgálnia az eredményeket, hogy konfigurálja az átalakítást a szövegbányászati megoldáshoz használható eredmények típusának létrehozásához.
A Kifejezéskinyerés átalakítás egy normál bemenettel, egy kimenettel és egy hibakimenettel rendelkezik.
A tulajdonságokat az SSIS Designer használatával vagy programozott módon állíthatja be.
A Speciális szerkesztő párbeszédpanelen vagy programozott módon beállítható tulajdonságokról az alábbi témakörök egyikére kattintva talál további információt:
További információ a tulajdonságok beállításáról: Adatfolyam-összetevő tulajdonságainak beállítása.
Kifejezéskinyerési átalakítási szerkesztő (Kifejezés kinyerése lap)
A Term Extraction Transformation Editor párbeszédpanel Term Extraction fülén jelöljön ki egy szövegoszlopot, amely tartalmazza a kinyerésre szánt szöveganyagot.
Beállítások
Elérhető bemeneti oszlopok
A jelölőnégyzetek használatával jelöljön ki egyetlen szöveges oszlopot a kifejezés kinyeréséhez.
Term
Adja meg a kinyert kifejezéseket tartalmazó kimeneti oszlop nevét.
Pontszám
Adja meg annak a kimeneti oszlopnak a nevét, amely tartalmazza az egyes kinyert kifejezések pontszámát.
Hibakimenet konfigurálása
A Hibakimenet konfigurálása párbeszédpanel használatával adja meg a hibákat okozó sorok hibakezelését.
Kifejezéskinyerési Átalakítás Szerkesztő (Kizárás fül)
A Kizárás lapot a Kifejezéskinyerés Átalakítási Szerkesztő párbeszédpanelen használva létesíthet kapcsolatot egy kizárási táblával, és megadhatja a kizárási kifejezéseket tartalmazó oszlopokat.
Beállítások
Kizárási feltételek használata
A kizárási feltételeket tartalmazó oszlop megadásával jelezheti, hogy kizár-e bizonyos kifejezéseket a kifejezéskiemelés során. Ha úgy dönt, hogy kizárja a kifejezéseket, a következő forrástulajdonságokat kell megadnia.
OLE DB kapcsolatkezelő
Válasszon ki egy meglévő OLE DB kapcsolatkezelőt, vagy hozzon létre egy új kapcsolatot az Új gombra kattintva.
Új
Hozzon létre új kapcsolatot egy adatbázishoz az OLE DB Connection Manager konfigurálása párbeszédpanelen.
Táblázat vagy nézet
Jelölje ki a kizárási feltételeket tartalmazó táblát vagy nézetet.
oszlop
Jelölje ki azt az oszlopot a táblában vagy nézetben, amely tartalmazza a kizárási feltételeket.
Hibakimenet konfigurálása
A Hibakimenet konfigurálása párbeszédpanel használatával adja meg a hibákat okozó sorok hibakezelését.
Kifejezések kinyerése és átalakítása szerkesztő (Speciális fül)
A Kifejezéskinyerés átalakítási szerkesztő párbeszédpanel Speciális lapján adhatja meg a kinyerés tulajdonságait, például a gyakoriságot, a hosszt és a szavak vagy kifejezések kinyerésének módját.
Beállítások
Főnév
Adja meg, hogy az átalakítás csak az egyes főneveket nyeri ki.
Főnévi kifejezés
Adja meg, hogy az átalakítás csak főnévi kifejezéseket nyer ki.
Főnév és főnév kifejezés
Adja meg, hogy az átalakítás kinyerje a főneveket és a főnévi kifejezéseket is.
Gyakoriság
Határozza meg, hogy a pontszám a kifejezés gyakoriságát jelenti.
TFIDF
Adja meg, hogy a pontszám a kifejezés TFIDF-értéke. A TFIDF-pontszám a kifejezés gyakoriságának és az inverz dokumentum gyakoriságnak a szorzata, így van definiálva: TFIDF egy kifejezés T esetén = (T gyakorisága) * log( (bemeneti sorok száma) / (T-t tartalmazó sorok száma) )
Gyakorisági küszöbérték
Adja meg, hogy egy szónak vagy kifejezésnek hányszor kell előfordulnia a kinyerése előtt. Az alapértelmezett érték 2.
A kifejezés maximális hossza
Adja meg egy kifejezés maximális hosszát szavakban. Ez a beállítás csak a főnévi kifejezéseket érinti. Az alapértelmezett érték 12.
Esetérzékeny kifejezéskivonás használata
Adja meg, hogy az extrakciós kis- és nagybetűk megkülönböztetésére van-e szükség. Az alapértelmezett False.
Hibakimenet konfigurálása
A Hibakimenet konfigurálása párbeszédpanel használatával adja meg a hibákat okozó sorok hibakezelését.
Lásd még:
Az Integration Services hibáinak és üzeneteinek referenciaanyaga
Kifejezéskeresés átalakítása