Not
Åtkomst till denna sida kräver auktorisation. Du kan prova att logga in eller byta katalog.
Åtkomst till denna sida kräver auktorisation. Du kan prova att byta katalog.
gäller för:SQL Server
SSIS Integration Runtime i Azure Data Factory
Termextraheringstransformeringen extraherar termer från text i en transformeringsindatakolumn och skriver sedan termerna till en transformeringsutdatakolumn. Omvandlingen fungerar endast med engelsk text och den använder sin egen engelska ordlista och språklig information om engelska.
Du kan använda termextraheringstransformeringen för att identifiera innehållet i en datauppsättning. Text som innehåller e-postmeddelanden kan till exempel ge användbar feedback om produkter, så att du kan använda termextraheringstransformeringen för att extrahera diskussionsämnena i meddelandena som ett sätt att analysera feedbacken.
Extraherade termer och datatyper
Termextraheringstransformeringen kan endast extrahera substantiv, substantivfraser eller både substantiv- och substantivfaser. Ett substantiv är ett enda substantiv; ett substantivfraser är minst två ord, varav det ena är ett substantiv och det andra är ett substantiv eller ett adjektiv. Om transformeringen till exempel använder alternativet endast substantiv extraheras termer som cykel och landskap. om omvandlingen använder substantivfrasalternativet extraherar den termer som ny blå cykel, cykelhjälm och boxade cyklar.
Artiklar och pronomen extraheras inte. Till exempel extraherar termextraheringstransformeringen termen cykel från texten cykeln, min cykel och den cykeln.
Termextraheringstransformeringen genererar en poäng för varje term som extraheras. Poängen kan vara antingen ett TFIDF-värde eller råfrekvensen, vilket innebär att antalet gånger den normaliserade termen visas i indata. I båda fallen representeras poängen av ett verkligt tal som är större än 0. TFIDF-poängen kan till exempel ha värdet 0,5 och frekvensen skulle vara ett värde som 1,0 eller 2,0.
Utdata från termextraheringstransformeringen innehåller bara två kolumner. En kolumn innehåller de extraherade termerna och den andra kolumnen innehåller poängen. Standardnamnen för kolumnerna är Term och Poäng. Eftersom textkolumnen i indata kan innehålla flera termer har utdata från termextraheringstransformeringen vanligtvis fler rader än indata.
Om de extraherade termerna skrivs till en tabell kan de användas av andra uppslagstransformeringar som termsökning, fuzzy-sökning och uppslagstransformeringar.
Termextraheringstransformeringen kan bara fungera med text i en kolumn som har antingen DT_WSTR eller DT_NTEXT datatyp. Om en kolumn innehåller text men inte har någon av dessa datatyper kan datakonverteringstransformeringen användas för att lägga till en kolumn med DT_WSTR eller DT_NTEXT datatyp i dataflödet och kopiera kolumnvärdena till den nya kolumnen. Utdata från datakonverteringstransformationen kan sedan användas som indata till termextraktionstransformationen. Mer information finns i Omvandling av datakonvertering.
Undantagsvillkor
Alternativt kan termextraheringstransformeringen referera till en kolumn i en tabell som innehåller undantagsvillkor, vilket innebär att termer som omvandlingen bör hoppa över när den extraherar termer från en datauppsättning. Detta är användbart när en uppsättning termer redan har identifierats som oviktiga i ett visst företag och en viss bransch, vanligtvis eftersom termen inträffar med så hög frekvens att det blir ett brusord. När du till exempel extraherar termer från en datauppsättning som innehåller kundsupportinformation om ett visst märke av bilar, kan själva varumärket uteslutas eftersom det nämns för ofta för att ha betydelse. Därför måste värdena i undantagslistan anpassas till den datamängd som du arbetar med.
När du lägger till en term i undantagslistan undantas även alla termer eller substantivfraser som innehåller termen. Om exkluderingslistan till exempel innehåller data med ett ord undantas även alla termer som innehåller det här ordet, till exempel data, datautvinning, dataintegritet och dataverifiering . Om du bara vill exkludera föreningar som innehåller orddata måste du uttryckligen lägga till dessa sammansatta termer i undantagslistan. Om du till exempel vill extrahera förekomster av data, men exkludera dataverifiering, lägger du till dataverifiering i undantagslistan och ser till att data tas bort från undantagslistan.
Referenstabellen måste vara en tabell i en SQL Server eller en Access-databas. Termextraheringstransformeringen använder en separat OLE DB-anslutning för att ansluta till referenstabellen. Mer information finns i OLE DB Connection Manager.
Termextraheringstransformationen fungerar i ett helt förinläst läge. Vid körning läser Termextraktionstransformeringen exkluderingstermerna från referenstabellen och lagrar dessa i sitt privata minne innan den bearbetar några rader med transformeringsindata.
Extrahering av termer från text
För att extrahera termer från text utför termextraheringstransformeringen följande uppgifter.
Identifiering av ord
Först identifierar termextraheringstransformeringen ord genom att utföra följande uppgifter:
Dela upp text i ord med hjälp av blanksteg, radbrytningar och andra ordavgränsare på engelska. Till exempel är skiljetecken som ? och : ordbrytande tecken.
Bevara ord som är anslutna med bindestreck eller understreck. Till exempel förblir orden copy-protected och read-only ett ord.
Behålla intakta förkortningar som innehåller perioder. Till exempel skulle A.B.C-företaget tokeniseras som ABC och Företag.
Dela upp ord på specialtecken. Ordet datum/tid extraheras till exempel som datum och tid, (cykel) som cykel och C# behandlas som C. Specialtecken ignoreras och kan inte lexikaliseras.
Känns igen när specialtecken som apostrofen inte ska dela upp ord. Till exempel är ordet cykels inte uppdelat i två ord och ger termen cykel (substantiv).
Dela upp tidsuttryck, monetära uttryck, e-postadresser och postadresser. Till exempel är datumet 31 januari 2004 uppdelat i de tre tokens januari, 31 och 2004.
Taggade ord
För det andra taggar termextraheringstransformeringen ord som en av följande delar av talet:
Ett substantiv i singularform. Till exempel cykel och potatis.
Ett substantiv i pluralform. Till exempel cyklar och potatis. Alla plurala substantiv som inte är lemmatiserade är föremål för härstamning.
Ett riktigt substantiv i singularform. Till exempel April och Peter.
Ett riktigt substantiv i pluralform. Till exempel Aprils och Peters. För att ett lämpligt substantiv ska kunna härledas måste det vara en del av det interna lexikonet, som är begränsat till engelska standardord.
Ett adjektiv. Till exempel blått.
Ett jämförande adjektiv som jämför två saker. Till exempel högre och längre.
Ett superlativt adjektiv som identifierar en sak som har en kvalitet över eller under nivån för minst två andra. Till exempel högsta och högsta.
Ett tal. Till exempel 62 och 2004.
Ord som inte är en av dessa delar av talet ignoreras. Till exempel ignoreras verb och pronomen.
Anmärkning
Taggningen av delar av tal baseras på en statistisk modell och taggningen kanske inte är helt korrekt.
Om termextraheringstransformeringen har konfigurerats för att endast extrahera substantiv extraheras endast de ord som taggas som singular- eller pluralformer av substantiv och lämpliga substantiv.
Om termextraheringstransformeringen är konfigurerad för att endast extrahera substantivfraser kan ord som taggas som substantiv, lämpliga substantiv, adjektiv och tal kombineras för att skapa en substantivfras, men frasen måste innehålla minst ett ord som är taggat som en singular eller pluralform av ett substantiv eller ett lämpligt substantiv. Substantivfrasen highest mountain kombinerar till exempel ett ord taggat som ett superlativt adjektiv (högsta) och ett ord som är taggat som substantiv (berg).
Om termextraheringen har konfigurerats för att extrahera både substantiv och substantivfraser gäller både reglerna för substantiv och reglerna för substantivfraser. Till exempel extraherar omvandlingen cykel och vacker blå cykel från texten många vackra blå cyklar.
Anmärkning
De extraherade termerna omfattas fortfarande av den maximala termlängd och frekvenströskel som omvandlingen använder.
Stammade ord
Termextraheringstransformeringen stjälkar också substantiv för att extrahera endast singularformen av ett substantiv. Omvandlingen extraherar till exempel människan från män, mus från möss och cykel från cyklar. Omvandlingen använder sin ordlista för att stamma av substantiv. Gerundier behandlas som substantiv om de finns i ordlistan.
Termextraktionstransformeringen stammar ord till deras ordboksform som visas i dessa exempel med hjälp av den ordbok som är intern för termextraherande transformering.
Tar bort s från substantiv. Till exempel cyklar ändras till cykel.
Tar bort es från substantiv. Till exempel blir berättelserhistoria.
Hämtar singularformen för oregelbundna substantiv från ordlistan. Till exempel blir gässgås.
Normaliserade ord
Termextraheringstransformeringen normaliserar termer som endast har inledningsversaler på grund av deras position i en mening och använder istället deras form utan inledningsversaler. Till exempel i fraserna Hundar jagar katter och Bergsvägar är branta, hundar och berg skulle normaliseras till hund och berg.
Termextraheringstransformeringen normaliserar ord så att de versaliserade och icke-kapitaliserade versionerna av ord inte behandlas som olika termer. Till exempel i texten Du ser många cyklar i Seattle och Cyklar är blå, cyklar och cyklar känns igen som samma term och omvandlingen behåller endast cykel. Rätt substantiv och ord som inte visas i den interna ordlistan normaliseras inte.
Case-sensitive normalisering
Termextraheringstransformeringen kan konfigureras för att betrakta gemener och versaler som antingen distinkta termer eller som olika varianter av samma term.
Om omvandlingen är konfigurerad för att identifiera skillnader i fall extraheras termer som Metod och metod som två olika termer. Versaler som inte är det första ordet i en mening normaliseras aldrig och taggas som lämpliga substantiv.
Om omvandlingen är konfigurerad för att vara skiftlägesokänslig identifieras termer som metod och metod som varianter av en enda term. Listan över extraherade termer kan innehålla antingen metod eller metod, beroende på vilket ord som inträffar först i indatauppsättningen. Om Metoden endast är versaliserad eftersom det är första ordet i en mening, extraheras den i normaliserad form.
Menings- och ordgränser
Termextraheringstransformeringen separerar text i meningar med följande tecken som meningsgränser:
ASCII-radbrytningstecken 0x0d (vagnretur) och 0x0a (radmatning). Om du vill använda det här tecknet som en meningsgräns måste det finnas två eller flera radbrytningstecken i en rad.
Bindestreck (-). Om du vill använda det här tecknet som en meningsgräns kan varken tecknet till vänster eller till höger om bindestrecket vara en bokstav.
Understreck (_). Om du vill använda det här tecknet som en meningsgräns kan varken tecknet till vänster eller till höger om bindestrecket vara en bokstav.
Alla Unicode-tecken som är mindre än eller lika med 0x19, eller större än eller lika med 0x7b.
Kombinationer av tal, skiljetecken och alfabetiska tecken. Till exempel returnerar A23B#99 termen A23B.
Tecknen, %, @, &, $, #, *, :, ;, .,
, , ,, !, ?,, , +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", och '. Anmärkning
Förkortningar som innehåller en eller flera punkter (.) är inte uppdelade i flera meningar.
Termextraheringstransformeringen separerar sedan meningen i ord med hjälp av följande ordgränser:
Rymd
Tab
ASCII-0x0d (vagnretur)
ASCII-0x0a (radmatning)
Anmärkning
Om en apostrof finns i ett ord som är en sammandragning, till exempel vi är eller det är, bryts ordet vid apostrofen; annars trimmas bokstäverna som följer apostrofen. Till exempel delas we're upp i we och 're, och bicycle's är kapad till bicycle.
Konfiguration av termextraheringstransformeringen
Omvandlingen av textextrahering använder interna algoritmer och statistiska modeller för att generera dess resultat. Du kan behöva köra termextraheringstransformeringen flera gånger och undersöka resultaten för att konfigurera omvandlingen för att generera den typ av resultat som fungerar för din textutvinningslösning.
Termextraheringstransformeringen har en vanlig indata, en utdata och ett felutdata.
Du kan ange egenskaper via SSIS Designer eller programmatiskt.
Om du vill ha mer information om de egenskaper som du kan ange i dialogrutan Avancerad redigerare eller programmatiskt klickar du på något av följande avsnitt:
Mer information om hur du anger egenskaper finns i Ange egenskaper för en dataflödeskomponent.
Termextraherings- och transformationsredigeraren (fliken Termextrahering)
Använd fliken Termextrahering i dialogrutan Termextraheringsredigeraren för att ange en textkolumn som innehåller text som ska extraheras.
Options
Tillgängliga Indatakolumner
Med kryssrutorna markerar du en enda textkolumn som ska användas för termextrahering.
Term
Ange ett namn för den utdatakolumn som ska innehålla de extraherade termerna.
Tjog
Ange ett namn för den utdatakolumn som ska innehålla poängen för varje extraherad term.
Konfigurera felutdata
Använd dialogrutan Konfigurera felutdata för att ange felhantering för rader som orsakar fel.
Redigeraren för termextrahering och -transformering (Fliken för exkludering)
Använd fliken Exkludering i dialogrutan Redigerare för termextraheringstransformering för att konfigurera en anslutning till en undantagstabell och ange de kolumner som innehåller undantagsvillkor.
Options
Använda undantagsvillkor
Ange om specifika termer ska undantas under termextrahering genom att ange en kolumn som innehåller undantagsvillkor. Du måste ange följande källegenskaper om du väljer att exkludera termer.
OLE DB-anslutningshanteraren
Välj en befintlig OLE DB-anslutningshanterare eller skapa en ny anslutning genom att klicka på Ny.
New
Skapa en ny anslutning till en databas med hjälp av dialogrutan Konfigurera OLE DB Connection Manager .
Tabell eller vy
Välj den tabell eller vy som innehåller undantagsvillkoren.
Kolumn
Välj kolumnen i tabellen eller vyn som innehåller undantagsvillkoren.
Konfigurera felutdata
Använd dialogrutan Konfigurera felutdata för att ange felhantering för rader som orsakar fel.
Termextraheringsredigerare (flik: Avancerat)
Använd fliken Avancerat i dialogrutan Redigerare för termextraheringstransformering för att ange egenskaper för extrahering, till exempel frekvens, längd och om du vill extrahera ord eller fraser.
Options
Substantiv
Ange att omvandlingen endast extraherar enskilda substantiv.
Substantivfras
Ange att omvandlingen endast extraherar substantivfraser.
Substantiv och substantivfras
Ange att omvandlingen extraherar både substantiv och substantivfraser.
Frekvens
Ange att poängen är termens frekvens.
TFIDF
Ange att poängen är TFIDF-värdet för termen. TFIDF-poäng är produkten av Termfrekvens och Inverterad dokumentfrekvens, definierad som: TFIDF för en Term T = (T:s frekvens) * logg( (#rader i indata) / (#rader har T) )
Frekvenströskel
Ange hur många gånger ett ord eller en fras måste ske innan du extraherar det. Standardvärdet är 2.
Maximal längd på termen
Ange den maximala längden på en fras i ord. Det här alternativet påverkar endast substantivfraser. Standardvärdet är 12.
Använd skiftlägeskänslig termextrahering
Ange om extraheringen ska vara skiftlägeskänslig. Standardvärdet är False.
Konfigurera felutdata
Använd dialogrutan Konfigurera felutdata för att ange felhantering för rader som orsakar fel.
Se även
Fel- och meddelandereferens för Integration Services
Termsökningstransformering