N-Gram-funkciók kinyerve a szövegösszetevő referenciájából

Cikk
06/01/2023

Ez a cikk az Azure Machine Learning-tervező egy összetevőjét ismerteti. Használja az N-Gram-szolgáltatások kinyerése a Szöveg összetevőből a strukturálatlan szöveges adatok featurizálásához .

Az N-Gram-szolgáltatások kinyerése szövegösszetevőből történő konfigurálása

Az összetevő az alábbi forgatókönyveket támogatja az n-gram szótárak használatához:

Hozzon létre egy új n-gram szótárat egy szabad szövegből álló oszlopból.
Meglévő szövegfunkciók használatával featurizálhatja a szabad szöveges oszlopokat.
N grammot használó modell pontozása vagy üzembe helyezése.

Új n-gram szótár létrehozása

Adja hozzá az N-Gram-szolgáltatások kinyerése a szövegből összetevőt a folyamathoz, és csatlakoztassa a feldolgozni kívánt szöveget tartalmazó adatkészletet.
A Szöveg oszlop használatával válasszon ki egy sztring típusú oszlopot, amely a kinyerni kívánt szöveget tartalmazza. Mivel az eredmények részletesek, egyszerre csak egyetlen oszlopot dolgozhat fel.
Állítsa a Szókincs módotLétrehozás értékre, ezzel jelezve, hogy új n-gram funkciókat hoz létre.
Állítsa be az N-Gramm méretet a kinyerni és tárolni kívánt n-gramm maximális méretének jelzéséhez.

Ha például 3-at ad meg, az unigramok, a bigramok és a trigramok létrejönnek.
A Weighting függvény meghatározza, hogyan kell létrehozni a dokumentum funkcióvektorát, és hogyan lehet szókincset kinyerni a dokumentumokból.
- Bináris súly: Bináris jelenléti értéket rendel a kinyert n-grammhoz. Minden n-gram értéke 1, ha létezik a dokumentumban, és 0 egyéb esetben.
- TF-súly: Kifejezés gyakorisági (TF) pontszámot rendel a kinyert n-grammhoz. Az egyes n-gramok értéke az előfordulás gyakorisága a dokumentumban.
- IDF-súly: Inverz dokumentum gyakorisági (IDF) pontszámot rendel a kinyert n-grammhoz. Az egyes n-gramok értéke a korpusz méretének naplója, amely a teljes korpusz előfordulási gyakoriságával van elosztva.
  
  IDF = log of corpus_size / document_frequency
- TF-IDF súlyozása: A kinyert n-grammhoz hozzárendel egy kifejezés gyakorisági/inverz dokumentumfrekvencia-pontszámot (TF/IDF). Minden n-gram értéke a TF-pontszám és az IDF-pontszám szorzata.
A Minimális szóhossz beállításnál adja meg az n-grammban lévő szavakban használható betűk minimális számát.
A Szavak maximális hossza beállításával megadhatja az n-gramban lévő szavakban használható betűk maximális számát.

Alapértelmezés szerint szavanként vagy jogkivonatonként legfeljebb 25 karakter adható meg.
A Minimális n-gram dokumentum abszolút gyakorisága beállításával megadhatja, hogy az n-gramok minimális előfordulásai szerepeljenek az n-gram szótárban.

Ha például az alapértelmezett 5 értéket használja, minden n-gramnak legalább ötször meg kell jelennie a korpuszban, hogy szerepeljen az n-gram szótárban.
Állítsa a Maximális n-gram dokumentumarányt az adott n-gramot tartalmazó sorok számának maximális arányára a teljes korpusz sorainak számával szemben.

Az 1 arány például azt jelzi, hogy még akkor is, ha minden sorban egy adott n-gram szerepel, az n-gram hozzáadható az n-gram szótárhoz. Jellemzőbb, hogy egy minden sorban előforduló szó zajszónak minősül, és el lesz távolítva. A tartományfüggő zajszavak kiszűréséhez próbálja meg csökkenteni ezt az arányt.

Fontos

Az egyes szavak előfordulási gyakorisága nem egységes. Dokumentumonként változik. Ha például egy adott termékhez kapcsolódó ügyfelek megjegyzéseit elemzi, előfordulhat, hogy a termék neve nagyon gyakori és közel áll egy zajszóhoz, de más kontextusokban jelentős kifejezés.
Válassza az N-gram jellemzővektorok normalizálása lehetőséget a funkcióvektorok normalizálásához. Ha ez a beállítás engedélyezve van, minden n-gram tulajdonságvektor az L2-normával van elosztva.
Küldje el a folyamatot.

Meglévő n-gram szótár használata

Adja hozzá az N-Gram-szolgáltatások kinyerése a szövegből összetevőt a folyamathoz, és csatlakoztassa a feldolgozni kívánt szöveget tartalmazó adatkészletet az Adathalmaz portjához.
A Szöveg oszlop használatával jelölje ki azt a szövegoszlopot, amely a featurálni kívánt szöveget tartalmazza. Alapértelmezés szerint az összetevő a sztring típusú összes oszlopot kijelöli. A legjobb eredmény érdekében egyszerre egyetlen oszlopot kell feldolgozni.
Adja hozzá a korábban létrehozott n-gram szótárat tartalmazó mentett adatkészletet, és csatlakoztassa az Input szókincsporthoz . Az N-Gram-szolgáltatások kinyerése a Text összetevőből felsőbb rétegbeli példány eredménykincs-kimenetét is csatlakoztathatja.
A Szókincs mód beállításnál válassza a ReadOnly update (Olvasási frissítés ) lehetőséget a legördülő listából.

A ReadOnly beállítás a bemeneti szókincs bemeneti korpuszát jelöli. Ahelyett, hogy az új szöveges adatkészletből (a bal oldali bemeneten) a kifejezésfrekvelyeket számítanák ki, a bemeneti szókincs n-gram súlyozása a következőképpen lesz alkalmazva.

Tipp

Ezt a lehetőséget szövegosztályozó pontozásakor használja.
Az összes többi beállításért tekintse meg az előző szakaszban található tulajdonságleírásokat.
Küldje el a folyamatot.

Következtetési folyamat létrehozása, amely n grammot használ egy valós idejű végpont üzembe helyezéséhez

Egy betanítási folyamat, amely az N-Gramm kinyerése funkciót tartalmazza szövegből és pontozási modellből a tesztadatkészlet előrejelzéséhez, a következő struktúrába épül:

N-Grammos betanítási folyamat kinyerése – példa

A körkörös N-Gramm kinyerése funkció Szövegből funkciószókincsmódja a Létrehozás, a Modell pontozása összetevőhöz csatlakozó összetevő Szókincs módja pedig ReadOnly.

A fenti betanítási folyamat sikeres elküldése után a bekarikázott összetevő kimenetét adatkészletként regisztrálhatja.

adathalmaz regisztrálása

Ezután létrehozhat valós idejű következtetési folyamatot. A következtetési folyamat létrehozása után manuálisan kell módosítania a következtetési folyamatot az alábbiakhoz hasonlóan:

következtetési folyamat

Ezután küldje el a következtetési folyamatot, és helyezzen üzembe egy valós idejű végpontot.

Results (Eredmények)

Az N-Gram-szolgáltatások kinyerése a Szöveg összetevőből kétféle kimenetet hoz létre:

Eredményadatkészlet: Ez a kimenet az elemzett szöveg és a kinyert n-gramm együttes összegzése. Azok az oszlopok, amelyeket nem választott ki a Szöveg oszlop beállításban, át lesznek adva a kimenetnek. Az összetevő minden elemzett szövegoszlophoz a következő oszlopokat hozza létre:
- N-gram előfordulások mátrixa: Az összetevő létrehoz egy oszlopot az összes korpuszban található n-gramhoz, és minden oszlopban hozzáad egy pontszámot, amely az adott sor n-gramjának súlyát jelzi.
Eredménykincs: A szókincs tartalmazza a tényleges n-gram szótárat, valamint az elemzés részeként generált gyakorisági pontszámokat. Az adathalmazt mentheti más bemenetekkel való újrafelhasználás céljából, vagy egy későbbi frissítéshez. A szókészletet a modellezéshez és a pontozáshoz is felhasználhatja.

Találatok szókincse

A szókincs tartalmazza az n-gram szótárat az elemzés részeként létrehozott gyakorisági pontszámokkal. A DF- és az IDF-pontszámok a többi lehetőségtől függetlenül jönnek létre.

Azonosító: Minden egyedi n-gramhoz létrehozott azonosító.
NGram: Az n-gram. A szóközöket vagy más szóelválasztókat az aláhúzásjel váltja fel.
DF: Az eredeti korpusz n-gramjának kifejezésfrekvencia-pontszáma.
IDF: Az eredeti korpuszban lévő n-gram inverz dokumentumfrekvencia-pontszáma.

Ezt az adatkészletet manuálisan is frissítheti, de hibákat okozhat. Például:

Hiba keletkezik, ha az összetevő ismétlődő sorokat talál ugyanazzal a kulccsal a bemeneti szókincsben. Győződjön meg arról, hogy a szókészletben egyetlen sor sem rendelkezik ugyanazzal a szóval.
A szókészletek bemeneti sémájának pontosan meg kell egyeznie, beleértve az oszlopneveket és az oszloptípusokat is.
Az ID oszlopnak és a DF oszlopnak egész típusúnak kell lennie.
Az IDF oszlopnak lebegőpontos típusúnak kell lennie.

Megjegyzés

Ne csatlakoztassa az adatkimenetet közvetlenül a Modell betanítása összetevőhöz. A szabad szöveges oszlopokat el kell távolítania, mielőtt betáplálják őket a Betanított modellbe. Ellenkező esetben a szabad szöveges oszlopok kategorikus jellemzőkként lesznek kezelve.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .

Megosztás a következőn keresztül: