N-Gram-funkciók kinyerve a szövegösszetevő referenciájából
Ez a cikk az Azure Machine Learning-tervező egy összetevőjét ismerteti. Használja az N-Gram-szolgáltatások kinyerése a Szöveg összetevőből a strukturálatlan szöveges adatok featurizálásához .
Az N-Gram-szolgáltatások kinyerése szövegösszetevőből történő konfigurálása
Az összetevő az alábbi forgatókönyveket támogatja az n-gram szótárak használatához:
Hozzon létre egy új n-gram szótárat egy szabad szövegből álló oszlopból.
Meglévő szövegfunkciók használatával featurizálhatja a szabad szöveges oszlopokat.
N grammot használó modell pontozása vagy üzembe helyezése.
Új n-gram szótár létrehozása
Adja hozzá az N-Gram-szolgáltatások kinyerése a szövegből összetevőt a folyamathoz, és csatlakoztassa a feldolgozni kívánt szöveget tartalmazó adatkészletet.
A Szöveg oszlop használatával válasszon ki egy sztring típusú oszlopot, amely a kinyerni kívánt szöveget tartalmazza. Mivel az eredmények részletesek, egyszerre csak egyetlen oszlopot dolgozhat fel.
Állítsa a Szókincs módotLétrehozás értékre, ezzel jelezve, hogy új n-gram funkciókat hoz létre.
Állítsa be az N-Gramm méretet a kinyerni és tárolni kívánt n-gramm maximális méretének jelzéséhez.
Ha például 3-at ad meg, az unigramok, a bigramok és a trigramok létrejönnek.
A Weighting függvény meghatározza, hogyan kell létrehozni a dokumentum funkcióvektorát, és hogyan lehet szókincset kinyerni a dokumentumokból.
Bináris súly: Bináris jelenléti értéket rendel a kinyert n-grammhoz. Minden n-gram értéke 1, ha létezik a dokumentumban, és 0 egyéb esetben.
TF-súly: Kifejezés gyakorisági (TF) pontszámot rendel a kinyert n-grammhoz. Az egyes n-gramok értéke az előfordulás gyakorisága a dokumentumban.
IDF-súly: Inverz dokumentum gyakorisági (IDF) pontszámot rendel a kinyert n-grammhoz. Az egyes n-gramok értéke a korpusz méretének naplója, amely a teljes korpusz előfordulási gyakoriságával van elosztva.
IDF = log of corpus_size / document_frequency
TF-IDF súlyozása: A kinyert n-grammhoz hozzárendel egy kifejezés gyakorisági/inverz dokumentumfrekvencia-pontszámot (TF/IDF). Minden n-gram értéke a TF-pontszám és az IDF-pontszám szorzata.
A Minimális szóhossz beállításnál adja meg az n-grammban lévő szavakban használható betűk minimális számát.
A Szavak maximális hossza beállításával megadhatja az n-gramban lévő szavakban használható betűk maximális számát.
Alapértelmezés szerint szavanként vagy jogkivonatonként legfeljebb 25 karakter adható meg.
A Minimális n-gram dokumentum abszolút gyakorisága beállításával megadhatja, hogy az n-gramok minimális előfordulásai szerepeljenek az n-gram szótárban.
Ha például az alapértelmezett 5 értéket használja, minden n-gramnak legalább ötször meg kell jelennie a korpuszban, hogy szerepeljen az n-gram szótárban.
Állítsa a Maximális n-gram dokumentumarányt az adott n-gramot tartalmazó sorok számának maximális arányára a teljes korpusz sorainak számával szemben.
Az 1 arány például azt jelzi, hogy még akkor is, ha minden sorban egy adott n-gram szerepel, az n-gram hozzáadható az n-gram szótárhoz. Jellemzőbb, hogy egy minden sorban előforduló szó zajszónak minősül, és el lesz távolítva. A tartományfüggő zajszavak kiszűréséhez próbálja meg csökkenteni ezt az arányt.
Fontos
Az egyes szavak előfordulási gyakorisága nem egységes. Dokumentumonként változik. Ha például egy adott termékhez kapcsolódó ügyfelek megjegyzéseit elemzi, előfordulhat, hogy a termék neve nagyon gyakori és közel áll egy zajszóhoz, de más kontextusokban jelentős kifejezés.
Válassza az N-gram jellemzővektorok normalizálása lehetőséget a funkcióvektorok normalizálásához. Ha ez a beállítás engedélyezve van, minden n-gram tulajdonságvektor az L2-normával van elosztva.
Küldje el a folyamatot.
Meglévő n-gram szótár használata
Adja hozzá az N-Gram-szolgáltatások kinyerése a szövegből összetevőt a folyamathoz, és csatlakoztassa a feldolgozni kívánt szöveget tartalmazó adatkészletet az Adathalmaz portjához.
A Szöveg oszlop használatával jelölje ki azt a szövegoszlopot, amely a featurálni kívánt szöveget tartalmazza. Alapértelmezés szerint az összetevő a sztring típusú összes oszlopot kijelöli. A legjobb eredmény érdekében egyszerre egyetlen oszlopot kell feldolgozni.
Adja hozzá a korábban létrehozott n-gram szótárat tartalmazó mentett adatkészletet, és csatlakoztassa az Input szókincsporthoz . Az N-Gram-szolgáltatások kinyerése a Text összetevőből felsőbb rétegbeli példány eredménykincs-kimenetét is csatlakoztathatja.
A Szókincs mód beállításnál válassza a ReadOnly update (Olvasási frissítés ) lehetőséget a legördülő listából.
A ReadOnly beállítás a bemeneti szókincs bemeneti korpuszát jelöli. Ahelyett, hogy az új szöveges adatkészletből (a bal oldali bemeneten) a kifejezésfrekvelyeket számítanák ki, a bemeneti szókincs n-gram súlyozása a következőképpen lesz alkalmazva.
Tipp
Ezt a lehetőséget szövegosztályozó pontozásakor használja.
Az összes többi beállításért tekintse meg az előző szakaszban található tulajdonságleírásokat.
Küldje el a folyamatot.
Következtetési folyamat létrehozása, amely n grammot használ egy valós idejű végpont üzembe helyezéséhez
Egy betanítási folyamat, amely az N-Gramm kinyerése funkciót tartalmazza szövegből és pontozási modellből a tesztadatkészlet előrejelzéséhez, a következő struktúrába épül:
A körkörös N-Gramm kinyerése funkció Szövegből funkciószókincsmódja a Létrehozás, a Modell pontozása összetevőhöz csatlakozó összetevő Szókincs módja pedig ReadOnly.
A fenti betanítási folyamat sikeres elküldése után a bekarikázott összetevő kimenetét adatkészletként regisztrálhatja.
Ezután létrehozhat valós idejű következtetési folyamatot. A következtetési folyamat létrehozása után manuálisan kell módosítania a következtetési folyamatot az alábbiakhoz hasonlóan:
Ezután küldje el a következtetési folyamatot, és helyezzen üzembe egy valós idejű végpontot.
Results (Eredmények)
Az N-Gram-szolgáltatások kinyerése a Szöveg összetevőből kétféle kimenetet hoz létre:
Eredményadatkészlet: Ez a kimenet az elemzett szöveg és a kinyert n-gramm együttes összegzése. Azok az oszlopok, amelyeket nem választott ki a Szöveg oszlop beállításban, át lesznek adva a kimenetnek. Az összetevő minden elemzett szövegoszlophoz a következő oszlopokat hozza létre:
- N-gram előfordulások mátrixa: Az összetevő létrehoz egy oszlopot az összes korpuszban található n-gramhoz, és minden oszlopban hozzáad egy pontszámot, amely az adott sor n-gramjának súlyát jelzi.
Eredménykincs: A szókincs tartalmazza a tényleges n-gram szótárat, valamint az elemzés részeként generált gyakorisági pontszámokat. Az adathalmazt mentheti más bemenetekkel való újrafelhasználás céljából, vagy egy későbbi frissítéshez. A szókészletet a modellezéshez és a pontozáshoz is felhasználhatja.
Találatok szókincse
A szókincs tartalmazza az n-gram szótárat az elemzés részeként létrehozott gyakorisági pontszámokkal. A DF- és az IDF-pontszámok a többi lehetőségtől függetlenül jönnek létre.
- Azonosító: Minden egyedi n-gramhoz létrehozott azonosító.
- NGram: Az n-gram. A szóközöket vagy más szóelválasztókat az aláhúzásjel váltja fel.
- DF: Az eredeti korpusz n-gramjának kifejezésfrekvencia-pontszáma.
- IDF: Az eredeti korpuszban lévő n-gram inverz dokumentumfrekvencia-pontszáma.
Ezt az adatkészletet manuálisan is frissítheti, de hibákat okozhat. Például:
- Hiba keletkezik, ha az összetevő ismétlődő sorokat talál ugyanazzal a kulccsal a bemeneti szókincsben. Győződjön meg arról, hogy a szókészletben egyetlen sor sem rendelkezik ugyanazzal a szóval.
- A szókészletek bemeneti sémájának pontosan meg kell egyeznie, beleértve az oszlopneveket és az oszloptípusokat is.
- Az ID oszlopnak és a DF oszlopnak egész típusúnak kell lennie.
- Az IDF oszlopnak lebegőpontos típusúnak kell lennie.
Megjegyzés
Ne csatlakoztassa az adatkimenetet közvetlenül a Modell betanítása összetevőhöz. A szabad szöveges oszlopokat el kell távolítania, mielőtt betáplálják őket a Betanított modellbe. Ellenkező esetben a szabad szöveges oszlopok kategorikus jellemzőkként lesznek kezelve.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket .
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: