Megosztás a következőn keresztül:


N-Gram-funkciók kinyerve a szövegösszetevő referenciájából

Ez a cikk az Azure Machine Learning-tervező egy összetevőjét ismerteti. Használja az N-Gram-szolgáltatások kinyerése a Szöveg összetevőből a strukturálatlan szöveges adatok featurizálásához .

Az N-Gram-szolgáltatások kinyerése szövegösszetevőből történő konfigurálása

Az összetevő az alábbi forgatókönyveket támogatja az n-gram szótárak használatához:

Új n-gram szótár létrehozása

  1. Adja hozzá az N-Gram-szolgáltatások kinyerése a szövegből összetevőt a folyamathoz, és csatlakoztassa a feldolgozni kívánt szöveget tartalmazó adatkészletet.

  2. A Szöveg oszlop használatával válasszon ki egy sztring típusú oszlopot, amely a kinyerni kívánt szöveget tartalmazza. Mivel az eredmények részletesek, egyszerre csak egyetlen oszlopot dolgozhat fel.

  3. Állítsa a Szókincs módotLétrehozás értékre, ezzel jelezve, hogy új n-gram funkciókat hoz létre.

  4. Állítsa be az N-Gramm méretet a kinyerni és tárolni kívánt n-gramm maximális méretének jelzéséhez.

    Ha például 3-at ad meg, az unigramok, a bigramok és a trigramok létrejönnek.

  5. A Weighting függvény meghatározza, hogyan kell létrehozni a dokumentum funkcióvektorát, és hogyan lehet szókincset kinyerni a dokumentumokból.

    • Bináris súly: Bináris jelenléti értéket rendel a kinyert n-grammhoz. Minden n-gram értéke 1, ha létezik a dokumentumban, és 0 egyéb esetben.

    • TF-súly: Kifejezés gyakorisági (TF) pontszámot rendel a kinyert n-grammhoz. Az egyes n-gramok értéke az előfordulás gyakorisága a dokumentumban.

    • IDF-súly: Inverz dokumentum gyakorisági (IDF) pontszámot rendel a kinyert n-grammhoz. Az egyes n-gramok értéke a korpusz méretének naplója, amely a teljes korpusz előfordulási gyakoriságával van elosztva.

      IDF = log of corpus_size / document_frequency

    • TF-IDF súlyozása: A kinyert n-grammhoz hozzárendel egy kifejezés gyakorisági/inverz dokumentumfrekvencia-pontszámot (TF/IDF). Minden n-gram értéke a TF-pontszám és az IDF-pontszám szorzata.

  6. A Minimális szóhossz beállításnál adja meg az n-grammban lévő szavakban használható betűk minimális számát.

  7. A Szavak maximális hossza beállításával megadhatja az n-gramban lévő szavakban használható betűk maximális számát.

    Alapértelmezés szerint szavanként vagy jogkivonatonként legfeljebb 25 karakter adható meg.

  8. A Minimális n-gram dokumentum abszolút gyakorisága beállításával megadhatja, hogy az n-gramok minimális előfordulásai szerepeljenek az n-gram szótárban.

    Ha például az alapértelmezett 5 értéket használja, minden n-gramnak legalább ötször meg kell jelennie a korpuszban, hogy szerepeljen az n-gram szótárban.

  9. Állítsa a Maximális n-gram dokumentumarányt az adott n-gramot tartalmazó sorok számának maximális arányára a teljes korpusz sorainak számával szemben.

    Az 1 arány például azt jelzi, hogy még akkor is, ha minden sorban egy adott n-gram szerepel, az n-gram hozzáadható az n-gram szótárhoz. Jellemzőbb, hogy egy minden sorban előforduló szó zajszónak minősül, és el lesz távolítva. A tartományfüggő zajszavak kiszűréséhez próbálja meg csökkenteni ezt az arányt.

    Fontos

    Az egyes szavak előfordulási gyakorisága nem egységes. Dokumentumonként változik. Ha például egy adott termékhez kapcsolódó ügyfelek megjegyzéseit elemzi, előfordulhat, hogy a termék neve nagyon gyakori és közel áll egy zajszóhoz, de más kontextusokban jelentős kifejezés.

  10. Válassza az N-gram jellemzővektorok normalizálása lehetőséget a funkcióvektorok normalizálásához. Ha ez a beállítás engedélyezve van, minden n-gram tulajdonságvektor az L2-normával van elosztva.

  11. Küldje el a folyamatot.

Meglévő n-gram szótár használata

  1. Adja hozzá az N-Gram-szolgáltatások kinyerése a szövegből összetevőt a folyamathoz, és csatlakoztassa a feldolgozni kívánt szöveget tartalmazó adatkészletet az Adathalmaz portjához.

  2. A Szöveg oszlop használatával jelölje ki azt a szövegoszlopot, amely a featurálni kívánt szöveget tartalmazza. Alapértelmezés szerint az összetevő a sztring típusú összes oszlopot kijelöli. A legjobb eredmény érdekében egyszerre egyetlen oszlopot kell feldolgozni.

  3. Adja hozzá a korábban létrehozott n-gram szótárat tartalmazó mentett adatkészletet, és csatlakoztassa az Input szókincsporthoz . Az N-Gram-szolgáltatások kinyerése a Text összetevőből felsőbb rétegbeli példány eredménykincs-kimenetét is csatlakoztathatja.

  4. A Szókincs mód beállításnál válassza a ReadOnly update (Olvasási frissítés ) lehetőséget a legördülő listából.

    A ReadOnly beállítás a bemeneti szókincs bemeneti korpuszát jelöli. Ahelyett, hogy az új szöveges adatkészletből (a bal oldali bemeneten) a kifejezésfrekvelyeket számítanák ki, a bemeneti szókincs n-gram súlyozása a következőképpen lesz alkalmazva.

    Tipp

    Ezt a lehetőséget szövegosztályozó pontozásakor használja.

  5. Az összes többi beállításért tekintse meg az előző szakaszban található tulajdonságleírásokat.

  6. Küldje el a folyamatot.

Következtetési folyamat létrehozása, amely n grammot használ egy valós idejű végpont üzembe helyezéséhez

Egy betanítási folyamat, amely az N-Gramm kinyerése funkciót tartalmazza szövegből és pontozási modellből a tesztadatkészlet előrejelzéséhez, a következő struktúrába épül:

N-Grammos betanítási folyamat kinyerése – példa

A körkörös N-Gramm kinyerése funkció Szövegből funkciószókincsmódja a Létrehozás, a Modell pontozása összetevőhöz csatlakozó összetevő Szókincs módja pedig ReadOnly.

A fenti betanítási folyamat sikeres elküldése után a bekarikázott összetevő kimenetét adatkészletként regisztrálhatja.

adathalmaz regisztrálása

Ezután létrehozhat valós idejű következtetési folyamatot. A következtetési folyamat létrehozása után manuálisan kell módosítania a következtetési folyamatot az alábbiakhoz hasonlóan:

következtetési folyamat

Ezután küldje el a következtetési folyamatot, és helyezzen üzembe egy valós idejű végpontot.

Results (Eredmények)

Az N-Gram-szolgáltatások kinyerése a Szöveg összetevőből kétféle kimenetet hoz létre:

  • Eredményadatkészlet: Ez a kimenet az elemzett szöveg és a kinyert n-gramm együttes összegzése. Azok az oszlopok, amelyeket nem választott ki a Szöveg oszlop beállításban, át lesznek adva a kimenetnek. Az összetevő minden elemzett szövegoszlophoz a következő oszlopokat hozza létre:

    • N-gram előfordulások mátrixa: Az összetevő létrehoz egy oszlopot az összes korpuszban található n-gramhoz, és minden oszlopban hozzáad egy pontszámot, amely az adott sor n-gramjának súlyát jelzi.
  • Eredménykincs: A szókincs tartalmazza a tényleges n-gram szótárat, valamint az elemzés részeként generált gyakorisági pontszámokat. Az adathalmazt mentheti más bemenetekkel való újrafelhasználás céljából, vagy egy későbbi frissítéshez. A szókészletet a modellezéshez és a pontozáshoz is felhasználhatja.

Találatok szókincse

A szókincs tartalmazza az n-gram szótárat az elemzés részeként létrehozott gyakorisági pontszámokkal. A DF- és az IDF-pontszámok a többi lehetőségtől függetlenül jönnek létre.

  • Azonosító: Minden egyedi n-gramhoz létrehozott azonosító.
  • NGram: Az n-gram. A szóközöket vagy más szóelválasztókat az aláhúzásjel váltja fel.
  • DF: Az eredeti korpusz n-gramjának kifejezésfrekvencia-pontszáma.
  • IDF: Az eredeti korpuszban lévő n-gram inverz dokumentumfrekvencia-pontszáma.

Ezt az adatkészletet manuálisan is frissítheti, de hibákat okozhat. Például:

  • Hiba keletkezik, ha az összetevő ismétlődő sorokat talál ugyanazzal a kulccsal a bemeneti szókincsben. Győződjön meg arról, hogy a szókészletben egyetlen sor sem rendelkezik ugyanazzal a szóval.
  • A szókészletek bemeneti sémájának pontosan meg kell egyeznie, beleértve az oszlopneveket és az oszloptípusokat is.
  • Az ID oszlopnak és a DF oszlopnak egész típusúnak kell lennie.
  • Az IDF oszlopnak lebegőpontos típusúnak kell lennie.

Megjegyzés

Ne csatlakoztassa az adatkimenetet közvetlenül a Modell betanítása összetevőhöz. A szabad szöveges oszlopokat el kell távolítania, mielőtt betáplálják őket a Betanított modellbe. Ellenkező esetben a szabad szöveges oszlopok kategorikus jellemzőkként lesznek kezelve.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .