Szolgáltatáskivonat-összetevő referenciája

Cikk
11/08/2024

Figyelmeztetés

Ez az összetevő elavult , mert függősége, a NimbusML-projekt már nem tart fenn aktívan. Ennek eredményeképpen ez az összetevő nem kapja meg a jövőbeli frissítéseket vagy biztonsági javításokat. Azt tervezzük, hogy eltávolítjuk ezt az összetevőt a következő kiadásokban. Javasoljuk, hogy a folyamatos támogatás és a biztonság biztosítása érdekében a felhasználókat alternatív megoldásokra migrálják.

Ez a cikk az Azure Machine Learning Designer egyik összetevőjét ismerteti.

A Szolgáltatáskivonat-összetevővel angol nyelvű szövegfolyamot alakíthat át egész számokból álló funkciók készletévé. Ezután átadhatja ezt a kivonatolt funkciót egy gépi tanulási algoritmusnak egy szövegelemzési modell betanítása érdekében.

Az ebben az összetevőben biztosított funkciókivonatolási funkció a nimbusml-keretrendszeren alapul. További információ: NgramHash osztály.

Mi a funkciókivonatolás?

A funkciók kivonatolása úgy működik, hogy egyedi jogkivonatokat konvertál egész számokká. Pontosan a bemenetként megadott sztringeken működik, és nem végez nyelvi elemzést vagy előfeldolgozást.

Vegyük például az alábbihoz hasonló egyszerű mondatokat, majd egy hangulatpontot. Tegyük fel, hogy ezt a szöveget szeretné használni egy modell létrehozásához.

Felhasználói szöveg	Hangulat
Imádtam ezt a könyvet	3
Utáltam ezt a könyvet	0
Ez a könyv nagyszerű volt	3
Szeretem a könyveket	2

A funkciókivonat-összetevő belsőleg létrehoz egy n grammból álló szótárat. Az adatkészlethez tartozó bigramok listája például a következőhöz hasonló:

Kifejezés (bigramok)	Gyakoriság
Ez a könyv	3
Szerettem	0
Utáltam	0
Szeretem	0

Az n-gramm méretét az N-gramm tulajdonság használatával szabályozhatja. Ha bigramot választ, az unigramok is ki lesznek számítva. A szótár az alábbihoz hasonló egyetlen kifejezéseket is tartalmaz:

Kifejezés (unigram)	Gyakoriság
könyv	3
d	3
Könyvek	0
Volt	0

A szótár létrehozása után a funkciókivonat-összetevő kivonatértékekké alakítja a szótárkifejezéseket. Ezután kiszámítja, hogy minden esetben használták-e a funkciót. Minden egyes szöveges adatsor esetében az összetevő egy oszlopkészletet, egy oszlopot ad ki minden egyes kivonatolt funkcióhoz.

A kivonatolás után például a funkcióoszlopok a következőképpen nézhetnek ki:

Minősítés	Kivonatolási funkció 1	Kivonatolási funkció 2	Kivonatolási funkció 3
4	0	0	0
5	0	0	0

Ha az oszlop értéke 0, a sor nem tartalmazza a kivonatolási funkciót.
Ha az érték 1, a sor tartalmazza a funkciót.

A funkciókivonatokkal a változó hosszúságú szöveges dokumentumokat azonos hosszúságú numerikus funkcióvektorokként jelölheti a dimenzió csökkentése érdekében. Ha a szövegoszlopot a betanításhoz próbálta használni, akkor a rendszer kategorikus funkcióoszlopként kezeli, amely számos különböző értéket tartalmaz.

A numerikus kimenetek lehetővé teszik a gyakori gépi tanulási módszerek használatát is, beleértve a besorolást, a fürtözést és az információlekérést. Mivel a keresési műveletek sztring-összehasonlítások helyett egész számkivonatokat használhatnak, a funkció súlyozása is sokkal gyorsabb.

A szolgáltatáskivonat-összetevő konfigurálása

Adja hozzá a szolgáltatáskivonat-összetevőt a folyamathoz a tervezőben.
Csatlakoztassa az elemezni kívánt szöveget tartalmazó adatkészletet.

Tipp.

Mivel a funkciók kivonatolása nem végez olyan lexikális műveleteket, mint például a lefutás vagy a csonkolás, néha jobb eredményeket érhet el a szöveg előfeldolgozásával a funkciókivonat alkalmazása előtt.
Állítsa a Céloszlopokat a kivonatolt funkciókká konvertálni kívánt szöveges oszlopokra. Tartsa szem előtt a következőket:
- Az oszlopoknak a sztring adattípusának kell lenniük.
- Több szövegoszlop kiválasztása jelentős hatással lehet a funkciódimenzióra. A 10 bites kivonatok oszlopainak száma például egy oszlop esetében 1024-ről 2048-ra csökken két oszlop esetében.
Hashing bitsize használatával adja meg a kivonattábla létrehozásakor használni kívánt bitek számát.

Az alapértelmezett bitméret 10. Sok probléma esetén ez az érték megfelelő. Az ütközések elkerülése érdekében több helyre lehet szükség az n gramm szókészlet méretétől függően a betanítási szövegben.
N-gramm esetén adjon meg egy számot, amely meghatározza a betanítási szótárhoz hozzáadni kívánt n-gramm maximális hosszát. Az n-gram egy n szósorozat, amelyet egyedi egységként kezelnek.

Ha például 3 értéket ad meg, az unigramok, a bigramok és a trigramok létrejönnek.
Küldje el a folyamatot.

Results (Eredmények)

A feldolgozás befejezése után az összetevő egy átalakított adatkészletet ad ki, amelyben az eredeti szövegoszlop több oszlopmá lett konvertálva. Minden oszlop egy funkciót jelöl a szövegben. A szótár jelentősségétől függően az eredményként kapott adathalmaz nagy lehet:

Oszlop neve 1	2. oszloptípus
USERTEXT	Eredeti adatoszlop
HANGULAT	Eredeti adatoszlop
USERTEXT – Kivonatolási funkció 1	Kivonatolt funkció oszlop
USERTEXT – Kivonatolási funkció 2	Kivonatolt funkció oszlop
USERTEXT – Kivonatolási funkció n	Kivonatolt funkció oszlop
USERTEXT – Kivonatolási funkció 1024	Kivonatolt funkció oszlop

Az átalakított adatkészlet létrehozása után használhatja azt a Modell betanítása összetevő bemeneteként.

Ajánlott eljárások

Az alábbi ajánlott eljárások segítségével a lehető legtöbbet hozhatja ki a szolgáltatáskivonat-összetevőből:

Adjon hozzá egy előfeldolgozási szöveg összetevőt, mielőtt a funkciókivonatolást használva előfeldolgozást használ a bemeneti szöveghez.
Adja hozzá az Oszlopok kijelölése összetevőt a Funkciókivonat-összetevő után, hogy eltávolítsa a szöveges oszlopokat a kimeneti adathalmazból. A kivonatolási funkciók létrehozása után nincs szükség a szöveges oszlopokra.
Fontolja meg ezeket a szövegelőfeldolgozási beállításokat az eredmények egyszerűsítése és a pontosság javítása érdekében:
- Szóhatárolás
- Szóeltávolítás leállítása
- Kis- és nagybetűk normalizálása
- Írásjelek és speciális karakterek eltávolítása
- Szárítás

A megoldásokban alkalmazható előfeldolgozási módszerek optimális készlete a tartománytól, a szókincstől és az üzleti igénytől függ. folyamat az adatokkal annak megtekintéséhez, hogy mely szövegfeldolgozási módszerek a leghatékonyabbak.

Következő lépések

Az Azure Machine Learningben elérhető összetevők megtekintése

Megosztás a következőn keresztül: