Szolgáltatáskivonat-összetevő referenciája
Figyelmeztetés
Ez az összetevő elavult , mert függősége, a NimbusML-projekt már nem tart fenn aktívan. Ennek eredményeképpen ez az összetevő nem kapja meg a jövőbeli frissítéseket vagy biztonsági javításokat. Azt tervezzük, hogy eltávolítjuk ezt az összetevőt a következő kiadásokban. Javasoljuk, hogy a folyamatos támogatás és a biztonság biztosítása érdekében a felhasználókat alternatív megoldásokra migrálják.
Ez a cikk az Azure Machine Learning Designer egyik összetevőjét ismerteti.
A Szolgáltatáskivonat-összetevővel angol nyelvű szövegfolyamot alakíthat át egész számokból álló funkciók készletévé. Ezután átadhatja ezt a kivonatolt funkciót egy gépi tanulási algoritmusnak egy szövegelemzési modell betanítása érdekében.
Az ebben az összetevőben biztosított funkciókivonatolási funkció a nimbusml-keretrendszeren alapul. További információ: NgramHash osztály.
Mi a funkciókivonatolás?
A funkciók kivonatolása úgy működik, hogy egyedi jogkivonatokat konvertál egész számokká. Pontosan a bemenetként megadott sztringeken működik, és nem végez nyelvi elemzést vagy előfeldolgozást.
Vegyük például az alábbihoz hasonló egyszerű mondatokat, majd egy hangulatpontot. Tegyük fel, hogy ezt a szöveget szeretné használni egy modell létrehozásához.
Felhasználói szöveg | Hangulat |
---|---|
Imádtam ezt a könyvet | 3 |
Utáltam ezt a könyvet | 0 |
Ez a könyv nagyszerű volt | 3 |
Szeretem a könyveket | 2 |
A funkciókivonat-összetevő belsőleg létrehoz egy n grammból álló szótárat. Az adatkészlethez tartozó bigramok listája például a következőhöz hasonló:
Kifejezés (bigramok) | Gyakoriság |
---|---|
Ez a könyv | 3 |
Szerettem | 0 |
Utáltam | 0 |
Szeretem | 0 |
Az n-gramm méretét az N-gramm tulajdonság használatával szabályozhatja. Ha bigramot választ, az unigramok is ki lesznek számítva. A szótár az alábbihoz hasonló egyetlen kifejezéseket is tartalmaz:
Kifejezés (unigram) | Gyakoriság |
---|---|
könyv | 3 |
d | 3 |
Könyvek | 0 |
Volt | 0 |
A szótár létrehozása után a funkciókivonat-összetevő kivonatértékekké alakítja a szótárkifejezéseket. Ezután kiszámítja, hogy minden esetben használták-e a funkciót. Minden egyes szöveges adatsor esetében az összetevő egy oszlopkészletet, egy oszlopot ad ki minden egyes kivonatolt funkcióhoz.
A kivonatolás után például a funkcióoszlopok a következőképpen nézhetnek ki:
Minősítés | Kivonatolási funkció 1 | Kivonatolási funkció 2 | Kivonatolási funkció 3 |
---|---|---|---|
4 | 0 | 0 | 0 |
5 | 0 | 0 | 0 |
- Ha az oszlop értéke 0, a sor nem tartalmazza a kivonatolási funkciót.
- Ha az érték 1, a sor tartalmazza a funkciót.
A funkciókivonatokkal a változó hosszúságú szöveges dokumentumokat azonos hosszúságú numerikus funkcióvektorokként jelölheti a dimenzió csökkentése érdekében. Ha a szövegoszlopot a betanításhoz próbálta használni, akkor a rendszer kategorikus funkcióoszlopként kezeli, amely számos különböző értéket tartalmaz.
A numerikus kimenetek lehetővé teszik a gyakori gépi tanulási módszerek használatát is, beleértve a besorolást, a fürtözést és az információlekérést. Mivel a keresési műveletek sztring-összehasonlítások helyett egész számkivonatokat használhatnak, a funkció súlyozása is sokkal gyorsabb.
A szolgáltatáskivonat-összetevő konfigurálása
Adja hozzá a szolgáltatáskivonat-összetevőt a folyamathoz a tervezőben.
Csatlakoztassa az elemezni kívánt szöveget tartalmazó adatkészletet.
Tipp.
Mivel a funkciók kivonatolása nem végez olyan lexikális műveleteket, mint például a lefutás vagy a csonkolás, néha jobb eredményeket érhet el a szöveg előfeldolgozásával a funkciókivonat alkalmazása előtt.
Állítsa a Céloszlopokat a kivonatolt funkciókká konvertálni kívánt szöveges oszlopokra. Tartsa szem előtt a következőket:
Az oszlopoknak a sztring adattípusának kell lenniük.
Több szövegoszlop kiválasztása jelentős hatással lehet a funkciódimenzióra. A 10 bites kivonatok oszlopainak száma például egy oszlop esetében 1024-ről 2048-ra csökken két oszlop esetében.
Hashing bitsize használatával adja meg a kivonattábla létrehozásakor használni kívánt bitek számát.
Az alapértelmezett bitméret 10. Sok probléma esetén ez az érték megfelelő. Az ütközések elkerülése érdekében több helyre lehet szükség az n gramm szókészlet méretétől függően a betanítási szövegben.
N-gramm esetén adjon meg egy számot, amely meghatározza a betanítási szótárhoz hozzáadni kívánt n-gramm maximális hosszát. Az n-gram egy n szósorozat, amelyet egyedi egységként kezelnek.
Ha például 3 értéket ad meg, az unigramok, a bigramok és a trigramok létrejönnek.
Küldje el a folyamatot.
Results (Eredmények)
A feldolgozás befejezése után az összetevő egy átalakított adatkészletet ad ki, amelyben az eredeti szövegoszlop több oszlopmá lett konvertálva. Minden oszlop egy funkciót jelöl a szövegben. A szótár jelentősségétől függően az eredményként kapott adathalmaz nagy lehet:
Oszlop neve 1 | 2. oszloptípus |
---|---|
USERTEXT | Eredeti adatoszlop |
HANGULAT | Eredeti adatoszlop |
USERTEXT – Kivonatolási funkció 1 | Kivonatolt funkció oszlop |
USERTEXT – Kivonatolási funkció 2 | Kivonatolt funkció oszlop |
USERTEXT – Kivonatolási funkció n | Kivonatolt funkció oszlop |
USERTEXT – Kivonatolási funkció 1024 | Kivonatolt funkció oszlop |
Az átalakított adatkészlet létrehozása után használhatja azt a Modell betanítása összetevő bemeneteként.
Ajánlott eljárások
Az alábbi ajánlott eljárások segítségével a lehető legtöbbet hozhatja ki a szolgáltatáskivonat-összetevőből:
Adjon hozzá egy előfeldolgozási szöveg összetevőt, mielőtt a funkciókivonatolást használva előfeldolgozást használ a bemeneti szöveghez.
Adja hozzá az Oszlopok kijelölése összetevőt a Funkciókivonat-összetevő után, hogy eltávolítsa a szöveges oszlopokat a kimeneti adathalmazból. A kivonatolási funkciók létrehozása után nincs szükség a szöveges oszlopokra.
Fontolja meg ezeket a szövegelőfeldolgozási beállításokat az eredmények egyszerűsítése és a pontosság javítása érdekében:
- Szóhatárolás
- Szóeltávolítás leállítása
- Kis- és nagybetűk normalizálása
- Írásjelek és speciális karakterek eltávolítása
- Szárítás
A megoldásokban alkalmazható előfeldolgozási módszerek optimális készlete a tartománytól, a szókincstől és az üzleti igénytől függ. folyamat az adatokkal annak megtekintéséhez, hogy mely szövegfeldolgozási módszerek a leghatékonyabbak.
Következő lépések
Az Azure Machine Learningben elérhető összetevők megtekintése