Rejtett Dirichlet-lefoglalás
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
A Vowpal Wabbit kódtár használata a VW LDA végrehajtásához
Kategória: Text Analytics
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a rejtett Di automatikus lefoglalási modul a Machine Learning Studióban az egyébként nem besorolt szövegek különböző kategóriákba való csoportosítására. A látens Di abban az esetben, ha a nyelvfeldolgozás (NLP) hasonló szövegeket keres, gyakran használják a rejtett Di automatikus kiosztást (LDA). Egy másik gyakori fogalom a témakörmodellezés.
Ez a modul egy szövegoszlopot vesz fel, és a következő kimeneteket hozza létre:
A forrásszöveg és az egyes kategóriák pontszáma
Egy funkciómátrix, amely kinyert kifejezéseket és együtthatókat tartalmaz az egyes kategóriákhoz
Átalakítás, amelyet menthet, majd újra felhasználhatja a bemenetként használt új szövegre
Mivel ez a modul a Vowpal Wabbit kódtárat használja, nagyon gyors. A Vowpal Wabbitről további információt a GitHub oktatóanyagokat és az algoritmus magyarázatát tartalmazó adattárban található.
További információ a rejtett di kulcslefoglalásról (LDA)
Általánosságban elmondható, hogy az LDA önmagában nem a besorolás módszere, hanem generáló megközelítést alkalmaz. Ez azt jelenti, hogy nem kell ismert osztálycímkéket szolgáltatni, majd kiveszni a mintákat. Ehelyett az algoritmus egy valószínűségi modellt hoz létre, amely a témakörök csoportjainak azonosítására használható. A valószínűségi modellel besorolhatja a meglévő betanításos eseteket, vagy a modellnek bemenetként megadott új eseteket.
A generáló modell azért lehet előnyösebb, mert nem ad erős feltételezéseket a szöveg és a kategóriák közötti kapcsolatról, és csak a szavak eloszlását használja a témakörök matematikai modellezése érdekében.
Az elméletről ebben a dokumentumban lesz szó, amely PDF-letöltésként érhető el: Rejtett Di automatikusan lefoglalás: Blei, Ng és Automatikusan
A modul implementációja az LDA Vowpal Wabbit kódtárán (8-as verzió) alapul.
További információért tekintse meg a Műszaki megjegyzések szakaszt.
Rejtett diletlefoglalás konfigurálása
Ehhez a modulhoz egy nyers vagy előfeldolgozott szövegoszlopot tartalmazó adatkészletre van szükség.
Adja hozzá a rejtett Di automatikus kiosztási modult a kísérlethez.
A modul bemeneteként adjon meg egy adatkészletet, amely egy vagy több szöveges oszlopot tartalmaz.
A Céloszlopok mezőben válasszon ki egy vagy több olyan oszlopot, amely szöveget tartalmaz elemezni.
Több oszlopot is kiválaszthat, de a sztring adattípusának kell lennie.
Általánosságban elmondható, hogy mivel az LDA egy nagy funkciómátrixot hoz létre a szövegből, általában egyetlen szöveges oszlopot fog elemezni.
A Modellező témakörök száma mezőbe írjon be egy 1 és 1000 közötti egész számot, amely azt jelzi, hogy hány kategóriát vagy témakört szeretne származtatni a bemeneti szövegből.
Alapértelmezés szerint 5 témakör jön létre.
Az N-gramok beállításnál adja meg a kivonatolás során létrehozott N-gramm maximális hosszát.
Az alapértelmezett érték 2, ami azt jelenti, hogy a bigramok és az unigramok is létrejönnek.
Válassza a Normalize (Normalizálás ) lehetőséget a kimeneti értékek valószínűségekké konvertálásához. Ezért ahelyett, hogy az átalakított értékeket egész számként ábrázolná, a kimeneti és a jellemzőadatkészlet értékei a következőképpen alakulnak át:
Az adatkészlet értékei annak valószínűségét fogják ábrázolni
P(topic|document)
, ha .A jellemzőtémaktrix értékei annak a valószínűségének ékeként lesznek ábrázolva, ahol
P(word|topic)
.
Válassza az Összes lehetőség megjelenítése lehetőséget, majd állítsa TRUE (IGAZ) értékre, ha szeretné megtekinteni, majd állítson be további speciális paramétereket.
Ezek a paraméterek az LDA Vowpal Wabbit-implementációjára vonatkoznak. A Vowpal Wabbit online nyelvben elérhető LDA-val, valamint a hivatalos Vowpal Wabbit Wikivel kapcsolatban van néhány hasznos oktatóanyag.
Ebben a példában a 8-as verzió példái és a VW használata az Azure ML.
Rodparaméter. A témakör-disztribúciók ritkaságának előzetes valószínűségét adja meg. A VW paraméterének
lda_rho
felel meg. Az 1 értéket akkor használhatja, ha azt várja, hogy a szavak eloszlása egyenl; Vagyis minden szó feltételezhetően kezelhető. Ha úgy gondolja, hogy a legtöbb szó ritkán jelenik meg, akkor sokkal alacsonyabb értékre állíthatja.Alfa paraméter. Adjon meg egy előzetes valószínűséget a dokumentumonkénti témakörök súlyozásának ritkaságára. A VW paraméterének
lda_alpha
felel meg.A dokumentumok becsült száma. Írjon be egy számot, amely a feldolgozni kívánt dokumentumok (sorok) számának legjobb becslését jelöli. Ez lehetővé teszi, hogy a modul elegendő méretű kivonattáblát foglal le.
lda_D
A Vowpal Wabbit paraméterének felel meg.A köteg mérete. Írjon be egy számot, amely azt jelzi, hogy hány sort kell tartalmaznia a Vowpal Wabbitnek küldött szövegkötegekbe.
batch_sz
A Vowpal Wabbit paraméterének felel meg.A tanulási frissítési ütemezésben használt iteráció kezdeti értéke. Adja meg a tanulási sebesség kezdőértékét.
initial_t
A Vowpal Wabbit paraméterének felel meg.A frissítések során az iterációra alkalmazott energia. Az online frissítések során az iterációk számára alkalmazott energiaszintet adja meg.
power_t
A Vowpal Wabbit paraméterének felel meg.Az adatokon áthaladó adatok száma. Adja meg, hogy az algoritmus hányszor lépked majd az adatok között.
epoch_size
A Vowpal Wabbit paraméterének felel meg.
Válassza a ngrams-szótár összeállítása vagy az LDA előtti ngrams-szótár összeállítási szótára lehetőséget, ha az n-gram listát egy kezdeti bérlettel szeretné létrehozni, mielőtt besorolja a szöveget.
Ha előre létrehozza a kezdeti szótárt, a modell áttekintésekor később is használhatja azt. Az eredmények numerikus indexek helyett szövegre való leképezése általában könnyebben értelmezhető. A szótár mentése azonban tovább tart, és további tárhelyet használ.
A ngram szótár maximális mérete mezőbe írja be az n-gram szótárban létrehozható sorok teljes számát.
Ez a beállítás a szótár méretének szabályozására használható. Ha azonban a bemenetben megadott ngramok száma meghaladja ezt a méretet, ütközések léphetnek fel.
Futtassa a kísérletet. Az LDA-modul a Bayes-tétel használatával határozza meg, hogy mely témakörök társíthatóak az egyes szavakkal. A szavak nem kizárólag témakörökhöz vagy csoportokhoz vannak társítva; Ehelyett minden n-gram megtanult valószínűséggel lesz társítva bármelyik felderített osztályhoz.
Results (Eredmények)
A modul két kimenettel rendelkezik:
Átalakított adatkészlet: A bemeneti szöveget és a megadott számú felderített kategóriát tartalmazza, az egyes kategóriákra vonatkozó példaszövegek pontszámával együtt.
Funkciótémaktrix: A bal szélső oszlop tartalmazza a kinyert szöveg funkciót, és minden kategóriához tartozik egy oszlop, amely tartalmazza az erre a kategóriára vonatkozó pontszámot.
Részletekért lásd az LDA-eredmények példáját.
LDA-átalakítás
Ez a modul azt az átalakítást is kihozja, amely ITransform-felületként alkalmazza az LDA-t az adatkészletre.
Ezt az átalakítást mentheti, és újra felhasználhatja más adatkészletek számára. Ez akkor lehet hasznos, ha nagy corpuson tanított be, és újra fel szeretné használni az együtthatókat vagy a kategóriákat.
LDA-modell vagy -eredmények finomítása
Általában nem lehet egyetlen olyan LDA-modellt létrehozni, amely minden igénynek megfelel, és akár egy adott feladathoz tervezett modell is sok iterációt igényel a pontosság javításához. Javasoljuk, hogy próbálja ki ezeket a metódusokat a modell javítására:
- A modell paramétereinek módosítása
- Vizualizáció használata az eredmények megjelenítéséhez
- A témaszakértők visszajelzéseiből megállapíthatjuk, hogy a létrehozott témakörök hasznosak-e.
A minőségi intézkedések az eredmények kiértékelése során is hasznosak lehetnek. A témakörmodellezés eredményeinek kiértékeléséhez fontolja meg a következőt:
- Pontosság – Nagyon hasonlóak a hasonló elemek?
- Sokszínűség – Megkülönböztetheti a modell a hasonló elemeket, ha az üzleti problémához szükséges?
- Méretezhetőség – A szövegkategóriák széles választékán, vagy csak szűk céltartományon működik?
Az LDA-alapú modellek pontossága gyakran javítható a természetes nyelvi feldolgozással a szövegek megtisztítása, összegzése, egyszerűsítése vagy kategorizálása érdekében. Például a következő, a Machine Learning által támogatott technikák javíthatják a besorolás pontosságát:
Szóeltávolítás megszüntetése
Eset normalizálása
Lemmatizálás vagy eredet
Nevesített entitások felismerése
További információ: Szöveg előfeldolgozása és nevesített entitások felismerése.
A (klasszikus) Studióban R- vagy Python-kódtárakat is használhat szövegfeldolgozáshoz: R-szkript végrehajtása, Python-szkript végrehajtása
Példák
A szövegelemzésre vonatkozó példákért tekintse meg ezeket a kísérleteket a Azure AI Gallery:
- Python-szkript végrehajtása: A Python természetes nyelvi feldolgozásával megtisztítja és átalakítja a szöveget.
A részletekért és egy ügyfél-felülvizsgálati szövegen alapuló példáért lásd: Understanding LDA Results (LDA-eredmények ismertetése).
Példa LDA-eredményekre
Annak szemléltetésére, hogyan működik a rejtett Di abban a kiosztási modulban, az alábbi példa az LDA-t alkalmazza az alapértelmezett beállításokkal a Machine Learning Studio (klasszikus) könyváttekintés adatkészletére.
Forrásadatkészlet
Az adatkészlet tartalmaz egy értékelési oszlopot, valamint a felhasználók által megadott teljes megjegyzésszöveget.
Ez a táblázat csak néhány jellemző példát mutat be.
szöveg |
---|
Ennek a könyvnek vannak jó pontjai. Ha van valami, az segít szavakba tenni a felügyelők által kívánt szavakat... |
Belátom, hogy még nem befejeztem ezt a könyvet. Egy barát ajánlotta nekem, mert problémákat tapasztalok az alvó üzemmódra... |
Rosszul megírta, megpróbáltam elolvasni ezt a könyvet, de olyan zavarosnak és gyengén megírtnak találta, hogy frusztrációban tam. ... |
Mivel egy kutyafülű másolatot szeretnék kapni az olyan barátoktól, akik néhány évvel ezelőtt vettük át, nem sikerült kézbe kapnom ezt a könyvet, amely rövid életű kedvencként vált a kedvencek közé |
Ennek a könyvnek a rajza érdekes volt, és jó könyv is lehetett volna. Sajnos nem így volt. A fő probléma az volt, hogy... |
A feldolgozás során a rejtett Di adatlefoglalási modul megtisztítja és elemzi is a szöveget a megadott paraméterek alapján. Képes például automatikusan tokeneket generálni a szövegre és eltávolítani az írásjeleket, és ugyanakkor megkeresi az egyes témakörök szöveg funkcióit.
LDA-transzformált adatkészlet
Az alábbi táblázat a Könyváttekezés minta alapján átalakított adatkészletet tartalmazza. A kimenet tartalmazza a bemeneti szöveget és a felderített kategóriák megadott számát, valamint az egyes kategóriák pontszámait.
Film neve | 1. témakör | 2. témakör | 3. témakör | 4. témakör | 5. témakör |
---|---|---|---|---|---|
ez a könyv jó pontokat mutat be | 0.001652892 | 0.001652892 | 0.001652892 | 0.001652892 | 0.9933884 |
Friend ajánlotta ezt nekem | 0.00198019 | 0.001980198 | 0.9920791 | 0.001980198 | 0.001980198 |
próbálta elolvasni ezt a könyvet | 0.002469135 | 0.002469135 | 0.9901233 | 0.002469135 | 0.002469135 |
egy baráttól kölcsönzött | 0.9901232 | 0.002469135 | 0.002469135 | 0.002469135 | 0.002469135 |
Érdekes volt a könyv ábrázolás | 0.001652892 | 0.001652892 | 0.9933884 | 0.001652892 | 0.001652892 |
Ebben a példában az alapértelmezett 5 értéket használtuk a Modellbe modellező témakörök száma beállításhoz. Ezért az LDA-modul öt kategóriát hoz létre, amelyek feltételezhetően nagyjából megfelelnek az eredeti ötskálás értékelési rendszernek.
A modul egy pontszámot is rendel minden bejegyzéshez a témaköröket képviselő öt kategória mindegyikéhez. A pontszám annak a valószínűségét jelzi, hogy a sort hozzá kell rendelni egy adott kategóriához.
Funkciótémaktrix
A modul második kimenete a funkciótémakör-mátrix. Ez egy táblázatos adatkészlet, amely a Jellemző oszlopban található jellemző szöveget, valamint az egyes kategóriák pontszámát tartalmazza az 1. témakör, 2. témakör, ... N témakör. A pontszám az együtthatót jelöli.
Szolgáltatás | 1. témakör | 2. témakör | 3. témakör | 4. témakör | 5. témakör |
---|---|---|---|---|---|
Érdekes | 0.0240282071983144 | 0.0354678954779375 | 0.363051866576914 | 0.0276637824315893 | 0.660663576149515 |
Volt | 0.0171478729532397 | 0.0823969031108669 | 0.00452966877950789 | 0.0408714510319233 | 0.025077322689733 |
értékről | 0.0148224220349217 | 0.0505086981492109 | 0.00434423322461094 | 0.0273389126293824 | 0.0171484355106826 |
Telek | 0.0227415889348212 | 0.0408709456489325 | 0.182791041345191 | 0.086937090812819 | 1 0.0169680136708971 |
Olvasó | 0.0227415889348212 | 0.0408709456489325 | 0.182791041345191 | 0.0869370908128191 | 0.0169680136708971 |
Próbált | 0.0269724979147211 | 0.039026263551767 | 0.00443749106785087 | 0.0628829816088284 | 0.0235340728818033 |
Nekem | 0.0262656945140134 | 0.0366941302751921 | 0.00656837975179138 | 0.0329214576160066 | 0.0214121851106808 |
felhasználóként a(z) | 0.0141026103224462 | 0.043359976919215 | 0.00388640531859447 | 0.0305925953440055 | 0.0228993750526364 |
it | 0.0264490547105951 | 0.0356674440311847 | 0.00541759897864314 | 0.0314539386250293 | 0.0140606468587681 |
Barátom | 0.0135971322960941 | 0.0346118171467234 | 0.00434999437350706 | 0.0666507321888536 | 0.018156863779311 |
points | 0.0227415889348212 | 0.0396233855719081 | 0.00404663601474112 | 0.0381156510019025 | 0.0337788009496797 |
jó | 0.651813073836783 | 0.0598646397444108 | 0.00446809691985617 | 0.0358975694646062 | 0.0138989124411206 |
A | 0.0185385588647078 | 0.144253986783184 | 0.00408876416453866 | 0.0583049240441475 | 0.015442805566858 |
/ | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
Kölcsönzött | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
Hsa | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
Könyv | 0.0143157047920681 | 0.069145948535052 | 0.184036340170983 | 0.0548757337823903 | 0.0156837976985903 |
Ajánlott | 0.0161486848419689 | 0.0399143326399534 | 0.00550113530229642 | 0.028637149142764 | 0.0147675139039372 |
erre a(z) | 0.0161486848419689 | 0.0399143326399534 | 0.00550113530229642 | 0.028637149142764 | 0.0147675139039372 |
Technikai megjegyzések
Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.
Megvalósítás részletei
Alapértelmezés szerint a rendszer valószínűségként normalizálja az átalakított adatkészlet és a funkció-témakör mátrix kimenetének eloszlását.
Az átalakított adatkészlet normalizálva lesz a témakörök adott dokumentumban megadott feltételes valószínűségeként. Ebben az esetben az egyes sorok összege 1.
A funkció-témakör mátrix normalizálva van, mint a szavak adott témakörben megadott feltételes valószínűsége. Ebben az esetben az egyes oszlopok összege 1.
Tipp
Előfordulhat, hogy a modul egy üres témakört ad vissza, amelyet leggyakrabban az algoritmus pszeudo-véletlen inicializálása okoz. Ha ez történik, megpróbálhatja megváltoztatni a kapcsolódó paramétereket, például az N-gram szótár maximális méretét vagy a funkció-kivonatoláshoz használni kívánt bitek számát.
LDA és témakör-modellezés
A rejtett dibilletlefoglalást (LDA) gyakran használják tartalomalapú témakörmodellezéshez, ami alapvetően azt jelenti, hogy nem besorolt szövegből tanulunk kategóriákat. A tartalomalapú témakörmodellezésben a témakörök a szavak eloszlásai.
Tegyük fel például, hogy számos ügyfél-értékelést adott meg, amelyek sok-sok terméket tartalmaznak. A számos ügyfél által az idő során elküldött értékelések szövege számos kifejezésből adna információt, amelyek közül néhány több témakörben is használatos.
Az LDA-folyamat által azonosított témakörök egy adott A termékre vonatkozó felülvizsgálatokat, vagy termék-felülvizsgálatok egy csoportját képviselhatják. Az LDA számára maga a témakör csupán egy szóhalmaz valószínűségi eloszlása az idő alapján.
A kifejezések ritkán egyetlen termékre vonatkoznak, de hivatkozhatnak más termékekre, vagy olyan általános kifejezések, amelyek mindenre vonatkoznak ("nagyszerű", "környezet"). Más kifejezések lehetnek zajszűrő szavak. Fontos azonban megérteni, hogy az LDA-metódusnak nem kell az összes szót rögzítenie az universe-ben, és nem is kell megértenie a szavak kapcsolatát, az előfordulások valószínűségét leszámítva. Csak a céltartományban használt szavakat csoportosíthatja.
Az indexek kifejezés kiszámítása után a rendszer összehasonlítja a szöveg egyes sorait egy távolságalapú hasonlóság mértékével, hogy megállapítsa, hogy két szöveg hasonlít-e egymáshoz. Előfordulhat például, hogy a termék több olyan névvel rendelkezik, amelyek szorosan összefüggnek egymással. Az is előfordulhat, hogy az erősen negatív kifejezések általában egy adott termékhez vannak társítva. A hasonlóság mértéke a kapcsolódó kifejezések azonosítására és javaslatok létrehozására is használható.
Várt bemenetek
Név | Típus | Description |
---|---|---|
Adathalmaz | Adattábla | Bemeneti adatkészlet |
Modulparaméterek
Név | Típus | Tartomány | Választható | Alapértelmezett | Description |
---|---|---|---|---|---|
Kivonat bitek száma | Egész szám | [1;31] | Akkor érvényes, ha az Összes beállítás megjelenítése jelölőnégyzet nincs bejelölve | 12 | A funkció-kivonatoláshoz használt bitek száma |
Céloszlop(ak) | Oszlop kiválasztása | Kötelező | StringFeature (Sztringfeature) | Céloszlop neve vagy indexe | |
A modellhez kapcsolódó témakörök száma | Egész szám | [1;1000] | Kötelező | 5 | A dokumentumterjesztés modellezése N témakör alapján |
N-gramm | Egész szám | [1;10] | Kötelező | 2 | A kivonatolás során generált N-grammok sorrendje |
Normalizálni | Logikai | Kötelező | true | A kimenet normalizálása valószínűségi szintre. Az átalakított adatkészlet p(topic|document), a funkciótémakör-mátrix pedig P(szó|topic). | |
Az összes beállítás megjelenítése | Logikai | Igaz vagy hamis | Kötelező | Hamis | A Vowpal Wabbit online LDA-ra vonatkozó további paramétereket mutatja be |
Paraméter | Float | [0.00001;1.0] | Akkor érvényes, ha az Összes beállítás megjelenítése jelölőnégyzet be van jelölve | 0,01 | Paraméter |
Alfa paraméter | Float | [0.00001;1.0] | Akkor érvényes, ha az Összes beállítás megjelenítése jelölőnégyzet be van jelölve | 0,01 | Alfa paraméter |
Dokumentumok becsült száma | Egész szám | [1;int. MaxValue] | Akkor érvényes, ha az Összes beállítás megjelenítése jelölőnégyzet be van jelölve | 1000 | A dokumentumok becsült száma (egy lda_D paraméternek felel meg) |
A köteg mérete | Egész szám | [1;1024] | Akkor érvényes, ha az Összes beállítás megjelenítése jelölőnégyzet be van jelölve | 32 | A köteg mérete |
A tanulási sebesség frissítésének ütemezésében használt iteráció kezdeti értéke | Egész szám | [0;int. MaxValue] | Akkor érvényes, ha az Összes beállítás megjelenítése jelölőnégyzet be van jelölve | 0 | A tanulási sebesség frissítésének ütemezésében használt iterációk számának kezdeti értéke (egy initial_t paraméternek felel meg) |
Az iterációra a frissítések során alkalmazott teljesítmény | Float | [0.0;1.0] | Akkor érvényes, ha az Összes beállítás megjelenítése jelölőnégyzet be van jelölve | 0,5 | Az online frissítések során az iterációk számára alkalmazott teljesítmény (megfelel power_t paraméternek) |
Betanítási iterációk száma | Egész szám | [1;1024] | Akkor érvényes, ha az Összes beállítás megjelenítése jelölőnégyzet be van jelölve | 25 | Betanítási iterációk száma |
Ngrams-szótár összeállítása | Logikai | Igaz vagy hamis | Akkor érvényes, ha az Összes beállítás megjelenítése jelölőnégyzet nincs bejelölve | Igaz | Az LDA számítása előtt felépíti a ngramok szótárát. Hasznos modellvizsgálathoz és -értelmezéshez |
A funkció-kivonatoláshoz használt bitek száma | Egész szám | [1;31] | Akkor érvényes, ha a ngrams összeállítási szótára hamis | 12 | A funkció kivonatolása során használt bitek száma |
A ngram szótár maximális mérete | Egész szám | [1;int. MaxValue] | Akkor érvényes, ha a ngrams összeállítási szótára igaz | 20000 | A ngrams szótár maximális mérete. Ha a bemeneti jogkivonatok száma meghaladja ezt a méretet, ütközések léphetnek fel |
Ngrams-szótár összeállítása az LDA előtt | Logikai | Igaz vagy hamis | Akkor érvényes, ha az Összes beállítás megjelenítése jelölőnégyzet be van jelölve | Igaz | Az LDA előtti ngrams szótárt hoz létre. Hasznos modellvizsgálathoz és -értelmezéshez |
A szótárban a ngramok maximális száma | Egész szám | [1;int. MaxValue] | Akkor érvényes, ha a ngrams összeállítási szótára Igaz, és be van jelölve az Összes beállítás megjelenítése jelölőnégyzet | 20000 | A szótár maximális mérete. Ha a bemeneti jogkivonatok száma meghaladja ezt a méretet, ütközések léphetnek fel |
Kimenetek
Név | Típus | Description |
---|---|---|
Átalakított adatkészlet | Adattábla | Kimeneti adatkészlet |
Funkciótémaktéma | Adattábla | Az LDA által előállított funkciótémakör-mátrix |
LDA-átalakítás | ITransform interfész | Átalakítás, amely LDA-t alkalmaz az adatkészletre |
Kivételek
Kivétel | Description |
---|---|
0002-es hiba | Kivétel akkor fordul elő, ha az adatkészlet egy vagy több megadott oszlopa nem található. |
0003-as hiba | Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres. |
0004-es hiba | Kivétel akkor fordul elő, ha a paraméter kisebb vagy egyenlő egy adott értékkel. |
0017-es hiba | Kivétel akkor fordul elő, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.
Az API-kivételek listáját a hibakódok Machine Learning REST API.
Lásd még
Text Analytics
Funkciókivonatolás
Megnevezett entitások felismerése
Vowpal Wabbit 7-4 modell pontozása
Vowpal Wabbit 7-4 modell betanítás
Vowpal Wabbit 8 modell betanítás