Megosztás a következőn keresztül:


Vowpal Wabbit 8-as verziójú modell betanítás

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Modell tanítása a Vowpal Wabbit gépi tanulási rendszer 8. verziójával

Kategória: Text Analytics

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Vowpal Wabbit 8-as verziójú betanítás modul a Machine Learning Studióban (klasszikus) gépi tanulási modell létrehozására a Vowpal Wabbit (8-as verzió) használatával.

Ha a Vowpal Wabbitet gépi tanuláshoz használja, formázza a bemenetet a Vowpal Wabbit követelményeinek megfelelően, és mentse az adatokat egy Azure-blobba. Ezzel a modullal adhatja meg a Vowpal Wabbit parancssori argumentumokat.

A kísérlet futtatásakor a Vowpal Wabbit egy példánya lesz betöltve a kísérlet futási idejebe a megadott adatokkal együtt. A betanítás befejezésekor a modell vissza lesz szerializálva a munkaterületre. A modell azonnal használható az adatok pontozására. A betanított modell az Azure Storage-ban is megmarad, így később a betanítás adatainak újrafeldolgozása nélkül is használhatja.

Egy meglévő modell új adatokon való növekményes betanítása érdekében csatlakoztassa a mentett modellt az Előre betanított modell bemenetéhez, és adja hozzá az új adatokat a másik bemenethez.

Megjegyzés

Machine Learning Studio (klasszikus) a Vowpal Wabbit keretrendszer több verzióját is elérhető. Ez a modul a Vowpal Wabbit keretrendszer legújabb, 8-as verzióját használja. Új bemeneti adatok pontozása a Vowpal Wabbit 8-as verziójú modell pontozása használatával történik.

Vowpal Wabbit 7-4 vagy 7-6 verzió: A Vowpal Wabbit 7-4 modell betanítás és a Vowpal Wabbit 7-4 modell pontozása.

Vowpal Wabbit 7-10-es verzió: A Vowpal Wabbit 7-10 modell betanítás és a Vowpal Wabbit 7-10 modell pontozása.

Mi az a Vowpal Wabbit?

A Vowpal Wabbit (VW) egy gyors, párhuzamos gépi tanulási keretrendszer, amelyet a Yahoo! fejlesztett ki elosztott számítástechnikához. Kutatás. Később john Langford (Microsoft Research) által a párhuzamos architektúrákban végzett tudományos számítástechnikához Windows és adaptálta.

A Vowpal Wabbit gépi tanuláshoz fontos funkciói közé tartozik a folyamatos tanulás (online tanulás), a dimenziócsökkentés és az interaktív tanulás. A Vowpal Wabbit olyan problémákra is megoldást kínál, amelyek nem illesztik a modelladatokat a memóriába.

A Vowpal Wabbit elsődleges felhasználói olyan adattudósok, akik korábban már használták a gépi tanulási feladatok keretrendszerét, például a besorolást, a regressziót, a témakörmodellezést vagy a mátrix-factorizationt. A Vowpal Wabbit Azure-burkolója nagyon hasonló teljesítményjellemzővel rendelkezik, mint a helyszíni verzió, így használhatja a Vowpal Wabbit hatékony funkcióit és natív teljesítményét, és egyszerűen közzéteheti a betanított modellt működőképes szolgáltatásként.

A Funkció-kivonatolás modul a Vowpal Wabbit által biztosított funkciókat is tartalmazza, amely lehetővé teszi a szöveges adatkészletek bináris jellemzőkké való átalakítását egy kivonatolási algoritmus használatával.

A Vowpal Wabbit 8-as verziójának konfigurálása

Ez a szakasz azt ismerteti, hogyan lehet betanítni egy új modellt, és hogyan lehet új adatokat hozzáadni egy meglévő modellhez.

A (klasszikus) Studio más moduljaitól eltérően ez a modul a modul paramétereit is meghatározza, és a modell beképzét is megadja. Ha már van egy modellje, hozzáadhatja választható bemenetként a modell növekményes betanításhoz.

A modul használatához hitelesítés szükséges egy Azure Storage-fiókhoz.

A bemeneti adatok előkészítése

Ha ezzel a modullal betanít egy modellt, a bemeneti adatkészletnek egyetlen szöveges oszlopból kell állnia a két támogatott formátum egyikében: LibSVM vagy VW. Ez nem jelenti azt, hogy a Vowpal Wabbit csak szöveges adatokat elemez, csak azt, hogy a jellemzőket és értékeket a szükséges szövegfájlformátumban kell előkészni.

Az adatokat az Azure Storage-ból kell beolvasni. Az Adatok exportálása használatával nem lehet közvetlenül az Azure-ba menteni a bemeneti fájlt a Vowpal Wabbittel való használatra, mert a formátum további módosítást igényel. Győződjön meg arról, hogy az adatok formátuma megfelelő, majd fel kell töltenie az adatokat az Azure Blob Storage-ba.

Parancsikonként azonban a Convert to SVMLight modullal létrehozhat egy SVMLight formátumú fájlt. Ezután feltöltheti az SVMLight formátumfájlt az Azure Blob Storage-ba, és használhatja bemenetként, vagy módosíthatja a fájlt úgy, hogy az megfeleljenek a Vowpal Wabbit bemeneti fájlra vonatkozó követelményeknek.

A Vowpal Wabbit adatformátum előnye, hogy nem igényel oszlopos formátumot, ami helyet takarít meg a ritka adatok kezelésekor. További információ erről a formátumról: Vowpal Wabbit wikioldal.

Vowpal Wabbit modell létrehozása és betanítás

  1. Adja hozzá a Kísérlethez a Vowpal Wabbit 8-as verziójának betanítására való modult.

  2. Adja meg a fiókot, ahol a betanítás adatai tárolva vannak. A betanított modellt és a kivonatfájlt a rendszer ugyanazon a helyen tárolja.

    • Az Azure Storage-fiók neve mezőbe írja be az Azure Storage-fiók nevét.

    • Az Azure Storage-kulcshoz másolja és illessze be a tárfiók eléréséhez megadott kulcsot.

    Ha nem rendelkezik kulccsal, tekintse meg a tárelérési kulcsok újragenerálását

  3. Az Azure-tároló neve mezőbe írja be egyetlen tároló nevét abban a megadott Azure Storage-fiókban, ahol a modell betanításai adatai tárolva vannak. Ne írja be a fiók nevét vagy protokollelőtagját.

    Ha például a tároló teljes elérési útja és https://myaccount.blob.core.windows.net/vwmodelsneve , csak a következőt kell begépelni: vwmodels. További információ a tárolók nevéről: Naming and Referencing Containers, Blobs, and Metadata (Tárolók, blobok és metaadatok elnevezése és hivatkozása).

  4. A VW-argumentumok szövegmezőbe írja be a Vowpal Wabbit végrehajtható fájl parancssori argumentumát.

    Hozzáadhatja például a –l értéket a tanulási sebesség megadásához, -b vagy a kivonatolási bitek számának jelzésére.

    További információ: Vowpal Wabbit parameters (A Vowpal Wabbit paraméterei) című szakasz.

  5. A bemeneti VW-fájl neve: Írja be a bemeneti adatokat tartalmazó fájl nevét. A fájlnak egy meglévő fájlnak kell lennie az Azure Blob Storage-ban, amely a korábban megadott tárfiókban és tárolóban található. A fájlt elő kell készíteni a támogatott formátumok egyikének használatával.

  6. A kimeneti olvasható modellfájl (--readable_model) neve: Írja be annak a fájlnak a nevét, ahová a betanított modellt menteni kell. A fájlt ugyanabban a tárfiókban és tárolóban kell menteni, mint a bemeneti fájlt.

    Ez az argumentum megfelel a --readable_model VW parancssori paraméterének.

  7. A fordított kivonatfájl (--invert_hash) neve: Írja be annak a fájlnak a nevét, amelybe a fordított kivonatolási függvényt menteni kell. A fájlt ugyanabban a tárfiókban és tárolóban kell menteni, mint a bemeneti fájlt.

    Ez az argumentum megfelel a --invert_hash VW parancssori paraméterének.

  8. Adja meg a fájltípust: Adja meg, hogy a betanítás adatai milyen formátumot használjanak. A Vowpal Wabbit a következő két bemeneti fájlformátumot támogatja:

  9. Válassza a Gyorsítótárazott eredmények használata lehetőséget, ha nem szeretné minden alkalommal betölteni az adatokat a tárolóból, amikor a kísérlet újra meg van unva. Feltéve, hogy más paraméterek nem módosultak, és érvényes gyorsítótár található, a Studio (klasszikus) az adatok gyorsítótárazott verzióját használja.

    Ha ez a beállítás nincs bejelölve, a modul mindig beolvassa az adatokat a tárolóból.

  10. Futtassa a kísérletet.

  11. Ha a betanítás befejeződött, kattintson a jobb gombbal a kimenetre, és válassza a Mentés betanított modellként lehetőséget a modell a Studio (klasszikus) munkaterületre való mentéséhez.

Meglévő Vowpal Wabbit modell újraképzése

A Vowpal Wabbit új adatok meglévő modellhez való hozzáadásával támogatja a növekményes betanításokat. A meglévő modelleket kétféleképpen lehet újraképezésre kiképezésre kihozni:

  • Használja egy másik Vowpal Wabbit 8-as verziójú modul kimenetét ugyanabban a kísérletben.

  • Keresse meg a mentett modellt a Studio (klasszikus) bal oldali navigációs panelének Betanított modellek csoportjában, és húzza a kísérletbe.

  1. Adja hozzá a Kísérlethez a Vowpal Wabbit 8-as verziójának betanítására való modult.

  2. Csatlakozás a korábban betanított modellt a Vowpal Wabbit 8-as verziójának betanítási portjára.

  3. A Vowpal Wabbit 8-as verziójának betanítása Tulajdonságok panelén adja meg az új betanítási adatok helyét és formátumát.

  4. Adjon meg egy nevet az ember számára olvasható modellkimeneti fájlnak, valamint egy másik nevet a frissített modellhez társított kivonatfájlnak.

    Megjegyzés

    Ha van meglévő Vowpal Wabbit-modell vagy -kivonatfájl a megadott helyen, az új betanított modell csendesen felülírja a fájlokat. Ha meg kell őriznie a köztes modelleket az újraképezés során, módosítania kell a tárolási helyet, vagy helyi másolatot kell másolnia a modellfájlokról.

  5. Futtassa a kísérletet.

  6. Kattintson a jobb gombbal a modulra, és válassza a Mentés betanított modellként lehetőséget a frissített modell megőrzéséhez a Machine Learning munkaterületen. Ha nem ad meg új nevet, a frissített modell felülírja a meglévő mentett modellt.

Példák

A Vowpal Wabbit gépi tanulásban való használatára vonatkozó példákért lásd a Azure AI Gallery:

  • Vowpal Wabbit-minta

    Ez a kísérlet egy VW-modell adat-elő- és betanítási és működőképesítési folyamatát mutatja be.

Tekintse meg az alábbi erőforrásokat is:

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

A Vowpal Wabbit előnyei

A Vowpal Wabbit rendkívül gyors tanulást biztosít az olyan nem lineáris jellemzőkről, mint az n-g.

A Vowpal Wabbit online tanulási technikákkal, például sztochasztikus gradiens módszerrel (SGD) illeszti a modellt egy rekordhoz. Így nagyon gyorsan iterál a nyers adatokon, és a többi modellnél gyorsabban képes jó előrejelzőt fejleszteni. Ezzel a megközelítéssel elkerülheti, hogy az összes betanításadatot beolvassa a memóriába.

A Vowpal Wabbit minden adatot hashekké alakít, nem csak szöveges adatokat, hanem más kategorikus változókat is. A hashes használatával hatékonyabbá teszi a regressziós súlyok keresését, ami elengedhetetlen a hatékony sztochasztikus gradiens módszerhez.

A betanítás során a modul hívásokat kezdeményez egy, az Azure-hoz fejlesztett Vowpal Wabbit-burkolóba. A rendszer blokkokban letölti a betanítás adatait az Azure-ból, kihasználva a számításokat végrehajtó feldolgozói szerepkörök és a tároló közötti nagy sávszélességet, és továbbítja őket a VW-tanulóknak. Az eredményül kapott modell általában nagyon tömör a VW belső tömörítése miatt. A rendszer visszamásolód a kísérlet munkaterületére, ahol a modell a többi modellhez Machine Learning.

Támogatott és nem támogatott paraméterek

Ez a szakasz a Vowpal Wabbit parancssori paraméterek támogatását ismerteti a Machine Learning Studióban (klasszikus).

Általában az argumentumok egy korlátozott halmazán túl minden támogatott. Az argumentumok teljes listájáért használja a Vowpal Wabbit wikioldalt.

Az alábbi paraméterek nem támogatottak:

  • A következőben megadott bemeneti/kimeneti beállítások: https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments

    Ezeket a tulajdonságokat a modul már automatikusan konfigurálja.

  • Emellett nem engedélyezett minden olyan beállítás, amely több kimenetet hoz létre, vagy több bemenetet vesz fel. Ezek közé tartozik a --cbt, --ldaa és --wapa .

  • Csak a felügyelt tanulási algoritmusok támogatottak. Ezért ezek a lehetőségek nem támogatottak: –active, --rank, --search stb. ### Korlátozások

Korlátozások

Mivel a szolgáltatás célja a Vowpal Wabbit tapasztalt felhasználóinak támogatása, a bemeneti adatokat előre elő kell készíteni a Vowpal Wabbit natív szövegformátum használatával, nem pedig a más modulok által használt adatkészlet-formátummal.

Ahelyett, hogy adatokat használ az Azure ML munkaterületen, a betanítás adatai közvetlenül streamelve lesznek az Azure-ból a maximális teljesítmény és a minimális elemzési terhelés érdekében. Ezért csak korlátozott az együttműködés a VW-modulok és az Azure-beli ML.

Modulparaméterek

Name Tartomány Típus Választható Alapértelmezett Description
Adja meg a fájl típusát VW

SVMLight
DataType Kötelező VW Jelezze, hogy a fájltípus SVMLight vagy Vowpal Wabbit.
Azure Storage-tárfiók neve bármelyik Sztring Kötelező Írja be az Azure Storage-fiók nevét
Azure Storage-kulcs bármelyik SecureString (Biztonságos karakterlánc) Kötelező Adja meg az Azure Storage-kulcsot
Azure-tároló neve bármelyik Sztring Kötelező Írja be az Azure-tároló nevét
VW argumentumok bármelyik Sztring Választható Adjon meg minden Vowpal Wabbit argumentumot. Ne tartalmazza az -f et.
A bemeneti VW-fájl neve bármelyik Sztring Kötelező Adja meg egy bemeneti fájl nevét Vowpal Wabbit formátumban
A kimeneti olvasható modellfájl (--readable_model) neve bármelyik Sztring Választható Ha meg van adva, az olvasható modellt ad vissza az Azure-tárolóba.
A fordított kivonatfájl (--invert_hash) neve Sztring Sztring Választható Ha meg van adva, a a fordított kivonatolási függvényt tartalmazó fájlt ad vissza az Azure-tárolóba.

Kimenetek

Név Típus Description
Betanított modell ILearner interfész Betanított tanuló

Kivételek

Kivétel Description
0001-es hiba Kivétel akkor fordul elő, ha az adatkészlet egy vagy több megadott oszlopa nem található.
0003-as hiba Kivétel akkor fordul elő, ha egy vagy több bemenet null vagy üres.
0004-es hiba Kivétel akkor fordul elő, ha a paraméter kisebb vagy egyenlő egy adott értékkel.
0017-es hiba Kivétel akkor fordul elő, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Text Analytics
Funkciókivonatolás
Megnevezett entitások felismerése
Vowpal Wabbit 7-4 modell pontozása
Pontszám Vowpal Wabbit 8-as verziójú modell.
Vowpal Wabbit 7-4 modell betanítás
A-Z modullista