Megosztás a következőn keresztül:


Vowpal Wabbit modell betanítása

Ez a cikk bemutatja, hogyan hozhat létre gépi tanulási modellt a Vowpal Wabbit használatával az Azure Machine Learning Designer Vowpal Wabbit modell betanítása összetevőjével.

A Vowpal Wabbit gépi tanuláshoz való használatához formázza a bemenetet a Vowpal Wabbit követelményei szerint, és készítse elő az adatokat a szükséges formátumban. Ezen összetevő használatával adja meg a Vowpal Wabbit parancssori argumentumait.

A folyamat futtatásakor a rendszer betölti a Vowpal Wabbit egy példányát a kísérlet futási idejébe a megadott adatokkal együtt. A betanítás befejezése után a modell újra szerializálva lesz a munkaterületre. A modellt azonnal használhatja az adatok pontozására.

Meglévő modell új adatokon való növekményes betanítása érdekében csatlakoztassa a mentett modellt a Vowpal Wabbit-modell betanítása előre betanított Wabbit-modell bemeneti portjához, és adja hozzá az új adatokat a másik bemeneti porthoz.

Mi az a Vowpal Wabbit?

A Vowpal Wabbit (VW) egy gyors, párhuzamos gépi tanulási keretrendszer, amelyet a Yahoo! Kutatás. Később a Windowsba portolta, és John Langford (Microsoft Research) adaptálta a párhuzamos architektúrákban történő tudományos számítástechnikához.

A Vowpal Wabbit gépi tanulás szempontjából fontos funkciói közé tartozik a folyamatos tanulás (online tanulás), a dimenziócsökkentés és az interaktív tanulás. A Vowpal Wabbit olyan problémákra is megoldást nyújt, amikor nem tudja a modelladatokat a memóriába illeszteni.

A Vowpal Wabbit elsődleges felhasználói olyan adattudósok, akik korábban már használták a keretrendszert olyan gépi tanulási feladatokhoz, mint a besorolás, a regresszió, a témakörmodellezés vagy a mátrixfaktorozás. A Vowpal Wabbit Azure-burkolója nagyon hasonló teljesítményjellemzőkkel rendelkezik a helyszíni verzióhoz, így használhatja a Vowpal Wabbit hatékony funkcióit és natív teljesítményét, és egyszerűen közzéteheti a betanított modellt üzembe helyezett szolgáltatásként.

A Funkciókivonat-összetevő a Vowpal Wabbit által biztosított funkciókat is tartalmazza, amelyekkel a szöveges adathalmazokat bináris funkciókká alakíthatja kivonatoló algoritmus használatával.

Vowpal Wabbit-modell konfigurálása

Ez a szakasz bemutatja, hogyan taníthat be egy új modellt, és hogyan adhat hozzá új adatokat egy meglévő modellhez.

A tervező többi összetevőjével ellentétben ez az összetevő határozza meg az összetevő paramétereit, és betanítja a modellt. Ha rendelkezik meglévő modellel, hozzáadhatja opcionális bemenetként a modell növekményes betanítása érdekében.

A bemeneti adatok előkészítése

Ha ezzel az összetevővel szeretne betaníteni egy modellt, a bemeneti adatkészletnek egyetlen szöveges oszlopból kell állnia a két támogatott formátum egyikében: SVMLight vagy VW. Ez nem jelenti azt, hogy a Vowpal Wabbit csak szöveges adatokat elemez, csak azt, hogy a funkciókat és értékeket a szükséges szöveges fájlformátumban kell előkészíteni.

Az adatok kétféle adathalmazból, fájladatkészletből vagy táblázatos adatkészletből olvashatók. Mindkét adathalmaznak SVMLight vagy VW formátumban kell lennie. A Vowpal Wabbit adatformátum előnye, hogy nem igényel oszlopos formátumot, ami helyet takarít meg a ritka adatok kezelésekor. Erről a formátumról a Vowpal Wabbit wikioldalon talál további információt.

Vowpal Wabbit-modell létrehozása és betanítása

  1. Adja hozzá a Vowpal Wabbit-modell betanítása összetevőt a kísérlethez.

  2. Adja hozzá a betanítási adatkészletet, és csatlakoztassa a Betanítási adatokhoz. Ha a betanítási adatkészlet egy könyvtár, amely tartalmazza a betanítási adatfájlt, adja meg a betanítási adatfájl nevét a betanítási adatfájl nevével. Ha a betanítási adatkészlet egyetlen fájl, hagyja üresen a betanítási adatfájl nevét .

  3. A VW-argumentumok szövegmezőbe írja be a Vowpal Wabbit végrehajtható fájl parancssori argumentumait.

    Hozzáadhatja például –l a tanulási sebesség megadásához vagy -b a kivonatoló bitek számának megadásához.

    További információ: Vowpal Wabbit parameters (Vowpal Wabbit-paraméterek ) szakasz.

  4. A betanítási adatfájl neve: Írja be a bemeneti adatokat tartalmazó fájl nevét. Ezt az argumentumot csak akkor használja a rendszer, ha a betanítási adatkészlet könyvtár.

  5. Fájltípus megadása: Adja meg, hogy a betanítási adatok milyen formátumot használnak. A Vowpal Wabbit a következő két bemeneti fájlformátumot támogatja:

    • A VW a Vowpal Wabbit által használt belső formátumot jelöli. A részletekért tekintse meg a Vowpal Wabbit wikioldalt .
    • Az SVMLight más gépi tanulási eszközök által használt formátum.
  6. Kimenet olvasható modellfájlja: válassza a beállítást, ha azt szeretné, hogy az összetevő mentse az olvasható modellt a feladatrekordok között. Ez az argumentum megfelel a --readable_model VW parancssorban lévő paraméternek.

  7. Kimeneti invertált kivonatfájl: válassza a beállítást, ha azt szeretné, hogy az összetevő a fordított kivonatoló függvényt a feladatrekordok egyik fájljára mentse. Ez az argumentum megfelel a --invert_hash VW parancssorban lévő paraméternek.

  8. Küldje el a folyamatot.

Meglévő Vowpal Wabbit-modell újratanítása

A Vowpal Wabbit új adatok meglévő modellhez való hozzáadásával támogatja a növekményes betanítást. Az újratanításhoz kétféleképpen szerezhet be egy meglévő modellt:

  • Használja egy másik Vowpal Wabbit-modell betanítása összetevő kimenetét ugyanabban a folyamatban.

  • Keresse meg a mentett modellt a tervező bal oldali navigációs paneljének Adathalmazok kategóriájában, és húzza be a folyamatba.

  1. Adja hozzá a Vowpal Wabbit-modell betanítása összetevőt a folyamathoz.

  2. Csatlakoztassa a korábban betanított modellt az összetevő előre betanított Vowpal Wabbit Modell bemeneti portjához.

  3. Csatlakoztassa az új betanítási adatokat az összetevő Betanítási adatok bemeneti portjához.

  4. A Vowpal Wabbit-modell betanítása paraméterek paneljén adja meg az új betanítási adatok formátumát, valamint a betanítási adatfájl nevét, ha a bemeneti adatkészlet egy könyvtár.

  5. Ha a megfelelő fájlokat menteni kell a feladatrekordokban, válassza a Kimenet olvasható modellfájl és a Kimeneti invertált kivonatfájl lehetőséget.

  6. Küldje el a folyamatot.

  7. Válassza ki az összetevőt, és válassza az Adatkészlet regisztrálása lehetőséget a jobb oldali panel Kimenetek+naplók lapján, hogy megőrizze a frissített modellt az Azure Machine Learning-munkaterületen. Ha nem ad meg új nevet, a frissített modell felülírja a meglévő mentett modellt.

Results (Eredmények)

Megjegyzés

Ha a betanított modellt a tervezőben kell üzembe helyeznie, győződjön meg arról, hogy a Score Model (Modell pontozása) helyett a Score Vowpal Wabbit Model (Vowpal Wabbit-modell pontozása) a webszolgáltatás kimeneti összetevőjének bemenetéhez van csatlakoztatva a következtetési folyamatban.

Technikai megjegyzések

Ez a szakasz a megvalósítás részleteit, tippeket és válaszokat tartalmaz a gyakori kérdésekre.

A Vowpal Wabbit előnyei

A Vowpal Wabbit rendkívül gyors tanulást biztosít a nem lineáris funkciókkal, például az n-grammokkal szemben.

A Vowpal Wabbit olyan online tanulási technikákat használ, mint a sztochasztikus gradiens ereszkedés (SGD) a modell egyes rekordjaihoz való illesztéséhez. Így nagyon gyorsan iterál a nyers adatok felett, és a legtöbb más modellnél gyorsabban fejleszthet jó prediktort. Ez a módszer azt is elkerüli, hogy minden betanítási adatot be kell olvasnia a memóriába.

A Vowpal Wabbit az összes adatot kivonatokká alakítja, nem csak szöveges adatokat, hanem más kategorikus változókat is. A kivonatok használata hatékonyabbá teszi a regressziós súlyok keresését, ami kritikus fontosságú a hatékony sztochasztikus gradiens lejtéshez.

Támogatott és nem támogatott paraméterek

Ez a szakasz a Vowpal Wabbit parancssori paramétereinek támogatását ismerteti az Azure Machine Learning Designerben.

Általában csak korlátozott számú argumentum támogatott. Az argumentumok teljes listáját a Vowpal Wabbit wikilapon találja.

A következő paraméterek nem támogatottak:

  • A következőben megadott bemeneti/kimeneti beállítások: https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments

    Ezeket a tulajdonságokat az összetevő már automatikusan konfigurálja.

  • Ezenkívül minden olyan beállítás, amely több kimenetet hoz létre vagy több bemenetet vesz igénybe, nem engedélyezett. Ezek közé tartozik a --cbt, --ldaa és --wapa .

  • Csak a felügyelt tanulási algoritmusok támogatottak. Ezért ezek a lehetőségek nem támogatottak: –active, --rank, --search stb.

Korlátozások

Mivel a szolgáltatás célja a Vowpal Wabbit tapasztalt felhasználóinak támogatása, a bemeneti adatokat előre, a Vowpal Wabbit natív szöveges formátumával kell előkészíteni a többi összetevő által használt adathalmaz-formátum helyett.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .