Modell keresztellenőrzése

Cikk
09/01/2024

Ez a cikk bemutatja, hogyan használható a Modell keresztellenőrzése összetevő az Azure Machine Learning Designerben. A keresztérvényesítés a gépi tanulásban gyakran használt módszer az adathalmazok variabilitásának és az adatokon keresztül betanított modellek megbízhatóságának felmérésére.

A Modell keresztellenőrzése összetevő bemenetként egy címkézett adatkészletet, valamint egy nem betanított besorolási vagy regressziós modellt vesz fel. Az adathalmazt néhány részhalmazra (hajtásra) osztja, minden egyes hajtásra felépít egy modellt, majd visszaadja az egyes hajtások pontossági statisztikáit. Az összes hajtás pontossági statisztikáinak összehasonlításával értelmezheti az adatkészlet minőségét. Ezután megtudhatja, hogy a modell hajlamos-e az adatok variációira.

A keresztérvényesítési modell az adathalmaz előrejelzett eredményeit és valószínűségeit is visszaadja, így felmérheti az előrejelzések megbízhatóságát.

A keresztérvényesítés működése

A keresztellenőrzés véletlenszerűen osztja fel a betanítási adatokat hajtásokra.

Ha korábban még nem particionálta az adathalmazt, az algoritmus alapértelmezés szerint 10-szeresre van adva. Ha az adathalmazt különböző számú redőre szeretné osztani, használhatja a Partíció és a Minta összetevőt, és megadhatja, hogy hány redőt használjon.
Az összetevő az 1. hajtásban félretei az adatokat az ellenőrzéshez. (Ezt néha kitartó hajtásnak is nevezik.) Az összetevő a többi redővel tanít be egy modellt.

Ha például öt hajtást hoz létre, az összetevő öt modellt hoz létre a keresztérvényesítés során. Az összetevő az adatok négyötödével tanítja be az egyes modelleket. A többi ötödön teszteli az egyes modelleket.
A modell tesztelése során az összetevő több pontossági statisztikát is kiértékel. Az összetevő által használt statisztikák a kiértékelendő modell típusától függenek. A besorolási modellek és a regressziós modellek kiértékelésére különböző statisztikák szolgálnak.
Ha az összeállítási és kiértékelési folyamat minden hajtás esetében befejeződött, a keresztellenőrzési modell teljesítménymetrikákat és pontszámokat hoz létre az összes adathoz. Tekintse át ezeket a metrikákat, és ellenőrizze, hogy az egyetlen hajtás nagy vagy alacsony pontosságú-e.

A keresztérvényesítés előnyei

A modellek kiértékelésének másik és gyakori módja az adatok felosztása egy betanítási és tesztelési csoportra a Split Data használatával, majd a modell ellenőrzése a betanítási adatokon. A keresztérvényesítés azonban néhány előnnyel jár:

A keresztérvényesítés több tesztadatot használ.

A keresztérvényesítés nagyobb adattérben méri a modell teljesítményét a megadott paraméterekkel. Vagyis a keresztérvényesítés a teljes betanítási adatkészletet használja betanításhoz és értékeléshez is egy rész helyett. Ezzel szemben, ha véletlenszerű felosztásból létrehozott adatokkal érvényesít egy modellt, általában a rendelkezésre álló adatoknak csak 30 százalékán vagy annál kevesebben értékeli ki a modellt.

Mivel azonban a keresztérvényesítés egy nagyobb adathalmazon keresztül többször is ellenőrzi és ellenőrzi a modellt, sokkal számításilag intenzívebb. Ez sokkal tovább tart, mint egy véletlenszerű felosztás ellenőrzése.
A keresztérvényesítés az adathalmazt és a modellt is kiértékeli.

A keresztérvényesítés nem csupán a modell pontosságát méri. Emellett képet ad arról, hogy mennyire reprezentatív az adathalmaz, és hogy mennyire érzékeny a modell az adatok variációira.

Keresztérvényesítési modell használata

A keresztérvényesítés hosszú időt vehet igénybe, ha az adathalmaz nagy. Így a modell létrehozásának és tesztelésének kezdeti fázisában keresztérvényesítési modellt használhat. Ebben a fázisban kiértékelheti a modellparaméterek jóságát (feltéve, hogy a számítási idő elviselhető). Ezután a modell betanításához és kiértékeléséhez használja a modell betanítását és kiértékelését a modell betanítására és kiértékelésére szolgáló összetevőkkel.

Ebben a forgatókönyvben a modell betanítása és tesztelése keresztérvényesítési modell használatával történik.

Adja hozzá a keresztérvényesítési modell összetevőt a folyamathoz. Ezt az Azure Machine Learning Designerben, a Modell pontozása és kiértékelése kategóriában találja.
Bármely besorolási vagy regressziós modell kimenetének csatlakoztatása.

Ha például a Besoroláshoz kétosztályos kiemelt döntési fát használ, konfigurálja a modellt a kívánt paraméterekkel. Ezután húzza az összekötőt az osztályozó nem betanított modellportjáról a keresztérvényesítési modell megfelelő portjára.

Tipp.

Nem kell betanítsa a modellt, mert a keresztellenőrzési modell automatikusan betanítsa a modellt az értékelés részeként.
A keresztérvényesítési modell adatkészletportján csatlakoztassa a címkézett betanítási adatkészleteket.
A Keresztérvényesítési modell jobb oldali paneljén kattintson a Szerkesztés oszlopra. Jelölje ki az osztálycímkét vagy a kiszámítható értéket tartalmazó egyetlen oszlopot.
Állítson be egy értéket a Véletlenszerű mag paraméterhez, ha meg szeretné ismételni a keresztérvényesítés eredményeit ugyanazon adatok egymást követő futtatásai között.
Küldje el a folyamatot.
A jelentések leírását az Eredmények szakaszban találja.

Results (Eredmények)

Miután az összes iteráció befejeződött, a keresztérvényesítési modell pontszámokat hoz létre a teljes adatkészlethez. Emellett olyan teljesítménymetrikákat is létrehoz, amelyekkel felmérheti a modell minőségét.

Pontozott eredmények

Az összetevő első kimenete biztosítja az egyes sorok forrásadatait, valamint néhány előrejelzett értéket és a kapcsolódó valószínűségeket.

Az eredmények megtekintéséhez kattintson a jobb gombbal a Modell keresztellenőrzése összetevőre a folyamatban. Válassza a Pontozott eredmények megjelenítése lehetőséget.

Új oszlopnév	Leírás
Pontozott címkék	Ez az oszlop az adathalmaz végén lesz hozzáadva. Az egyes sorok előrejelzett értékét tartalmazza.
Pontozott valószínűségek	Ez az oszlop az adathalmaz végén lesz hozzáadva. Az érték becsült valószínűségét jelzi a pontozott címkékben.
Összecsukható szám	A hajtás nulla alapú indexét jelzi, amelyhez minden adatsor hozzá lett rendelve a keresztérvényesítés során.

A kiértékelés eredménye

A második jelentés hajtások szerint van csoportosítva. Ne feledje, hogy a végrehajtás során a keresztellenőrzési modell véletlenszerűen felosztja a betanítási adatokat n redőkre (alapértelmezés szerint 10). Az adathalmaz minden iterációjában a keresztérvényesítési modell egy-egy adathalmazt használ érvényesítési adatkészletként. A többi n-1 hajtással tanít be egy modellt. Az n modellek mindegyike az összes többi hajtásban lévő adatokon van tesztelve.

Ebben a jelentésben a hajtások indexérték szerint vannak felsorolva növekvő sorrendben. Ha bármilyen más oszlopra szeretne rendelni, az eredményeket adathalmazként mentheti.

Az eredmények megtekintéséhez kattintson a jobb gombbal a Modell keresztellenőrzése összetevőre a folyamatban. Válassza a Kiértékelési eredmények megjelenítése összecsukással lehetőséget.

Oszlop neve	Leírás
Fold number	Azonosító minden egyes hajtáshoz. Ha öt redőt hozott létre, öt adathalmaz lenne, 0 és 4 között.
Példák száma összecsukva	Az egyes hajtásokhoz rendelt sorok száma. Nagyjából egyenlőnek kell lenniük.

Az összetevő a kiértékelendő modell típusától függően az alábbi metrikákat is tartalmazza az egyes hajtásokhoz:

Besorolási modellek: Pontosság, visszahívás, F-pontszám, AUC, pontosság
Regressziós modellek: Átlagos abszolút hiba, középérték négyzetes hiba, relatív abszolút hiba, relatív négyzetes hiba és meghatározási együttható

Technikai megjegyzések

Ajánlott eljárás az adathalmazok normalizálása, mielőtt keresztérvényesítésre használjuk őket.
A keresztérvényesítési modell számítási szempontból sokkal intenzívebb, és több időt vesz igénybe, mint ha véletlenszerűen osztott adatkészlettel érvényesítette a modellt. Ennek az az oka, hogy a modell keresztellenőrzése többször is ellenőrzi a modellt.
A modell pontosságának méréséhez nincs szükség az adathalmaz betanítási és tesztelési csoportokra való felosztására.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket.

Megosztás a következőn keresztül: