Értékelési metrikák vezénylési munkafolyamat-modellekhez

Cikk
12/19/2023

Az adathalmaz két részre van osztva: egy betanítási készletre és egy tesztelési készletre. A betanítási készlet a modell betanítására szolgál, míg a tesztelési készlet a modell tesztelésére szolgál a betanítás után a modell teljesítményének és értékelésének kiszámításához. A tesztelési készlet nem jelenik meg a modellben a betanítási folyamaton keresztül, így meggyőződhet arról, hogy a modell új adatokon van tesztelve.

A modell kiértékelése automatikusan aktiválódik a betanítás sikeres befejezése után. A kiértékelési folyamat a betanított modell használatával kezdődik a tesztkészletben lévő kimondott szövegek felhasználó által definiált szándékainak előrejelzésére, és összehasonlítja őket a megadott címkékkel (amelyek az igazság alapkonfigurációját határozzák meg). A rendszer visszaadja az eredményeket, hogy áttekinthesse a modell teljesítményét. Az értékeléshez a vezénylési munkafolyamat a következő metrikákat használja:

Pontosság: Azt méri, hogy mennyire pontos/pontos a modell. Ez a helyesen azonosított pozitívok (valódi pozitívok) és az összes azonosított pozitív közötti arány. A pontossági metrika megmutatja, hogy az előrejelzett osztályok közül hány megfelelően van címkézve.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Felidézés: A modell tényleges pozitív osztályok előrejelzésének képességét méri. Ez az előrejelzett valódi pozitívok és a ténylegesen címkézett értékek aránya. A visszahívási metrika megmutatja, hogy az előrejelzett osztályok közül hány helyes.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 pontszám: Az F1 pontszám a pontosság és a visszahívás függvénye. Erre akkor van szükség, ha egyensúlyt keres a pontosság és a visszahívás között.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

A pontosság, a visszahívás és az F1 pontszám kiszámítása a következőkre történik:

Minden szándék külön-külön (szándékszintű kiértékelés)
A modell esetében együttesen (modellszintű értékelés).

A pontosság, a visszahívás és a kiértékelés definíciói megegyeznek a szándékszintű és a modellszintű értékelések esetében. Az igaz pozitívok, a hamis pozitívok és a hamis negatívok száma azonban eltérő lehet. Vegyük például az alábbi szöveget.

Példa

Válasz küldése köszönettel
A barátom hívása
Helló
Jó reggelt

Ezek a használt szándékok: CLUEmail és Greeting

A modell a következő előrejelzéseket hozhatja létre:

Beszédelem	Előrejelzett szándék	Tényleges szándék
Válasz küldése köszönettel	CLUEmail	CLUEmail
A barátom hívása	Üdvözlés	CLUEmail
Helló	CLUEmail	Üdvözlés
Jómorning	Üdvözlés	Üdvözlés

A CLUEmail szándék szándékszint-kiértékelése

Kulcs	Darabszám	Magyarázat
Valódi pozitív	1	Az 1. kimondott szöveg helyesen lett előrejelezve CLUEmailként.
Téves pozitív	1	A 3. kimondott szöveget tévesen CLUEmailként jelezték előre.
Téves negatív	1	A 2. kimondott szöveget tévesen Üdvözlésként jelezték előre.

Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Szándékszint-kiértékelés üdvözlési szándék esetén

Kulcs	Darabszám	Magyarázat
Valódi pozitív	1	A 4. kimondott szöveg helyesen megszólításként lett jelezve.
Téves pozitív	1	A 2. kimondott szöveget tévesen Üdvözlésként jelezték előre.
Téves negatív	1	A 3. kimondott szöveget tévesen CLUEmailként jelezték előre.

Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

A kollektív modell modellszintű kiértékelése

Kulcs	Darabszám	Magyarázat
Valódi pozitív	2	Az összes szándék TP-jének összege
Téves pozitív	2	Az összes szándék FP-jének összege
Téves negatív	2	Az összes szándék FN-jének összege

Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Keveredési mátrix

A keveredési mátrix egy modellteljesítmény-kiértékeléshez használt N x N mátrix, ahol az N a szándékok száma. A mátrix összehasonlítja a tényleges címkéket a modell által előrejelzett címkékkel. Ez holisztikus képet ad arról, hogy a modell milyen jól teljesít, és milyen típusú hibákat okoz.

A Keveredés mátrix segítségével azonosíthatja azokat a szándékokat, amelyek túl közel állnak egymáshoz, és gyakran tévednek (kétértelműség). Ebben az esetben érdemes lehet ezeket a szándékokat egyesíteni. Ha ez nem lehetséges, érdemes lehet címkézettebb példákat hozzáadni mindkét szándékhoz, hogy a modell megkülönböztethesse őket.

A modellszintű kiértékelési metrikákat a keveredési mátrixból számíthatja ki:

A modell valódi pozitívja az összes szándék valódi pozitívjainak összege.
A modell hamis pozitívja az összes szándék hamis pozitívjainak összege.
A modell false Negatív értéke az összes szándék hamis negatívjainak összege.

Következő lépések

Modell betanítása a Language Studióban

Share via

Értékelési metrikák vezénylési munkafolyamat-modellekhez

Példa

A CLUEmail szándék szándékszint-kiértékelése

Szándékszint-kiértékelés üdvözlési szándék esetén

A kollektív modell modellszintű kiértékelése

Keveredési mátrix

Következő lépések

További források