Értékelési metrikák vezénylési munkafolyamat-modellekhez
Az adathalmaz két részre van osztva: egy betanítási készletre és egy tesztelési készletre. A betanítási készlet a modell betanítására szolgál, míg a tesztelési készlet a modell tesztelésére szolgál a betanítás után a modell teljesítményének és értékelésének kiszámításához. A tesztelési készlet nem jelenik meg a modellben a betanítási folyamaton keresztül, így meggyőződhet arról, hogy a modell új adatokon van tesztelve.
A modell kiértékelése automatikusan aktiválódik a betanítás sikeres befejezése után. A kiértékelési folyamat a betanított modell használatával kezdődik a tesztkészletben lévő kimondott szövegek felhasználó által definiált szándékainak előrejelzésére, és összehasonlítja őket a megadott címkékkel (amelyek az igazság alapkonfigurációját határozzák meg). A rendszer visszaadja az eredményeket, hogy áttekinthesse a modell teljesítményét. Az értékeléshez a vezénylési munkafolyamat a következő metrikákat használja:
Pontosság: Azt méri, hogy mennyire pontos/pontos a modell. Ez a helyesen azonosított pozitívok (valódi pozitívok) és az összes azonosított pozitív közötti arány. A pontossági metrika megmutatja, hogy az előrejelzett osztályok közül hány megfelelően van címkézve.
Precision = #True_Positive / (#True_Positive + #False_Positive)
Felidézés: A modell tényleges pozitív osztályok előrejelzésének képességét méri. Ez az előrejelzett valódi pozitívok és a ténylegesen címkézett értékek aránya. A visszahívási metrika megmutatja, hogy az előrejelzett osztályok közül hány helyes.
Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 pontszám: Az F1 pontszám a pontosság és a visszahívás függvénye. Erre akkor van szükség, ha egyensúlyt keres a pontosság és a visszahívás között.
F1 Score = 2 * Precision * Recall / (Precision + Recall)
A pontosság, a visszahívás és az F1 pontszám kiszámítása a következőkre történik:
- Minden szándék külön-külön (szándékszintű kiértékelés)
- A modell esetében együttesen (modellszintű értékelés).
A pontosság, a visszahívás és a kiértékelés definíciói megegyeznek a szándékszintű és a modellszintű értékelések esetében. Az igaz pozitívok, a hamis pozitívok és a hamis negatívok száma azonban eltérő lehet. Vegyük például az alábbi szöveget.
Példa
- Válasz küldése köszönettel
- A barátom hívása
- Helló
- Jó reggelt
Ezek a használt szándékok: CLUEmail és Greeting
A modell a következő előrejelzéseket hozhatja létre:
Beszédelem | Előrejelzett szándék | Tényleges szándék |
---|---|---|
Válasz küldése köszönettel | CLUEmail | CLUEmail |
A barátom hívása | Üdvözlés | CLUEmail |
Helló | CLUEmail | Üdvözlés |
Jómorning | Üdvözlés | Üdvözlés |
A CLUEmail szándék szándékszint-kiértékelése
Kulcs | Darabszám | Magyarázat |
---|---|---|
Valódi pozitív | 1 | Az 1. kimondott szöveg helyesen lett előrejelezve CLUEmailként. |
Téves pozitív | 1 | A 3. kimondott szöveget tévesen CLUEmailként jelezték előre. |
Téves negatív | 1 | A 2. kimondott szöveget tévesen Üdvözlésként jelezték előre. |
Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Szándékszint-kiértékelés üdvözlési szándék esetén
Kulcs | Darabszám | Magyarázat |
---|---|---|
Valódi pozitív | 1 | A 4. kimondott szöveg helyesen megszólításként lett jelezve. |
Téves pozitív | 1 | A 2. kimondott szöveget tévesen Üdvözlésként jelezték előre. |
Téves negatív | 1 | A 3. kimondott szöveget tévesen CLUEmailként jelezték előre. |
Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
A kollektív modell modellszintű kiértékelése
Kulcs | Darabszám | Magyarázat |
---|---|---|
Valódi pozitív | 2 | Az összes szándék TP-jének összege |
Téves pozitív | 2 | Az összes szándék FP-jének összege |
Téves negatív | 2 | Az összes szándék FN-jének összege |
Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5
Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5
F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Keveredési mátrix
A keveredési mátrix egy modellteljesítmény-kiértékeléshez használt N x N mátrix, ahol az N a szándékok száma. A mátrix összehasonlítja a tényleges címkéket a modell által előrejelzett címkékkel. Ez holisztikus képet ad arról, hogy a modell milyen jól teljesít, és milyen típusú hibákat okoz.
A Keveredés mátrix segítségével azonosíthatja azokat a szándékokat, amelyek túl közel állnak egymáshoz, és gyakran tévednek (kétértelműség). Ebben az esetben érdemes lehet ezeket a szándékokat egyesíteni. Ha ez nem lehetséges, érdemes lehet címkézettebb példákat hozzáadni mindkét szándékhoz, hogy a modell megkülönböztethesse őket.
A modellszintű kiértékelési metrikákat a keveredési mátrixból számíthatja ki:
- A modell valódi pozitívja az összes szándék valódi pozitívjainak összege.
- A modell hamis pozitívja az összes szándék hamis pozitívjainak összege.
- A modell false Negatív értéke az összes szándék hamis negatívjainak összege.