Share via


Értékelési metrikák vezénylési munkafolyamat-modellekhez

Az adathalmaz két részre van osztva: egy betanítási készletre és egy tesztelési készletre. A betanítási készlet a modell betanítására szolgál, míg a tesztelési készlet a modell tesztelésére szolgál a betanítás után a modell teljesítményének és értékelésének kiszámításához. A tesztelési készlet nem jelenik meg a modellben a betanítási folyamaton keresztül, így meggyőződhet arról, hogy a modell új adatokon van tesztelve.

A modell kiértékelése automatikusan aktiválódik a betanítás sikeres befejezése után. A kiértékelési folyamat a betanított modell használatával kezdődik a tesztkészletben lévő kimondott szövegek felhasználó által definiált szándékainak előrejelzésére, és összehasonlítja őket a megadott címkékkel (amelyek az igazság alapkonfigurációját határozzák meg). A rendszer visszaadja az eredményeket, hogy áttekinthesse a modell teljesítményét. Az értékeléshez a vezénylési munkafolyamat a következő metrikákat használja:

  • Pontosság: Azt méri, hogy mennyire pontos/pontos a modell. Ez a helyesen azonosított pozitívok (valódi pozitívok) és az összes azonosított pozitív közötti arány. A pontossági metrika megmutatja, hogy az előrejelzett osztályok közül hány megfelelően van címkézve.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • Felidézés: A modell tényleges pozitív osztályok előrejelzésének képességét méri. Ez az előrejelzett valódi pozitívok és a ténylegesen címkézett értékek aránya. A visszahívási metrika megmutatja, hogy az előrejelzett osztályok közül hány helyes.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • F1 pontszám: Az F1 pontszám a pontosság és a visszahívás függvénye. Erre akkor van szükség, ha egyensúlyt keres a pontosság és a visszahívás között.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

A pontosság, a visszahívás és az F1 pontszám kiszámítása a következőkre történik:

  • Minden szándék külön-külön (szándékszintű kiértékelés)
  • A modell esetében együttesen (modellszintű értékelés).

A pontosság, a visszahívás és a kiértékelés definíciói megegyeznek a szándékszintű és a modellszintű értékelések esetében. Az igaz pozitívok, a hamis pozitívok és a hamis negatívok száma azonban eltérő lehet. Vegyük például az alábbi szöveget.

Példa

  • Válasz küldése köszönettel
  • A barátom hívása
  • Helló
  • Jó reggelt

Ezek a használt szándékok: CLUEmail és Greeting

A modell a következő előrejelzéseket hozhatja létre:

Beszédelem Előrejelzett szándék Tényleges szándék
Válasz küldése köszönettel CLUEmail CLUEmail
A barátom hívása Üdvözlés CLUEmail
Helló CLUEmail Üdvözlés
Jómorning Üdvözlés Üdvözlés

A CLUEmail szándék szándékszint-kiértékelése

Kulcs Darabszám Magyarázat
Valódi pozitív 1 Az 1. kimondott szöveg helyesen lett előrejelezve CLUEmailként.
Téves pozitív 1 A 3. kimondott szöveget tévesen CLUEmailként jelezték előre.
Téves negatív 1 A 2. kimondott szöveget tévesen Üdvözlésként jelezték előre.

Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Szándékszint-kiértékelés üdvözlési szándék esetén

Kulcs Darabszám Magyarázat
Valódi pozitív 1 A 4. kimondott szöveg helyesen megszólításként lett jelezve.
Téves pozitív 1 A 2. kimondott szöveget tévesen Üdvözlésként jelezték előre.
Téves negatív 1 A 3. kimondott szöveget tévesen CLUEmailként jelezték előre.

Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

A kollektív modell modellszintű kiértékelése

Kulcs Darabszám Magyarázat
Valódi pozitív 2 Az összes szándék TP-jének összege
Téves pozitív 2 Az összes szándék FP-jének összege
Téves negatív 2 Az összes szándék FN-jének összege

Precíziós = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Visszahív = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

F1 pontszám = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Keveredési mátrix

A keveredési mátrix egy modellteljesítmény-kiértékeléshez használt N x N mátrix, ahol az N a szándékok száma. A mátrix összehasonlítja a tényleges címkéket a modell által előrejelzett címkékkel. Ez holisztikus képet ad arról, hogy a modell milyen jól teljesít, és milyen típusú hibákat okoz.

A Keveredés mátrix segítségével azonosíthatja azokat a szándékokat, amelyek túl közel állnak egymáshoz, és gyakran tévednek (kétértelműség). Ebben az esetben érdemes lehet ezeket a szándékokat egyesíteni. Ha ez nem lehetséges, érdemes lehet címkézettebb példákat hozzáadni mindkét szándékhoz, hogy a modell megkülönböztethesse őket.

A modellszintű kiértékelési metrikákat a keveredési mátrixból számíthatja ki:

  • A modell valódi pozitívja az összes szándék valódi pozitívjainak összege.
  • A modell hamis pozitívja az összes szándék hamis pozitívjainak összege.
  • A modell false Negatív értéke az összes szándék hamis negatívjainak összege.

Következő lépések

Modell betanítása a Language Studióban