A gépi tanulási modellek hibáinak felmérése
Az aktuális modell-hibakeresési eljárások egyik legnagyobb kihívása az összesített metrikák használata a modellek teljesítménymutató-adathalmazon való pontozásához. Előfordulhat, hogy a modell pontossága nem egységes az adatok alcsoportjaiban, és lehetnek olyan bemeneti kohorszok, amelyeknél a modell gyakrabban meghibásodik. Ezeknek a hibáknak a közvetlen következményei a megbízhatóság és a biztonság hiánya, a méltányossági problémák megjelenése és a gépi tanulásba vetett bizalom teljes elvesztése.
A hibaelemzés eltávolodik az összesített pontossági metrikáktól. Átlátható módon teszi elérhetővé a hibák terjesztését a fejlesztők számára, és lehetővé teszi számukra a hibák hatékony azonosítását és diagnosztizálását.
A Felelős AI-irányítópult hibaelemzési összetevője a gépi tanulási szakemberek számára mélyebb ismereteket nyújt a modellhibák elosztásáról, és segít nekik gyorsan azonosítani az adatok hibás kohorszait. Ez az összetevő az adatok kohorszait magasabb hibaaránysal azonosítja, mint a teljes teljesítménymutató hibaarányát. A modell életciklus-munkafolyamatának azonosítási szakaszához az alábbiakon keresztül járul hozzá:
- Döntési fa, amely magas hibaarányú kohorszokat jelenít meg.
- Hőtérkép, amely azt jeleníti meg, hogy a bemeneti funkciók hogyan befolyásolják a kohorszok hibaarányát.
A hibák eltérései akkor fordulhatnak elő, ha a rendszer bizonyos demográfiai csoportoknál alulteljesít, vagy ritkán megfigyelt bemeneti kohorszok a betanítási adatokban.
Az összetevő képességei a hibaelemzési csomagból származnak, amely modellhibaprofilokat hoz létre.
A következő esetekben használjon hibaelemzést:
- Ismerje meg, hogyan oszlanak el a modellhibák az adathalmazok között, valamint több bemeneti és funkciódimenzió között.
- Az összesített teljesítménymetrikákat lebontva automatikusan felderítheti a hibás kohorszokat a célzott kockázatcsökkentési lépések tájékoztatása érdekében.
Hibafa
A hibaminták gyakran összetettek, és több funkciót is magukban foglalnak. Előfordulhat, hogy a fejlesztőknek nehézséget okoz a funkciók összes lehetséges kombinációjának felderítése a kritikus hibákkal rendelkező rejtett adatzsebek felderítéséhez.
A terhelés csökkentése érdekében a bináris fa vizualizáció automatikusan particionálja a teljesítményteszt adatait értelmezhető alcsoportokra, amelyek váratlanul magas vagy alacsony hibaarányúak. Más szóval a fa a bemeneti funkciók használatával választja el a modellhibát a sikertől. Az adat alcsoportot meghatározó csomópontok esetében a felhasználók a következő információkat vizsgálhatják meg:
- Hibaarány: A csomópont példányainak egy része, amelyhez a modell helytelen. Ez a piros szín intenzitásán keresztül jelenik meg.
- Hibalefedettség: A csomópontba tartozó összes hiba egy része. Ez a csomópont kitöltési sebességén keresztül jelenik meg.
- Adatábrázolás: A hibafa egyes csomópontjaiban található példányok száma. Ez a csomópont felé irányuló bejövő él vastagságán, valamint a csomópont példányainak teljes számán keresztül jelenik meg.
Hiba hőtérképe
A nézet a bemeneti funkciók egydimenziós vagy kétdimenziós rácsa alapján szeleteli az adatokat. A felhasználók kiválaszthatják az elemzés szempontjából fontos bemeneti funkciókat.
A hőtérkép a nagy hibával rendelkező cellákat sötétvörös színnel jeleníti meg, hogy felhívja a felhasználó figyelmét ezekre a régiókra. Ez a funkció különösen akkor hasznos, ha a hibatémák különbözőek a partíciók között, ami gyakran előfordul a gyakorlatban. Ebben a hibaazonosítási nézetben az elemzést a felhasználók és azok tudása vagy hipotézisei irányítják, hogy mely funkciók lehetnek a legfontosabbak a hibák megértéséhez.
Következő lépések
- Megtudhatja, hogyan hozhatja létre a Felelős AI-irányítópultot a parancssori felület és az SDK vagy az Azure Machine Learning Studio felhasználói felületén keresztül.
- Ismerje meg a támogatott hibaelemzési vizualizációkat.
- Megtudhatja, hogyan hozhat létre felelős AI scorecardot a Felelős AI-irányítópulton megfigyelt megállapítások alapján.