Posouzení chyb v modelech strojového učení
Jedním z největších problémů se současnými postupy ladění modelů je použití agregovaných metrik k určení skóre modelů v datové sadě srovnávacích testů. Přesnost modelu nemusí být u podskupin dat jednotná a mohou existovat vstupní kohorty, u kterých model selhává častěji. Přímými důsledky těchto selhání jsou nedostatek spolehlivosti a bezpečnosti, zdání problémů se nestranností a ztráta důvěry ve strojové učení úplně.
Analýza chyb se odkláněla od metrik agregované přesnosti. Transparentně zveřejňuje distribuci chyb vývojářům a umožňuje jim efektivně identifikovat a diagnostikovat chyby.
Komponenta analýzy chyb řídicího panelu Odpovědné AI poskytuje odborníkům na strojové učení hlubší pochopení distribuce selhání modelu a pomáhá jim rychle identifikovat chybné kohorty dat. Tato komponenta identifikuje kohorty dat s vyšší mírou chyb v porovnání s celkovou mírou chyb srovnávacích testů. Přispívá k identifikaci fáze pracovního postupu životního cyklu modelu prostřednictvím:
- Rozhodovací strom, který odkrývá kohorty s vysokou mírou chyb.
- Heatmapa, která vizualizuje, jak vstupní funkce ovlivňují chybovost napříč kohortami.
K nesrovnalostem v chybách může docházet v případě, že systém nedosáhnou výkonu pro konkrétní demografické skupiny nebo v trénovacích datech dochází k zřídka pozorovaným vstupním kohortám.
Funkce této komponenty pocházejí z balíčku analýzy chyb , který generuje profily chyb modelu.
Analýzu chyb použijte v případě, že potřebujete:
- Získejte podrobné informace o tom, jak se selhání modelu distribuují napříč datovou sadou a napříč několika vstupními dimenzemi a dimenzemi funkcí.
- Rozdělte agregované metriky výkonu a automaticky zjišťujte chybné kohorty, abyste mohli informovat o cílených krocích pro zmírnění rizik.
Strom chyb
Vzorce chyb jsou často složité a zahrnují více než jednu nebo dvě funkce. Vývojáři můžou mít potíže s prozkoumáním všech možných kombinací funkcí, aby objevili skryté datové kapsy s kritickými selháními.
Pro zmírnění zátěže vizualizace binárního stromu automaticky rozdělí data srovnávacích testů na interpretovatelné podskupiny, které mají neočekávaně vysokou nebo nízkou míru chyb. Jinými slovy, strom používá vstupní funkce k maximálnímu oddělení chyby modelu od úspěchu. Pro každý uzel, který definuje podskupinu dat, můžou uživatelé prozkoumat následující informace:
- Míra chyb: Část instancí v uzlu, pro které je model nesprávný. Zobrazuje se prostřednictvím intenzity červené barvy.
- Pokrytí chyb: Část všech chyb, které spadají do uzlu. Zobrazuje se prostřednictvím rychlosti vyplňování uzlu.
- Reprezentace dat: Počet instancí v každém uzlu stromu chyb. Zobrazuje se prostřednictvím tloušťky příchozí hrany uzlu spolu s celkovým počtem instancí v uzlu.
Chyba heatmapy
Zobrazení rozřezá data na základě jednorozměrné nebo dvourozměrné mřížky vstupních funkcí. Uživatelé si můžou zvolit vstupní funkce, které jsou pro analýzu zajímavé.
Heatmapa vizualizuje buňky s vysokou chybovou barvou pomocí tmavší červené barvy, která uživatele upozorní na tyto oblasti. Tato funkce je zvlášť užitečná, když se motivy chyb liší napříč oddíly, což se v praxi často stává. V tomto zobrazení identifikace chyb se analýza velmi řídí uživateli a jejich znalostmi nebo hypotézami o tom, které funkce mohou být nejdůležitější pro pochopení selhání.
Další kroky
- Zjistěte, jak vygenerovat řídicí panel Odpovědné AI prostřednictvím rozhraní příkazového řádku a sady SDK nebo studio Azure Machine Learning uživatelského rozhraní.
- Prozkoumejte podporované vizualizace analýzy chyb.
- Zjistěte, jak vygenerovat přehled výkonnostních metrik odpovědné AI na základě přehledů na řídicím panelu Odpovědné AI.