Utvärdera fel i maskininlärningsmodeller

En av de största utmaningarna med aktuella metoder för modellfelsökning är att använda aggregerade mått för att poängsätta modeller på en benchmark-datauppsättning. Modellprecisionen kanske inte är enhetlig mellan undergrupper av data och det kan finnas indatakohorter där modellen misslyckas oftare. De direkta konsekvenserna av dessa fel är bristande tillförlitlighet och säkerhet, utseendet på rättvisefrågor och en förlust av förtroende för maskininlärning helt och hållet.

Diagram som visar ett exempel på noggrannhetsfrekvens och fel för ett riktmärke och en maskininlärningsmodell.

Felanalys flyttas bort från mått för aggregerad noggrannhet. Den exponerar distributionen av fel till utvecklare på ett transparent sätt och gör det möjligt för dem att identifiera och diagnostisera fel effektivt.

Komponenten för felanalys på instrumentpanelen för ansvarsfull AI ger maskininlärningsutövare en djupare förståelse för distribution av modellfel och hjälper dem att snabbt identifiera felaktiga kohorter av data. Den här komponenten identifierar kohorterna av data med en högre felfrekvens jämfört med den övergripande referensfelfrekvensen. Det bidrar till identifieringssteget i modellens livscykelarbetsflöde genom att:

  • Ett beslutsträd som visar kohorter med höga felfrekvenser.
  • En termisk karta som visualiserar hur indatafunktioner påverkar felfrekvensen i kohorter.

Felskillnader kan uppstå när systemet underpresterar för specifika demografiska grupper eller sällan observerade indatakohorter i träningsdata.

Funktionerna i den här komponenten kommer från felanalyspaketet , som genererar modellfelprofiler.

Använd felanalys när du behöver:

  • Få en djup förståelse för hur modellfel distribueras över en datauppsättning och över flera indata- och funktionsdimensioner.
  • Dela upp de aggregerade prestandamåtten för att automatiskt identifiera felaktiga kohorter för att informera dina riktade åtgärdssteg.

Felträd

Ofta är felmönster komplexa och omfattar mer än en eller två funktioner. Utvecklare kan ha svårt att utforska alla möjliga kombinationer av funktioner för att upptäcka dolda datafickor med kritiska fel.

För att minska belastningen partitionerar visualiseringen av binärträd automatiskt benchmark-data i tolkningsbara undergrupper som har oväntat höga eller låga felfrekvenser. Med andra ord använder trädet indatafunktionerna för att maximalt separera modellfel från framgång. För varje nod som definierar en dataundergrupp kan användarna undersöka följande information:

  • Felfrekvens: En del av instanserna i noden som modellen är felaktig för. Den visas genom intensiteten i den röda färgen.
  • Feltäckning: En del av alla fel som hamnar i noden. Den visas genom nodens fyllningshastighet.
  • Datarepresentation: Antalet instanser i varje nod i felträdet. Den visas genom tjockleken på den inkommande kanten till noden, tillsammans med det totala antalet instanser i noden.

Skärmbild av ett felanalysträd som visar kohorter med högre eller lägre felfrekvens och täckning.

Fel på termisk karta

Vyn segmentar data baserat på ett endimensionellt eller tvådimensionellt rutnät med indatafunktioner. Användare kan välja de indatafunktioner som är intressanta för analys.

Värmekartan visualiserar celler med höga fel genom att använda en mörkare röd färg för att uppmärksamma användaren på dessa regioner. Den här funktionen är särskilt bra när felteman skiljer sig mellan partitioner, vilket ofta sker i praktiken. I den här felidentifieringsvyn styrs analysen starkt av användarna och deras kunskaper eller hypoteser om vilka funktioner som kan vara viktigast för att förstå fel.

Skärmbild av en termisk felanalyskarta som visar modellfel partitionerade med en eller två funktioner.

Nästa steg