Vyhodnocení výsledků experimentu automatizovaného strojového učení

V tomto článku se dozvíte, jak vyhodnotit a porovnat modely natrénované experimentem automatizovaného strojového učení (automatizované strojové učení). V průběhu experimentu automatizovaného strojového učení se vytvoří mnoho úloh a každá úloha vytvoří model. Automatizované strojové učení pro každý model vygeneruje hodnoticí metriky a grafy, které vám pomůžou měřit výkon modelů.

Automatizované strojové učení například generuje následující grafy na základě typu experimentu.

Classification Regrese/prognózování
Konfuzní matice Histogram reziduí
Křivka ROC (Receiver Operating Characteristic) Predikované a skutečné hodnoty
Křivka přesnosti a úplnosti (PR) Horizont prognózy (Preview)
Křivka navýšení
Křivka kumulativních zisků
Kalibrační křivka

Požadavky

Zobrazení výsledků úlohy

Po dokončení experimentu automatizovaného strojového učení najdete historii úloh prostřednictvím:

Následující kroky a video ukazují, jak zobrazit historii spuštění a metriky vyhodnocení modelu a grafy v studiu:

  1. Přihlaste se do studia a přejděte do svého pracovního prostoru.
  2. V nabídce vlevo vyberte Spustit.
  3. V seznamu experimentů vyberte svůj experiment.
  4. V tabulce v dolní části stránky vyberte automatizovanou úlohu ML.
  5. Na kartě Modely vyberte název algoritmu pro model, který chcete vyhodnotit.
  6. Na kartě Metriky můžete pomocí zaškrtávacích políček vlevo zobrazit metriky a grafy.

Metriky klasifikace

Automatizované strojové učení vypočítá metriky výkonu pro každý klasifikační model vygenerovaný pro váš experiment. Tyto metriky jsou založené na implementaci scikit learn.

Mnoho metrik klasifikace je definováno pro binární klasifikaci ve dvou třídách a vyžaduje průměrování nad třídami, aby se vytvořilo jedno skóre pro klasifikaci více tříd. Scikit-learn poskytuje několik průměrovaných metod, z nichž tři automatizované strojové učení zveřejňuje: makro, mikro a vážené.

  • Makro – Vypočítá metriku pro každou třídu a vezme nevážný průměr
  • Mikro – Výpočet metriky globálně počítáním celkových pravdivě pozitivních výsledků, falešně negativních výsledků a falešně pozitivních výsledků (nezávisle na třídách).
  • Vážené – vypočítá metriku pro každou třídu a vezme vážený průměr na základě počtu vzorků na třídu.

I když má každá metoda průměrování své výhody, je jednou z běžných aspektů při výběru vhodné metody nerovnováha tříd. Pokud mají třídy různý počet vzorků, může být informativnější použít průměr makra, kde menšinové třídy mají stejnou váhu pro třídy většiny. Přečtěte si další informace o binárních a vícetřídových metrikách v automatizovaném strojovém učení.

Následující tabulka shrnuje metriky výkonu modelu, které automatizované strojové učení vypočítá pro každý klasifikační model vygenerovaný pro váš experiment. Další podrobnosti najdete v dokumentaci scikit-learn propojenou v poli Výpočet každé metriky.

Poznámka

Další podrobnosti o metrikách pro modely klasifikace obrázků najdete v části s metrikami .

Metric Popis Výpočet
AUC AUC je oblast pod křivkou provozní charakteristiky přijímače.

Cílem: Čím blíž k 1, tím lépe
Rozsah: [0, 1]

Mezi podporované názvy metrik patří:
  • AUC_macro, aritmetický průměr AUC pro každou třídu.
  • AUC_microvypočítané spočítáním celkových pravdivě pozitivních výsledků, falešně negativních výsledků a falešně pozitivních výsledků.
  • AUC_weighted, aritmetický průměr skóre pro každou třídu, vážený počtem pravdivých instancí v každé třídě.
  • AUC_binary, hodnota AUC tím, že považuje jednu konkrétní třídu za true třídu a zkombinuje všechny ostatní třídy jako false třídu.

  • Výpočet
    accuracy Přesnost je poměr predikcí, které přesně odpovídají popiskům skutečné třídy.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]
    Výpočet
    average_precision Průměrná přesnost shrnuje křivku přesnosti při úplnosti jako vážený průměr přesnosti dosažených při každé prahové hodnotě, přičemž zvýšení úplnosti z předchozí prahové hodnoty použité jako váha.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]

    Mezi podporované názvy metrik patří:
  • average_precision_score_macro, aritmetický průměr průměrného skóre přesnosti jednotlivých tříd.
  • average_precision_score_microvypočítané spočítáním celkových pravdivě pozitivních výsledků, falešně negativních výsledků a falešně pozitivních výsledků.
  • average_precision_score_weighted, aritmetický průměr průměrného skóre přesnosti pro každou třídu vážený počtem pravdivých instancí v každé třídě.
  • average_precision_score_binary, hodnotu průměrné přesnosti tím, že zachází s jednou konkrétní třídou jako true s třídou a zkombinuje všechny ostatní třídy jako false třídu.
  • Výpočet
    balanced_accuracy Vyvážená přesnost je aritmetický průměr úplnosti pro každou třídu.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]
    Výpočet
    f1_score F1 skóre je harmonický průměr přesnosti a úplnosti. Je to dobrá vyvážená míra falešně pozitivních i falešně negativních výsledků. Nebere však v úvahu skutečné negativní hodnoty.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]

    Mezi podporované názvy metrik patří:
  • f1_score_macro: aritmetický průměr skóre F1 pro každou třídu.
  • f1_score_micro: vypočítáno počítáním celkových pravdivě pozitivních výsledků, falešně negativních výsledků a falešně pozitivních výsledků.
  • f1_score_weighted: vážená střední hodnota podle frekvence třídy F1 skóre pro každou třídu.
  • f1_score_binary, hodnotu f1 tím, že zachází s jednou konkrétní třídou jako true s třídou a zkombinuje všechny ostatní třídy jako false třídu.
  • Výpočet
    log_loss Jedná se o funkci ztráty, která se používá v logistické regresi (multinomické) a rozšíření, jako jsou neurální sítě definované jako negativní pravděpodobnost, že skutečné popisky mají predikce pravděpodobnosti pravděpodobnosti klasifikátoru.

    Cílem: Čím blíž k 0, tím lépe
    Rozsah: [0, inf)
    Výpočet
    norm_macro_recall Normalizovaná úplnost makra je zprůměrovaná a normalizovaná, takže náhodný výkon má skóre 0 a dokonalý výkon má skóre 1.

    Cílem: Blíž k 1 lepší
    Rozsah: [0, 1]
    (recall_score_macro - R) / (1 - R)

    R kde je očekávaná hodnota náhodných recall_score_macro predikcí.

    R = 0.5 pro binární klasifikaci.
    R = (1 / C) pro problémy klasifikace tříd C.
    matthews_correlation Korelační koeficient Matthews je vyvážená míra přesnosti, kterou lze použít i v případě, že jedna třída obsahuje mnoho více vzorků než jiné. Koeficient 1 označuje perfektní predikci, 0 náhodných predikcí a -1 inverzní predikce.

    Cílem: Blíž k 1 lepší
    Rozsah: [-1, 1]
    Výpočet
    Přesnost Přesnost je schopnost modelu vyhnout se označování negativních vzorků jako pozitivních.

    Cílem: Blíž k 1 lepší
    Rozsah: [0, 1]

    Mezi podporované názvy metrik patří:
  • precision_score_macro, aritmetický průměr přesnosti pro každou třídu.
  • precision_score_micro, vypočítané globálně počítáním celkových pravdivě pozitivních a falešně pozitivních výsledků.
  • precision_score_weighted, aritmetická střední hodnota přesnosti pro každou třídu, vážená počtem pravdivých instancí v každé třídě.
  • precision_score_binary, hodnota přesnosti tím, že zachází s jednou konkrétní třídou jako true se třídou a zkombinuje všechny ostatní třídy jako false třídu.
  • Výpočet
    Úplnost Vzpomeňte si, že model dokáže rozpoznat všechny pozitivní vzorky.

    Cílem: Blíž k 1 lepší
    Rozsah: [0, 1]

    Mezi podporované názvy metrik patří:
  • recall_score_macro: aritmetický průměr úplnosti pro každou třídu.
  • recall_score_micro: vypočítává se globálně počítáním celkových pravdivě pozitivních výsledků, falešně negativních a falešně pozitivních výsledků.
  • recall_score_weighted: aritmetická střední hodnota úplnosti pro každou třídu, vážená počtem pravdivých instancí v každé třídě.
  • recall_score_binary, hodnota odvolání tím, že zachází s jednou konkrétní třídou jako true se třídou a zkombinuje všechny ostatní třídy jako false třídu.
  • Výpočet
    weighted_accuracy Vážená přesnost je přesnost, kdy je každý vzorek vážený celkovým počtem vzorků patřících do stejné třídy.

    Cílem: Blíž k 1 lepší
    Rozsah: [0, 1]
    Výpočet

    Binární a vícetřídní metriky klasifikace

    Automatizované strojové učení automaticky zjistí, jestli jsou data binární, a umožňuje uživatelům aktivovat metriky binární klasifikace i v případě, že data jsou vícetřídová, a to zadáním true třídy. Metriky klasifikace s více třídami budou hlášeny bez ohledu na to, jestli datová sada obsahuje dvě třídy nebo více než dvě třídy. Metriky binární klasifikace budou hlášeny pouze v případě, že jsou data binární, nebo uživatelé aktivují tuto možnost.

    Poznámka

    Když se zjistí úloha binární klasifikace, použijeme numpy.unique k vyhledání sady popisků a pozdější popisek se použije jako true třída. Vzhledem k tomu, že existuje postup řazení, numpy.uniquebude volba true třídy stabilní.

    Všimněte si, že metriky klasifikace s více třídami jsou určeny pro klasifikaci více tříd. Při použití na binární datovou sadu tyto metriky nebudou zacházet s žádnou třídou jako true se třídou, jak byste mohli očekávat. Metriky, které jsou jasně určené pro vícetřídy, jsou příponou s příponou micro, macronebo weighted. Mezi příklady patří average_precision_score: , , f1_score, precision_scorerecall_scorea AUC. Například místo výpočtu úplnosti jako tp / (tp + fn), vícetřídního průměrného odvolání (micromacronebo weighted) průměrů v obou třídách datové sady binární klasifikace. To je ekvivalentní výpočtu úplnosti true pro třídu a false třídu samostatně a pak vezme průměr těchto dvou.

    Kromě toho, i když je podporovaná automatická detekce binární klasifikace, je stále doporučeno vždy zadat true třídu ručně, aby se zajistilo, že se metriky binární klasifikace vypočítají pro správnou třídu.

    Pokud chcete aktivovat metriky pro datové sady binární klasifikace, pokud je samotná datová sada více tříd, uživatelé musí zadat pouze třídu, která se má považovat za true třídu, a tyto metriky se počítají.

    Konfuzní matice

    Matrice nejasností poskytují vizuál pro to, jak model strojového učení provádí systémové chyby v předpovědích klasifikačních modelů. Slovo "nejasnost" v názvu pochází z modelu "matoucí" nebo chybné označení ukázek. Buňka na řádku i a sloupci j v konfuzní matici obsahuje počet vzorků v testovací datové sadě, které patří do třídy C_i a byly klasifikovány modelem jako třída C_j.

    V studiu tmavší buňka označuje vyšší počet vzorků. Výběr normalizovaného zobrazení v rozevíracím seznamu bude normalizován přes každý řádek matice, aby se zobrazilo procento třídy C_i predikované jako třída C_j. Výhodou výchozího zobrazení Raw je, že zjistíte, jestli nerovnováha v rozdělení skutečných tříd způsobila, že model nesprávně klasifikoval vzorky z menšinové třídy, běžnou otázkou v nevyrovnaných datových sadách.

    Matoucí matice dobrého modelu bude mít většinu vzorků podél diagonální.

    Matoucí matice pro dobrý model

    Matoucí matice pro dobrý model

    Matoucí matice pro špatný model

    Matoucí matice pro špatný model

    Křivka ROC

    Křivka provozní charakteristiky příjemce (ROC) vykreslí vztah mezi skutečnou pozitivní rychlostí (TPR) a falešně pozitivní sazbou (FPR) jako změny rozhodovací prahové hodnoty. Křivka ROC může být méně informativní při trénování modelů na datových sadách s vysokou nerovnováhou, protože většina třídy může utopit příspěvky z menšinových tříd.

    Oblast pod křivkou (AUC) lze interpretovat jako podíl správně klasifikovaných vzorků. Přesněji řečeno, AUC je pravděpodobnost, že klasifikátor seřadí náhodně zvolený pozitivní výběr vyšší než náhodně zvolený záporný výběr vzorku. Tvar křivky poskytuje intuitivní vztah mezi TPR a FPR jako funkcí prahové hodnoty klasifikace nebo rozhodovací hranice.

    Křivka, která se blíží levému hornímu rohu grafu, se blíží 100% TPR a 0% FPR, což je nejlepší možný model. Náhodný model by vytvořil křivku ROC podél y = x čáry z levého dolního rohu do pravého horního rohu. Horší než náhodný model by měl křivku ROC, která klesne pod čáru y = x .

    Tip

    Pro klasifikační experimenty lze každý spojnicový graf vytvořený pro automatizované modely ML použít k vyhodnocení modelu podle třídy nebo průměru ve všech třídách. Mezi těmito různými zobrazeními můžete přepínat kliknutím na popisky tříd v legendě napravo od grafu.

    Křivka ROC pro dobrý model

    Křivka ROC pro dobrý model

    Křivka ROC pro špatný model

    Křivka ROC pro špatný model

    Křivka přesného odvolání

    Křivka pro úplnost přesnosti vykreslí vztah mezi přesností a odvoláním, protože se mění rozhodovací prahová hodnota. Připomínáme, že schopnost modelu detekovat všechny pozitivní vzorky a přesnost je schopnost modelu vyhnout se označování negativních vzorků jako pozitivních. Některé obchodní problémy můžou vyžadovat vyšší úplnost a vyšší přesnost v závislosti na relativní důležitosti zabránění falešně negativním vs falešně pozitivním výsledkům.

    Tip

    Pro klasifikační experimenty lze každý spojnicový graf vytvořený pro automatizované modely ML použít k vyhodnocení modelu podle třídy nebo průměru ve všech třídách. Mezi těmito různými zobrazeními můžete přepínat kliknutím na popisky tříd v legendě napravo od grafu.

    Křivka přesnosti pro dobrý model

    Křivka přesnosti pro dobrý model

    Křivka přesného odvolání pro špatný model

    Křivka přesného odvolání pro špatný model

    Křivka kumulativních zisků

    Kumulativní zisky křivky vykreslují procento pozitivních vzorků správně klasifikovaných jako funkci procent vzorků, u kterých považujeme vzorky v pořadí předpovězené pravděpodobnosti.

    Pokud chcete vypočítat zisk, nejprve seřaďte všechny vzorky od nejvyšší po nejnižší pravděpodobnost předpovězenou modelem. Pak využijte x% predikce nejvyšší spolehlivosti. Vydělte počet pozitivních vzorků, které x% byly zjištěny, celkovým počtem pozitivních vzorků, abyste získali zisk. Kumulativní zisk je procento pozitivních vzorků, které zjistíme při zvažování některých procent dat, která pravděpodobně patří do pozitivní třídy.

    Dokonalý model bude seřadit všechny pozitivní vzorky nad všemi negativními vzorky, které poskytují kumulativní ziskovou křivku tvořenou dvěma rovnými segmenty. První je přímka se sklonem 1 / x od (x, 1)(0, 0)x místa, kde je zlomek vzorků, které patří do kladné třídy (1 / num_classes pokud jsou třídy vyváženy). Druhá je vodorovná čára od (x, 1) do (1, 1). V prvním segmentu se všechny pozitivní vzorky klasifikují správně a kumulativní zisk spadá do 100% prvního x% z považovaných vzorků.

    Náhodný model podle směrného plánu bude mít kumulativní křivku zisků, y = x která následuje v případě, že x% byly zjištěny pouze x% celkové kladné vzorky. Ideální model pro vyváženou datovou sadu bude mít mikroprůměrnou křivku a průměrnou čáru makra, která má sklon num_classes , dokud kumulativní zisk nebude 100 % a pak vodorovně, dokud nebude procento dat 100.

    Tip

    U klasifikačních experimentů lze každý spojnicový graf vytvořený pro automatizované modely ML použít k vyhodnocení modelu podle třídy nebo průměru u všech tříd. Mezi těmito různými zobrazeními můžete přepínat kliknutím na popisky tříd v legendě napravo od grafu.

    Křivka kumulativních zisků pro dobrý model

    Křivka kumulativních zisků pro dobrý model

    Kumulativní zvýšení křivky pro chybný model

    Kumulativní zvýšení křivky pro chybný model

    Křivka navýšení

    Křivka lift ukazuje, kolikrát lépe model provádí v porovnání s náhodným modelem. Lift je definován jako poměr kumulativního zisku k kumulativnímu získání náhodného modelu (který by měl být 1vždy ).

    Tento relativní výkon bere v úvahu skutečnost, že klasifikace je obtížnější, když zvýšíte počet tříd. (Náhodný model nesprávně předpovídá vyšší zlomek vzorků z datové sady s 10 třídami ve srovnání s datovou sadou se dvěma třídami)

    Směrná křivka výtahu y = 1 je čára, ve které je výkon modelu konzistentní s výkonem náhodného modelu. Obecně platí, že křivka lift pro dobrý model bude na daném grafu vyšší a dál od osy x, která ukazuje, že když je model nejvědomější v předpovědích, provádí mnohokrát lépe než náhodné odhadování.

    Tip

    U klasifikačních experimentů lze každý spojnicový graf vytvořený pro automatizované modely ML použít k vyhodnocení modelu podle třídy nebo průměru u všech tříd. Mezi těmito různými zobrazeními můžete přepínat kliknutím na popisky tříd v legendě napravo od grafu.

    Lift curve for a good model

    Lift curve for a good model

    Lift curve for a bad model

    Lift curve for a bad model

    Kalibrační křivka

    Kalibrace křivky vykreslují spolehlivost modelu v předpovědích s poměrem pozitivních vzorků na každé úrovni spolehlivosti. Dobře kalibrovaný model správně klasifikuje 100 % predikcí, kterým přiřadí 100 % spolehlivosti, 50 % predikcí přiřadí 50 % spolehlivosti, 20 % předpovědí, které přiřadí 20 % spolehlivosti atd. Dokonale kalibrovaný model bude mít kalibraci křivky za y = x čárou, kde model dokonale předpovídá pravděpodobnost, že vzorky patří do každé třídy.

    Nadvědomý model přepovědí pravděpodobnosti blížící se nule a jedné, zřídka si nejste jistí třídou každého vzorku a kalibrace křivky bude vypadat podobně jako vzad "S". Model s nižší jistotou přiřadí třídě, která predikuje, nižší pravděpodobnost a přidružená kalibrace bude vypadat podobně jako "S". Kalibrace křivky nezobrazuje schopnost modelu správně klasifikovat, ale její schopnost správně přiřazovat důvěru předpovědím. Špatný model může mít pořád dobrou kalibraci, pokud model správně přiřadí nízkou spolehlivost a vysokou nejistotu.

    Poznámka

    Kalibrační křivka je citlivá na počet vzorků, takže malá ověřovací sada může způsobit hlučné výsledky, které je obtížné interpretovat. To nemusí nutně znamenat, že model není dobře kalibrovaný.

    Kalibrace křivky pro dobrý model

    Kalibrace křivky pro dobrý model

    Kalibrace křivky pro špatný model

    Kalibrace křivky pro špatný model

    Regrese / prognózování metrik

    Automatizované strojové učení vypočítá stejné metriky výkonu pro každý vygenerovaný model bez ohledu na to, jestli se jedná o regresní nebo prognózovací experiment. Tyto metriky také procházejí normalizací, aby bylo možné porovnat modely natrénované na datech s různými rozsahy. Další informace najdete v tématu normalizace metrik.

    Následující tabulka shrnuje metriky výkonu modelu generované pro regresi a prognózování experimentů. Podobně jako metriky klasifikace jsou tyto metriky také založené na implementacích scikitu learn. Odpovídající dokumentace ke scikitu learn je odpovídajícím způsobem propojena v poli Výpočet .

    Metric Popis Výpočet
    explained_variance Vysvětlení odchylky měří rozsah, do kterého model představuje odchylku v cílové proměnné. Jedná se o procentuální pokles odchylky původních dat na odchylku chyb. Pokud je průměr chyb 0, je roven koeficientu stanovení (viz r2_score níže).

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: (-inf, 1]
    Výpočet
    mean_absolute_error Střední absolutní chyba je očekávaná hodnota absolutní hodnoty rozdílu mezi cílem a predikcí.

    Cílem: Čím blíž k 0, tím lépe
    Rozsah: [0, inf)

    Typy:
    mean_absolute_error
    normalized_mean_absolute_error, mean_absolute_error dělený rozsahem dat.
    Výpočet
    mean_absolute_percentage_error Střední procentuální chyba (MAPE) je míra průměrného rozdílu mezi predikovanou hodnotou a skutečnou hodnotou.

    Cílem: Čím blíž k 0, tím lépe
    Rozsah: [0, inf)
    median_absolute_error Medián absolutní chyby je medián všech absolutních rozdílů mezi cílem a predikcí. Tato ztráta je robustní pro odlehlé hodnoty.

    Cílem: Čím blíž k 0, tím lépe
    Rozsah: [0, inf)

    Typy:
    median_absolute_error
    normalized_median_absolute_error: median_absolute_error děleno rozsahem dat.
    Výpočet
    r2_score R2 (koeficient určení) měří poměrné snížení střední kvadratická chyba (MSE) vzhledem k celkové odchylkě pozorovaných dat.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [-1, 1]

    Poznámka: R2 má často rozsah (-inf, 1]. MsE může být větší než pozorovaná odchylka, takže R2 může mít libovolně velké záporné hodnoty v závislosti na datech a predikcích modelu. Automatizované klipy ML hlásily skóre R2 v hodnotě -1, takže hodnota -1 pro R2 pravděpodobně znamená, že skutečné skóre R2 je menší než -1. Při interpretaci záporného skóre R2 zvažte další hodnoty metrik a vlastnosti dat.
    Výpočet
    root_mean_squared_error Hlavní střední kvadratická chyba (RMSE) je druhou odmocninou očekávaného čtvercového rozdílu mezi cílem a predikcí. U nebiased estimátoru se RMSE rovná směrodatné odchylce.

    Cílem: Čím blíž k 0, tím lépe
    Rozsah: [0, inf)

    Typy:
    root_mean_squared_error
    normalized_root_mean_squared_error: root_mean_squared_error děleno rozsahem dat.
    Výpočet
    root_mean_squared_log_error Hlavní střední kvadratická chyba protokolu je druhou odmocninou očekávané logaritmické chyby.

    Cílem: Čím blíž k 0, tím lépe
    Rozsah: [0, inf)

    Typy:
    root_mean_squared_log_error
    normalized_root_mean_squared_log_error: root_mean_squared_log_error děleno rozsahem dat.
    Výpočet
    spearman_correlation Spearmanova korelace je neparametrické měřítko monotonicity relace mezi dvěma datovými sadami. Na rozdíl od pearsonové korelace spearman korelace nepředpokládá, že obě datové sady jsou normálně distribuovány. Stejně jako jiné korelační koeficienty se Spearman liší mezi -1 a 1 a 0 znamená žádnou korelaci. Korelace -1 nebo 1 znamenají přesnou monotonickou relaci.

    Spearman je metrika korelace pořadí pořadí, což znamená, že změny predikovaných nebo skutečných hodnot nezmění výsledek Spearman, pokud nezmění pořadí pořadí predikovaných nebo skutečných hodnot.

    Cílem: Blíž k 1 lepší
    Rozsah: [-1, 1]
    Výpočet

    Normalizace metrik

    Automatizované strojové učení normalizuje regresi a prognózování metrik, které umožňují porovnání modelů trénovaných na datech s různými rozsahy. Model trénovaný na datech s větším rozsahem má vyšší chybu než stejný model natrénovaný na datech s menším rozsahem, pokud se tato chyba normalizuje.

    I když neexistuje žádná standardní metoda normalizace metrik chyb, automatizované strojové učení přebírá běžný přístup k rozdělení chyby rozsahem dat: normalized_error = error / (y_max - y_min)

    Poznámka

    Rozsah dat se neuloží s modelem. Pokud odvozujete stejný model na testovací sadě y_min blokování a y_max může se změnit podle testovacích dat a normalizovaných metrik se nemusí přímo použít k porovnání výkonu modelu při trénování a testovacích sadách. Můžete předat hodnotu y_min a y_max z trénovací sady, aby bylo porovnání spravedlivé.

    Při vyhodnocování modelu prognózování dat časových řad provede automatizované strojové učení další kroky, aby se zajistilo, že normalizace proběhne podle ID časové řady (grain), protože každá časová řada má pravděpodobně jiné rozdělení cílových hodnot.

    Rezidua

    Graf reziduí je histogram predikčních chyb (reziduí) vygenerovaných pro regresi a prognózování experimentů. Rezidua se vypočítají jako y_predicted - y_true všechny vzorky a pak se zobrazí jako histogram pro zobrazení předsudků modelu.

    V tomto příkladu si všimněte, že oba modely jsou mírně zkreslené tak, aby předpovídaly nižší než skutečná hodnota. To není neobvyklé u datové sady se nerovnoměrnou distribucí skutečných cílů, ale označuje horší výkon modelu. Dobrý model bude mít rozdělení reziduí, které se blíží nule s několika reziduími na extrémních úrovních. Horší model bude mít rozprostřenou distribuci reziduí s menším počtem vzorků kolem nuly.

    Graf reziduí pro dobrý model

    Graf reziduí pro dobrý model

    Graf reziduí pro špatný model

    Graf reziduí pro špatný model

    Predikované a skutečné hodnoty

    Pokud chcete regresi a prognózování experimentovat s predikovanými a skutečnými hodnotami, vykreslí skutečný graf vztah mezi cílovou funkcí (true/actual values) a predikcemi modelu. Hodnoty true jsou přihrádky podél osy x a pro každou střední předpovězenou hodnotu se vykreslují s chybovými úsečky. To vám umožní zjistit, jestli je model zkreslený směrem k predikci určitých hodnot. Čára zobrazuje průměrnou predikci a stínovanou oblast označuje odchylku předpovědí kolem tohoto průměru.

    Nejčastější pravdivá hodnota bude mít často nejpřesnější předpovědi s nejnižší odchylkou. Vzdálenost spojnice trendu od ideální y = x čáry, kde existuje několik pravdivých hodnot, je dobrou mírou výkonu modelu na odlehlých hodnotách. Histogram můžete použít v dolní části grafu k odůvodnění skutečné distribuce dat. Zahrnutí dalších ukázek dat, ve kterých je distribuce řídká, může zlepšit výkon modelu u nezobrazených dat.

    V tomto příkladu si všimněte, že lepší model má předpovězenou vs. skutečnou čáru, která je blíž k ideální y = x čáře.

    Předpověď vs. true chart pro dobrý model

    Předpověď vs. true chart pro dobrý model

    Předpověď vs. true chart pro špatný model

    Předpověď vs. true chart pro špatný model

    Horizont prognózy (Preview)

    V případě předpovědí experimentů graf horizontu prognózy vykreslí vztah mezi modely predikovanou hodnotou a skutečnými hodnotami namapovanými v průběhu času na překládání křížového ověření až 5 záhybů. Osa x mapuje čas na základě frekvence, kterou jste zadali během nastavení trénování. Svislá čára v grafu označuje bod horizontu prognózy označovaný také jako horizontová čára, což je časové období, ve kterém byste chtěli začít generovat předpovědi. Nalevo od čáry horizontu prognózy můžete zobrazit historická trénovací data, abyste lépe vizualizovali minulé trendy. Napravo od horizontu prognózy můžete vizualizovat předpovědi (fialová čára) proti skutečným (modrým čarám) pro různé křížové ověřovací záhyby a identifikátory časových řad. Stínovaná fialová oblast označuje intervaly spolehlivosti nebo odchylku předpovědí kolem tohoto průměru.

    Můžete zvolit kombinace identifikátorů křížového ověření a identifikátorů časových řad, které se mají zobrazit kliknutím na ikonu tužky pro úpravy v pravém horním rohu grafu. Vyberte z prvních 5 křížových ověření a až 20 různých identifikátorů časových řad, abyste mohli vizualizovat graf pro různé časové řady.

    Důležité

    Tento graf je k dispozici pouze pro modely generované z trénovacích a ověřovacích dat. Umožňujeme až 20 datových bodů před a až 80 datových bodů po původu prognózy. Vizuály pro modely založené na testovacích datech se v tuto chvíli nepodporují.

    Graf horizontů prognóz

    Metriky pro modely obrázků (Preview)

    Automatizované strojové učení používá obrázky z ověřovací datové sady k vyhodnocení výkonu modelu. Výkon modelu se měří na epochové úrovni , abyste pochopili, jak trénování probíhá. Epocha uplynula, když se celá datová sada předává dopředu a dozadu přes neurální síť přesně jednou.

    Metriky klasifikace obrázků

    Primární metrika pro vyhodnocení je přesnost binárních a multi-tříd klasifikačních modelů a IoU (průsečík over Union) pro modely klasifikace multilabel. Metriky klasifikace pro modely klasifikace obrázků jsou stejné jako metriky definované v části metrik klasifikace . Hodnoty ztráty spojené s epochou jsou také zaznamenány, které vám můžou pomoct monitorovat průběh trénování a určit, jestli je model přezpracovaný nebo podtříděný.

    Každá předpověď z klasifikačního modelu je přidružená k skóre spolehlivosti, což označuje úroveň spolehlivosti, se kterou byla predikce provedena. Modely klasifikace obrázků multilabel jsou standardně vyhodnoceny s prahovou hodnotou skóre 0,5, což znamená, že jako pozitivní predikce pro přidruženou třídu budou považovány pouze předpovědi s alespoň touto úrovní spolehlivosti. Vícetřídní klasifikace nepoužívá prahovou hodnotu skóre, ale třída s maximálním skóre spolehlivosti se považuje za predikci.

    Metriky na úrovni epochy pro klasifikaci obrázků

    Na rozdíl od metrik klasifikace tabulkových datových sad protokolují modely klasifikace obrázků všechny metriky klasifikace na epochové úrovni, jak je znázorněno níže.

    Epochové grafy pro klasifikaci obrázků

    Souhrnné metriky pro klasifikaci obrázků

    Kromě skalárních metrik, které se protokolují na úrovni epochy, model klasifikace obrázků také souhrnné metriky protokolu, jako jsou konfuzní matice, klasifikační grafy, včetně křivky ROC, křivky přesnosti a sestavy klasifikace modelu z nejlepší epochy, při které získáme nejvyšší primární metriku (přesnost).

    Sestava klasifikace poskytuje hodnoty na úrovni tříd pro metriky, jako je přesnost, úplnost, f1 skóre, podpora, auc a average_precision s různými úrovněmi průměrování – mikro, makro a vážené, jak je znázorněno níže. Projděte si definice metrik z oddílu metrik klasifikace .

    Sestava klasifikace pro klasifikaci obrázků

    Metriky detekce objektů a segmentace instancí

    Každá předpověď z rozpoznávání objektů obrázku nebo modelu segmentace instancí je přidružená ke skóre spolehlivosti. Předpovědi s skóre spolehlivosti větší než prahová hodnota skóre jsou výstupem jako předpovědi a používané ve výpočtu metriky, výchozí hodnota, která je specifická pro model a lze ji odkazovat ze stránky ladění hyperparametrů (box_score_threshold hyperparametr).

    Výpočet metriky rozpoznávání objektů obrázku a modelu segmentace instancí je založen na překrývání definované metrikou IoU (průnikem nad Sjednocením), která se vypočítá rozdělením oblasti překrývání mezi pravdu země a predikcemi oblastí sjednocení základní pravdy a predikcí. IoU vypočítané z každé předpovědi se porovnává s prahovou hodnotou překrývání označovanou jako prahová hodnota IoU, která určuje, kolik predikce by se měla překrývat s uživatelem anotovanou základní pravdou, aby bylo možné považovat za pozitivní predikci. Pokud je ioU vypočítané z předpovědi menší než prahová hodnota překrývání, predikce by nebyla považována za pozitivní predikci pro přidruženou třídu.

    Primární metrikou pro vyhodnocení modelů rozpoznávání objektů obrázků a segmentace instancí je průměrná průměrná přesnost (mAP). MAP je průměrná hodnota průměrné přesnosti (AP) ve všech třídách. Modely automatizované detekce objektů ML podporují výpočty mAP pomocí následujících dvou oblíbených metod.

    Metriky Pascal VOC:

    Pascal VOC mAP je výchozí způsob výpočtu mAP pro modely segmentace objektů a instancí. Metoda mAP stylu Pascal VOC vypočítá oblast pod verzí křivky přesnosti odvolání. První p(ri), což je přesnost při úplnosti i je vypočtena pro všechny jedinečné hodnoty úplnosti. p(ri) se pak nahradí maximální přesností získanou pro případnou úplnost r' >= ri. Hodnota přesnosti se monotonicky snižuje v této verzi křivky. Metrika Pascal VOC mAP je ve výchozím nastavení vyhodnocena prahovou hodnotou IoU 0,5. Podrobné vysvětlení tohoto konceptu je k dispozici na tomto blogu.

    Metriky COCO:

    Metoda vyhodnocení COCO používá interpolovanou metodu 101 bodů pro výpočet ap spolu s průměrem přes deset prahových hodnot IoU. AP@[.5:.95] odpovídá průměrnému ap pro IoU od 0,5 do 0,95 s velikostí kroku 0,05. Automatizované strojové učení protokoluje všechny dvanácti metriky definované metodou COCO, včetně rozhraní API a AR (průměrné úplnosti) v protokolech aplikace, zatímco uživatelské rozhraní metrik zobrazuje pouze mAP na prahové hodnotě IoU 0,5.

    Tip

    Vyhodnocení modelu detekce objektů obrázku může použít metriky coco, pokud validation_metric_type je hyperparametr nastavený na "coco", jak je vysvětleno v části ladění hyperparametrů .

    Metriky na úrovni epochy pro detekci objektů a segmentaci instancí

    Hodnoty mAP, přesnosti a úplnosti se protokolují na epochové úrovni pro modely segmentace objektů obrázku nebo instance. Metriky mAP, přesnosti a úplnosti se protokolují také na úrovni třídy s názvem "per_label_metrics". Hodnota per_label_metrics by se měla zobrazit jako tabulka.

    Poznámka

    Metriky na úrovni epochy pro přesnost, úplnost a per_label_metrics nejsou při použití metody coco k dispozici.

    Epochové grafy pro detekci objektů

    Vysvětlení modelů a důležitost funkcí

    I když jsou metriky a grafy hodnocení modelů vhodné pro měření obecné kvality modelu, kontrola toho, která datová sada obsahuje model použitý k vytváření předpovědí, je nezbytné při cvičení zodpovědné umělé inteligence. Proto automatizované strojové učení poskytuje řídicí panel vysvětlení modelu, který měří a hlásí relativní příspěvky funkcí datové sady. Podívejte se, jak zobrazit řídicí panel vysvětlení v studio Azure Machine Learning.

    Pokud získáte první zkušenosti s kódem, podívejte se, jak nastavit vysvětlení modelů pro automatizované experimenty ML se sadou Azure Machine Learning Python SDK.

    Poznámka

    Interpretability, best model explanation, is not available for automated ML forecasting experiments that recommend the following algorithms as the best model or ensemble:

    • TCNForecaster
    • Automatická archivace
    • ExponentialSmoothing
    • Prorok
    • Průměr
    • Naive
    • Sezónní průměr
    • Sezónní naive

    Další kroky