Vyhodnocení výsledků experimentů automatizovaného strojového učení

V tomto článku se dozvíte, jak vyhodnocovat a porovnávat modely vytrénované experimentem automatizovaného strojového učení (automatizované strojové učení). V průběhu experimentu automatizovaného strojového učení se vytvoří mnoho úloh a každá úloha vytvoří model. Automatizované strojové učení pro každý model vygeneruje hodnoticí metriky a grafy, které vám pomůžou měřit výkon modelů. Dále můžete vygenerovat řídicí panel odpovědné AI, který ve výchozím nastavení provede holistické posouzení a ladění doporučeného nejlepšího modelu. To zahrnuje přehledy, jako jsou vysvětlení modelů, nestrannost a Průzkumník výkonu, Průzkumník dat, analýza chyb modelu. Přečtěte si další informace o tom, jak můžete vygenerovat řídicí panel odpovědné AI.

Automatizované strojové učení například vygeneruje následující grafy na základě typu experimentu.

Klasifikace Regrese/prognózování
Konfuzní matice Histogram reziduí
Křivka ROC (Receiver Operating Characteristic) Predikované a skutečné hodnoty
Křivka přesnosti a úplnosti (PR) Horizont prognózy
Křivka navýšení
Křivka kumulativních zisků
Kalibrační křivka

Důležité

Položky označené v tomto článku (Preview) jsou aktuálně ve verzi Public Preview. Verze Preview se poskytuje bez smlouvy o úrovni služeb a nedoporučuje se pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Požadavky

Zobrazení výsledků úlohy

Po dokončení experimentu automatizovaného strojového učení můžete historii úloh najít prostřednictvím:

Následující kroky a video ukazují, jak zobrazit historii spuštění a metriky a grafy vyhodnocení modelu ve studiu:

  1. Přihlaste se ke studiu a přejděte do svého pracovního prostoru.
  2. V nabídce vlevo vyberte Úlohy.
  3. Vyberte experiment ze seznamu experimentů.
  4. V tabulce v dolní části stránky vyberte automatizovanou úlohu ML.
  5. Na kartě Modely vyberte název algoritmu pro model, který chcete vyhodnotit.
  6. Na kartě Metriky můžete pomocí zaškrtávacích políček na levé straně zobrazit metriky a grafy.

Metriky klasifikace

Automatizované strojové učení vypočítá metriky výkonu pro každý klasifikační model vygenerovaný pro váš experiment. Tyto metriky jsou založené na implementaci scikit learn.

Mnoho metrik klasifikace je definováno pro binární klasifikaci ve dvou třídách a vyžaduje průměr nad třídami, aby se vytvořilo jedno skóre pro klasifikaci s více třídami. Scikit-learn nabízí několik průměrovaných metod, z nichž tři zpřístupňuje automatizované strojové učení: makro, mikro a vážené.

  • Makro – vypočítá metriku pro každou třídu a vezme průměr bez váhy.
  • Mikro – vypočítejte metriku globálně tak, že spočítáte celkový počet pravdivě pozitivních, falešně negativních a falešně pozitivních výsledků (nezávisle na třídách).
  • Vážené – Vypočítejte metriku pro každou třídu a vezměte vážený průměr na základě počtu vzorků na třídu.

I když má každá metoda průměrování své výhody, jedním z běžných aspektů při výběru vhodné metody je nevyváženost tříd. Pokud mají třídy různý počet vzorků, může být informativní použít makroprůměr, kdy menšinové třídy mají stejnou váhu jako většinové třídy. Přečtěte si další informace o binárních a vícetřídových metrikách v automatizovaném strojovém učení.

Následující tabulka shrnuje metriky výkonu modelu, které automatizované strojové učení počítá pro každý klasifikační model vygenerovaný pro váš experiment. Další podrobnosti najdete v dokumentaci scikit-learn propojené v poli Výpočet každé metriky.

Poznámka

Další podrobnosti o metrikách pro modely klasifikace obrázků najdete v části věnované metrikám obrázků.

Metric Popis Výpočet
AUC AUC je oblast pod křivkou provozní charakteristiky přijímače.

Cílem: Čím blíž k 1, tím lépe
Rozsah: [0, 1]

Mezi podporované názvy metrik patří:
  • AUC_macro, aritmetický průměr AUC pro každou třídu.
  • AUC_micro, vypočítaný spočítáním celkového počtu pravdivě pozitivních, falešně negativních a falešně pozitivních výsledků.
  • AUC_weighted, aritmetický průměr skóre pro každou třídu vážený počtem pravdivých instancí v každé třídě.
  • AUC_binary, hodnota AUC tím, že se jedna konkrétní třída true považuje za třídu a zkombinuje všechny ostatní třídy jako false třídu.

  • Výpočet
    accuracy Přesnost je poměr předpovědí, které přesně odpovídají skutečným popiskům tříd.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]
    Výpočet
    average_precision Průměrná přesnost shrnuje křivku úplnosti přesnosti jako váženou střední hodnotu přesnosti dosažených při jednotlivých prahových hodnotách s nárůstem úplnosti oproti předchozí prahové hodnotě použité jako váha.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]

    Mezi podporované názvy metrik patří:
  • average_precision_score_macro, aritmetický průměr průměrného skóre přesnosti každé třídy.
  • average_precision_score_micro, vypočítaný spočítáním celkového počtu pravdivě pozitivních, falešně negativních a falešně pozitivních výsledků.
  • average_precision_score_weighted, aritmetický průměr průměrného skóre přesnosti pro každou třídu vážený počtem pravdivých instancí v každé třídě.
  • average_precision_score_binary, hodnota průměrné přesnosti tím, že se jedna konkrétní třída považuje za true třídu a zkombinuje všechny ostatní třídy jako false třídu.
  • Výpočet
    balanced_accuracy Vyvážená přesnost je aritmetický průměr úplnosti pro každou třídu.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]
    Výpočet
    f1_score Skóre F1 je harmonický průměr přesnosti a úplnosti. Je to dobrá vyvážená míra falešně pozitivních i falešně negativních výsledků. Nebere ale v úvahu pravdivě negativní hodnoty.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]

    Mezi podporované názvy metrik patří:
  • f1_score_macro: aritmetický průměr skóre F1 pro každou třídu.
  • f1_score_micro: vypočteno součtem pravdivě pozitivních, falešně negativních a falešně pozitivních výsledků.
  • f1_score_weighted: vážený průměr podle četnosti tříd skóre F1 pro každou třídu.
  • f1_score_binary, hodnota f1 tím, že se jedna konkrétní třída true považuje za třídu a zkombinuje všechny ostatní třídy jako false třídu.
  • Výpočet
    log_loss Jedná se o ztrátovou funkci používanou v (multinomické) logistické regresi a její rozšíření, jako jsou neurální sítě, definovaná jako záporná logová pravděpodobnost pravdivých popisků při pravděpodobnostních predikcích klasifikátoru.

    Cílem: Blíže k 0, tím lepší
    Rozsah: [0, inf)
    Výpočet
    norm_macro_recall Normalizované odvolání makra se zprůměruje a normalizuje, takže náhodný výkon má skóre 0 a perfektní výkon skóre 1.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]
    (recall_score_macro - R) / (1 - R)

    R kde je očekávaná hodnota recall_score_macro pro náhodné předpovědi.

    R = 0.5 pro binární klasifikaci.
    R = (1 / C) pro problémy klasifikace třídy C.
    matthews_correlation Matthewsovy korelační koeficienty jsou vyváženou mírou přesnosti, kterou lze použít i v případě, že jedna třída obsahuje mnohem více vzorků než jiná. Koeficient 1 označuje dokonalou předpověď, 0 náhodnou předpověď a -1 inverzní předpověď.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [-1, 1]
    Výpočet
    Přesnost Přesnost je schopnost modelu vyhnout se označování negativních vzorků jako pozitivních.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]

    Mezi podporované názvy metrik patří:
  • precision_score_macro, aritmetický průměr přesnosti pro každou třídu.
  • precision_score_micro, vypočítaný globálně spočítáním celkového počtu pravdivě pozitivních a falešně pozitivních výsledků.
  • precision_score_weighted, aritmetický průměr přesnosti pro každou třídu vážený počtem true instancí v každé třídě.
  • precision_score_binary, hodnota přesnosti tím, že se jedna konkrétní třída true považuje za třídu a zkombinuje všechny ostatní třídy jako false třídu.
  • Výpočet
    Úplnost Úplnost je schopnost modelu detekovat všechny pozitivní vzorky.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]

    Mezi podporované názvy metrik patří:
  • recall_score_macro: aritmetický průměr úplnosti pro každou třídu.
  • recall_score_micro: vypočteno globálně spočítáním celkového počtu pravdivě pozitivních, falešně negativních a falešně pozitivních výsledků.
  • recall_score_weighted: aritmetický průměr úplnosti pro každou třídu vážený počtem pravdivých instancí v každé třídě.
  • recall_score_binary, hodnota úplnosti tím, že se jedna konkrétní třída true považuje za třídu a zkombinuje všechny ostatní třídy jako false třídu.
  • Výpočet
    weighted_accuracy Vážená přesnost je přesnost, kdy je každý vzorek vážený celkovým počtem vzorků patřících do stejné třídy.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [0, 1]
    Výpočet

    Binární vs. vícetřídové metriky klasifikace

    Automatizované strojové učení automaticky zjišťuje, jestli jsou data binární, a také umožňuje uživatelům aktivovat metriky binární klasifikace, i když jsou data více tříd zadáním true třídy. Metriky klasifikace s více třídami se hlásí, pokud má datová sada dvě nebo více tříd. Metriky binární klasifikace se vykazují pouze v případech, kdy jsou data binární.

    Poznámka: Metriky klasifikace s více třídami jsou určené pro klasifikaci s více třídami. Při použití na binární datovou sadu tyto metriky nezachází s žádnou třídou jako s true třídou, jak byste očekávali. Metriky, které jsou jasně určené pro více tříd, mají příponu micro, macronebo weighted. Mezi příklady patří average_precision_score, f1_score, precision_score, recall_scorea AUC. Například místo výpočtu úplnosti jako tp / (tp + fn)se průměry vícetřídové úplnosti (micro, macronebo weighted) používají obě třídy binární klasifikační datové sady. To je ekvivalentem výpočtu úplnosti true pro třídu a false třídu zvlášť a následně při výpočtu průměru z těchto dvou tříd.

    Kromě toho, i když je podporována automatická detekce binární klasifikace, stále se doporučuje zadat true třídu vždy ručně, aby se zajistilo, že se metriky binární klasifikace počítají pro správnou třídu.

    Pokud chtějí uživatelé aktivovat metriky pro binární klasifikační datové sady, když má samotná datová sada více tříd, stačí zadat třídu, která se má považovat za true třídu, a tyto metriky se vypočítají.

    Konfuzní matice

    Matrice záměny poskytují vizuální informace o tom, jak model strojového učení provádí systematické chyby ve svých predikcích klasifikačních modelů. Slovo "záměna" v názvu pochází z modelu, který je "matoucí" nebo nesprávně oznamující ukázky. Buňka v řádku i a sloupci j v konfuzní matici obsahuje počet vzorků ve zkušební datové sadě, které patří do třídy C_i a které byly modelem klasifikovány jako třída C_j.

    Tmavší buňka ve studiu označuje větší počet vzorků. Výběrem normalizovaného zobrazení v rozevíracím seznamu se normalizuje každý řádek matice, aby se zobrazilo procento třídy C_i , které je předpovězeno jako třída C_j. Výhodou výchozího nezpracovaného zobrazení je, že můžete zjistit, jestli nerovnováha v rozdělení skutečných tříd způsobila, že model nesprávně klasifikoval vzorky z menšinové třídy, což je běžný problém v nevyvážených datových sadách.

    Matoucí matice dobrého modelu bude mít většinu vzorků podél úhlopříčky.

    Konfuzní matice pro dobrý model

    Konfuzní matice pro dobrý model

    Konfuzní matice pro chybný model

    Konfuzní matice pro chybný model

    Křivka ROC

    Křivka roc (Operating Characteristic) přijímače vykresluje vztah mezi sazbou pravdivě pozitivních výsledků (TPR) a mírou falešně pozitivních výsledků (FPR), jak se mění prahová hodnota rozhodnutí. Křivka ROC může být méně informativní při trénování modelů u datových sad s vysokou nerovnováhou tříd, protože většina třídy může přehlušovat příspěvky menšinových tříd.

    Oblast pod křivkou (AUC) lze interpretovat jako podíl správně klasifikovaných vzorků. Přesněji řečeno, AUC je pravděpodobnost, že klasifikátor řadí náhodně vybraný pozitivní vzorek na vyšší hodnotu než náhodně zvolený negativní vzorek. Tvar křivky dává vztah mezi TPR a FPR jako funkci klasifikační prahové hodnoty nebo rozhodovací hranice.

    Křivka, která se blíží levému hornímu rohu grafu, se blíží 100% TPR a 0 % FPR, což je nejlepší možný model. Náhodný model vytvoří křivku ROC podél y = x čáry od levého dolního rohu do pravého horního rohu. Horší než náhodný model by měl křivku ROC, která se propadá pod přímku y = x .

    Tip

    U klasifikačních experimentů je možné každý spojnicový graf vytvořený pro automatizované modely ML použít k vyhodnocení modelu pro jednotlivé třídy nebo k jejich průměru ve všech třídách. Mezi těmito různými zobrazeními můžete přepínat kliknutím na popisky tříd v legendě napravo od grafu.

    Křivka ROC pro dobrý model

    Křivka ROC pro dobrý model

    Křivka ROC pro špatný model

    Křivka ROC pro špatný model

    Křivka úplnosti přesnosti

    Křivka úplnosti přesnosti vykresluje vztah mezi přesností a úplností při změně rozhodovací prahové hodnoty. Úplnost je schopnost modelu rozpoznat všechny pozitivní vzorky a přesnost je schopnost modelu zabránit označování negativních vzorků jako pozitivních. Některé obchodní problémy můžou vyžadovat vyšší úplnost a určitou přesnost v závislosti na relativní důležitosti předcházení falešně negativním výsledkům a falešně pozitivním výsledkům.

    Tip

    U klasifikačních experimentů je možné každý spojnicový graf vytvořený pro automatizované modely ML použít k vyhodnocení modelu pro jednotlivé třídy nebo k jejich průměru ve všech třídách. Mezi těmito různými zobrazeními můžete přepínat kliknutím na popisky tříd v legendě napravo od grafu.

    Křivka přesné úplnosti pro dobrý model

    Křivka přesné úplnosti pro dobrý model

    Křivka přesné úplnosti pro chybný model

    Křivka přesné úplnosti pro chybný model

    Křivka kumulativních zisků

    Křivka kumulativních zisků vykresluje procento pozitivních vzorků správně klasifikovaných jako funkci procenta zvažovaných vzorků, u kterých považujeme vzorky v pořadí podle predikované pravděpodobnosti.

    Pokud chcete vypočítat zisk, nejprve seřaďte všechny vzorky od nejvyšší po nejnižší pravděpodobnost předpovězenou modelem. Pak se podívejte x% na predikce s nejvyšší spolehlivostí. Vydělí počet zjištěných x% pozitivních vzorků celkovým počtem pozitivních vzorků, aby se získal zisk. Kumulativní zisk je procento pozitivních vzorků, které zjistíme při zvažování určitého procenta dat, která s největší pravděpodobností patří do pozitivní třídy.

    Dokonalý model seřadí všechny pozitivní vzorky nad všechny negativní vzorky a poskytne kumulativní křivku zisků tvořenou dvěma rovnými segmenty. První je přímka se sklonem 1 / x k (x, 1)(0, 0), kde x je zlomek vzorků, které patří do kladné třídy (1 / num_classes pokud jsou třídy vyvážené). Druhá je vodorovná čára od (x, 1) do (1, 1). V první části jsou všechny pozitivní vzorky klasifikovány správně a kumulativní zisk spadá do 100% prvního x% ze zvažovaných vzorků.

    Základní náhodný model bude mít křivku kumulativních zisků za tím y = x , kde u x% zvažovaných vzorků byly zjištěny pouze přibližně x% celkové pozitivní vzorky. Dokonalý model pro vyváženou datovou sadu bude mít křivku mikroprůměru a přímku makro průměru, která má sklon num_classes až do dosažení 100% kumulativního zisku, a poté vodorovně, dokud procento dat nebude 100.

    Tip

    U klasifikačních experimentů je možné každý spojnicový graf vytvořený pro automatizované modely ML použít k vyhodnocení modelu pro jednotlivé třídy nebo k jejich průměru ve všech třídách. Mezi těmito různými zobrazeními můžete přepínat kliknutím na popisky tříd v legendě napravo od grafu.

    Křivka kumulativních zisků pro dobrý model

    Křivka kumulativních zisků pro dobrý model

    Křivka kumulativních zisků pro chybný model

    Křivka kumulativních zisků pro chybný model

    Křivka navýšení

    Křivka zvednutí ukazuje, kolikrát je výkon modelu lepší v porovnání s náhodným modelem. Zvýšení je definováno jako poměr kumulativního zisku a kumulativního zisku náhodného modelu (který by měl vždy být 1).

    Tento relativní výkon bere v úvahu skutečnost, že klasifikace je při zvýšení počtu tříd obtížnější. (Náhodný model nesprávně predikuje vyšší podíl vzorků z datové sady s 10 třídami v porovnání s datovou sadou se dvěma třídami.)

    Základní křivka zvednutí je y = 1 čára, kde je výkon modelu konzistentní s výkonem náhodného modelu. Obecně platí, že křivka nárůstu dobrého modelu bude na daném grafu vyšší a dále od osy X, což ukazuje, že když je model nejjistější ve svých předpovědích, provádí mnohonásobně lépe než náhodný odhad.

    Tip

    U klasifikačních experimentů je možné každý spojnicový graf vytvořený pro automatizované modely ML použít k vyhodnocení modelu pro jednotlivé třídy nebo k jejich průměru ve všech třídách. Mezi těmito různými zobrazeními můžete přepínat kliknutím na popisky tříd v legendě napravo od grafu.

    Lift curve for a good model

    Lift curve for a good model

    Křivka lift pro špatný model

    Křivka lift pro špatný model

    Kalibrační křivka

    Kalibrační křivka vykreslí spolehlivost modelu ve svých předpovědích proti podílu pozitivních vzorků na každé úrovni spolehlivosti. Dobře kalibrovaný model správně klasifikuje 100 % předpovědí, kterým přiřadí 100% spolehlivost, 50 % předpovědí, které přiřadí 50 % spolehlivosti, 20 % předpovědí přiřadí 20 % spolehlivosti a tak dále. Dokonale kalibrovaný model bude mít za čárou kalibrační křivku y = x , kde model dokonale předpovídá pravděpodobnost, že vzorky patří do každé třídy.

    Příliš sebevědomý model bude přepovědět pravděpodobnosti blížící se nule a 1, zřídkakdy si nebude jistý třídou každého vzorku a kalibrační křivka bude vypadat podobně jako "S". Málo sebevědomý model přiřadí v průměru nižší pravděpodobnost ke třídě, která předpovídá, a přidružená kalibrační křivka bude vypadat podobně jako "S". Kalibrační křivka nevystihuje schopnost modelu správně klasifikovat, ale jeho schopnost správně přiřadit spolehlivost jeho predikcím. Špatný model může mít stále dobrou kalibrační křivku, pokud model správně přiřadí nízkou spolehlivost a vysokou nejistotu.

    Poznámka

    Kalibrační křivka je citlivá na počet vzorků, takže malá ověřovací sada může přinést hlučné výsledky, které se obtížně interpretují. To nemusí nutně znamenat, že model není správně kalibrovaný.

    Kalibrační křivka pro dobrý model

    Kalibrační křivka pro dobrý model

    Kalibrační křivka pro špatný model

    Kalibrační křivka pro špatný model

    Regresní/prognózovací metriky

    Automatizované strojové učení vypočítá stejné metriky výkonu pro každý vygenerovaný model bez ohledu na to, jestli se jedná o regresní nebo prognózovací experiment. Tyto metriky také procházejí normalizací, aby bylo možné porovnávat modely natrénované na datech s různými rozsahy. Další informace najdete v tématu Normalizace metrik.

    Následující tabulka shrnuje metriky výkonu modelu vygenerované pro regresní a prognózovací experimenty. Stejně jako metriky klasifikace jsou i tyto metriky založené na implementacích scikit learn. Příslušná dokumentace scikit learn je odpovídajícím způsobem propojena v poli Výpočet .

    Metric Popis Výpočet
    explained_variance Vysvětlení odchylky měří rozsah, ve kterém model počítá s odchylkou v cílové proměnné. Jedná se o procentuální snížení odchylky původních dat na odchylku chyb. Pokud je průměr chyb 0, rovná se koeficientu určení (viz r2_score níže).

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: (-inf, 1]
    Výpočet
    mean_absolute_error Střední absolutní chyba je očekávaná hodnota absolutní hodnoty rozdílu mezi cílem a predikcí.

    Cílem: Blíže k 0, tím lepší
    Rozsah: [0, inf)

    Typy:
    mean_absolute_error
    normalized_mean_absolute_error, mean_absolute_error děleno rozsahem dat.
    Výpočet
    mean_absolute_percentage_error Střední absolutní procentuální chyba (MAPE) je míra průměrného rozdílu mezi předpovězenou a skutečnou hodnotou.

    Cílem: Blíže k 0, tím lepší
    Rozsah: [0, inf)
    median_absolute_error Medián absolutní chyby je medián všech absolutních rozdílů mezi cílem a predikcí. Tato ztráta je robustní pro odlehlé hodnoty.

    Cílem: Blíže k 0, tím lepší
    Rozsah: [0, inf)

    Typy:
    median_absolute_error
    normalized_median_absolute_error: median_absolute_error děleno oblastí dat.
    Výpočet
    r2_score R2 (koeficient determinace) měří poměrné snížení střední kvadratická chyby (MSE) vzhledem k celkové odchylkě pozorovaných dat.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [-1, 1]

    Poznámka: R2 má často rozsah (-inf, 1). MSE může být větší než pozorovaná odchylka, takže R2 může mít libovolně velké záporné hodnoty v závislosti na datech a předpovědích modelu. Automatizované klipy ML oznamují skóreR2 při hodnotě -1, takže hodnota -1 pro R2 pravděpodobně znamená, že skóre R2 je skutečné než -1. Při interpretaci záporného skóre R2 zvažte ostatní hodnoty metrik a vlastnosti dat.
    Výpočet
    root_mean_squared_error Odmocněná střední kvadratická chyba (RMSE) je druhá odmocnina očekávaného kvadratický rozdíl mezi cílem a predikcí. U nezaujatého odhadce se RMSE rovná směrodatné odchylce.

    Cílem: Blíže k 0, tím lepší
    Rozsah: [0, inf)

    Typy:
    root_mean_squared_error
    normalized_root_mean_squared_error: root_mean_squared_error děleno rozsahem dat.
    Výpočet
    root_mean_squared_log_error Odmocněná střední kvadratická chyba protokolu je druhá odmocnina očekávané kvadratické logaritmické chyby.

    Cílem: Blíže k 0, tím lepší
    Rozsah: [0, inf)

    Typy:
    root_mean_squared_log_error
    normalized_root_mean_squared_log_error: root_mean_squared_log_error děleno oblastí dat.
    Výpočet
    spearman_correlation Spearmanho korelace je neparametrická míra monotónnosti vztahu mezi dvěma datovými sadami. Na rozdíl od Pearsonova korelace spearmanova korelace nepředpokládá, že obě datové sady jsou normálně distribuovány. Stejně jako u jiných korelačních koeficientů se Spearman mění mezi -1 a 1 s 0 znamená, že korelace neexistuje. Korelace -1 nebo 1 znamenají přesný monotónní vztah.

    Spearman je korelační metrika pořadí, která znamená, že změny na předpovězené nebo skutečné hodnoty nezmění Výsledek Spearmana, pokud nezmění pořadí předpovězených nebo skutečných hodnot.

    Cílem: Čím blíž k 1, tím lépe
    Rozsah: [-1, 1]
    Výpočet

    Normalizace metrik

    Automatizované strojové učení normalizuje metriky regrese a prognózy, které umožňují porovnání mezi modely natrénovanými na datech s různými rozsahy. Model natrénovaný na datech s větším rozsahem má vyšší chybu než stejný model natrénovaný na datech s menším rozsahem, pokud není tato chyba normalizována.

    I když neexistuje standardní metoda normalizace metrik chyb, automatizované strojové učení používá běžný přístup k rozdělení chyby rozsahem dat: normalized_error = error / (y_max - y_min)

    Poznámka

    Oblast dat se neuloží s modelem. Pokud provedete odvozování se stejným modelem na testovací sadě y_min a y_max může se měnit podle testovacích dat a normalizované metriky se nemusí přímo použít k porovnání výkonu modelu u trénovacích a testovacích sad. Hodnotu a y_max z trénovací sady můžete předaty_min, aby bylo porovnání spravedlivé.

    Prognózovací metriky: normalizace a agregace

    Výpočet metrik pro prognózování vyhodnocení modelu vyžaduje určité zvláštní aspekty, pokud data obsahují více časových řad. Pro agregaci metrik pro více řad existují dvě přirozené volby:

    1. Průměr makra, ve kterém mají metriky hodnocení z každé řady stejnou váhu
    2. Mikroprůměr, ve kterém mají metriky vyhodnocení pro každou předpověď stejnou váhu.

    Tyto případy mají přímé analogie s makry a mikro průměry v klasifikaci s více třídami.

    Při výběru primární metriky pro výběr modelu může být důležité rozlišovat mezi makry a mikroprácemi. Představte si například maloobchodní scénář, ve kterém chcete předpovědět poptávku po výběru spotřebního zboží. Některé produkty se prodávají v mnohem vyšších objemech než jiné. Pokud jako primární metriku zvolíte mikroprůměrnou RMSE, je možné, že položky s vysokým objemem dat budou přispívat k většině chyb modelování a následně metriku převládnou. Algoritmus výběru modelu pak může upřednostňování modelů s vyšší přesností u velkoobsákových položek než u nízkoobsážových. Naproti tomu normalizovaná a normalizovaná služba RMSE s makry dává položkám s malými objemy přibližně stejnou váhu jako položky s velkými objemy.

    Následující tabulka ukazuje, které metriky prognózy Automatizovaného strojového učení používají makro a mikropráce:

    Zprůměrované makro Mikroprůměrné hodnoty
    normalized_mean_absolute_error, normalized_median_absolute_error, normalized_root_mean_squared_error, normalized_root_mean_squared_log_error mean_absolute_error, median_absolute_error, root_mean_squared_error, root_mean_squared_log_error, r2_score, explained_variance, spearman_correlation, mean_absolute_percentage_error

    Všimněte si, že metriky s průměrem maker normalizují každou řadu zvlášť. Normalizované metriky z každé řady se pak zprůměrují, aby se získal konečný výsledek. Správná volba makra vs. mikro závisí na obchodním scénáři, ale obecně doporučujeme použít normalized_root_mean_squared_error.

    Rezidua

    Graf reziduí je histogram predikčních chyb (reziduí) generovaných pro regresní a prognózovací experimenty. Rezidua se počítají stejně jako y_predicted - y_true u všech vzorků a pak se zobrazí jako histogram, který ukazuje odchylku modelu.

    V tomto příkladu si všimněte, že oba modely mají mírně předpojatý odhad nižší než skutečnou hodnotu. To není neobvyklé u datové sady se zkresleným rozdělením skutečných cílů, ale značí to horší výkon modelu. Dobrý model bude mít reziduální rozdělení, které dosáhne maxima na nule s několika rezidui na extrémních místech. Horší model bude mít rozložení reziduí s menším počtem vzorků kolem nuly.

    Graf reziduí pro dobrý model

    Graf reziduí pro dobrý model

    Graf reziduí pro chybný model

    Graf reziduí pro chybný model

    Predikované a skutečné hodnoty

    Pro regresi a prognózování experimentů graf predikce vs. pravda vykreslují vztah mezi cílovou funkcí (true/actual values) a predikcemi modelu. Skutečné hodnoty jsou rozloženy do intervalů na ose X a pro každou přihrádku je střední předpovězená hodnota vynesena s chybovými úsečky. To vám umožní zjistit, jestli je model zkreslený směrem k předpovídání určitých hodnot. Čára zobrazuje průměrnou předpověď a stínovaná oblast označuje rozptyl předpovědí kolem tohoto průměru.

    Nejběžnější skutečná hodnota bude mít často nejpřesnější předpovědi s nejnižší odchylkou. Vzdálenost spojnice trendu od ideální y = x přímky, kde je málo skutečných hodnot, je dobrým měřítkem výkonu modelu u odlehlých hodnot. Histogram v dolní části grafu můžete použít k odůvodnění skutečné distribuce dat. Zahrnutí více ukázek dat, kde je distribuce zhuštěná, může zlepšit výkon modelu u neviditelných dat.

    V tomto příkladu si všimněte, že lepší model má předpovězenou přímku vs. přímku true, která je blíže ideální y = x přímce.

    Predicted vs. true chart for a good model

    Predicted vs. true chart for a good model

    Predicted vs. true chart for a bad model

    Predicted vs. true chart for a bad model

    Horizont prognózy

    U experimentů s prognózováním graf horizontu prognózy vykresluje vztah mezi předpovězenou hodnotou modelů a skutečnými hodnotami mapovanými v průběhu času na základě časového limitu křížového ověření, a to až 5násobně. Osa x mapuje čas na základě frekvence, kterou jste zadali během nastavení trénování. Svislá čára v grafu označuje bod horizontu prognózy, který se označuje také jako přímka horizontu, což je časové období, ve kterém chcete začít generovat předpovědi. Nalevo od osy horizontu prognózy si můžete prohlédnout historická trénovací data, abyste mohli lépe vizualizovat minulé trendy. Napravo od horizontu prognózy můžete vizualizovat předpovědi (fialová čára) vůči skutečným skutečnostem (modrá čára) pro různé záhyby křížového ověření a identifikátory časových řad. Stínovaná fialová oblast označuje intervaly spolehlivosti nebo rozptyl předpovědí kolem tohoto průměru.

    Kliknutím na ikonu tužky v pravém horním rohu grafu můžete zvolit, které kombinace křížového ověření a identifikátoru časové řady se mají zobrazit. Pokud chcete vizualizovat graf pro různé časové řady, vyberte si z prvních 5 záhybů křížového ověření a až 20 různých identifikátorů časových řad.

    Důležité

    Tento graf je k dispozici v trénovacím běhu pro modely vygenerované z trénovacích a ověřovacích dat a také v testovacím běhu založeném na trénovacích datech a testovacích datech. Povolujeme až 20 datových bodů před a až 80 datových bodů po původu prognózy. U modelů DNN tento graf v trénovacím běhu zobrazuje data z poslední epochy, tj. po úplném natrénování modelu. Tento graf v testovacím běhu může mít mezeru před přímkou horizontu, pokud byla ověřovací data explicitně poskytnuta během trénovacího běhu. Důvodem je to, že v testovacím běhu se používají trénovací a testovací data, přičemž ověřovací data se vynechávají, což vede k mezerě.

    Graf horizontu prognózy

    Metriky pro modely obrázků (Preview)

    Automatizované strojové učení používá obrázky z ověřovací datové sady k vyhodnocení výkonu modelu. Výkon modelu se měří na epochální úrovni , abychom pochopili, jak se trénování vyvíjí. Epocha uplyne, když je celá datová sada předána dopředu a dozadu přes neurální síť přesně jednou.

    Metriky klasifikace obrázků

    Primární metrikou pro vyhodnocení je přesnost binárních a vícetřídových klasifikačních modelů a IoU (Průnik nad Sjednocením) pro modely klasifikace s více popisky. Metriky klasifikace pro modely klasifikace obrázků jsou stejné jako metriky definované v části metrik klasifikace . Protokolují se také hodnoty ztrát spojené s epochou, což může pomoct sledovat průběh trénování a určit, jestli je model pře fitovaný nebo nedosažený.

    Každá předpověď z klasifikačního modelu je přidružená ke skóre spolehlivosti, které udává úroveň spolehlivosti, se kterou byla předpověď provedena. Modely klasifikace obrázků s více popisky se ve výchozím nastavení vyhodnocují s prahovou hodnotou skóre 0,5, což znamená, že za pozitivní predikci pro přidruženou třídu budou považovány pouze předpovědi s alespoň touto úrovní spolehlivosti. Klasifikace s více třídami nepoužívá prahovou hodnotu skóre, ale místo toho se třída s maximálním skóre spolehlivosti považuje za predikci.

    Metriky na úrovni epochy pro klasifikaci obrázků

    Na rozdíl od metrik klasifikace tabulkových datových sad protokolují modely klasifikace obrázků všechny metriky klasifikace na epochální úrovni, jak je znázorněno níže.

    Grafy epochové úrovně pro klasifikaci obrázků

    Souhrnné metriky pro klasifikaci obrázků

    Kromě skalárních metrik, které se protokolují na úrovni epochy, model klasifikace obrázků protokoluje také souhrnné metriky, jako jsou konfuzní matice, klasifikační grafy včetně křivky ROC, křivka úplnosti přesnosti a sestava klasifikace pro model z nejlepší epochy, ve které získáme nejvyšší skóre primární metriky (přesnosti).

    Sestava klasifikace poskytuje hodnoty na úrovni třídy pro metriky, jako je přesnost, úplnost, skóre f1, podpora, auc a average_precision s různou úrovní průměrování – mikro, makro a vážená, jak je znázorněno níže. Projděte si definice metrik v části metrik klasifikace .

    Sestava klasifikace pro klasifikaci obrázků

    Metriky detekce objektů a segmentace instancí

    Každá předpověď z modelu segmentace objektů obrázku nebo modelu segmentace instance je přidružena ke skóre spolehlivosti. Předpovědi se skóre spolehlivosti větší než prahová hodnota skóre jsou výstupem jako předpovědi a používají se při výpočtu metriky, jejichž výchozí hodnota je specifická pro model a může být odkazovaná ze stránky ladění hyperparametrů (box_score_threshold hyperparametr).

    Výpočet metriky modelu detekce objektů obrázku a segmentace instancí je založen na měření překrytí definované metrikou s názvem IoU (Průnik nad Union), která se vypočítá tak, že se oblast překrytí mezi základní pravdou a predikcemi vydělí oblastí sjednocení základní pravdy a předpovědí. IoU vypočítané z každé předpovědi se porovnává s prahovou hodnotou překrývání označovanou jako prahová hodnota IoU, která určuje, do jaké míry by se předpověď měla překrývat s uživatelem anotovanou základní pravdou, aby byla považována za pozitivní predikci. Pokud je hodnota IoU vypočítaná z predikce menší než prahová hodnota překrytí, předpověď se nepovažuje za pozitivní předpověď pro přidruženou třídu.

    Primární metrikou pro vyhodnocení modelů detekce objektů obrázku a segmentace instancí je střední průměrná přesnost (mAP). MAP je průměrná hodnota průměrné přesnosti (AP) napříč všemi třídami. Automatizované modely detekce objektů ML podporují výpočty mAP pomocí následujících dvou oblíbených metod.

    Metriky Pascal VOC:

    Pascal VOC mAP je výchozí způsob výpočtu mAP pro modely detekce objektů a segmentace instancí. Metoda mAP ve stylu Pascal VOC vypočítá oblast pod verzí křivky přesnosti a úplnosti. První p(ri), což je přesnost při úplnosti i, se vypočítá pro všechny jedinečné hodnoty odvolání. p(ri) se pak nahradí maximální přesností získanou pro každé stažení r' >= ri. Hodnota přesnosti se v této verzi křivky monotónně snižuje. Metrika MAP Pascala VOC se ve výchozím nastavení vyhodnocuje prahovou hodnotou IoU 0,5. Podrobné vysvětlení tohoto konceptu najdete v tomto blogu.

    Metriky COCO:

    Metoda vyhodnocení COCO používá interpolovanou metodu 101 bodů pro výpočet ap spolu s průměrem přesahujícím deset prahových hodnot IoU. AP@[.5:.95] odpovídá průměrnému AP pro IoU od 0,5 do 0,95 s velikostí kroku 0,05. Automatizované strojové učení protokoluje všech dvanáct metrik definovaných metodou COCO, včetně AP a AR (průměrné úplnosti) v různých měřítkách v protokolech aplikace, zatímco uživatelské rozhraní metrik zobrazuje pouze mAP na prahové hodnotě IoU 0,5.

    Tip

    Vyhodnocení modelu detekce objektů obrázku může použít metriky coco, pokud validation_metric_type je hyperparametr nastavený na coco, jak je vysvětleno v části ladění hyperparametrů .

    Metriky na úrovni epoch pro detekci objektů a segmentaci instancí

    Hodnoty mAP, přesnosti a úplnosti se protokolují na epochální úrovni pro modely rozpoznávání objektů obrázku / segmentace instancí. Metriky mAP, přesnosti a úplnosti se také protokolují na úrovni třídy s názvem "per_label_metrics". "per_label_metrics" by se měla zobrazit jako tabulka.

    Poznámka

    Metriky na úrovni epoch pro přesnost, úplnost a per_label_metrics nejsou při použití metody coco k dispozici.

    Grafy epochové úrovně pro detekci objektů

    Řídicí panel odpovědné AI služby Azure Machine Learning poskytuje jediné rozhraní, které vám pomůže efektivně a efektivně implementovat zodpovědnou AI v praxi. Řídicí panel odpovědné AI se podporuje jenom pomocí tabulkových dat a podporuje se pouze u klasifikačních a regresních modelů. Spojuje několik vyspělých nástrojů zodpovědné AI v oblastech:

    • Posouzení výkonu a spravedlnosti modelu
    • Zkoumání dat
    • Interpretovatelnost strojového učení
    • Analýza chyb

    Metriky a grafy vyhodnocení modelu jsou sice vhodné pro měření obecné kvality modelu, ale operace, jako je kontrola spravedlnosti modelu, zobrazení jeho vysvětlení (označované také jako funkce datové sady, které model používá k vytváření předpovědí), jsou při procvičování zodpovědné umělé inteligence nezbytné jeho chyby a potenciální slepá místa. Proto automatizované strojové učení poskytuje řídicí panel Odpovědné AI, který vám pomůže sledovat různé přehledy pro váš model. Podívejte se, jak zobrazit řídicí panel Odpovědné AI v studio Azure Machine Learning.

    Podívejte se, jak můžete tento řídicí panel vygenerovat prostřednictvím uživatelského rozhraní nebo sady SDK.

    Vysvětlení modelů a důležitost funkcí

    Metriky a grafy vyhodnocení modelu jsou sice vhodné pro měření obecné kvality modelu, ale kontrola funkcí datové sady, které model používá k vytváření předpovědí, je při praktikování zodpovědné umělé inteligence nezbytná. Proto automatizované strojové učení poskytuje řídicí panel vysvětlení modelu, který umožňuje měřit a vykazovat relativní příspěvky funkcí datové sady. Podívejte se, jak zobrazit řídicí panel vysvětlení v studio Azure Machine Learning.

    Poznámka

    Interpretovatelnost, nejlepší vysvětlení modelu, není k dispozici pro experimenty automatizovaného prognózování ML, které doporučují následující algoritmy jako nejlepší model nebo soubor:

    • TCNForecaster
    • AutoArima
    • ExponentialSmoothing
    • Prorok
    • Průměr
    • Naivní
    • Sezónní průměr
    • Sezónní naiv

    Další kroky