Kurz: Vytvoření modelu strojového učení v Power BI

V tomto kurzu použijete automatizované strojové učení k vytvoření a použití binárního prediktivního modelu v Power BI. Vytvoříte tok dat Power BI a pomocí entit, které v toku dat definujete, vytrénujete a ověříte model strojového učení přímo v Power BI. Tento model pak použijete k určení skóre nových dat a vygenerování předpovědí.

Nejprve vytvoříte binární prediktivní model strojového učení, který bude předpovědět nákupní záměr online nakupujících na základě sady atributů jejich online relace. V tomto cvičení použijete srovnávací datovou sadu strojového učení. Jakmile model vytrénujete, Power BI automaticky vygeneruje ověřovací sestavu, která vysvětluje výsledky modelu. Ověřovací sestavu můžete potom zkontrolovat a model použít u svých dat pro stanovení skóre.

Tento kurz se skládá z následujících kroků:

  • Vytvořte tok dat se vstupními daty.
  • Vytvoření a trénování modelu strojového učení
  • Zkontrolujte sestavu ověření modelu.
  • Použijte model na entitu toku dat.
  • Použijte výstup modelu se skóre v sestavě Power BI.

Vytvoření toku dat se vstupními daty

Pomocí následujícího postupu vytvořte tok dat se vstupními daty.

Získat data

Prvním krokem při vytváření toku dat je mít připraveny zdroje dat. V tomto případě použijete datovou sadu strojového učení ze sady online relací, z nichž některé vyvrcholily nákupem. Datová sada obsahuje sadu atributů těchto relací, které použijete k trénování modelu.

Datovou sadu si můžete stáhnout z webu UC Irvine nebo stažením online_shoppers_intention.csv. Později v tomto kurzu se připojíte k datové sadě zadáním její adresy URL.

Vytvoření tabulek

Pokud chcete ve svém toku dat vytvořit entity, přihlaste se k služba Power BI a přejděte do pracovního prostoru.

  1. Pokud pracovní prostor nemáte, vytvořte ho tak, že v levém navigačním podokně Power BI vyberete Pracovní prostory a pak vyberete Vytvořit pracovní prostor. Na panelu Vytvořit pracovní prostor zadejte název pracovního prostoru a vyberte Uložit.

    Snímek obrazovky znázorňuje, jak vytvořit pracovní prostor

  2. V horní části nového pracovního prostoru vyberte Nový a pak vyberte Tok dat.

    Snímek obrazovky znázorňuje, jak vytvořit tok dat.

  3. Vyberte Přidat nové tabulky a spusťte editor Power Query v prohlížeči.

    Snímek obrazovky s výběrem možnosti Přidat nové tabulky

  4. Na obrazovce Zvolit zdroj dat vyberte jako zdroj dat Text/CSV .

    Snímek obrazovky s výběrem možnosti Text/CSV v části Zvolit zdroj dat

  5. Na stránce Připojit ke zdroji dat vložte následující odkaz na souboronline_shoppers_intention.csv do pole Cesta k souboru nebo adresa URL a pak vyberte Další.

    https://raw.githubusercontent.com/santoshc1/PowerBI-AI-samples/master/Tutorial_AutomatedML/online_shoppers_intention.csv

    Snímek obrazovky znázorňující vložení do cesty k souboru

  6. Editor Power Query zobrazí náhled dat ze souboru CSV. Pokud chcete před načtením dat udělat změny, vyberte Transformovat data.

    Snímek obrazovky s výběrem možnosti Transformovat data na obrazovce Náhled souborových dat

  7. Power Query automaticky odvodí datové typy sloupců. Datové typy můžete změnit výběrem ikony typu atributu v horní části záhlaví sloupců. Změňte typ sloupce Revenue (Výnosy ) na True/False (Pravda/Nepravda).

    Dotaz můžete přejmenovat na přívětivější název změnou hodnoty v poli Název v pravém podokně. Změňte název dotazu na Online návštěvníci.

    Snímek obrazovky se změnou názvu dotazu a datového typu sloupce Revenue (Výnosy)

  8. Vyberte Uložit & zavřít, v dialogovém okně zadejte název toku dat a pak vyberte Uložit.

    Snímek obrazovky s uložením toku dat

Vytvoření a trénování modelu strojového učení

Přidání modelu strojového učení:

  1. Vyberte ikonu Použít model ML v seznamu Akce pro tabulku, která obsahuje trénovací data a informace popisku, a pak vyberte Přidat model strojového učení.

    Snímek obrazovky znázorňující přidání modelu strojového učení

  2. Prvním krokem k vytvoření modelu strojového učení je identifikace historických dat, včetně pole výsledku, které chcete předpovědět. Model se vytváří učením z těchto dat. V takovém případě chcete předpovědět, jestli se návštěvníci chystají provést nákup. Výsledek, který chcete předpovědět, je v poli Výnosy . Jako hodnotu sloupce Result (Výsledek) vyberte Revenue (Výnosy) a pak vyberte Next (Další).

    Snímek obrazovky znázorňující výběr historického datového pole

  3. Dále vyberete typ modelu strojového učení, který chcete vytvořit. Power BI analyzuje hodnoty v poli výsledku, které jste identifikovali, a navrhne typy modelů strojového učení, které může vytvořit k predikci tohoto pole.

    Vzhledem k tomu, že v tomto případě chcete předpovědět binární výsledek toho, jestli se návštěvník chystá provést nákup, Power BI doporučí binární predikci. Protože vás zajímá predikce návštěvníků, kteří se chystají provést nákup, vyberte v části Zvolit cílový výsledek true. Můžete také zadat různé popisky, které se použijí pro výsledky v automaticky generované sestavě, která shrnuje výsledky ověření modelu. Pak vyberte Další.

    Snímek obrazovky s binární predikcí

  4. Power BI provede předběžnou kontrolu vzorku dat a navrhne vstupy, které by mohly vést k přesnějším předpovědím. Pokud Power BI sloupec nedoporučí, vysvětluje, proč ne vedle sloupce. Výběry můžete změnit tak, aby zahrnovaly jenom pole, která má model studovat, tak, že zaškrtnete nebo zrušíte zaškrtnutí políček vedle názvů sloupců. Výběrem možnosti Další přijměte tyto vstupy.

    Snímek obrazovky znázorňující výběry sloupců

  5. V posledním kroku pojmenujte model Purchase intent prediction (Předpověď nákupního záměru) a zvolte dobu, kterou chcete strávit trénováním. Můžete zkrátit dobu trénování, abyste viděli rychlé výsledky, nebo prodloužit dobu pro získání nejlepšího modelu. Pak vyberte Uložit a natrénovat a začněte s trénováním modelu.

    Snímek obrazovky znázorňující pojmenování modelu a výběr času trénování

Pokud se zobrazí chyba podobná této : Přihlašovací údaje pro zdroj dat se nenašly, musíte přihlašovací údaje aktualizovat, aby Power BI mohl data ohodnotit. Pokud chcete aktualizovat přihlašovací údaje, vyberte na řádku záhlaví Další možnosti a pak vyberte Nastavení>Nastavení.

Snímek obrazovky znázorňující výběr Nastavení

Vyberte tok dat v části Toky dat, rozbalte Přihlašovací údaje ke zdroji dat a pak vyberte Upravit přihlašovací údaje.

Snímek obrazovky znázorňující úpravy přihlašovacích údajů toku dat

Sledování stavu trénování

Proces trénování začíná vzorkováním a normalizací historických dat a rozdělením datové sady do dvou nových entit: trénovací data předpovědi nákupního záměru a testovací data předpovědi nákupního záměru.

V závislosti na velikosti datové sady může trénování trvat od několika minut až po dobu trénování, kterou jste vybrali. Trénování a ověřování modelu můžete zkontrolovat prostřednictvím stavu toku dat. Stav se zobrazí jako probíhající aktualizace dat na kartě Datové sady a toky dat pracovního prostoru.

Snímek obrazovky znázorňující model v rámci trénování

Model se zobrazí na kartě Modely strojového učení toku dat. Stav označuje, jestli je model zařazený do fronty pro trénování, probíhá trénování nebo je natrénovaný. Po dokončení trénování modelu se v toku dat zobrazí aktualizovaný čas posledního trénování a stav Trénováno.

Snímek obrazovky znázorňující stav Trénováno a Čas posledního trénovaného

Kontrola ověřovací sestavy modelu

Pokud chcete zkontrolovat sestavu ověření modelu, vyberte na kartě Modely strojového učení ikonu Zobrazit sestavu trénování v části Akce. Tato sestava popisuje, jak si váš model strojového učení pravděpodobně povede.

Na stránce Výkon modelu v sestavě vyberte Zobrazit nejlepší vysvětlující proměnné , abyste zobrazili nejlepší předpovědi pro váš model. Můžete vybrat jednu z předpovědí a podívat se, jak je s danou předpovědí spojena výsledná distribuce.

Snímek obrazovky se stránkou Výkon modelu

Pomocí průřezu Prahová hodnota pravděpodobnosti na stránce Výkon modelu můžete prozkoumat vliv přesnosti a úplnosti modelu na model.

Snímek obrazovky znázorňující průřez prahové hodnoty pravděpodobnosti

Ostatní stránky sestavy popisují statistické metriky výkonu modelu.

Sestava obsahuje také stránku s podrobnostmi trénování , která popisuje spuštění iterací, způsob extrahování funkcí ze vstupů a hyperparametry pro použitý konečný model.

Použití modelu u entity toku dat

Výběrem tlačítka Použít model v horní části sestavy zavolejte tento model. V dialogovém okně Použít můžete zadat cílovou entitu, která obsahuje zdrojová data, na která se má model použít. Pak vyberte Uložit a použít.

Snímek obrazovky znázorňující použití modelu

Použitím modelu se vytvoří dvě nové tabulky s příponou rozšířenou <model_name> a rozšířenou <model_name> vysvětlení. V tomto případě se při použití modelu na tabulku Online návštěvníků vytvoří:

  • Online návštěvníci obohatili predikci nákupního záměru, která zahrnuje predikovaný výstup z modelu.
  • Online návštěvníci obohatili vysvětlení predikce nákupního záměru, která obsahuje hlavní vlivové faktory specifické pro záznam pro předpověď.

Při použití modelu binární předpovědi se přidají čtyři sloupce: Outcome, PredictionScore, PredictionExplanation a ExplanationIndex, z nichž každý má předponu předpovědi záměru Purchase .

Snímek obrazovky znázorňující čtyři nové sloupce

Po dokončení aktualizace toku dat můžete vybrat tabulku Predikce záměru Nákup online návštěvníků a zobrazit výsledky.

Snímek obrazovky zobrazující výsledky v tabulce rozšířené predikce záměru Nákup online návštěvníků

Jakýkoli model automatizovaného strojového učení v pracovním prostoru můžete také vyvolat přímo z Editor Power Query ve vašem toku dat. Pokud chcete získat přístup k modelům automatizovaného strojového učení, vyberte Upravit u tabulky, kterou chcete rozšířit o přehledy z modelu automatizovaného strojového učení.

Snímek obrazovky znázorňující výběr možnosti Upravit pro tabulku

V Editor Power Query vyberte na pásu karet Přehledy AI.

Snímek obrazovky znázorňující výběr přehledů AI

Na obrazovce Přehledy AI vyberte v navigačním podokně složku Modely strojového učení Power BI . Seznam obsahuje všechny modely strojového učení, ke kterým máte přístup, jako Power Query funkce. Vstupní parametry pro model strojového učení se automaticky mapuje jako parametry odpovídající funkce Power Query. K automatickému mapování parametrů dochází pouze v případě, že jsou názvy a datové typy parametru stejné.

Pokud chcete vyvolat model strojového učení, můžete jako vstup v rozevíracím seznamu vybrat libovolný sloupec vybraného modelu. Konstantní hodnotu, která se má použít jako vstup, můžete také zadat přepnutím ikony sloupce vedle vstupního řádku.

Snímek obrazovky znázorňující prohlížeč funkcí Power Query

Vyberte Použít a zobrazte náhled výstupu modelu strojového učení jako nové sloupce v tabulce. V části Použitý postup pro dotaz se také zobrazí vyvolání modelu.

Snímek obrazovky znázorňující zobrazení náhledu výsledků v Editor Power Query

Po uložení toku dat se model při aktualizaci toku dat automaticky vyvolá pro všechny nové nebo aktualizované řádky v tabulce entity.

Použití výstupu se skóre z modelu v sestavě Power BI

Pokud chcete použít výstup se skóre z modelu strojového učení, můžete se k toku dat připojit z Power BI Desktop pomocí konektoru Toky dat. Teď můžete použít tabulku predikce Online visitors enriched Purchase intent (Nákup ) k začlenění předpovědí z modelu do sestav Power BI.

Omezení

Existuje několik známých problémů s používáním bran s automatizovaným strojovém učením. Pokud potřebujete použít bránu, je nejlepší nejprve vytvořit tok dat, který importuje potřebná data přes bránu. Pak vytvořte další tok dat, který odkazuje na první tok dat a vytvoří nebo použije tyto modely.

Další kroky

V tomto kurzu jste vytvořili a použili binární prediktivní model v Power BI pomocí těchto kroků:

  • Vytvořili jste tok dat se vstupními daty.
  • Vytvořili a vytrénovali model strojového učení.
  • Zkontrolovali jsme sestavu ověření modelu.
  • Použil model na entitu toku dat.
  • Naučili jste se používat výstup modelu se skóre v sestavě Power BI.

Další informace o automatizaci strojového učení v Power BI najdete v tématu Automatizované strojové učení v Power BI.