Komponenta lineární regrese

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Pomocí této komponenty můžete vytvořit model lineární regrese pro použití v kanálu. Lineární regrese se pokouší vytvořit lineární vztah mezi jednou nebo více nezávislými proměnnými a číselným výstupem nebo závislými proměnnými.

Tuto komponentu použijete k definování metody lineární regrese a pak vytrénujete model pomocí datové sady s popiskem. Trénovaný model se pak dá použít k předpovědím.

Informace o lineární regresi

Lineární regrese je běžná statistická metoda, která byla přijata ve strojovém učení a rozšířena o mnoho nových metod pro přizpůsobení přímky a měření chyb. Jednoduše řečeno, regrese odkazuje na předpověď číselného cíle. Lineární regrese je stále dobrou volbou, pokud chcete jednoduchý model pro základní prediktivní úlohu. Lineární regrese má také tendenci dobře fungovat u vysoce dimenzionálních, zhuštěných datových sad, které nejsou složité.

Azure Machine Learning podporuje kromě lineární regrese celou řadu regresních modelů. Pojem "regrese" se ale dá interpretovat volně a některé typy regrese poskytované v jiných nástrojích se nepodporují.

  • Klasický problém regrese zahrnuje jednu nezávislou proměnnou a závislou proměnnou. Tomu se říká jednoduchá regrese. Tato komponenta podporuje jednoduchou regresi.

  • Vícenásobná lineární regrese zahrnuje dvě nebo více nezávislých proměnných, které přispívají k jedné závislé proměnné. Problémy, ve kterých se k predikci jednoho číselného výsledku používá více vstupů, se také říká vícerozměrná lineární regrese.

    Komponenta lineární regrese může tyto problémy vyřešit, stejně jako většina ostatních komponent regrese.

  • Regrese s více popisky je úkolem predikce několika závislých proměnných v rámci jednoho modelu. Například v logistické regresi s více popisky je možné vzorek přiřadit několika různým popiskům. (To se liší od úlohy predikce více úrovní v rámci jedné proměnné třídy.)

    Azure Machine Learning tento typ regrese nepodporuje. Pokud chcete předpovědět více proměnných, vytvořte samostatného uživatele pro každý výstup, který chcete předpovědět.

Statistikové už léta vyvíjejí stále pokročilejší metody regrese. To platí i pro lineární regresi. Tato komponenta podporuje dvě metody měření chyby a přizpůsobení regresní přímky: běžná metoda nejmenších čtverců a gradientní sestup.

  • Gradientní sestup je metoda, která minimalizuje množství chyb v každém kroku procesu trénování modelu. Existuje mnoho variací na gradientní sestup a jeho optimalizace pro různé problémy učení byla důkladně zkoumána. Pokud zvolíte tuto možnost pro metodu řešení, můžete nastavit různé parametry pro řízení velikosti kroku, rychlosti učení atd. Tato možnost také podporuje použití integrovaného úklidu parametrů.

  • Běžné nejmenší čtverce jsou jednou z nejčastěji používaných technik lineární regrese. Například nejmenší čtverce je metoda, která se používá v doplňku Analytické nástroje pro Microsoft Excel.

    Běžné nejmenší čtverce odkazují na ztrátovou funkci, která vypočítá chybu jako součet čtverců vzdálenosti od skutečné hodnoty k předpovězené přímce a vyhovuje modelu minimalizací kvadratická chyba. Tato metoda předpokládá silný lineární vztah mezi vstupy a závislá proměnná.

Konfigurace lineární regrese

Tato komponenta podporuje dvě metody pro přizpůsobení regresního modelu s různými možnostmi:

Vytvoření regresního modelu s použitím obyčejných nejmenších čtverců

  1. Přidejte komponentu Lineární regresní model do kanálu v návrháři.

    Tuto komponentu najdete v kategorii Machine Learning . Rozbalte položku Initialize Model (Inicializovat model), rozbalte položku Regression (Regrese) a potom přetáhněte komponentu Linear Regression Model (Model lineární regrese ) do kanálu.

  2. V podokně Vlastnosti vyberte v rozevíracím seznamu Metoda řešenímožnost Obyčejné nejmenší čtverce. Tato možnost určuje výpočetní metodu, která se použije k vyhledání regresní přímky.

  3. Do pole Hmotnost regularizace L2 zadejte hodnotu, která se má použít jako váha pro regularizaci L2. Doporučujeme použít nenulovou hodnotu, abyste se vyhnuli přeurčení.

    Další informace o tom, jak regularizace ovlivňuje přizpůsobení modelu, najdete v tomto článku: Regularizace L1 a L2 pro strojové učení.

  4. Pokud chcete zobrazit termín pro průsečík, vyberte možnost Zahrnout zachytávací termín.

    Pokud nepotřebujete regresní vzorec kontrolovat, zrušte výběr této možnosti.

  5. Do pole Náhodné počáteční číslo můžete volitelně zadat hodnotu, která do generátoru náhodných čísel používaného modelem dosadí.

    Použití počáteční hodnoty je užitečné, pokud chcete zachovat stejné výsledky napříč různými spuštěními stejného kanálu. Jinak se ve výchozím nastavení použije hodnota ze systémových hodin.

  6. Přidejte do svého kanálu komponentu Train Model (Trénování modelu ) a připojte datovou sadu s popiskem.

  7. Odešlete kanál.

Výsledky pro model obyčejných nejmenších čtverců

Po dokončení trénování:

  • Pokud chcete předpovědět, připojte trénovaný model ke komponentě Určení skóre modelu spolu s datovou sadou nových hodnot.

Vytvoření regresního modelu pomocí online gradientního sestupu

  1. Přidejte komponentu Lineární regresní model do kanálu v návrháři.

    Tuto komponentu najdete v kategorii Machine Learning . Rozbalte inicializovat model, rozbalte regresi a přetáhněte komponentu Model lineární regrese do kanálu.

  2. V podokně Vlastnosti v rozevíracím seznamu Metoda řešení jako metodu výpočtu, která se používá k vyhledání regresní přímky, zvolte Online gradientní sestup .

  3. V části Vytvořit režim školitele určete, jestli chcete model vytrénovat s předdefinovanou sadou parametrů, nebo jestli chcete model optimalizovat pomocí úklidu parametrů.

    • Jeden parametr: Pokud víte, jak chcete síť lineární regrese nakonfigurovat, můžete jako argumenty zadat konkrétní sadu hodnot.

    • Rozsah parametrů: Tuto možnost vyberte, pokud si nejste jistí nejlepšími parametry a chcete spustit úklid parametrů. Vyberte rozsah hodnot, které chcete iterovat, a hyperparametry Tune Model Hyperparameters iteruje všechny možné kombinace nastavení, která jste zadali, a určí hyperparametry, které generují optimální výsledky.

  4. V části Rychlost učení zadejte počáteční rychlost učení pro optimalizátor stochastického gradientního sestupu.

  5. Do pole Number of training epochs (Počet epoch trénování) zadejte hodnotu, která určuje, kolikrát má algoritmus iterovat příklady. U datových sad s malým počtem příkladů by toto číslo mělo být velké, aby se dosáhlo konvergence.

  6. Normalizovat funkce: Pokud jste už normalizovali číselná data použitá k trénování modelu, můžete výběr této možnosti zrušit. Ve výchozím nastavení komponenta normalizuje všechny číselné vstupy do rozsahu od 0 do 1.

    Poznámka

    Nezapomeňte použít stejnou metodu normalizace na nová data, která se používají k bodování.

  7. Do pole Hmotnost regularizace L2 zadejte hodnotu, která se má použít jako váha pro regularizaci L2. Doporučujeme použít nenulovou hodnotu, abyste se vyhnuli přeurčení.

    Další informace o tom, jak regularizace ovlivňuje přizpůsobení modelu, najdete v tomto článku: Regularizace L1 a L2 pro strojové učení.

  8. Pokud chcete, aby se rychlost učení v průběhu iterací snižovala, vyberte možnost Snížit rychlost učení.

  9. Do pole Náhodné počáteční číslo můžete volitelně zadat hodnotu, která do generátoru náhodných čísel používaného modelem dosadí. Použití počáteční hodnoty je užitečné, pokud chcete zachovat stejné výsledky napříč různými spuštěními stejného kanálu.

  10. Trénování modelu:

    • Pokud nastavíte vytvořit režim školitele na jeden parametr, propojte označenou datovou sadu a komponentu Trénování modelu .

    • Pokud nastavíte Vytvořit režim školitele na Rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí hyperparametrů vyladit model.

    Poznámka

    Pokud předáte rozsah parametrů trénování modelu, použije se pouze výchozí hodnota v seznamu jednotlivých parametrů.

    Pokud předáte jednu sadu hodnot parametrů komponentě Tune Model Hyperparameters , když očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro učícího se.

    Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se tato zadaná hodnota v průběhu úklidu, a to i v případě, že se jiné parametry v rámci rozsahu hodnot mění.

  11. Odešlete kanál.

Výsledky pro on-line gradientní sestup

Po dokončení trénování:

  • Pokud chcete provádět předpovědi, připojte trénovaný model ke komponentě Určení skóre modelu společně s novými vstupními daty.

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.