Lineární regrese

Článek
05/06/2019

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Podívejte se na informace o přesunu projektů strojového učení z ML Studia (klasického) do Azure Machine Learning.
Další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Vytvoří model lineární regrese.

Kategorie: Machine Learning / Inicializace modelu / regrese

Poznámka

Platí pro: Machine Learning Studio (classic)

Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.

Přehled modulu

Tento článek popisuje, jak pomocí modulu lineární regrese v Machine Learning Studiu (klasickém) vytvořit model lineární regrese pro použití v experimentu. Lineární regrese se pokouší navázat lineární vztah mezi jednou nebo více nezávislými proměnnými a číselným výsledkem nebo závislou proměnnou.

Tento modul použijete k definování metody lineární regrese a pak model natrénujte pomocí datové sady s popiskem. Vytrénovaný model pak můžete použít k předpovědí. Případně je možné model bez trénování předat modelu křížového ověření pro křížové ověření u označené datové sady.

Další informace o lineární regresi

Lineární regrese je běžná statistická metoda, která byla přijata ve strojové učení a vylepšena mnoha novými metodami pro fitování přímky a měření chyby. V nejzákladnějším smyslu regrese označuje předpověď číselného cíle. Lineární regrese je stále dobrou volbou, pokud chcete velmi jednoduchý model pro základní prediktivní úkol. Lineární regrese také dobře funguje na vysoce dimenzionálních, zhuštěných datových sadách, které postrádají složitost.

Machine Learning Studio (klasické) podporuje kromě lineární regrese také celou řadu regresních modelů. Pojem "regrese" se ale může interpretovat volně a některé typy regrese poskytované v jiných nástrojích nejsou v sadě Studio (klasické) podporované.

Klasický problém s regresí zahrnuje jednu nezávislou proměnnou a závislou proměnnou. Tomu se říká jednoduchá regrese. Tento modul podporuje jednoduchou regresi.
Vícenásobná lineární regrese zahrnuje dvě nebo více nezávislých proměnných, které přispívají k jedné závislé proměnné. Problémy, ve kterých se k predikci jednoho číselného výsledku používá více vstupů, se také nazývají lineární regrese s vícevariáty.

Tyto problémy dokáže vyřešit modul Lineární regrese, stejně jako většina ostatních modulů regrese v nástroji Studio (classic).
Regrese s více popisky je úkol predikce více závislých proměnných v rámci jednoho modelu. Například u logistické regrese s více popisky může být vzorek přiřazen k několika různým popiskům. (To se liší od úlohy predikce více úrovní v rámci jedné proměnné třídy.)

Tento typ regrese není podporován v Machine Learning. Pokud chcete predikovat více proměnných, vytvořte samostatného uživatele pro každý výstup, který chcete predikovat.

Už několik let statistici vyvíjejí stále pokročilejší metody regrese. To platí i pro lineární regresi. Tento modul podporuje dvě metody měření chyb a fitování regresní přímky: běžná metoda nejmenších čtverců a gradientní sestup.

Gradientní sestup je metoda, která minimalizuje množství chyb v každém kroku procesu trénování modelu. Gradientní sestup má mnoho variací a jeho optimalizace pro různé studijní problémy se ve velké řadě zkoumá. Pokud zvolíte tuto možnost pro metodu řešení, můžete nastavit různé parametry pro řízení velikosti kroku, rychlosti učení atd. Tato možnost také podporuje použití integrovaného úklidu parametrů.
Obyčejné nejmenší čtverce jsou jednou z nejčastěji používaných technik v lineární regresi. Nejmenší čtverce jsou například metoda, která se používá v nácce Analysis Toolpak pro Microsoft Excel.

Obyčejné nejmenší čtverce se vztahují ke ztrátové funkci, která vypočítá chybu jako součet čtverce vzdálenosti od skutečné hodnoty k předpovězené čáře a odpovídá modelu minimalizací velikosti kvády. Tato metoda předpokládá silný lineární vztah mezi vstupy a závislou proměnnou.

Jak nakonfigurovat lineární regresi

Tento modul podporuje dvě metody pro fitování regresní modelu s velmi odlišnými možnostmi:

Vytvoření regresní modelu pomocí online gradientních sestupů

Gradientní sestup je lepší ztrátová funkce pro modely, které jsou složitější nebo které mají příliš málo trénovací data vzhledem k počtu proměnných.

Tato možnost také podporuje úklid parametrů, pokud model natrénujete pomocí optimalizace hyperparametrů modelu tak, aby automaticky optimalizoval parametry modelu.
Fitování regresní modelu pomocí běžných nejmenších čtverců

U malých datových sad je nejlepší vybrat běžné nejmenší čtverce. To by mělo poskytnout velmi podobné výsledky Excel.

Vytvoření regresní modelu pomocí běžných nejmenších čtverců

Přidejte modul Model lineární regrese do experimentu v nástroji Studio (classic).

Tento modul najdete v kategorii Machine Learning. Rozbalte položku Initialize Model (Inicializovat model), rozbalte položku Regression (Regrese) a přetáhněte modul Model lineární regrese do experimentu.
V podokně Vlastnosti vyberte v rozevíracím seznamu Metoda řešení možnost Obyčejné nejmenší čtverce. Tato možnost určuje výpočetní metodu, která se používá k vyhledání regresní přímky.
Do pole Váha regularizace L2 zadejte hodnotu, která se má použít jako váha pro regularizaci L2. Doporučujeme použít nenulovou hodnotu, abyste se vyhnuli přeučení.

Další informace o tom, jak regularizace ovlivňuje fitování modelu, najdete v tomto článku: Regularizace L1 a L2 pro Machine Learning
Pokud chcete zobrazit termín pro zachycení, vyberte možnost Zahrnout termín zachycení.

Pokud nepotřebujete zkontrolovat regresní vzorec, zrušte výběr této možnosti.
V poli Náhodná číselná hodnota můžete volitelně zadat hodnotu, která dosáží generátor náhodných čísel používaný modelem.

Použití hodnoty seed je užitečné, pokud chcete zachovat stejné výsledky napříč různými běhy stejného experimentu. V opačném případě se ve výchozím nastavení použije hodnota ze systémových hodin.
Zrušte výběr možnosti Povolit neznámé úrovně kategorií, pokud chcete, aby chybějící hodnoty vyvolávali chybu.

Pokud je tato možnost vybraná, vytvoří se pro každý sloupec kategorií další úroveň. Všechny úrovně v testovací datové sadě, které nebyly v trénovací datové sadě, se mapují na tuto další úroveň.
Přidejte k experimentu modul Trénování modelu a připojte označenou datovou sadu.
Spusťte experiment.

Výsledky pro běžný model nejmenších čtverců

Po dokončení trénování:

Pokud chcete zobrazit parametry modelu, klikněte pravým tlačítkem na výstup školitele a vyberte Vizualizovat.
Pokud chcete vytvořit předpovědi, propojte natrénovaný model s modulem Score Model (Skóre modelu) a datovou sadu nových hodnot.
Pokud chcete provést křížové ověření u označené datové sady, připojte model bez trénování k modelu křížového ověření.

Vytvoření regresní modelu pomocí online gradientních sestupů

Přidejte modul Model lineární regrese do experimentu v nástroji Studio (classic).

Tento modul najdete v kategorii Machine Learning. Rozbalte položku Initialize Model (Inicializovat model), rozbalte Položku Regrese a přetáhněte modul Model lineární regrese do experimentu.
V podokně Vlastnosti v rozevíracím seznamu Metoda řešení zvolte Online gradientní sestup jako výpočetní metodu, která se používá k vyhledání regresní přímky.
V části Vytvořit režim školitele určete, jestli chcete model vytrénovat pomocí předdefinované sady parametrů, nebo jestli chcete model optimalizovat pomocí úklidu parametrů.
- Jeden parametr: Pokud víte, jak chcete nakonfigurovat síť lineární regrese, můžete zadat konkrétní sadu hodnot jako argumenty.
- Rozsah parametrů: Pokud chcete, aby algoritmus našel nejlepší parametry, nastavte možnost Vytvořit režim školitele na Rozsah parametrů. Pak můžete pro algoritmus zadat více hodnot, které se budou zkoušet.
Jako Učení rychlosti zadejte počáteční rychlost učení pro optimalizátor stochastického gradientního sestupu.
Do pole Number of training epochs (Počet epoch trénování) zadejte hodnotu, která udává, kolikrát má algoritmus iterovat příklady. U datových sad s malým počtem příkladů by toto číslo mělo být velké, aby dosáhlo konvergence.
Normalizace funkcí: Pokud jste už normalizovali číselná data používaná k trénování modelu, můžete výběr této možnosti zrušit. Ve výchozím nastavení modul normalizuje všechny číselné vstupy na rozsah od 0 do 1.

Poznámka

Nezapomeňte použít stejnou metodu normalizace na nová data používaná k bodování.
Do pole Váha regularizace L2 zadejte hodnotu, která se má použít jako váha pro regularizaci L2. Doporučujeme použít nenulovou hodnotu, abyste se vyhnuli přeučení.

Další informace o tom, jak regularizace ovlivňuje fitování modelu, najdete v tomto článku: Regularizace L1 a L2 pro Machine Learning
Pokud chcete zprůměrovat konečnou hypotézu, vyberte možnost Average final hypothesis (Průměrná konečná hypotéza).

V regresních modelech testování hypotéz znamená použití určité statistiky k vyhodnocení pravděpodobnosti nulové hypotézy, která uvádí, že neexistuje žádná lineární korelace mezi závislou a nezávislou proměnnou. U mnoha regresních problémů musíte otestovat hypotézu zahrnující více než jednu proměnnou.

Tato možnost je ve výchozím nastavení povolená, což znamená, že algoritmus testuje kombinaci parametrů, ve kterých jsou zapojeny dva nebo více parametrů.
Vyberte možnost Snížit rychlost učení, pokud chcete, aby se rychlost učení s průběhem iterací snížila.
V poli Náhodná číselná hodnota můžete volitelně zadat hodnotu, která dosáží generátor náhodných čísel používaný modelem. Použití hodnoty seed je užitečné, pokud chcete zachovat stejné výsledky napříč různými běhy stejného experimentu.
Zrušte výběr možnosti Povolit neznámé úrovně kategorií, pokud chcete, aby chybějící hodnoty vyvolávali chybu.

Když vyberete tuto možnost, vytvoří se pro každý sloupec kategorií další úroveň. Všechny úrovně v testovací datové sadě, které nejsou v trénovací datové sadě, se mapují na tuto další úroveň.
Přidejte datovou sadu s popiskem a jeden z trénovacích modulů.

Pokud používáte úklid parametrů, použijte modul Trénovat model.

Pokud chcete, aby pro vás algoritmus našel nejlepší parametry, vytrénování modelu s využitím vyladění hyperparametrů modelu.

Poznámka

Pokud nakonfigurujete model s konkrétními hodnotami pomocí možnosti Jeden parametr a pak přepnete na možnost Rozsah parametrů, model se vytrénuje pomocí minimální hodnoty v rozsahu pro každý parametr.

A naopak, pokud při vytváření modelu nakonfigurujete konkrétní nastavení, ale vyberete možnost Rozsah parametrů, model se vytrénuje pomocí výchozích hodnot pro toho, který se učí, jako rozsahu hodnot, které se má prohledat.
Spusťte experiment.

Výsledky pro online gradientní sestup

Po dokončení trénování:

Pokud chcete vytvořit předpovědi, propojte natrénovaný model s modulem Score Model (Skóre modelu) a novými vstupními daty.
Pokud chcete provést křížové ověření u označené datové sady, připojte model bez trénování k modelu křížového ověření.

Příklady

Příklady regresních modelů najdete v těchto ukázkových experimentech v Azure AI Gallery:

Porovnání regresorů: Porovná několik různých druhů regresních modelů.
Křížové ověření regrese: Ukazuje lineární regresi pomocí běžných nejmenších čtverců.
Analýza mínění na Twitteru: Používá několik různých regresních modelů ke generování predikovaných hodnocení.

Technické poznámky

Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.

Tipy k používání

Mnoho nástrojů podporuje vytvoření lineární regrese, od jednoduché po složitou. Lineární regresi můžete například snadno provést v nástroji Excel pomocí nástroje Solver Toolpak nebo můžete kódovat vlastní regresní algoritmus pomocí jazyka R, Python nebo C#.

Vzhledem k tomu, že lineární regrese je dobře zavedená technika podporovaná mnoha různými nástroji, existuje mnoho různých interpretací a implementací. Ne všechny typy modelů jsou podporovány stejným způsobem všemi nástroji. Existuje také několik rozdílů v terminologii, které je třeba sledovat.

Regresní metody jsou často kategorizovány podle počtu proměnných odpovědi. Například vícenásobná lineární regrese znamená model, který má více proměnných k predikci.
V Matlabu odkazuje vícevariátová regrese na model, který má více proměnných odpovědi.
V Machine Learning regresní modely podporují jednu proměnnou odpovědi.
V jazyce R závisí funkce poskytované pro lineární regresi na balíčku, který používáte. Například balíček glm vám umožní vytvořit logistický regresní model s několika nezávislými proměnnými. Obecně platí, Machine Learning Studio (Classic) poskytuje stejné funkce jako balíček R glm.

Pro typické problémy s regresí doporučujeme použít tento modul Lineární regrese.

Naopak pokud k predikci hodnoty třídy používáte více proměnných, doporučujeme moduly Logistická regrese se dvěma třídami nebo Vícetřídová logistická regrese.

Pokud chcete použít jiné balíčky lineární regrese, které jsou k dispozici pro jazyk R, doporučujeme použít modul Spustit skript R a zavolat balíčky lm nebo glm, které jsou součástí běhového prostředí nástroje Machine Learning Studio (classic).

Parametry modulu

Name	Rozsah	Typ	Výchozí	Description
Normalizace funkcí	Libovolný	Logická hodnota	true	Určete, jestli se mají instance normalizovat.
Průměrná konečná hypotéza	Libovolný	Logická hodnota	true	Určete, jestli se má konečná hypotéza zprůměrovat.
Rychlost učení	>=double. Epsilon	Float	0.1	Určení počáteční rychlosti učení pro optimalizátor stochastického gradientního sestupu
Počet epoch trénování	>=0	Integer	10	Určete, kolikrát má algoritmus iterovat příklady. U datových sad s malým počtem příkladů by toto číslo mělo být velké, aby dosáhlo konvergence.
Snížení rychlosti učení	Všechny	Logická hodnota	true	Určete, jestli se má rychlost učení s postupem iterací snížit.
Váha regularizace L2	>=0,0	Float	0,001	Zadejte váhu pro regularizaci L2. Pokud se chcete vyhnout přeučení, použijte nenulovou hodnotu.
Přediména náhodného čísla	Libovolný	Integer		Zadejte hodnotu, která se použije pro generátor náhodných čísel používaný modelem. Pro výchozí nastavení ponechte prázdné.
Povolit neznámé úrovně kategorií	Libovolný	Logická hodnota	true	Určete, jestli se má pro každý sloupec kategorií vytvořit další úroveň. Všechny úrovně v testovací datové sadě, které nejsou k dispozici v trénovací datové sadě, se mapují na tuto další úroveň.
Zahrnutí termínu zachycení	Všechny	Logická hodnota	Ano	Určete, jestli se má pro zachycení přidat další termín.

Výstupy

Název	Typ	Description
Model bez trénování	ILearner – rozhraní	Model netrénované regrese

Viz také

Regrese

Sdílet prostřednictvím