Tweeklasse logistieke regressiecomponent

Artikel
10/18/2023

In dit artikel wordt een onderdeel in Azure Machine Learning Designer beschreven.

Gebruik dit onderdeel om een logistiek regressiemodel te maken dat kan worden gebruikt om twee (en slechts twee) resultaten te voorspellen.

Logistieke regressie is een bekende statistische techniek die wordt gebruikt voor het modelleren van veel soorten problemen. Dit algoritme is een leermethode onder supervisie . Daarom moet u een gegevensset opgeven die al de resultaten bevat om het model te trainen.

Over logistieke regressie

Logistieke regressie is een bekende methode in statistieken die wordt gebruikt om de waarschijnlijkheid van een resultaat te voorspellen en is vooral populair voor classificatietaken. Het algoritme voorspelt de kans op het optreden van een gebeurtenis door gegevens aan een logistieke functie toe te passen.

In dit onderdeel is het classificatie-algoritme geoptimaliseerd voor dichotome of binaire variabelen. Als u meerdere resultaten wilt classificeren, gebruikt u het onderdeel Logistieke regressie met meerdere klassen.

Configureren

Als u dit model wilt trainen, moet u een gegevensset opgeven die een label of klassekolom bevat. Omdat dit onderdeel is bedoeld voor problemen met twee klassen, moet het label of de klassekolom exact twee waarden bevatten.

De labelkolom kan bijvoorbeeld [Gestemd] zijn met mogelijke waarden 'Ja' of 'Nee'. Het kan ook [Kredietrisico] zijn, met mogelijke waarden 'Hoog' of 'Laag'.

Voeg het tweeklasse logistieke regressieonderdeel toe aan uw pijplijn.
Geef op hoe u het model wilt trainen door de optie Trainer maken in te stellen.
- Eén parameter: als u weet hoe u het model wilt configureren, kunt u een specifieke set waarden opgeven als argumenten.
- Parameterbereik: Als u niet zeker bent van de beste parameters, kunt u de optimale parameters vinden met behulp van het onderdeel Tune Model Hyperparameters . U geeft een bepaald bereik van waarden op en de trainer doorloopt meerdere combinaties van de instellingen om de combinatie van waarden te bepalen die het beste resultaat opleveren.
Geef voor optimalisatietolerantie een drempelwaarde op die moet worden gebruikt bij het optimaliseren van het model. Als de verbetering tussen iteraties onder de opgegeven drempelwaarde valt, wordt het algoritme beschouwd als geconvergeerd op een oplossing en stopt de training.
Voor L1 regularisatiegewicht en L2-regularisatiegewicht typt u een waarde die moet worden gebruikt voor de regularisatieparameters L1 en L2. Een niet-nulwaarde wordt aanbevolen voor beide.
Regularisatie is een methode om overfitting te voorkomen door modellen met extreme coëfficiëntwaarden te bestraffen. Regularisatie werkt door de boete die is gekoppeld aan coëfficiëntwaarden toe te voegen aan de fout van de hypothese. Een nauwkeurig model met extreme coëfficiëntwaarden zou dus meer worden bestraft, maar een minder nauwkeurig model met meer conservatieve waarden zou minder worden bestraft.

L1- en L2-regularisatie hebben verschillende effecten en toepassingen.
- L1 kan worden toegepast op sparse-modellen, wat handig is bij het werken met high-dimensionale gegevens.
- L2-regularisatie is daarentegen de voorkeur voor gegevens die niet worden geparseerd.
Dit algoritme ondersteunt een lineaire combinatie van L1- en L2-regularisatiewaarden: dat wil gezegd, als x = L1 en y = L2, definieert vervolgens ax + by = c de lineaire span van de regularisatietermen.

Notitie

Wilt u meer weten over de regularisatie van L1 en L2? In het volgende artikel wordt beschreven hoe L1- en L2-regularisatie verschillen en hoe deze van invloed zijn op modelfitting, met codevoorbeelden voor logistieke regressie- en neurale netwerkmodellen: L1 en L2 Regularisatie voor Machine Learning

Er zijn verschillende lineaire combinaties van L1- en L2-termen bedacht voor logistieke regressiemodellen, bijvoorbeeld elastische net regularisatie. We raden u aan om naar deze combinaties te verwijzen om een lineaire combinatie te definiëren die effectief is in uw model.
Geef voor geheugengrootte voor L-BFGS de hoeveelheid geheugen op die moet worden gebruikt voor L-BFGS-optimalisatie.

L-BFGS staat voor "beperkt geheugen Broyden-Fletcher-Goldfarb-Shanno". Het is een optimalisatie-algoritme dat populair is voor parameterschatting. Deze parameter geeft het aantal eerdere posities en kleurovergangen aan dat moet worden opgeslagen voor de berekening van de volgende stap.

Deze optimalisatieparameter beperkt de hoeveelheid geheugen die wordt gebruikt om de volgende stap en richting te berekenen. Wanneer u minder geheugen opgeeft, is de training sneller maar minder nauwkeurig.
Typ een geheel getalwaarde voor willekeurige getallen. Het definiëren van een seed-waarde is belangrijk als u wilt dat de resultaten kunnen worden gereproduceerd over meerdere uitvoeringen van dezelfde pijplijn.
Voeg een gelabelde gegevensset toe aan de pijplijn en train het model:
- Als u de modus Trainer maken instelt op Single Parameter, verbindt u een getagde gegevensset en het onderdeel Train Model.
- Als u de modus Trainer maken instelt op Parameterbereik, verbindt u een getagde gegevensset en traint u het model met behulp van Tune Model Hyperparameters.
Notitie

Als u een parameterbereik doorgeeft aan Train Model, wordt alleen de standaardwaarde in de lijst met enkele parameters gebruikt.

Als u één set parameterwaarden doorgeeft aan het onderdeel Tune Model Hyperparameters , worden de waarden genegeerd en worden de standaardwaarden voor de cursist gebruikt wanneer er een reeks instellingen voor elke parameter wordt verwacht.

Als u de optie Parameterbereik selecteert en één waarde invoert voor een parameter, wordt die ene waarde die u hebt opgegeven tijdens de opruimen gebruikt, zelfs als andere parameters in een bereik met waarden veranderen.
Verzend de pijplijn.

Resultaten

Nadat de training is voltooid:

Als u voorspellingen wilt doen voor nieuwe gegevens, gebruikt u het getrainde model en nieuwe gegevens als invoer voor het onderdeel Score Model .

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.

Tweeklasse logistieke regressiecomponent

Over logistieke regressie

Configureren

Resultaten

Volgende stappen

Aanvullende resources