Woordenlijst voor machine learning met belangrijke termen
De volgende lijst is een compilatie van belangrijke machine learning-termen die nuttig zijn bij het bouwen van uw aangepaste modellen in ML.NET.
Nauwkeurigheid
In classificatie is nauwkeurigheid het aantal correct geclassificeerde items gedeeld door het totale aantal items in de testset. Varieert van 0 (minst nauwkeurig) tot 1 (meest nauwkeurig). Nauwkeurigheid is een van de metrische evaluatiegegevens van de modelprestaties. Beschouw het in combinatie met precisie, relevante overeenkomsten en F-score.
Oppervlakte onder de curve (AUC)
In binaire classificatie is dit een evaluatiemetriek dat de waarde is van het gebied onder de curve dat de werkelijke positieven (op de y-as) uittekent tegen de fout-positieven (op de x-as). Varieert van 0,5 (slechtste) tot 1 (beste). Ook wel bekend als het gebied onder de ROC-curve, d.w.w.v. de ontvanger bedrijfseigenschapscurve. Zie het artikel Receiver operating characteristic op Wikipedia voor meer informatie.
Binaire classificatie
Een classificatiecase waarbij het label slechts één van de twee klassen is. Zie de sectie Binaire classificatie van het onderwerp Machine learning-taken voor meer informatie.
Kalibratie
Kalibratie is het proces van het toewijzen van een onbewerkte score aan een klasselidmaatschap, voor binaire en multiklasse-classificatie. Sommige ML.NET trainers hebben een NonCalibrated
achtervoegsel. Deze algoritmen produceren een onbewerkte score die vervolgens moet worden toegewezen aan een klassekans.
Catalogus
In ML.NET is een catalogus een verzameling uitbreidingsfuncties, gegroepeerd op een gemeenschappelijk doel.
Elke machine learning-taak (binaire classificatie, regressie, classificatie, enzovoort) heeft bijvoorbeeld een catalogus met beschikbare machine learning-algoritmen (trainers). De catalogus voor de binaire classificatietrainers is: BinaryClassificationCatalog.BinaryClassificationTrainers.
Classificatie
Wanneer de gegevens worden gebruikt om een categorie te voorspellen, wordt een machine learning-taak onder supervisie classificatie genoemd. Binaire classificatie verwijst naar het voorspellen van slechts twee categorieën (bijvoorbeeld het classificeren van een afbeelding als een afbeelding van een 'kat' of een 'hond'). Classificatie met meerdere klassen verwijst naar het voorspellen van meerdere categorieën (bijvoorbeeld bij het classificeren van een afbeelding als een afbeelding van een specifiek hondenras).
Bepalingscoëfficiënt
In regressie, een evaluatiemetriek die aangeeft hoe goed gegevens bij een model passen. Varieert van 0 tot 1. Een waarde van 0 betekent dat de gegevens willekeurig zijn of anderszins niet geschikt zijn voor het model. Een waarde van 1 betekent dat het model exact overeenkomt met de gegevens. Dit wordt vaak r2, R2 of r-kwadraat genoemd.
Gegevens
Gegevens zijn centraal in elke machine learning-toepassing. In ML.NET gegevens worden vertegenwoordigd door IDataView objecten. Gegevensweergaveobjecten:
- bestaan uit kolommen en rijen
- worden lui geëvalueerd, dat wil dat ze alleen gegevens laden wanneer een bewerking dit vereist
- bevatten een schema dat het type, de opmaak en de lengte van elke kolom definieert
Estimator
Een klasse in ML.NET waarmee de IEstimator<TTransformer> interface wordt geïmplementeerd.
Een estimator is een specificatie van een transformatie (zowel transformatie van gegevensvoorbereiding als transformatie van machine learning-modeltraining). Schattingen kunnen aan elkaar worden gekoppeld in een pijplijn van transformaties. De parameters van een estimator of pijplijn van schattingen worden geleerd wanneer Fit wordt aangeroepen. Het resultaat van Fit is een transformator.
Extensiemethode
Een .NET-methode die deel uitmaakt van een klasse, maar die buiten de klasse is gedefinieerd. De eerste parameter van een extensiemethode is een statische this
verwijzing naar de klasse waartoe de extensiemethode behoort.
Extensiemethoden worden uitgebreid gebruikt in ML.NET voor het maken van exemplaren van schattingen.
Functie
Een meetbare eigenschap van het fenomeen dat wordt gemeten, meestal een numerieke (dubbele) waarde. Meerdere functies worden aangeduid als een functievector en worden meestal opgeslagen als double[]
. Kenmerken definiëren de belangrijke kenmerken van het fenomeen dat wordt gemeten. Zie het artikel Functie op Wikipedia voor meer informatie.
Functie-engineering
Functie-engineering is het proces dat betrekking heeft op het definiëren van een set functies en het ontwikkelen van software die functievectoren produceert op basis van beschikbare fenomeengegevens, dat wil zeggen functieextractie. Zie het artikel Feature engineering op Wikipedia voor meer informatie.
F-score
In classificatie, een evaluatiemetriek die precisie en relevante overeenkomsten afweet.
Hyperparameter
Een parameter van een machine learning-algoritme. Voorbeelden zijn het aantal bomen dat moet worden geleerd in een beslissingsforest of de stapgrootte in een algoritme voor gradiëntafname. Waarden van Hyperparameters worden ingesteld voordat het model wordt getraind en bepalen het proces van het vinden van de parameters van de voorspellingsfunctie, bijvoorbeeld de vergelijkingspunten in een beslissingsstructuur of de gewichten in een lineair regressiemodel. Zie het artikel Hyperparameter op Wikipedia voor meer informatie.
Label
Het element dat moet worden voorspeld met het machine learning-model. Bijvoorbeeld het hondenras of een toekomstige aandelenkoers.
Logboekverlies
In classificatie, een metrische evaluatiewaarde die de nauwkeurigheid van een classificatie karakteriseert. Hoe kleiner logboekverlies is, hoe nauwkeuriger een classificatie is.
Verliesfunctie
Een verliesfunctie is het verschil tussen de waarden van de trainingslabels en de voorspelling die door het model wordt gedaan. De parameters van het model worden geschat door de verliesfunctie te minimaliseren.
Verschillende trainers kunnen worden geconfigureerd met verschillende verliesfuncties.
Gemiddelde absolute fout (MAE)
In regressie, een evaluatiemetriek die het gemiddelde van alle modelfouten is, waarbij modelfout de afstand is tussen de voorspelde labelwaarde en de juiste labelwaarde.
Modelleren
Traditioneel zijn dit de parameters voor de voorspellingsfunctie. Bijvoorbeeld de gewichten in een lineair regressiemodel of de splitspunten in een beslissingsstructuur. In ML.NET bevat een model alle informatie die nodig is om het label van een domeinobject (bijvoorbeeld afbeelding of tekst) te voorspellen. Dit betekent dat ML.NET modellen de benodigde featurization-stappen en de parameters voor de voorspellingsfunctie bevatten.
Classificatie met meerdere klassen
Een classificatiecase waarbij het label een van drie of meer klassen is. Zie de sectie Classificatie met meerdere klassen van het onderwerp Machine learning-taken voor meer informatie.
N-gram
Een functieextractieschema voor tekstgegevens: elke reeks N-woorden verandert in een functiewaarde .
Normalisatie
Normalisatie is het proces van het schalen van drijvende-kommagegevens naar waarden tussen 0 en 1. Voor veel van de trainingsalgoritmen die in ML.NET worden gebruikt, moeten de invoerfunctiegegevens worden genormaliseerd. ML.NET biedt een reeks transformaties voor normalisatie
Numerieke functievector
Een functievector die alleen uit numerieke waarden bestaat. Dit is vergelijkbaar double[]
met .
Pijplijn
Alle bewerkingen die nodig zijn om een model aan te passen aan een gegevensset. Een pijplijn bestaat uit gegevensimport, transformatie, featurization en leerstappen. Zodra een pijplijn is getraind, verandert deze in een model.
Precisie
In de classificatie is de precisie voor een klasse het aantal items dat correct is voorspeld als behorend tot die klasse, gedeeld door het totale aantal items dat is voorspeld als behorend tot de klasse.
Relevante overeenkomsten
In de classificatie is de terugroepactie voor een klasse het aantal items dat correct is voorspeld als behorend tot die klasse, gedeeld door het totale aantal items dat daadwerkelijk tot de klasse behoort.
Regularisatie
Regularisatie bestraft een lineair model omdat het te ingewikkeld is. Er zijn twee soorten regularisatie:
- $L_1$ regularisatie nullen gewichten voor onbeduidende functies. De grootte van het opgeslagen model kan kleiner worden na dit type regularisatie.
- $L_2$ regularisatie minimaliseert het gewichtsbereik voor onbeduidende functies. Dit is een meer algemeen proces en is minder gevoelig voor uitbijters.
Regressie
Een machine learning-taak onder supervisie waarbij de uitvoer een echte waarde is, bijvoorbeeld dubbel. Voorbeelden hiervan zijn het voorspellen van aandelenkoersen. Zie de sectie Regressie van het onderwerp Machine learning-taken voor meer informatie.
Relatieve absolute fout
In regressie, een evaluatiemetriek die de som is van alle absolute fouten, gedeeld door de som van de afstanden tussen de juiste labelwaarden en het gemiddelde van alle juiste labelwaarden.
Relatieve kwadratische fout
In regressie, een metrische evaluatiewaarde die de som is van alle kwadratische absolute fouten, gedeeld door de som van de kwadratische afstanden tussen de juiste labelwaarden en het gemiddelde van alle juiste labelwaarden.
Wortel van gemiddelde kwadratische fout (RMSE)
In regressie, een evaluatiemetriek die de vierkantswortel is van het gemiddelde van de kwadraten van de fouten.
Scoren
Scoren is het proces van het toepassen van nieuwe gegevens op een getraind machine learning-model en het genereren van voorspellingen. Scoren wordt ook wel deductie genoemd. Afhankelijk van het type model kan de score een onbewerkte waarde, een kans of een categorie zijn.
Machine Learning onder supervisie
Een subklasse van machine learning waarin een gewenst model het label voor nog ongeziene gegevens voorspelt. Voorbeelden zijn classificatie, regressie en gestructureerde voorspelling. Zie het artikel Leren onder supervisie op Wikipedia voor meer informatie.
Training
Het proces voor het identificeren van een model voor een bepaalde set trainingsgegevens. Voor een lineair model betekent dit het vinden van de gewichten. Voor een boomstructuur gaat het om het identificeren van de splitsingspunten.
Transformator
Een ML.NET klasse die de ITransformer interface implementeert.
Een transformator transformeert de IDataView ene in de andere. Een transformator wordt gemaakt door een estimator of een estimator-pijplijn te trainen.
Machine Learning zonder supervisie
Een subklasse van machine learning waarin een gewenst model verborgen (of latente) structuur in gegevens vindt. Voorbeelden zijn clustering, onderwerpmodellering en dimensionaliteitsvermindering. Zie het artikel Over leren zonder supervisie op Wikipedia voor meer informatie.