Clustering opsommen

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Voert een parameteropruiming uit om de optimale instellingen voor een clusteringmodel te bepalen

Categorie: Machine Learning/trainen

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Clustering opsommen in Machine Learning Studio (klassiek) gebruikt om een model te trainen met behulp van een parameteropsruiming. Een parameteropruiming is een manier om de beste hyperparameters voor een model te vinden op de manier waarop een set gegevens wordt gebruikt.

De Clustering-module Opsommen is speciaal ontworpen voor clusteringmodellen. U levert een clusteringmodel als invoer, samen met een gegevensset. De module doorsteert een set parameters die u opgeeft, en bouwt en test modellen met verschillende parameters totdat het model met de beste set clusters wordt gevonden. Het berekent automatisch de beste configuratie en traint vervolgens een model met behulp van die configuratie.

Er wordt ook een set metrische gegevens met een beschrijving van de geteste modellen en een set clustertoewijzingen op basis van het beste model.

Clustering opsommen configureren

Voeg de module Clustering opsommen toe aan uw experiment in Studio (klassiek). U vindt deze module onder Machine Learning, in de categorie Trainen.
Voeg de module K-Means Clustering en uw trainingsset toe aan het experiment en verbind deze beide met de Clustering-module.
Configureer de K-Means Clustering-module als volgt om een parameteropsruiming te gebruiken:
1. Stel De modus Voor het maken van een docentin op Parameterbereik.
2. Gebruik de Range Builder (of typ handmatig meerdere waarden) voor elke parameter om het bereik van waarden in te stellen om over te lopen.
3. Initialisatie voor opruimen: geef op hoe het K-means-algoritme de eerste clustercentrroids moet vinden. Er worden meerdere algoritmen opgegeven voor het willekeurig initialiseren en vervolgens testen van de centroids.
  
  Als uw trainingsset een labelkolom bevat, zelfs met gedeeltelijke waarden, kunt u deze waarden gebruiken voor deroids. Gebruik de optie Labelmodus toewijzen om aan te geven hoe de labelwaarden worden gebruikt.
  
  Tip
  
  Uw labelkolom moet vooraf als zodanig zijn gemarkeerd. Als er een foutmelding wordt weergegeven, gebruikt u Metagegevens bewerken om de kolom met labels te identificeren.
4. Aantal pitten dat moet worden opsmeting: Geef aan hoeveel verschillende willekeurig beginnende zaden moeten worden geprobeerd bij het opsnuiten van parameters.
5. Kies de metrische gegevens die moeten worden gebruikt bij het meten van cluster-overeenkomsten. Zie het onderwerp K-Means Clustering (K-Means-clustering) voor meer informatie.
6. Iteraties: geef het totale aantal iteraties op dat het K-means-algoritme moet uitvoeren. Deze iteraties worden gebruikt om de selectie van de clustercentrroids te optimaliseren.
7. Als u een labelkolom gebruikt om de opruiming te initialiseren, gebruikt u de optie Labelmodus toewijzen om op te geven hoe de waarden in de labelkolom moeten worden verwerkt.
  - Ontbrekende waarden invullen: Als uw labelkolom enkele ontbrekende waarden bevat, gebruikt u deze optie om categorieën toe te wijzen op basis van het cluster waar het gegevenspunt aan is toegewezen.
  - Overschrijven van dichtstbijzijnde naar het midden: genereert labelwaarden voor alle gegevenspunten die zijn toegewezen aan een cluster, met behulp van het label van het punt dat zich het dichtst bij het midden van het cluster.
  - Labelkolom negeren: selecteer deze optie als u een van de bovenstaande bewerkingen niet wilt uitvoeren.
Gebruik in de module Clustering opsommen de optie Voor metrische gegevens voor het meten van het clusterresultaat om de wiskundige methode op te geven die moet worden gebruikt bij het schatten van de fit van het getrainde clusteringmodel:
- Simplified Simplifie: Deze metrische gegevens leggen de beperktheid van gegevenspunten binnen elk cluster vast. Deze wordt berekend als een combinatie van de gelijkenis van elke rij met het cluster en de gelijkenis met het dichtstbijzijnde cluster. Als het cluster slechts één rij heeft, wordt in plaats daarvan de prorated distance to next closest centroid berekend, om te voorkomen dat u 0 krijgt als resultaat. 'Vereenvoudigd' verwijst naar het feit dat de afstand tot het clustercentrroid wordt gebruikt als een eenvoudige overeenkomstmeting. Over het algemeen is een hogere score beter. De gemiddelde waarde boven de gegevensset geeft aan hoe goed de gegevens zijn geclusterd. Als er te veel of te weinig clusters zijn, hebben sommige clusters lagere waarden dan de rest. Zie dit Wikipedia-artikel voor meer informatie.
- Metrische gegevens zijn erop gericht om de kleinste set clusters met de minste spreiding te identificeren. Omdat de metrische waarde is gedefinieerd als een spreidingsverhouding binnen elk cluster over clusterscheiding, betekent een lagere waarde dat clustering beter is. Het beste clusteringmodel minimaliseert deze metrische gegevens. Als u de Davies-Bouldin wilt berekenen, wordt de gemiddelde rij-naar-android-afstand per cluster berekend. Voor elk paar clusters wordt de som van deze gemiddelden gedeeld door de afstand tussen de centroids. De maximale waarde voor alle andere clusters wordt geselecteerd voor elk cluster en het gemiddelde is voor alle clusters. Zie dit Wikipedia-artikel voor meer informatie.
- Dunn: Deze metrische gegevens zijn gericht op het identificeren van de kleinste set van de meest compacte clusters. Over het algemeen duidt een hogere waarde voor deze metrische waarde op een betere clustering. Voor het berekenen van de metrische gegevens van Dunn wordt de minimale zwaartepunt-naar-zwaartepuntafstand gedeeld door de maximale afstand van elk gegevenspunt naar het clustercentrum. Zie dit Wikipedia-artikel voor meer informatie.
- Gemiddelde afwijking: Deze metrische waarde wordt berekend door de gemiddelde afstand van elk gegevenspunt naar het clustercentrum te nemen. De waarde neemt af naarmate het aantal centroids toeneemt; Daarom is het niet nuttig bij het vegen om het aantal centroids te vinden. Deze metrische gegevens worden aanbevolen voor gebruik wanneer u de beste seed voor de initialisatie van het centroid-gebruik kiest.
De parameterparameterstuurmodus opgeven: selecteer een optie die de combinaties van waarden definieert die worden gebruikt tijdens de training en hoe deze worden gekozen:
- Volledig raster: alle waarden binnen het opgegeven bereik worden geprobeerd en geëvalueerd. Deze optie is meestal duurder in rekenkracht.
- Willekeurige opsruiming: gebruik deze optie om het aantal runs te beperken. Het clusteringmodel wordt gebouwd en geëvalueerd met behulp van een combinatie van waarden die willekeurig zijn gekozen uit het toegestane bereik van parameterwaarden.
Maximum aantal runs op willekeurige doorzoeken: stel deze optie in als u de optie Willekeurige doorzoeken kiest. Typ een waarde om het maximum aantal iteraties te beperken bij het testen van sets willekeurig gekozen parameters.

Waarschuwing

De iteratieparameters van de K-Means-clusteringmodule hebben een ander doel en worden niet beïnvloed door deze instelling: het beperkt het aantal keer dat gegevens worden door gegeven om clusters te verbeteren, door de gemiddelde afstand van elk gegevenspunt tot de clustercentrroids te minimaliseren. Daarentegen worden de iteraties die zijn gedefinieerd door de parameter Clustering-clustering opsommen uitgevoerd om verschillende willekeurige initialisaties van hetcentralisaties te proberen. Dit minimalisatieprobleem is bekend als NP-hard; Daarom kan het proberen van verschillende willekeurige planten betere resultaten opleveren.

Als u een willekeurige opruiming selecteert, gebruikt u de optie Willekeurige seed om de initiële willekeurige seed-waarden op te geven, waarop u de centroids wilt gaan maken. Een voordeel van het gebruik van een parameteropruiming om een clusteringmodel te maken, is dat u eenvoudig meerdere seed-waarden kunt testen om de bekende gevoeligheid van clusteringmodellen tot de eerste seed-waarde te beperken.
Klik op Kolomset en kies de kolommen die u wilt gebruiken bij het bouwen van de clusters. Standaard worden alle functiekolommen gebruikt bij het bouwen en testen van het clusteringmodel.

U kunt een labelkolom opnemen, indien aanwezig in uw gegevensset. Als een label aanwezig is, kunt u het gebruiken om de selectie van de centroids te begeleiden, het label als een functie te gebruiken of het label te negeren. Stel deze opties in voor labelverwerking van de Kmeans Clustering-module , zoals beschreven in stap 3 hierboven.
Controleren op Alleen resultaat toevoegen of Het selectievakje verwijderen: gebruik deze optie om te bepalen welke kolommen worden geretourneerd in de resultaten.

Standaard retourneert de module de oorspronkelijke kolommen van de trainingsset samen met de resultaten. Als u deze optie deselecteert. alleen de clustertoewijzingen worden geretourneerd.
Voeg de module Gegevens toewijzen aan clusters toe aan uw experiment.
Verbinding maken uitvoer met het label Best Trained Model toe aan de invoer van het getrainde model van Gegevens toewijzen aan clusters.
Voeg de gegevensset toe die is bedoeld voor evaluatie en koppel deze aan de gegevenssetpoort van de module Gegevens toewijzen aan clusters.
Voeg de module Model evalueren toe en koppel deze aan Gegevens toewijzen aan clusters. U kunt eventueel verbinding maken met een evaluatie-gegevensset.
Voer het experiment uit.

Resultaten

De module Clustering opsommen levert drie verschillende resultaten op:

Best getraind model. Een getraind model dat u kunt gebruiken voor scoren en evalueren. Klik met de rechtermuisknop op Opslaan als getraind model om het geoptimaliseerde clusteringmodel vast te leggen en te gebruiken om te scoren.

Gegevensset met resultaten. Een set clustertoewijzingen, op basis van het geoptimaliseerde model.

Kolomnaam	Beschrijving
Toewijzingen	Deze waarde geeft het cluster aan waaraan elk gegevenspunt is toegewezen. De clusters in het getrainde model worden gelabeld met op 0 gebaseerde indexen.
DistancesToClusterCenter no.1 DistancesToClusterCenter no.n	Deze waarde geeft aan hoe dicht het gegevenspunt zich in het midden van elk cluster. Er wordt een kolom gemaakt voor elk cluster dat in het geoptimaliseerde model is gemaakt. U kunt het aantal clusters beperken met behulp van de optie Aantal centroids .

Standaard kunt u de kolommen uit de trainingsset samen met de resultaten retourneren, zodat u de clustertoewijzingen gemakkelijker kunt controleren en interpreteren.

Resultaten opsnuiten. Een gegevensset met de volgende metrische evaluatiegegevens voor de clusters:

Kolomnaam	Beschrijving
Clustermetrische gegevens	Een waarde die de gemiddelde clusterkwaliteit voor die run aangeeft. De runs worden geordend op de beste score.
Aantal centroids	Het aantal clusters dat is gemaakt in deze specifieke iteratie van de opruiming
Index van uitvoeren	Een id voor elke iteratie

Tip

De waarden die worden geretourneerd voor de metrische gegevens van het cluster, moeten anders worden geïnterpreteerd, afhankelijk van de metrische gegevens die u hebt gekozen bij het instellen van de metrische waarde. Voor de standaardwaarde Vereenvoudigde metrische gegevens is een hogere score beter. Voor Deen-Bouldin is een lagere score beter.

Voorbeelden

Zie de volgende informatie voor voorbeelden van een parameteropsruiming met K-means Azure AI Gallery:

Clusteringopsruiming met behulp van de diabetes-gegevensset

Technische opmerkingen

Deze sectie bevat tips en implementatiedetails.

Clusteringmodellen optimaliseren

De kwaliteit en nauwkeurigheid van clusteringmodellen kunnen sterk worden beïnvloed door de keuze van initiële parameters, zoals het aantal centroids en de seed-waarde die wordt gebruikt om het cluster te initialiseren. Om deze gevoeligheid voor de initiële parameters te beperken, kunt u met de module Clustering opsommen de beste combinatie van parameters vinden. U geeft een reeks parameters op die u wilt testen. De module bouwt en test automatisch meerdere modellen en selecteert ten slotte het optimale aantal clusters.

Als u een parameteropsruiming wilt maken, moet u ook de module K-Means Clustering configureren om een parameteropsruiming te gebruiken. U kunt opgeven dat het doorzoeken van alle mogelijke combinaties van parameters wordt doorgenomen, of u kunt een willekeurige combinatie van parameters gebruiken. U kunt ook een van de verschillende standaardmetrieken kiezen voor het meten van de nauwkeurigheid van de centroids tijdens het iteratieve model bouwen en testen. Nadat het opgegeven aantal iteraties is voltooid, selecteert de module het beste aantal clusters, op basis van de geselecteerde metrische gegevens, en worden rapporten uitgevoerd die u kunt gebruiken om de resultaten te beoordelen.

Gebruikstips

In sommige gevallen weet u mogelijk al hoeveel clusters u verwacht te vinden. Uw gegevens kunnen bijvoorbeeld klasselabels bevatten die kunnen worden gebruikt bij het begeleiden van de selectie van de centroids. In dat geval kunt u de module K-Means Clustering configureren om de labelkolom te gebruiken om de selectie van de eerste centroids te begeleiden.
Als u een aantal van de verwachte clusters kent, maar niet zeker weet hoeveel clusters optimaal zijn, stelt u het aantal centroids in op een getal dat groter is dan het aantal bekende labelwaarden. De module Clustering opsommen maakt clusters voor de bekende gegevenspunten en bepaalt vervolgens het optimale aantal extra clusters voor de resterende gegevenspunten.

Ontbrekende waarden in de labelkolom verwerken

Er zijn verschillende manieren om ontbrekende waarden in uw labelkolom te verwerken. Stel bijvoorbeeld dat u een afbeeldingsclassificatietaak hebt en dat slechts enkele afbeeldingen zijn gelabeld.

U kunt de labelkolom gebruiken om de selectie van de centroids te begeleiden, maar opgeven dat eventuele ontbrekende labels worden ingevuld met behulp van de clustertoewijzingen. Met andere woorden, bestaande labelwaarden worden niet gewijzigd, maar ontbrekende labels worden ingevuld.

Voor alle gegevenspunten die aan een cluster zijn toegewezen, kunt u ook de bestaande labels overschrijven met behulp van één label dat het cluster het beste vertegenwoordigt. Om te begrijpen hoe deze optie nuttig is, stelt u zich voor dat u afbeeldingsgegevens gebruikt met zeer gedetailleerde labels, zoals verschillende hondenras. Met deze optie kunt u alle gedetailleerde labels vervangen door één categorielabel, 'hond'.

Seed-waarden in het logboek

Het logboekbestand dat wordt gegenereerd door de module Clusteringmodel trainen lijkt aan te geven dat dezelfde seed wordt gebruikt voor alle iteraties van het K-means-clusteringalgoritme, ongeacht de seed die is opgegeven in de eigenschap Random Seed .

In feite gebruikt de implementatie de door de gebruiker opgegeven seed om een reeks willekeurige getallen te genereren die voor elke uitvoering verschillend zijn. Er is dus slechts één seed nodig om alle willekeurig gegenereerde getallen te maken.

De intentie van het logboek is om aan te geven welke seed de module gebruikt wanneer de gebruiker geen seed opgeeft in het deelvenster Eigenschappen.

Verwachte invoer

Naam	Type	Description
Niet-getraind model	ICluster-interface	Niet-getraind clusteringmodel
Gegevensset	Gegevenstabel	Invoergegevensbron

Moduleparameters

Naam	Type	Waarden	Optioneel	Standaard	Beschrijving
Metrische gegevens voor het meten van het clusterresultaat	Clustermetrische gegevens	Simplified Simplified, Simplifie-Bouldin, Dunn, Average Deviation	Vereist	Vereenvoudigde	De metrische gegevens selecteren die worden gebruikt voor het evalueren van regressiemodellen
Parameter-modus voor het vegen van parameters opgeven	Opsruimmethoden	Volledig raster of willekeurige opsruiming	Vereist	Willekeurige opsruiming	Hele raster op parameterruimte opruimen of opsmet behulp van een beperkt aantal voorbeeld runs
Kolomset	ColumnSelection		Vereist		Patroon kolomselectie
Maximum aantal runs bij willekeurige opsruiming	Geheel getal	[1;10000]	Alleen beschikbaar wanneer SweepingMode is ingesteld op Willekeurige opsleeg	5	Het maximum aantal uitvoeringen instellen dat moet worden uitgevoerd bij het gebruik van willekeurige doorzoeken
Willekeurige seed	Geheel getal		Alleen beschikbaar wanneer SweepingMode is ingesteld op Willekeurige opsleeg	0	Geef een waarde op om de generator voor willekeurige getallen te seeden voor willekeurige opsruiming
Controleren op Alleen resultaat append of uitvinden	Booleaans		Vereist	Waar	Selecteer om aan te geven dat de uitvoerset een invoerset moet bevatten met de kolom Toewijzingen toegevoegd. Schakel de selectie uit om aan te geven dat alleen de kolom toewijzingen uitvoer moet zijn.

Uitvoerwaarden

Naam	Type	Description
Best getraind model	ICluster-interface	Getraind clusteringmodel
Gegevensset met resultaten	Gegevenstabel	Invoergegevensset toegevoegd aan gegevenskolom met alleen toewijzingen of toewijzingenkolom
Resultaten opsnuit	Gegevenstabel	Resulterend metrische logboek voor clusteropruimingsuit runs

Uitzonderingen

Uitzondering	Description
Fout 0003	Uitzondering treedt op als een of meer invoer null of leeg zijn.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

K-means-clustering
Gegevens aan cluster toewijzen
Machine Learning trainen
Machine Learning/ Model initialiseren/ Clustering

Delen via