Lineaire correlatie berekenen

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen van machine learning-projecten van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Berekent de lineaire correlatie tussen kolomwaarden in een gegevensset

Categorie: Statistische functies

Notitie

Van toepassing op: alleen Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Compute Linear Correlation in Machine Learning Studio (klassiek) gebruikt om een set Pearson-correlatiecoëfficiënten te berekenen voor elk mogelijk paar variabelen in de invoergegevensset.

De Pearson-correlatiecoëfficiënt, ook wel Pearsons R-test genoemd, is een statistische waarde die de lineaire relatie tussen twee variabelen meet. Door de coëfficiëntwaarden te onderzoeken, kunt u iets afleiden over de sterkte van de relatie tussen de twee variabelen en of ze positief zijn gecorreleerd of negatief zijn gecorreleerd.

Lineaire correlatie configureren

Voordat u de correlatiecoëfficiënt berekent, zijn er enkele vereisten, zoals het opschonen van uw gegevens en het controleren of de relatie tussen de variabelen geschikt is voor deze module. U moet ook ontbrekende waarden verwijderen of invoeren.

De volgende beperkingen gelden wanneer u deze module gebruikt:

De module Compute Linear Correlation kan alleen numerieke waarden verwerken. Alle andere typen waarden, inclusief ontbrekende waarden, niet-numerieke waarden en categorische waarden, worden behandeld als NaN's.
Pearsons correlatie wordt berekend voor alle numerieke kolommen in de gegevensset die als invoer worden doorgegeven. Zorg ervoor dat u kolommen uitsluit die geschikt zijn voor deze analyse.
Compute Linear Correlation kan niet worden gebruikt met gegevens met ontbrekende waarden.

Stap 1: Lineariteit bepalen

Als de kolommen die u test niet naar verwachting een soort lineaire relatie hebben, is er geen punt in het genereren van deze coëfficiënt. Het is dus een goed idee om eerst de kolommen te testen, om te zien of ze over het juiste soort gegevens en het juiste soort distributie beschikken in het algemeen.

Er zijn verschillende manieren waarop u kunt bepalen of de relatie tussen de kolommen grofweg lineair is:

Maak een spreidingsplot van de variabelen in Studio (klassiek), met behulp van de optie Visualiseren in de gegevensset. Klik op een van de kolommen met numerieke variabelen, vouw Visualisaties uit en klik op Vergelijken. Selecteer een andere variabele en er wordt automatisch een spreidingsplot gegenereerd. Als er een ander type plot wordt gegenereerd, betekent dit dat ten minste één kolom een ander gegevenstype (niet-numeriek) heeft.
Een regressievergelijking berekenen voor de twee variabelen. Er zijn veel R-pakketten die dit ondersteunen, die u kunt laden en gebruiken in de module Execute R Script .

Stap 2: Gegevens opschonen

U moet ontbrekende waarden verwijderen of invullen, uitbijters verwijderen of knippen en ervoor zorgen dat de kolommen het juiste gegevenstype hebben.

Zorg ervoor dat u op tijdelijke aanduidingen controleert en deze waarde vervangt door andere geschikte waarden voordat u deze module gebruikt. Als NaN's zijn ingevoegd voor ontbrekende waarden toen de gegevensset uit de bron werd geladen, kan dit een fout veroorzaken. Tijdelijke aanduidingen voor waarden zoals 999 of -1 kunnen ook slechte resultaten veroorzaken.

U kunt deze modules gebruiken om uw gegevens voor te bereiden:

U kunt het gegevenstype van de kolommen aanpassen met behulp van Metagegevens bewerken. Zorg ervoor dat de kolommen die u wilt analyseren, zijn gemarkeerd als functiekolommen.

Stap 3: De coëfficiënt genereren

Voeg de module Compute Linear Correlation toe aan uw experiment. U vindt deze module in de categorie Statistische functies in Machine Learning Studio (klassiek).
Voeg de gegevensset toe die u wilt analyseren.
U wordt aangeraden een module Select Columns in Dataset toe te voegen tussen uw gegevensset en de module Compute Linear Correlation om onnodige kolommen te verwijderen. Configureer de module Select Columns in Dataset om alleen de twee numerieke kolommen op te halen waarvoor u coëfficiënten wilt berekenen.

Anders kan de module Compute Linear Correlation veel kolommen met NaN's genereren.
Er zijn geen parameters om in te stellen voor deze module. Dit mislukt echter als de kolommen die u doorgeeft, niet voldoen aan de vereisten.
Voer het experiment uit.

Resultaten voor twee kolommen

Gezien twee functiekolommen retourneert de module Compute Linear Correlation de scalaire Pearson-correlatiecoëfficiënt (steekproefcoëfficiënt). De Pearson-correlatiecoëfficiënt (vaak aangeduid als r) varieert van +1 tot -1.

+1 geeft een sterke positieve lineaire relatie aan
-1 geeft een sterke negatieve lineaire correlatie aan
0 geeft geen lineaire relatie tussen de twee variabelen aan.

De interpretatie van de coëfficiënten hangt sterk af van het probleem dat u modelleert en de variabelen die u onderzoekt. Het is dus belangrijk om inzicht te krijgen in de context van de gegevens bij het rapporteren en interpreteren van de correlatiecoëfficiënt van Pearson.

Als u zeker weet dat de variabelen niet gerelateerd zijn en toch de correlatiecoëfficiënt van Pearson sterk positief is (r.5 > of zo), moet u verder onderzoeken.
Als u lineaire correlatie gebruikt voor twee variabelen waarvan u weet dat deze perfect zijn gecorreleerd en de coëfficiëntwaarden niet zijn wat u verwacht, kan dit duiden op een probleem in de gegevens.

Resultaten voor meer dan twee kolommen

Gezien een matrix (dat wil gezegd hebben meer dan twee functiekolommen), retourneert de module Compute Linear Correlation een set Pearson-productmomentcorrelaties tussen elk paar functiekolommen.

Daarom is het resultaat een n x n-tabel met de coëfficiënten voor elke combinatie van de n-kolommen . Als kolommen niet aan de criteria voldoen, wordt een NaN(geen getalwaarde) geretourneerd.

Stel dat u de twee numerieke kolommen wheel-base hebt doorgegeven en curb-weight één categorische kolom make hebt doorgegeven (uit de gegevensset Automobile price). Het resultaat is een 3x3-tabel met coëfficiënten voor alle mogelijke combinaties van de invoerkolommen:

`make`	`wheel-base`	`curb-weight`
Nan	Nan	Nan
Nan	1	0.776386
Nan	0.776386	1

In deze tabel worden de rijen begrepen om elk van de variabelen weer te geven,makewheel-base en curb-weight, in die volgorde.

De r-waarde voor de correlatie van wheel-base zichzelf is 1.
De r-waarde voor de correlatie van wheel-basecurb-weight 0,776386.
Alle correlaties die betrekking hebben op het kolomresultaat make in NaN, inclusief de correlatie met zichzelf, omdat make dit een tekenreeksfunctie is.

We raden u aan niet-numerieke kolommen te verwijderen om complexe tabellen met veel betekenisloze waarden te voorkomen.

Voorbeelden

Als u wilt zien hoe deze module wordt gebruikt in machine learning-experimenten, raadpleegt u de Azure AI Gallery:

Gegevensverwerking en analyse: in dit voorbeeld ziet u meerdere technieken voor het wijzigen van uw gegevens. Compute Linear Correlation wordt gebruikt om potentiële functiekolommen te identificeren.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Implementatiegegevens

Als de kolom die als invoer wordt doorgegeven scalaire waarden bevat, worden de invoermatrices (x en y) behandeld als vectoren en wordt de Correlatie van Pearson-productmomenten als volgt berekend:

linear correlation formula

In deze formule bevat elke matrix n elementen en de middelen van de x - en y-monsters respectievelijk μx en μy.

Voor een matrix wordt een matrix met gegevens (X) ingevoerd, waarin elke kolom een vector van waarden vertegenwoordigt. De gegevensmatrix moet n-by-m zijn. De uitvoer is de m-by-m-matrix, R zoals gedefinieerd door

formula for linear correlation

In deze formule vertegenwoordigt μx de gemiddelde waarde van de kolom xi. De elementen bij I,j zijn altijd gelijk aan 1, omdat ze de correlatie van een vector met zichzelf vertegenwoordigen.

Verwachte invoer

Naam	Type	Beschrijving
Gegevensset	Gegevenstabel	Invoergegevensset

Uitvoerwaarden

Naam	Type	Beschrijving
Resultatengegevensset	Gegevenstabel	Correlatiematrix

Uitzonderingen

Uitzondering	Beschrijving
Fout 0003	Er treedt een uitzondering op als een of meer invoerwaarden null of leeg zijn.
Fout 0020	Uitzondering treedt op als het aantal kolommen in sommige gegevenssets dat aan de module is doorgegeven, te klein is.
Fout 0021	Uitzondering treedt op als het aantal rijen in sommige gegevenssets dat aan de module is doorgegeven, te klein is.

Zie Machine Learning Foutcodes voor een lijst met fouten die specifiek zijn voor Studio-modules (klassiek).

Zie Machine Learning REST API-foutcodes voor een lijst met API-uitzonderingen.

Zie ook

Statistische functies
A-Z-modulelijst

Delen via