Delen via


Algoritmen voor gegevensanalyse (Analysis Services - Gegevensanalyse)

Van toepassing op: SQL Server 2019 en eerder Analysis Services Azure Analysis Services Fabric/Power BI Premium

Belangrijk

Data mining werd verouderd verklaard in SQL Server 2017 Analysis Services en is nu stopgezet in SQL Server 2022 Analysis Services. Documentatie wordt niet bijgewerkt voor afgeschafte en stopgezette functies. Zie Analysis Services-compatibiliteit met eerdere versies voor meer informatie.

Een algoritme in gegevensanalyse (of machine learning) is een set heuristieken en berekeningen waarmee een model wordt gemaakt op basis van gegevens. Als u een model wilt maken, analyseert het algoritme eerst de gegevens die u opgeeft, op zoek naar specifieke typen patronen of trends. Het algoritme gebruikt de resultaten van deze analyse over veel iteraties om de optimale parameters te vinden voor het maken van het miningmodel. Deze parameters worden vervolgens toegepast op de hele gegevensset om bruikbare patronen en gedetailleerde statistieken te extraheren.

Het miningmodel dat door een algoritme op basis van uw gegevens wordt gemaakt, kan verschillende vormen aannemen, waaronder:

  • Een set clusters die beschrijven hoe de cases in een gegevensset zijn gerelateerd.

  • Een beslissingsstructuur die een resultaat voorspelt en beschrijft hoe verschillende criteria van invloed zijn op dat resultaat.

  • Een wiskundig model waarmee de verkoop wordt voorspeld.

  • Een set regels die beschrijven hoe producten worden gegroepeerd in een transactie en de waarschijnlijkheid dat producten samen worden gekocht.

De algoritmen in SQL Server Data Mining zijn de populairste, goed onderzochte methoden voor het afleiden van patronen uit gegevens. Om een voorbeeld te nemen, is K-means-clustering een van de oudste clusteringalgoritmen en is deze breed beschikbaar in veel verschillende hulpprogramma's en met veel verschillende implementaties en opties. De specifieke implementatie van K-means-clustering die wordt gebruikt in SQL Server Data Mining is echter ontwikkeld door Microsoft Research en vervolgens geoptimaliseerd voor prestaties met SQL Server Analysis Services. Alle Microsoft-algoritmen voor gegevensanalyse kunnen uitgebreid worden aangepast en zijn volledig programmeerbaar met behulp van de opgegeven API's. U kunt het maken, trainen en opnieuw trainen van modellen ook automatiseren met behulp van de data mining-onderdelen in Integration Services.

U kunt ook algoritmen van derden gebruiken die voldoen aan de OLE DB voor gegevensanalysespecificatie of aangepaste algoritmen ontwikkelen die kunnen worden geregistreerd als services en vervolgens worden gebruikt in het SQL Server Data Mining-framework.

Het juiste algoritme kiezen

Het kiezen van het beste algoritme voor een specifieke analytische taak kan een uitdaging zijn. Hoewel u verschillende algoritmen kunt gebruiken om dezelfde zakelijke taak uit te voeren, produceert elk algoritme een ander resultaat en kunnen sommige algoritmen meer dan één type resultaat produceren. U kunt bijvoorbeeld het algoritme Microsoft Decision Trees niet alleen gebruiken voor voorspellingen, maar ook als een manier om het aantal kolommen in een gegevensset te verminderen, omdat de beslissingsstructuur kolommen kan identificeren die geen invloed hebben op het uiteindelijke miningmodel.

Een algoritme kiezen op type

SQL Server Data Mining bevat de volgende algoritmetypen:

  • Classificatiealgoritmen voorspellen een of meer discrete variabelen op basis van de andere kenmerken in de gegevensset.

  • Regressiealgoritmen voorspellen een of meer continue numerieke variabelen, zoals winst of verlies, op basis van andere kenmerken in de gegevensset.

  • Segmentatiealgoritmen verdelen gegevens in groepen of clusters van items met vergelijkbare eigenschappen.

  • Koppelingsalgoritmen zoeken correlaties tussen verschillende kenmerken in een gegevensset. De meest voorkomende toepassing van dit soort algoritme is voor het maken van koppelingsregels, die kunnen worden gebruikt in een marktmandanalyse.

  • Algoritmen voor sequentieanalyse geven een overzicht van frequente reeksen of afleveringen in gegevens, zoals een reeks klikken op een website of een reeks logboek gebeurtenissen voorafgaand aan machineonderhoud.

Er is echter geen reden dat u beperkt moet zijn tot één algoritme in uw oplossingen. Ervaren analisten gebruiken soms één algoritme om de meest effectieve invoer (dat wil zeggen variabelen) te bepalen en vervolgens een ander algoritme toe te passen om een specifiek resultaat te voorspellen op basis van die gegevens. Met SQL Server Data Mining kunt u meerdere modellen bouwen op één mijnbouwstructuur, dus binnen één oplossing voor gegevensanalyse kunt u een clustering-algoritme, een beslissingsstructurenmodel en een Naïve Bayes-model gebruiken om verschillende weergaven op uw gegevens te krijgen. U kunt ook meerdere algoritmen in één oplossing gebruiken om afzonderlijke taken uit te voeren. U kunt bijvoorbeeld regressie gebruiken om financiële prognoses te verkrijgen en een neuraal netwerkalgoritmen gebruiken om een analyse uit te voeren van factoren die van invloed zijn op prognoses.

Een algoritme per taak kiezen

Om u te helpen bij het selecteren van een algoritme voor gebruik met een specifieke taak, bevat de volgende tabel suggesties voor de typen taken waarvoor elk algoritme traditioneel wordt gebruikt.

Voorbeelden van taken Microsoft-algoritmen die moeten worden gebruikt
Een discreet kenmerk voorspellen:

Markeer de klanten in een lijst met potentiële kopers als goede of slechte prospects.

Bereken de kans dat een server binnen de komende 6 maanden mislukt.

Categoriseer de resultaten van patiënten en verken verwante factoren.
Microsoft Decision Trees Algorithm

Microsoft Naive Bayes Algorithm

Microsoft Clustering Algorithm

Microsoft Neural Network Algorithm
Een doorlopend kenmerk voorspellen:

De verkoop van volgend jaar voorspellen.

Voorspel sitebezoekers op basis van historische en seizoenstrends.

Genereer een risicoscore op basis van demografische gegevens.
Microsoft Decision Trees Algorithm

Microsoft Time Series-algoritme

Microsoft Linear Regression Algorithm
Een reeks voorspellen:

Klikstream-analyse uitvoeren van de website van een bedrijf.

Analyseer de factoren die leiden tot serverfouten.

Leg reeksen activiteiten vast en analyseer deze tijdens poliklinische bezoeken om best practices rond algemene activiteiten te formuleren.
Microsoft Sequence Clustering Algorithm
Groepen algemene items zoeken in transacties:

Gebruik market basket analyse om de productplaatsing te bepalen.

Stel aanvullende producten voor aan een klant voor aankoop.

Analyseer enquêtegegevens van bezoekers aan een evenement om te bepalen welke activiteiten of standen zijn gecorreleerd om toekomstige activiteiten te plannen.
Microsoft Association Algorithm

Microsoft Decision Trees Algorithm
Groepen met vergelijkbare items zoeken:

Maak groepen patiëntenrisicoprofielen op basis van kenmerken zoals demografische gegevens en gedrag.

Analyseer gebruikers op basis van hun browse- en koopgedrag.

Identificeer servers met vergelijkbare gebruikskenmerken.
Microsoft Clustering Algorithm

Microsoft Sequence Clustering Algorithm

De volgende sectie bevat koppelingen naar leerbronnen voor elk van de algoritmen voor gegevensanalyse die worden geleverd in SQL Server Data Mining:

Onderwerp Beschrijving
Het algoritme bepalen dat wordt gebruikt door een gegevensanalysemodel Een query uitvoeren op de parameters die worden gebruikt om een mijnbouwmodel te maken
Een aangepast Plug-In-algoritme maken Plug-in-algoritmen
Een model verkennen met behulp van een algoritmespecifieke viewer Gegevensanalysemodelviewers
De inhoud van een model weergeven met behulp van een algemene tabelindeling Bladeren door een model met behulp van de Algemene Inhoudsstructuurviewer van Microsoft
Meer informatie over het instellen van uw gegevens en het gebruik van algoritmen om modellen te maken Mijnbouwstructuren (Analysis Services - Gegevensanalyse)

Mining-modellen (Analysis Services - Gegevensanalyse)

Zie ook

Hulpprogramma's voor gegevensanalyse