Oplær modeller til maskinel indlæring

Apache Spark i Microsoft Fabric muliggør maskinel indlæring med big data, hvilket giver mulighed for at få værdifuld indsigt fra store mængder strukturerede, ustrukturerede og hurtigt bevægende data. Der er flere muligheder, når du træner modeller til maskinel indlæring ved hjælp af Apache Spark i Microsoft Fabric: Apache Spark MLlib, SynapseML og forskellige andre biblioteker med åben kildekode.

Apache SparkML og MLlib

Apache Spark i Microsoft Fabric leverer en samlet, åben kildekode, parallel databehandlingsstruktur, der understøtter behandling i hukommelsen for at booste big data-analyser. Spark-behandlingsprogrammet er bygget til hastighed, brugervenlighed og avancerede analyser. Sparks distribuerede beregningsfunktioner i hukommelsen gør det til et godt valg for de iterative algoritmer, der bruges til maskinel indlæring og grafberegninger.

Der er to skalerbare biblioteker til maskinel indlæring, der giver mulighed for algoritmisk modellering i dette distribuerede miljø: MLlib og SparkML. MLlib indeholder den oprindelige API, der er bygget oven på RDD'er. SparkML er en nyere pakke, der leverer en API på et højere niveau, der er bygget oven på DataFrames til oprettelse af ML-pipelines. SparkML understøtter endnu ikke alle funktionerne i MLlib, men erstatter MLlib som Sparks standardbibliotek for maskinel indlæring.

Bemærk

Du kan få mere at vide om, hvordan du opretter en SparkML-model, i artiklen Oplær modeller med Apache Spark MLlib.

Microsoft Fabric-runtime for Apache Spark indeholder flere populære pakker med åben kildekode til oplæring af modeller til maskinel indlæring. Disse biblioteker indeholder kode, der kan genbruges, og som du måske vil medtage i dine programmer eller projekter. Nogle af de relevante biblioteker til maskinel indlæring, der som standard er inkluderet, omfatter:

  • Scikit-learn er et af de mest populære biblioteker til maskinel indlæring med en enkelt node til klassiske ML-algoritmer. Scikit-learn understøtter de fleste af de overvågede og ikke-overvågede læringsalgoritmer og kan også bruges til datamining og dataanalyse.

  • XGBoost er et populært bibliotek til maskinel indlæring, der indeholder optimerede algoritmer til oplæring af beslutningstræer og tilfældige skove.

  • PyTorch & Tensorflow er effektive Python-biblioteker til dyb læring. Du kan bruge disse biblioteker til at bygge modeller med en enkelt maskine ved at angive antallet af eksekveringsfiler på din gruppe til nul. Selvom Apache Spark ikke fungerer under denne konfiguration, er det en enkel og omkostningseffektiv måde at oprette modeller med en enkelt maskine på.

SynapseML

SynapseML (tidligere kendt som MMLSpark) er et bibliotek med åben kildekode, der forenkler oprettelsen af omfattende skalerbare machine learning-pipelines (ML). Dette bibliotek er designet til at gøre dataspecialister mere produktive på Spark, øge eksperimenteringshastigheden og udnytte de nyeste teknikker til maskinel indlæring, herunder dyb læring, på store datasæt.

SynapseML leverer et lag oven på SparkML's API'er på lavt niveau, når du bygger skalerbare ML-modeller, f.eks. indeksering af strenge, gennemtvingelse af data til et layout, der forventes af algoritmer til maskinel indlæring, og samling af funktionsvektorer. SynapseML-biblioteket forenkler disse og andre almindelige opgaver for bygning af modeller i PySpark.

Denne artikel indeholder en oversigt over de forskellige muligheder for at oplære modeller til maskinel indlæring i Apache Spark i Microsoft Fabric. Du kan få mere at vide om modeltræning ved at følge selvstudiet nedenfor: