Lære opp maskinlæringsmodeller

Apache Spark i Microsoft Fabric muliggjør maskinlæring med store data, noe som gir deg muligheten til å få verdifull innsikt fra store mengder strukturerte, ustrukturerte og raske data. Det finnes flere alternativer når du lærer opp maskinlæringsmodeller ved hjelp av Apache Spark i Microsoft Fabric: Apache Spark MLlib, SynapseML og ulike andre biblioteker med åpen kildekode.

Apache SparkML og MLlib

Apache Spark i Microsoft Fabric gir et enhetlig, åpen kildekode, parallelt databehandlingsrammeverk som støtter behandling i minnet for å øke analyse av store data. Spark-behandlingsmotoren er bygget for hastighet, brukervennlighet og avansert analyse. Sparks distribuerte beregningsfunksjoner i minnet gjør det til et godt valg for de iterative algoritmene som brukes i maskinlæring og grafberegninger.

Det finnes to skalerbare maskinlæringsbiblioteker som gir algoritmemodelleringsfunksjoner til dette distribuerte miljøet: MLlib og SparkML. MLlib inneholder den opprinnelige API-en som er bygget oppå RDD-er. SparkML er en nyere pakke som gir et høyere nivå API bygget på toppen av DataFrames for bygging av ML-datasamlebånd. SparkML støtter ennå ikke alle funksjonene i MLlib, men erstatter MLlib som Sparks standard maskinlæringsbibliotek.

Merk

Du kan lære mer om hvordan du oppretter en SparkML-modell i artikkelen Togmodeller med Apache Spark MLlib.

Microsoft Fabric Runtime for Apache Spark inneholder flere populære pakker med åpen kildekode for opplæring av maskinlæringsmodeller. Disse bibliotekene gir gjenbrukbar kode som du kanskje vil inkludere i programmene eller prosjektene. Noen av de relevante maskinlæringsbibliotekene som er inkludert som standard, omfatter:

  • Scikit-learn er et av de mest populære maskinlæringsbibliotekene for enkeltnode for klassiske ML-algoritmer. Scikit-learn støtter de fleste av de overvåkede og uovervåkede læringsalgoritmene og kan også brukes til datautvinning og dataanalyse.

  • XGBoost er et populært maskinlæringsbibliotek som inneholder optimaliserte algoritmer for opplæring av beslutningstrær og tilfeldige skoger.

  • PyTorch & Tensorflow er kraftige Python-biblioteker for dyp læring. Du kan bruke disse bibliotekene til å bygge enkeltmaskinmodeller ved å angi antallet eksekutorer i utvalget til null. Selv om Apache Spark ikke fungerer under denne konfigurasjonen, er det en enkel og kostnadseffektiv måte å opprette enkeltmaskinmodeller på.

SynapseML

SynapseML (tidligere kjent som MMLSpark), er et bibliotek med åpen kildekode som forenkler opprettelsen av ML-rørledninger (massively scalable machine learning). Dette biblioteket er utformet for å gjøre dataforskere mer produktive på Spark, øke eksperimenteringshastigheten og utnytte banebrytende maskinlæringsteknikker, inkludert dyp læring, på store datasett.

SynapseML gir et lag på toppen av SparkML's lavnivå-API-er når du bygger skalerbare ML-modeller, for eksempel indekseringsstrenger, tvangsdata til et oppsett som forventes av maskinlæringsalgoritmer og montering av funksjonsvektorer. SynapseML-biblioteket forenkler disse og andre vanlige oppgaver for å bygge modeller i PySpark.

Denne artikkelen gir en oversikt over de ulike alternativene for å lære opp maskinlæringsmodeller i Apache Spark i Microsoft Fabric. Du kan lære mer om modellopplæring ved å følge opplæringen nedenfor: