Dela via


Träna maskininlärningsmodeller

Apache Spark – en del av Microsoft Fabric – möjliggör maskininlärning med stordata. Med Apache Spark kan du skapa värdefulla insikter i stora mängder strukturerade, ostrukturerade och snabba data. Du har flera tillgängliga biblioteksalternativ med öppen källkod när du tränar maskininlärningsmodeller med Apache Spark i Microsoft Fabric: Apache Spark MLlib, SynapseML och andra.

Apache SparkML och MLlib

Apache Spark – en del av Microsoft Fabric – tillhandahåller ett enhetligt ramverk för parallell databearbetning med öppen källkod. Det här ramverket stöder minnesintern bearbetning som ökar stordataanalysen. Spark-bearbetningsmotorn är byggd för hastighet, användarvänlighet och avancerad analys. Sparks minnesinterna distribuerade beräkningsfunktioner gör det till ett bra val för de iterativa algoritmer som maskininlärnings- och grafberäkningar använder.

MLlib- och SparkML-skalbara maskininlärningsbibliotek ger algoritmiska modelleringsfunktioner till den här distribuerade miljön. MLlib innehåller det ursprungliga API:et som bygger på RDD:er. SparkML är ett nyare paket. Det tillhandahåller ett API på högre nivå som bygger på DataFrames för konstruktion av ML-pipelines. SparkML stöder ännu inte alla funktioner i MLlib, men ersätter MLlib som standardbiblioteket för Spark-maskininlärning.

Kommentar

Mer information om hur du skapar SparkML-modeller finns i resursen Träna modeller med Apache Spark MLlib .

Microsoft Fabric-körningen för Apache Spark innehåller flera populära paket med öppen källkod för att träna maskininlärningsmodeller. De här biblioteken innehåller återanvändbar kod som du kan inkludera i dina program eller projekt. Körningen innehåller dessa relevanta maskininlärningsbibliotek och andra:

  • Scikit-learn – ett av de mest populära maskininlärningsbiblioteken med en nod för klassiska ML-algoritmer. Scikit-learn stöder de flesta övervakade och oövervakade inlärningsalgoritmer och kan hantera datautvinning och dataanalys.

  • XGBoost – ett populärt maskininlärningsbibliotek som innehåller optimerade algoritmer för träning av beslutsträd och slumpmässiga skogar.

  • PyTorch och Tensorflow är kraftfulla Python-djupinlärningsbibliotek. Med de här biblioteken kan du ange antalet utförare i poolen till noll för att skapa modeller med en enda dator. Även om den konfigurationen inte stöder Apache Spark är det ett enkelt, kostnadseffektivt sätt att skapa modeller med en dator.

SynapseML

SynapseML-biblioteket med öppen källkod (tidigare kallat MMLSpark) förenklar skapandet av pipelines för massivt skalbar maskininlärning (ML). Med det blir dataexpertanvändningen av Spark mer produktiv eftersom biblioteket ökar experimentfrekvensen och tillämpar banbrytande maskininlärningstekniker – inklusive djupinlärning – på stora datamängder.

SynapseML tillhandahåller ett lager ovanför SparkML-API:erna på låg nivå när du skapar skalbara ML-modeller. Dessa API:er omfattar strängindexering, sammansättning av funktionsvektorer, tvingad data till layouter som är lämpliga för maskininlärningsalgoritmer med mera. SynapseML-biblioteket förenklar dessa och andra vanliga uppgifter för att skapa modeller i PySpark.

Den här artikeln innehåller en översikt över de olika alternativ som är tillgängliga för att träna maskininlärningsmodeller i Apache Spark i Microsoft Fabric. Mer information om modellträning finns i följande resurser: