Träna maskininlärningsmodeller

Apache Spark i Microsoft Fabric möjliggör maskininlärning med stordata, vilket ger möjlighet att få värdefulla insikter från stora mängder strukturerade, ostrukturerade och snabba data. Det finns flera alternativ när du tränar maskininlärningsmodeller med Apache Spark i Microsoft Fabric: Apache Spark MLlib, SynapseML och olika andra bibliotek med öppen källkod.

Apache SparkML och MLlib

Apache Spark i Microsoft Fabric tillhandahåller ett enhetligt ramverk för parallell databearbetning med öppen källkod som stöder minnesintern bearbetning för att öka stordataanalysen. Spark-bearbetningsmotorn är byggd för hastighet, användarvänlighet och avancerad analys. Sparks minnesinterna distribuerade beräkningsfunktioner gör det till ett bra val för de iterativa algoritmer som används i maskininlärnings- och grafberäkningar.

Det finns två skalbara maskininlärningsbibliotek som ger algoritmiska modelleringsfunktioner till den här distribuerade miljön: MLlib och SparkML. MLlib innehåller det ursprungliga API:et som bygger på RDD:er. SparkML är ett nyare paket som tillhandahåller ett API på högre nivå som bygger på DataFrames för att konstruera ML-pipelines. SparkML stöder ännu inte alla funktioner i MLlib, men ersätter MLlib som Sparks standardbibliotek för maskininlärning.

Kommentar

Du kan lära dig mer om att skapa en SparkML-modell i artikeln Träna modeller med Apache Spark MLlib.

Microsoft Fabric-körningen för Apache Spark innehåller flera populära paket med öppen källkod för att träna maskininlärningsmodeller. De här biblioteken innehåller återanvändbar kod som du kanske vill inkludera i dina program eller projekt. Några av de relevanta maskininlärningsbiblioteken som ingår som standard är:

  • Scikit-learn är ett av de mest populära maskininlärningsbiblioteken med en nod för klassiska ML-algoritmer. Scikit-learn stöder de flesta övervakade och oövervakade inlärningsalgoritmer och kan även användas för datautvinning och dataanalys.

  • XGBoost är ett populärt maskininlärningsbibliotek som innehåller optimerade algoritmer för träning av beslutsträd och slumpmässiga skogar.

  • PyTorch och Tensorflow är kraftfulla Python-djupinlärningsbibliotek. Du kan använda dessa bibliotek för att skapa modeller med en dator genom att ange antalet körbara filer i poolen till noll. Även om Apache Spark inte fungerar i den här konfigurationen är det ett enkelt och kostnadseffektivt sätt att skapa modeller med en enda dator.

SynapseML

SynapseML (tidigare kallat MMLSpark) är ett bibliotek med öppen källkod som förenklar skapandet av pipelines för massivt skalbar maskininlärning (ML). Det här biblioteket är utformat för att göra dataforskare mer produktiva på Spark, öka experimentfrekvensen och utnyttja banbrytande maskininlärningstekniker, inklusive djupinlärning, på stora datamängder.

SynapseML ger ett lager ovanpå SparkML:s lågnivå-API:er när du skapar skalbara ML-modeller, till exempel indexeringssträngar, tvingar data till en layout som förväntas av maskininlärningsalgoritmer och montering av funktionsvektorer. SynapseML-biblioteket förenklar dessa och andra vanliga uppgifter för att skapa modeller i PySpark.

Den här artikeln innehåller en översikt över de olika alternativen för att träna maskininlärningsmodeller i Apache Spark i Microsoft Fabric. Du kan lära dig mer om modellträning genom att följa självstudien nedan: