Träna maskininlärningsmodeller

Apache Spark i Azure Synapse Analytics möjliggör maskininlärning med stordata, vilket ger möjlighet att få värdefull insikt från stora mängder strukturerade, ostrukturerade och snabba data. Det finns flera alternativ när du tränar maskininlärningsmodeller med Hjälp av Azure Spark i Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning och olika andra bibliotek med öppen källkod.

Apache SparkML och MLlib

Apache Spark i Azure Synapse Analytics är en av Microsofts implementeringar av Apache Spark i molnet. Det ger ett enhetligt ramverk för parallell databearbetning med öppen källkod som stöder minnesintern bearbetning för att öka stordataanalysen. Spark-bearbetningsmotorn är byggd för hastighet, användarvänlighet och avancerad analys. Sparks minnesinterna distribuerade beräkningsfunktioner gör det till ett bra val för de iterativa algoritmer som används i maskininlärnings- och grafberäkningar.

Det finns två skalbara maskininlärningsbibliotek som ger algoritmiska modelleringsfunktioner till den här distribuerade miljön: MLlib och SparkML. MLlib innehåller det ursprungliga API:et som bygger på RDD:er. SparkML är ett nyare paket som tillhandahåller ett API på högre nivå som bygger på DataFrames för att konstruera ML-pipelines. SparkML stöder ännu inte alla funktioner i MLlib, men ersätter MLlib som Sparks standardbibliotek för maskininlärning.

Anteckning

Du kan lära dig mer om att skapa en SparkML-modell genom att följa den här självstudien.

Populära bibliotek

Varje Apache Spark-pool i Azure Synapse Analytics levereras med en uppsättning förinstallerade och populära maskininlärningsbibliotek. De här biblioteken innehåller återanvändbar kod som du kanske vill inkludera i dina program eller projekt. Några av de relevanta maskininlärningsbiblioteken som ingår som standard är:

Scikit-learn är ett av de mest populära maskininlärningsbiblioteken med en nod för klassiska ML-algoritmer. Scikit-learn stöder de flesta övervakade och oövervakade inlärningsalgoritmer och kan även användas för datautvinning och dataanalys.
XGBoost är ett populärt maskininlärningsbibliotek som innehåller optimerade algoritmer för träning av beslutsträd och slumpmässiga skogar.
PyTorch & TensorFlow är kraftfulla Python-djupinlärningsbibliotek. I en Apache Spark-pool i Azure Synapse Analytics kan du använda dessa bibliotek för att skapa modeller med en enda dator genom att ange antalet körbara filer i poolen till noll. Även om Apache Spark inte fungerar i den här konfigurationen är det ett enkelt och kostnadseffektivt sätt att skapa modeller med en enda dator.

Du kan lära dig mer om tillgängliga bibliotek och relaterade versioner genom att visa den publicerade Azure Synapse Analytics-körningen.

MMLSpark

Microsoft Machine Learning-biblioteket för Apache Spark är MMLSpark. Det här biblioteket är utformat för att göra dataforskare mer produktiva på Spark, öka experimentfrekvensen och utnyttja banbrytande maskininlärningstekniker, inklusive djupinlärning, på stora datamängder.

MMLSpark innehåller ett lager ovanpå SparkML:s lågnivå-API:er när du skapar skalbara ML-modeller, till exempel indexeringssträngar, tvingar data till en layout som förväntas av maskininlärningsalgoritmer och montering av funktionsvektorer. MMLSpark-biblioteket förenklar dessa och andra vanliga uppgifter för att skapa modeller i PySpark.

Gjuteriverktyg

Foundry Tools tillhandahåller maskininlärningsfunktioner för att lösa allmänna problem som att analysera text för känslosentiment eller analysera bilder för att identifiera objekt eller ansikten. Du behöver inte ha några speciella kunskaper om maskininlärning eller datavetenskap för att använda de här tjänsterna. En Cognitive Service tillhandahåller en del av eller alla komponenter i en maskininlärningslösning: data, algoritm och tränad modell. Dessa tjänster är avsedda att kräva allmän kunskap om dina data utan att behöva erfarenhet av maskininlärning eller datavetenskap. Du kan använda dessa förtränade Foundry Tools automatiskt i Azure Synapse Analytics.

Nästa steg

Den här artikeln innehåller en översikt över de olika alternativen för att träna maskininlärningsmodeller i Apache Spark-pooler i Azure Synapse Analytics. Du kan lära dig mer om modellträning genom att följa självstudien nedan:

Köra automatiserade ML-experiment med Hjälp av Azure Machine Learning och Azure Synapse Analytics: Automatiserad ML-självstudie
Köra SparkML-experiment: Självstudie om Apache SparkML
Visa standardbiblioteken: Azure Synapse Analytics-körning

Feedback

Var den här sidan till hjälp?

Last updated on 2026-02-13