Share via


Träna maskininlärningsmodeller

Apache Spark i Azure Synapse Analytics möjliggör maskininlärning med stordata, vilket ger möjlighet att få värdefull insikt från stora mängder strukturerade, ostrukturerade och snabba data. Det finns flera alternativ när du tränar maskininlärningsmodeller med Hjälp av Azure Spark i Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning och olika andra bibliotek med öppen källkod.

Apache SparkML och MLlib

Apache Spark i Azure Synapse Analytics är en av Microsofts implementeringar av Apache Spark i molnet. Det ger ett enhetligt ramverk för parallell databearbetning med öppen källkod som stöder minnesintern bearbetning för att öka stordataanalysen. Spark-bearbetningsmotorn är byggd för hastighet, användarvänlighet och avancerad analys. Sparks minnesinterna distribuerade beräkningsfunktioner gör det till ett bra val för de iterativa algoritmer som används i maskininlärnings- och grafberäkningar.

Det finns två skalbara maskininlärningsbibliotek som ger algoritmiska modelleringsfunktioner till den här distribuerade miljön: MLlib och SparkML. MLlib innehåller det ursprungliga API:et som bygger på RDD:er. SparkML är ett nyare paket som tillhandahåller ett API på högre nivå som bygger på DataFrames för att konstruera ML-pipelines. SparkML stöder ännu inte alla funktioner i MLlib, men ersätter MLlib som Sparks standardbibliotek för maskininlärning.

Kommentar

Du kan lära dig mer om att skapa en SparkML-modell genom att följa den här självstudien.

Varje Apache Spark-pool i Azure Synapse Analytics levereras med en uppsättning förinstallerade och populära maskininlärningsbibliotek. De här biblioteken innehåller återanvändbar kod som du kanske vill inkludera i dina program eller projekt. Några av de relevanta maskininlärningsbiblioteken som ingår som standard är:

  • Scikit-learn är ett av de mest populära maskininlärningsbiblioteken med en nod för klassiska ML-algoritmer. Scikit-learn stöder de flesta övervakade och oövervakade inlärningsalgoritmer och kan även användas för datautvinning och dataanalys.

  • XGBoost är ett populärt maskininlärningsbibliotek som innehåller optimerade algoritmer för träning av beslutsträd och slumpmässiga skogar.

  • PyTorch och Tensorflow är kraftfulla Python-djupinlärningsbibliotek. I en Apache Spark-pool i Azure Synapse Analytics kan du använda dessa bibliotek för att skapa modeller med en enda dator genom att ange antalet körbara filer i poolen till noll. Även om Apache Spark inte fungerar i den här konfigurationen är det ett enkelt och kostnadseffektivt sätt att skapa modeller med en enda dator.

Du kan lära dig mer om tillgängliga bibliotek och relaterade versioner genom att visa den publicerade Azure Synapse Analytics-körningen.

MMLSpark

Microsoft Machine Learning-biblioteket för Apache Spark är MMLSpark. Det här biblioteket är utformat för att göra dataforskare mer produktiva på Spark, öka experimentfrekvensen och utnyttja banbrytande maskininlärningstekniker, inklusive djupinlärning, på stora datamängder.

MMLSpark innehåller ett lager ovanpå SparkML:s lågnivå-API:er när du skapar skalbara ML-modeller, till exempel indexeringssträngar, tvingar data till en layout som förväntas av maskininlärningsalgoritmer och montering av funktionsvektorer. MMLSpark-biblioteket förenklar dessa och andra vanliga uppgifter för att skapa modeller i PySpark.

Automatiserad ML i Azure Machine Learning (inaktuell)

Azure Machine Learning är en molnbaserad miljö där du kan träna, distribuera, automatisera, hantera och spåra maskininlärningsmodeller. Automatiserad ML i Azure Machine Learning accepterar träningsdata och konfigurationsinställningar och itererar automatiskt genom kombinationer av olika funktionsnormaliserings-/standardiseringsmetoder, modeller och hyperparameterinställningar för att komma fram till den bästa modellen.

När du använder automatiserad ML i Azure Synapse Analytics kan du använda den djupa integreringen mellan de olika tjänsterna för att förenkla autentisering och modellträning.

Varning

  • Från och med den 29 september 2023 upphör Azure Synapse med det officiella stödet för Spark 2.4 Runtimes. Efter den 29 september 2023 kommer vi inte att ta upp några supportärenden relaterade till Spark 2.4. Det finns ingen versionspipeline för buggar eller säkerhetskorrigeringar för Spark 2.4. Användning av Spark 2.4 efter supportavstängningen sker på egen risk. Vi avråder starkt från fortsatt användning på grund av potentiella säkerhets- och funktionsproblem.
  • Som en del av utfasningsprocessen för Apache Spark 2.4 vill vi meddela dig att AutoML i Azure Synapse Analytics också kommer att bli inaktuellt. Detta omfattar både gränssnittet med låg kod och de API:er som används för att skapa AutoML-utvärderingsversioner via kod.
  • Observera att AutoML-funktionen var exklusivt tillgänglig via Spark 2.4-körningen.
  • För kunder som vill fortsätta använda AutoML-funktioner rekommenderar vi att du sparar dina data i ditt Azure Data Lake Storage Gen2-konto (ADLSg2). Därifrån kan du sömlöst komma åt AutoML-upplevelsen via Azure Machine Learning (AzureML). Mer information om den här lösningen finns här.

Azure AI-tjänster

Azure AI-tjänster tillhandahåller maskininlärningsfunktioner för att lösa allmänna problem som att analysera text för känslosentiment eller analysera bilder för att identifiera objekt eller ansikten. Du behöver inte ha några speciella kunskaper om maskininlärning eller datavetenskap för att använda de här tjänsterna. En Cognitive Service tillhandahåller en del av eller alla komponenter i en maskininlärningslösning: data, algoritm och tränad modell. Dessa tjänster är avsedda att kräva allmän kunskap om dina data utan att behöva erfarenhet av maskininlärning eller datavetenskap. Du kan använda dessa förtränade Azure AI-tjänster automatiskt i Azure Synapse Analytics.

Nästa steg

Den här artikeln innehåller en översikt över de olika alternativen för att träna maskininlärningsmodeller i Apache Spark-pooler i Azure Synapse Analytics. Du kan lära dig mer om modellträning genom att följa självstudien nedan: