Djupinlärning (inaktuell)
Apache Spark i Azure Synapse Analytics möjliggör maskininlärning med stordata, vilket ger möjlighet att få värdefull insikt från stora mängder strukturerade, ostrukturerade och snabba data. Det finns flera alternativ när du tränar maskininlärningsmodeller med Hjälp av Azure Spark i Azure Synapse Analytics: Apache Spark MLlib, Azure Mašinsko učenje och olika andra bibliotek med öppen källkod.
Kommentar
Förhandsversionen av Azure Synapse GPU-aktiverade pooler har nu blivit inaktuell.
Varning
Utfasnings- och inaktiverandemeddelande för GPU:er på Azure Synapse Runtime för Apache Spark 3.1 och 3.2
- Den GPU-accelererade förhandsversionen är nu inaktuell på Apache Spark 3.2-körningen (inaktuell). Inaktuella körningar kommer inte att ha bugg- och funktionskorrigeringar. Den här körningen och motsvarande GPU-accelererade förhandsversion på Spark 3.2 har dragits tillbaka och inaktiverats från och med den 8 juli 2024.
- Den GPU-accelererade förhandsversionen är nu inaktuell på Azure Synapse 3.1-körningen (inaktuell). Azure Synapse Runtime för Apache Spark 3.1 har nått slutet av supporten från och med den 26 januari 2023, och den officiella supporten upphörde från och med den 26 januari 2024 och inga ytterligare åtgärder för supportärenden, felkorrigeringar eller säkerhetsuppdateringar efter detta datum.
GPU-aktiverade Apache Spark-pooler
För att förenkla processen för att skapa och hantera pooler tar Azure Synapse hand om förinstallation av bibliotek på låg nivå och konfigurerar alla komplexa nätverkskrav mellan beräkningsnoder. Med den här integreringen kan användarna komma igång med GPU-accelererade pooler på bara några minuter.
Kommentar
- GPU-accelererade pooler kan skapas på arbetsytor i USA, östra, Australien, östra och Europa, norra.
- GPU-accelererade pooler är endast tillgängliga med Apache Spark 3.1 (inaktuell) och 3.2-körning (inaktuell).
- Du kan behöva begära en gränsökning för att skapa GPU-aktiverade kluster.
GPU ML-miljö
Azure Synapse Analytics har inbyggt stöd för djupinlärningsinfrastruktur. Azure Synapse Analytics-runtimes för Apache Spark 3 innehåller stöd för de vanligaste djupinlärningsbiblioteken som TensorFlow och PyTorch. Azure Synapse-körningen innehåller även stödbibliotek som Petastorm och Horovod som ofta används för distribuerad träning.
Tensorflow
TensorFlow är ett maskininlärningsramverk med öppen källkod för alla utvecklare. Den används för att implementera maskininlärnings- och djupinlärningsprogram.
Mer information om Tensorflow finns i Tensorflow API-dokumentationen.
PyTorch
PyTorch är ett optimerat tensorbibliotek för djupinlärning med hjälp av GPU:er och processorer.
Mer information om PyTorch finns i PyTorch-dokumentationen.
Horovod
Horovod är ett distribuerat ramverk för djupinlärningsträning för TensorFlow, Keras och PyTorch. Horovod utvecklades för att göra distribuerad djupinlärning snabb och enkel att använda. Med det här ramverket kan ett befintligt träningsskript skalas upp för att köras på hundratals GPU:er på bara några rader med kod. Dessutom kan Horovod köras ovanpå Apache Spark, vilket gör det möjligt att förena databearbetning och modellträning i en enda pipeline.
Om du vill veta mer om hur du kör distribuerade träningsjobb i Azure Synapse Analytics kan du gå till följande självstudier: – Självstudie: Distribuerad utbildning med Horovod och PyTorch - Självstudie: Distribuerad utbildning med Horovod och Tensorflow
Mer information om Horovod finns i Horovod-dokumentationen,
Petastorm
Petastorm är ett dataåtkomstbibliotek med öppen källkod som möjliggör enkel nod eller distribuerad träning av djupinlärningsmodeller. Det här biblioteket möjliggör träning direkt från datauppsättningar i Apache Parquet-format och datauppsättningar som redan har lästs in som en Apache Spark DataFrame. Petastorm stöder populära träningsramverk som Tensorflow och PyTorch.
Mer information om Petastorm finns på Petastorm GitHub-sidan eller Petastorm API-dokumentationen.
Nästa steg
Den här artikeln innehåller en översikt över de olika alternativen för att träna maskininlärningsmodeller i Apache Spark-pooler i Azure Synapse Analytics. Du kan lära dig mer om modellträning genom att följa självstudien nedan:
- Köra SparkML-experiment: Självstudie om Apache SparkML
- Påskynda ETL-arbetsbelastningar med RAPIDS: Apache Spark Rapids