Aprendizado profundo (preterido)

Artigo
07/18/2024

O Apache Spark, no Azure Synapse Analytics, permite o machine learning com Big Data, proporcionando a capacidade de obter insights valiosos de grandes quantidades de dados estruturados, não estruturados e em movimento rápido. Há várias opções ao treinar modelos de machine learning usando o Azure Spark no Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning e várias outras bibliotecas open-source.

Observação

A versão prévia dos pools habilitados para GPU do Azure Synapse foi preterida.

Cuidado

Notificação de depreciação e desativação para GPUs no Azure Synapse Runtime para Apache Spark 3.1 e 3.2

A visualização acelerada por GPU agora está obsoleta no tempo de execução do Apache Spark 3.2 (preterido). Os runtimes preteridos não terão correções de bugs e recursos. Esse tempo de execução e a visualização acelerada de GPU correspondente no Spark 3.2 foram descontinuados e desativados em 8 de julho de 2024.
A versão prévia acelerada por GPU agora está obsoleta no tempo de execução Azure Synapse 3.1 (preterido). O Runtime do Azure Synapse para Apache Spark 3.1 atingiu o fim do suporte em 26 de janeiro de 2023, tendo o suporte oficial sido descontinuado a partir de 26 de janeiro de 2024, bem como o endereçamento de tíquetes de suporte, correções de bugs ou atualizações de segurança após essa data.

Pools do Apache Spark habilitados para GPU

Para simplificar o processo de criação e gerenciamento de pools, o Azure Synapse cuida da pré-instalação de bibliotecas de baixo nível e da configuração de todos os requisitos de rede complexos entre os nós de computação. Essa integração permite aos usuários comecem a trabalhar com pools acelerados por GPU em apenas alguns minutos.

Observação

Pools acelerados por GPU podem ser criados em workspaces localizados no Leste dos EUA, no Leste da Austrália e no Norte da Europa.
Os pools acelerados por GPU estão disponíveis apenas com o tempo de execução Apache Spark 3.1 (preterido) e 3.2 (preterido).
Talvez você precise solicitar um aumento de limite para criar clusters habilitados para GPU.

Ambiente do ML da GPU

O Azure Synapse Analytics fornece suporte interno para infraestrutura de aprendizado profundo. Os runtimes do Azure Synapse Analytics para o Apache Spark 3 incluem suporte para as bibliotecas de aprendizado profundo mais comuns, como TensorFlow e PyTorch. O runtime do Azure Synapse também inclui bibliotecas de suporte, como Petastorm e Horovod, que são comumente usadas para treinamento distribuído.

TensorFlow

O TensorFlow é uma estrutura de aprendizado de máquina de código aberto para todos os desenvolvedores. Ele é usado para implementar aplicativos de aprendizado de máquina e aprendizado profundo.

Para obter mais informações sobre o Tensorflow, você pode visitar a documentação da API do Tensorflow.

PyTorch

O PyTorch é uma biblioteca de tensores otimizada para aprendizado profundo usando GPUs e CPUs.

Para obter mais informações sobre o PyTorch, você pode visitar a Documentação do PyTorch.

Horovod

O Horovod é uma estrutura de treinamento distribuída para TensorFlow, Keras e PyTorch. O Horovod foi desenvolvido para tornar o aprendizado profundo distribuído rápido e fácil de usar. Com essa estrutura, um script de treinamento existente pode ser escalado verticalmente para ser executado em centenas de GPUs em apenas algumas linhas de código. Além disso, o Horovod pode ser executado em cima do Apache Spark, possibilitando unificar o processamento de dados e o treinamento de modelo em um único pipeline.

Para saber mais sobre como executar trabalhos de treinamento distribuídos no Azure Synapse Analytics, você pode visitar os seguintes tutoriais: – Tutorial: Treinamento distribuído com Horovod e PyTorch - Tutorial: Treinamento distribuído com Horovod e Tensorflow

Para obter mais informações sobre o Horovod, você pode visitar a Documentação do Horovod,

Petastorm

O Petastorm é uma biblioteca de acesso a dados de código aberto que permite o treinamento de nó único ou distribuído de modelos de aprendizado profundo. Essa biblioteca permite o treinamento direto dos conjuntos de dados no formato Apache Parquet e conjuntos de dados que já foram carregados como um DataFrame do Apache Spark. O Petastorm dá suporte a estruturas populares de treinamento, como o Tensorflow e o PyTorch.

Para obter mais informações sobre o Petastorm, você pode visitar a página do Petastorm no GitHub ou a documentação da API do Petastorm.

Próximas etapas

Este artigo fornece uma visão geral das várias opções para treinar modelos de machine learning em pools do Apache Spark no Azure Synapse Analytics. Você pode saber mais sobre o treinamento de modelo seguindo o tutorial abaixo:

Executar experimentos do SparkML: Tutorial do Apache SparkML
Acelerar cargas de trabalho de ETL com o RAPIDS: Apache Spark Rapids

Compartilhar via