O que é a Máquina Virtual de Ciência de Dados do Azure para Linux e Windows?

A Máquina Virtual de Ciência de Dados (DSVM) é uma imagem de VM personalizada na plataforma de nuvem do Azure criada especificamente para fazer ciência de dados. Ele tem muitas ferramentas populares de ciência de dados pré-instaladas e pré-configuradas para iniciar a criação de aplicativos inteligentes para análises avançadas.

A DSVM está disponível em:

  • Windows Server 2019
  • Windows Server 2022
  • Ubuntu 20.04 LTS

Além disso, temos o prazer de oferecer a DSVM do Azure para PyTorch, que é uma imagem do Ubuntu 20.04 do Azure Marketplace otimizada para cargas de trabalho de aprendizagem profunda grandes e distribuídas. Ele vem pré-instalado e validado com a versão mais recente do PyTorch para reduzir os custos de configuração e acelerar o tempo de valorização. Ele vem embalado com várias funcionalidades de otimização (ONNX Runtime, DeepSpeed, MSCCL, ORTMoE, Fairscale, Nvidia Apex), e uma pilha atualizada com as últimas versões compatíveis do Ubuntu, Python, PyTorch, CUDA.

Comparação com o Azure Machine Learning

A DSVM é uma imagem de VM personalizada para Ciência de Dados, mas o Azure Machine Learning é uma plataforma de ponta a ponta que engloba:

  • Computação totalmente gerenciada
    • Instâncias de Computação
    • Clusters de computação para tarefas de ML distribuídas
    • Clusters de inferência para pontuação em tempo real
  • Armazenamentos de dados (por exemplo, Blob, ADLS Gen2, SQL DB)
  • Acompanhamento de experiências
  • Gestão de modelos
  • Notebooks
  • Ambientes (gerenciar dependências conda e R)
  • Etiquetagem
  • Pipelines (automatize fluxos de trabalho de ciência de dados de ponta a ponta)

Comparação com instâncias de computação do Azure Machine Learning

As Instâncias de Computação do Azure Machine Learning são uma imagem de VM totalmente configurada e gerenciada, enquanto a DSVM é uma VM não gerenciada.

Principais diferenças entre estes:

Funcionalidade Ciência dos Dados
VM
Azure Machine Learning
Instância de Computação
Totalmente Gerida Não Sim
Suporte de Linguagens Python, R, Julia, SQL, C#,
Java, Nó.js, F#
Python e R
Sistema operativo Ubuntu
Windows
Ubuntu
Opção de GPU pré-configurada Sim Sim
Opção de aumento de escala Sim Sim
Acesso SSH Sim Sim
Acesso RDP Sim No
Incorporada
Blocos de anotações hospedados
Não
(requer configuração adicional)
Sim
SSO integrado Não
(requer configuração adicional)
Sim
Colaboração integrada Não Sim
Ferramentas pré-instaladas Jupyter(lab), Código VS,
Visual Studio, PyCharm, Juno,
Power BI Desktop, SSMS,
Microsoft Office 365, Apache Drill
Jupyter (laboratório)

Casos de utilização de amostra

Aqui estão alguns casos de uso comuns para clientes DSVM.

Experimentação e avaliação a curto prazo

Você pode usar a DSVM para avaliar ou aprender novas ferramentas de ciência de dados, especialmente passando por alguns de nossos exemplos e instruções passo a passo publicados.

Aprendizagem profunda com GPUs

Na DSVM, seus modelos de treinamento podem usar algoritmos de aprendizado profundo em hardware baseado em unidades de processamento gráfico (GPUs). Ao tirar partido das capacidades de dimensionamento de VM da plataforma Azure, a DSVM ajuda-o a utilizar hardware baseado em GPU na nuvem de acordo com as suas necessidades. Pode mudar para uma VM baseada em GPU quando estiver a preparar modelos grandes ou quando precisar de computações de alta velocidade, sem mudar o disco do SO. Você pode escolher qualquer uma das GPUs da série N habilitadas para SKUs de máquina virtual com DSVM. Observação As SKUs de máquina virtual habilitadas para GPU não são suportadas em contas gratuitas do Azure.

As edições Windows da DSVM vêm pré-instaladas com drivers de GPU, estruturas e versões de GPU de estruturas de aprendizado profundo. Nas edições Linux, o deep learning em GPUs é ativado nas DSVMs do Ubuntu.

Você também pode implantar as edições Ubuntu ou Windows da DSVM em uma máquina virtual do Azure que não seja baseada em GPUs. Neste caso, todas as estruturas de aprendizagem profunda retornam ao modo CPU.

Saiba mais sobre as estruturas de aprendizagem profunda e IA disponíveis.

Formação e ensino de ciência de dados

Os formadores e educadores empresariais que ensinam aulas de ciência de dados geralmente fornecem uma imagem de máquina virtual. A imagem garante que os alunos tenham uma configuração consistente e que as amostras funcionem de forma previsível.

A DSVM cria um ambiente sob demanda com uma configuração consistente que facilita os desafios de suporte e incompatibilidade. Os casos em que estes ambientes precisem de ser criados com frequência, especialmente para aulas de formação mais curtas, beneficiam substancialmente.

O que está incluído na DSVM?

Veja uma lista completa de ferramentas nas DSVMs Windows e Linux aqui.

Próximos passos

Saiba mais com estes artigos: