O que é uma Máquina Virtual de Ciência de Dados?

Concluído

A DSVM (Máquina Virtual de Ciência de Dados) é executada na plataforma de nuvem do Azure. Imagens DSVM para

  • Windows Server 2019
  • Ubuntu Server 20.04 LTS

estão disponíveis. Você pode executar a DSVM em diferentes séries e tamanhos de máquinas virtuais do Azure. As opções comuns para a DSVM incluem:

Série comum Caso de uso
Propósito geral Índices balanceados de CPU/memória
Série E com otimização de memória Análise de dados in-memory
Computação de GPU série N Experimentação e inferência de machine learning

As máquinas virtuais da série N apresentam a plataforma acelerada NVIDIA Tesla e a tecnologia NVIDIA GRID 2.0. As ferramentas e bibliotecas da DSVM que poderão usar a aceleração de GPU são pré-configuradas com drivers e versões de biblioteca apropriados.

Como funciona a Máquina Virtual de Ciência de Dados

Depois de especificar um sistema operacional e uma plataforma de hardware, o Azure cria a máquina virtual e os recursos relacionados. Os recursos relacionados incluirão uma conta de armazenamento e um grupo de segurança de rede.

Quando você inicia a máquina virtual, o Azure restaura a imagem para o tipo de hardware especificado e inicia o sistema operacional. Em seguida, você pode se conectar, conforme mostrado neste módulo. Depois de se conectar, use a máquina virtual da mesma maneira que usaria qualquer outro computador. Depois de terminar, desligue o computador, usando os recursos do sistema operacional ou o portal do Azure.

Seus encargos serão baseados no tipo de hardware (potência de computação, RAM e armazenamento) que foi especificado. Você será cobrado somente pelo tempo em que a máquina virtual estiver em execução, com granularidade de meio minuto.

Quando usar a Máquina Virtual de Ciência de Dados

O objetivo da DSVM é obter um ambiente pré-configurado e sem atritos entre a ciência de dados e o aprendizado de máquina. A experiência é conhecida e pode ser usada por profissionais de dados de todos os níveis de habilidade.

Em vez de distribuir um workspace comparável por conta própria, você pode configurar uma DSVM. Essa escolha poderá economizar dias ou até semanas nos processos de instalação, configuração e gerenciamento de pacotes. Depois de alocar a DSVM, você pode começar a trabalhar imediatamente no seu projeto de ciência de dados.

Casos de uso de exemplo

A DSVM é uma boa opção para vários casos de uso.

Como mover cargas de trabalho de ciência de dados para a nuvem

A DSVM fornecerá uma configuração de linha de base para equipes de ciência de dados. Essa configuração garantirá que todos os cientistas de dados de uma equipe tenham uma configuração consistente para verificar experimentos e promover um ambiente de colaboração. Ela também reduz os custos por meio de reduções na carga do administrador do sistema. Essas reduções diminuem o tempo necessário para avaliar, instalar e manter pacotes de software para análise avançada.

Educação e treinamento de ciência de dados

Os treinadores corporativos e educadores que dão aulas de ciência de dados geralmente fornecem uma imagem de máquina virtual. A imagem garante que os alunos tenham uma configuração consistente e que as amostras funcionem de maneira previsível.

A DSVM cria um ambiente sob demanda com uma configuração consistente que facilita o suporte e os desafios de incompatibilidade. Nos casos em que esses ambientes precisam ser criados com frequência, especialmente para aulas rápidas de treinamento, os alunos são consideravelmente beneficiados.

Capacidade elástica sob demanda para projetos em larga escala

As maratonas/competições de ciência de dados ou modelagem e exploração de dados em grande escala exigem que a capacidade de hardware seja escalada horizontalmente, geralmente por um curto período. A DSVM pode ajudar a replicar o ambiente de ciência de dados rapidamente e sob demanda. Esses ambientes replicados podem ser executados em recursos de computação de alta potência, conforme a demanda do cenário.

Avaliação e experimento de curto prazo

Você pode usar a DSVM para avaliar ou conhecer novas ferramentas de ciência de dados. A DSVM possui exemplos e orientações pré-instaladas.

Aprendizado profundo com GPUs

Na DSVM, seus modelos de treinamento podem usar algoritmos de aprendizado profundo em hardware baseado em GPU. A DSVM aproveita os recursos de dimensionamento de VM da plataforma do Azure para ajudar você a usar o hardware baseado em GPU na nuvem.

É possível mudar para uma VM baseada em GPU durante o treinamento de modelos grandes ou quando há necessidade de cálculos em alta velocidade mantendo o mesmo disco do SO. Você pode escolher um dos SKUs de máquina virtual habilitados para GPU da série N com a DSVM. As contas gratuitas do Azure não dão suporte aos SKUs de máquina virtual habilitados para GPU.

Para as ferramentas e estruturas que dão suporte à aceleração de GPU, a DSVM é configurada com os drivers, ferramentas de GPU e versões e configurações de estrutura adequados. Se você usar o Python, vários ambientes conda configurados estarão disponíveis, para evitar confusão. Por exemplo, o PyTorch e o TensorFlow operam em ambientes separados.

Você também pode implantar as edições para Ubuntu ou Windows da DSVM em uma máquina virtual do Azure não baseada em GPUs. Nesse caso, todas as estruturas de aprendizado profundo recorrem ao modelo de CPU.

Nosso cenário, no qual você está investigando dados bancários para ajudar a prever tendências, abordará vários destes casos de uso: colaboração, capacidade e exploração. Você decide que uma DSVM do Ubuntu é uma boa opção, pois ela permite usar ferramentas que você já conhece, como o CRAN-R e o disco de dados existente. Além disso, ela não exige investimento na aprendizagem de novas tecnologias durante um bom tempo de trabalho usando dados.