Criar uma Máquina Virtual de Ciência de Dados

Concluído

Ativar a área restrita do Learn

Use o botão Ativar área restrita neste módulo para ativar a área restrita do Learn. A ativação cria um grupo de recursos do Azure, ou seja, um contêiner para recursos relacionados a um só domínio de projeto. Esse grupo de recursos fica disponível por uma hora. Use o grupo de recursos para criar uma Máquina Virtual de Ciência de Dados, conectar-se a ela e executar programas.

Criar uma Máquina Virtual de Ciência de Dados

Depois de decidir usar uma DSVM (Máquina Virtual de Ciência de Dados) para explorar seu domínio, será necessário decidir se você prefere usar o Windows Server 2019 ou o Ubuntu Server 20.04 LTS como sistema operacional. Você também deve planejar os recursos de hardware e de rede de que a DSVM precisa.

Opções de sistema operacional

Há duas imagens de DSVM:

  • Windows Server 2019
  • Ubuntu Server 20.04 LTS

As duas imagens contêm várias ferramentas para ciência de dados e aprendizado profundo. Os programadores de Python podem usar o Visual Studio Code ou o PyCharm para programar em PyTorch, TensorFlow e ONNX. Os usuários do R podem usar CRAN-R. Os usuários do C#, do TypeScript e do F# podem usar o Visual Studio Code. Na imagem do Windows, eles podem usar o Visual Studio para programar o ML.NET e o SQL Server a fim de armazenar e recuperar os dados.

O Jupyter será instalado nos dois computadores com vários kernels de linguagem. Na imagem do Ubuntu, o JupyterHub será instalado para fornecer acesso multiusuário.

Opções de processador, RAM e disco

As máquinas virtuais do Azure são fornecidas em vários tamanhos, agrupados por tipo:

Tipo Características
Propósito geral Relação equilibrada de CPU/memória.
GPU GPUs únicas ou múltiplas. Melhor opção para treinamento e inferência de aprendizado de máquina estatístico.
Otimizado para memória Alta relação de memória/CPU. Boa opção para análise in-memory.
Otimizado para armazenamento Alta taxa de transferência de E/S e disco. Boa opção para Big Data.
Computação de alto desempenho Computadores com CPU potente. Boa opção para ferramentas sem suporte da GPU.
Otimizado para computação Alta relação de CPU/memória. Provavelmente, não é uma boa opção para a ciência de dados. Tipos preferenciais: GPU ou computação de alto desempenho.

Para aproveitar o processamento da GPU, as DSVM são pré-configuradas com drivers, versões de biblioteca e configurações.

Dentro de um tipo, os computadores são normalmente associados a uma série com base em letras. Por exemplo, os tamanhos da GPU normalmente começam com "N": NC6, NC12s v3, NC24, NV12 e assim por diante.

Antes de criar uma DSVM, você deve optar por uma estratégia de armazenamento. Será possível instalar o SO no SSD Premium, no SSD Standard ou no HDD Standard. Além disso, será possível criá-la em um ou mais discos de dados ou anexá-la a um deles. Novamente, é possível escolher a tecnologia de disco rígido, contrabalançando a velocidade mais alta dos SSDs com o custo deles por gigabyte.

Você pode redimensionar sua DSVM de acordo com as mudanças em seus requisitos. Por exemplo, quando a aquisição e o reconhecimento de dados forem o enfoque principal, será possível escolher um tamanho de uso geral ou com otimização de memória. Quando a modelagem se torna o gargalo, você pode redimensionar para uma oferta de GPU.