Opções eficientes de armazenamento de dados

Concluído

Como muitos modelos de aprendizado de máquina se beneficiam de grandes quantidades de dados, armazene seu grande conjunto de dados de forma eficiente para reduzir o tempo de processamento.

Lembre-se de que você recebeu um grande conjunto de dados da equipe de análise. Você sabe que precisa armazená-lo de forma eficiente para otimizar o tempo de processamento. Seja para preparar e explorar os dados de voo, ou para treinar uma máquina ou um modelo de aprendizagem profunda sobre os dados.

Você aprenderá algumas práticas recomendadas para armazenar grandes quantidades de dados.

Escolha um Azure Data Lake Storage Gen2

Juntamente com a equipe de análise, você decidiu fazer todo o processamento e treinamento de modelo no Azure Machine Learning. Para aceder de forma fácil e segura aos dados a partir da área de trabalho do Azure Machine Learning, pretende armazenar os dados no Azure.

Embora existam várias opções para armazenar dados no Azure, a melhor solução ao trabalhar com o Azure Machine Learning é armazenar os dados em um Azure Data Lake Storage Gen2, independentemente do tamanho dos dados.

Aproveite o namespace hierárquico

Em comparação com um Armazenamento de Blobs do Azure, o Azure Data Lake Gen2 fornece um namespace hierárquico para armazenar seus arquivos.

Com o namespace hierárquico, você pode usar uma estrutura de pastas aninhadas para otimizar as operações de listagem. Além de melhor escalabilidade e desempenho, estruturar seus arquivos dessa forma também permitirá acesso granular.

Usar uma estrutura de pastas aninhada

A razão pela qual é mais eficiente usar um data lake em vez de um armazenamento de objetos simples é porque é melhor evitar colocar todos os seus arquivos em uma pasta.

Se todos os arquivos estiverem armazenados em uma pasta, independentemente da solução de armazenamento escolhida, a leitura dos arquivos será exigente para sua computação.

Os dados de voo que você recebeu são uma grande coleção de arquivos CSV que mostram as informações de voo de cada mês. Com base nessas recomendações, você opta por migrar os dados para um Armazenamento Azure Data Lake e criar uma estrutura de pastas aninhada com base na data. Isso permitirá que você selecione facilmente para qual período de tempo deseja carregar nos dados de voo.

Evite ficheiros pequenos

E, finalmente, ao armazenar seus arquivos, você deve evitar ter muitos arquivos pequenos. Ler 1000 arquivos pequenos é muito mais lento do que ler um arquivo com 1000x o tamanho.

Acessar dados no Azure Machine Learning

Depois de migrar os dados e permitir que o Aprendizado de Máquina do Azure se conecte ao Azure Data Lake, você deseja usar os dados de voo como entrada ao executar um trabalho.

Ao trabalhar com dados no Aprendizado de Máquina do Azure, você pode baixar ou montar os dados no Cluster de Computação atribuído para executar o trabalho:

  • Baixe os dados se você estimar que o conjunto de dados caberá no disco da máquina virtual.
  • Monte os dados se você espera que o conjunto de dados seja muito grande para ser baixado no disco.

Gorjeta

Saiba mais sobre como trabalhar com conjuntos de dados do Azure Machine Learning.