Partilhar via


Transferir dados de e para o Azure

Há várias opções para transferir dados de e para o Azure, dependendo das suas necessidades.

Transferência física

Usar hardware físico para transferir dados para o Azure é uma boa opção quando:

  • Sua rede é lenta ou não confiável.
  • Obter mais largura de banda de rede é proibitivo em termos de custos.
  • As políticas organizacionais ou de segurança não permitem conexões de saída ao lidar com dados confidenciais.

Se sua principal preocupação for quanto tempo leva para transferir seus dados, convém executar um teste para verificar se a transferência de rede é mais lenta do que o transporte físico.

Há duas opções principais para transportar dados fisicamente para o Azure:

Serviço Importar/Exportar do Microsoft Azure

O serviço de Importação/Exportação do Azure permite-lhe transferir com segurança grandes quantidades de dados para o Armazenamento de Blobs do Azure ou para os Ficheiros do Azure enviando unidades de disco rígido (HDD) ou SDDs SATA internos para um centro de dados do Azure. Você também pode usar esse serviço para transferir dados do Armazenamento do Azure para unidades de disco rígido e fazer com que as unidades sejam enviadas para você para carregamento local.

Azure Data Box

O Azure Data Box é um dispositivo fornecido pela Microsoft que funciona de forma muito semelhante ao serviço de Importação/Exportação. Com o Data Box, a Microsoft envia um dispositivo de transferência proprietário, seguro e inviolável e lida com a logística de ponta a ponta, que você pode rastrear através do portal. Uma das vantagens do serviço Data Box é a facilidade de utilização. Você não precisa comprar vários discos rígidos, prepará-los e transferir arquivos para cada um. O Data Box é suportado por muitos parceiros do Azure líderes do setor para facilitar a utilização fácil do transporte offline para a nuvem a partir dos seus produtos.

Ferramentas de linha de comando e APIs

Considere estas opções quando quiser transferência de dados programáticos e com script:

  • A CLI do Azure é uma ferramenta multiplataforma que permite gerenciar serviços do Azure e carregar dados no Armazenamento.

  • AzCopy. Use o AzCopy de uma linha de comando do Windows ou Linux para copiar facilmente dados de e para o Armazenamento de Blob, o Armazenamento de Arquivos do Azure e o Armazenamento de Tabela do Azure com desempenho ideal. O AzCopy suporta simultaneidade e paralelismo, além da capacidade de retomar operações de cópia interrompidas. Você também pode usar o AzCopy para copiar dados da AWS para o Azure. Para acesso programático, a Biblioteca de Movimentação de Dados de Armazenamento do Microsoft Azure é a estrutura principal que alimenta o AzCopy. Ele é fornecido como uma biblioteca .NET Core.

  • Com o PowerShell, o cmdlet Start-AzureStorageBlobCopy PowerShell é uma opção para administradores do Windows acostumados ao PowerShell.

  • O AdlCopy permite copiar dados do Armazenamento de Blob para o Armazenamento do Azure Data Lake. Ele também pode ser usado para copiar dados entre duas contas de armazenamento Data Lake. No entanto, ele não pode ser usado para copiar dados do Armazenamento Data Lake para o Armazenamento de Blob.

  • O Distcp é usado para copiar dados de e para um armazenamento de cluster HDInsight (WASB) para uma conta de Armazenamento Data Lake.

  • O Sqoop é um projeto Apache e faz parte do ecossistema Hadoop. Ele vem pré-instalado em todos os clusters HDInsight. Ele permite a transferência de dados entre um cluster HDInsight e bancos de dados relacionais, como SQL, Oracle, MySQL e assim por diante. Sqoop é uma coleção de ferramentas relacionadas, incluindo ferramentas de importação e exportação. O Sqoop funciona com clusters HDInsight usando o armazenamento de Blob ou o armazenamento anexado do Data Lake Storage.

  • PolyBase é uma tecnologia que acessa dados fora de um banco de dados através da linguagem T-SQL. No SQL Server 2016, ele permite executar consultas em dados externos no Hadoop ou importar ou exportar dados do Armazenamento de Blobs. No Azure Synapse Analytics, você pode importar ou exportar dados do Armazenamento de Blob e do Armazenamento Data Lake. Atualmente, o PolyBase é o método mais rápido de importação de dados para o Azure Synapse Analytics.

  • Use a linha de comando do Hadoop quando tiver dados que residam em um nó principal do cluster HDInsight. Você pode usar o comando para copiar esses dados para o armazenamento anexado do cluster, como o Armazenamento de Blobs ou o hadoop -copyFromLocal Armazenamento Data Lake. Para usar o comando Hadoop, você deve primeiro se conectar ao nó principal. Uma vez conectado, você pode carregar um arquivo para o armazenamento.

Interface gráfica

Considere as seguintes opções se você estiver transferindo apenas alguns arquivos ou objetos de dados e não precisar automatizar o processo.

  • O Azure Storage Explorer é uma ferramenta multiplataforma que permite gerenciar o conteúdo de suas contas de armazenamento do Azure. Possibilita o carregamento, a transferência e a gestão de blobs, ficheiros, filas, tabelas e entidades do Azure Cosmos DB. Use-o com o Armazenamento de Blobs para gerenciar blobs e pastas e carregar e baixar blobs entre seu sistema de arquivos local e o Armazenamento de Blobs, ou entre contas de armazenamento.

  • Portal do Azure. Tanto o Blob Storage quanto o Data Lake Storage fornecem uma interface baseada na Web para explorar arquivos e carregar novos arquivos. Esta opção é boa se não quiser instalar ferramentas ou emitir comandos para explorar rapidamente os seus ficheiros, ou se quiser carregar um punhado de novos.

Sincronização de dados e pipelines

  • O Azure Data Factory é um serviço gerenciado mais adequado para transferir regularmente arquivos entre muitos serviços do Azure, sistemas locais ou uma combinação dos dois. Usando o Data Factory, você pode criar e agendar fluxos de trabalho orientados por dados chamados pipelines que ingerem dados de armazenamentos de dados diferentes. O Data Factory pode processar e transformar os dados usando serviços de computação como Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics e Azure Machine Learning. Você pode criar fluxos de trabalho orientados por dados para orquestrar e automatizar a movimentação e a transformação de dados.

  • Os pipelines e atividades no Data Factory e no Azure Synapse Analytics podem ser usados para construir fluxos de trabalho controlados por dados de ponta a ponta para seus cenários de movimentação e processamento de dados. Além disso, o tempo de execução de integração do Azure Data Factory é usado para fornecer recursos de integração de dados em diferentes ambientes de rede.

  • O Azure Data Box Gateway transfere dados de e para o Azure, mas é um dispositivo virtual, não um disco rígido. As máquinas virtuais que residem em sua rede local gravam dados no Data Box Gateway usando os protocolos NFS (Network File System) e SMB. Em seguida, o dispositivo transfere seus dados para o Azure.

Principais critérios de seleção

Para cenários de transferência de dados, escolha o sistema adequado às suas necessidades, respondendo a estas perguntas:

  • Você precisa transferir grandes quantidades de dados, onde fazê-lo através de uma conexão com a Internet levaria muito tempo, não seria confiável, ou muito caro? Se sim, considere a transferência física.

  • Você prefere criar scripts para que suas tarefas de transferência de dados sejam reutilizáveis? Em caso afirmativo, selecione uma das opções de linha de comando ou Data Factory.

  • Precisa de transferir uma grande quantidade de dados através de uma ligação de rede? Em caso afirmativo, selecione uma opção otimizada para big data.

  • Você precisa transferir dados de ou para um banco de dados relacional? Em caso afirmativo, escolha uma opção que ofereça suporte a um ou mais bancos de dados relacionais. Algumas dessas opções também exigem um cluster Hadoop.

  • Você precisa de um pipeline de dados automatizado ou orquestração de fluxo de trabalho? Se sim, considere o Data Factory.

Matriz de capacidades

As tabelas a seguir resumem as principais diferenças nos recursos.

Transferência física

Funcionalidade O serviço de Importação/Exportação Data Box
Formato HDDs SATA internos ou SDDs Dispositivo de hardware único, seguro e inviolável
A Microsoft gerencia a logística de envio Não Sim
Integra-se com produtos de parceiros Não Sim
Aparelho personalizado Não Sim

Ferramentas de linha de comandos

Hadoop/HDInsight:

Funcionalidade Distcp Sqoop Hadoop CLI
Otimizado para big data Sim Sim Sim
Copiar para banco de dados relacional Não Sim No
Copiar do banco de dados relacional Não Sim No
Copiar para armazenamento de Blob Sim Sim Sim
Cópia do armazenamento de Blob Sim Sim No
Copiar para o armazenamento Data Lake Sim Sim Sim
Cópia do armazenamento Data Lake Sim Sim No

Outras:

Funcionalidade CLI do Azure AzCopy PowerShell AdlCopy PolyBase
Plataformas compatíveis Linux, OS X, Windows Linux, Janelas Windows Linux, OS X, Windows SQL Server, Azure Synapse Analytics
Otimizado para big data Não Sim No Sim 1 Sim 2
Copiar para banco de dados relacional No No No No Sim
Copiar do banco de dados relacional No No No No Sim
Copiar para armazenamento de Blob Sim Sim Sim No Sim
Cópia do armazenamento de Blob Sim Sim Sim Sim Sim
Copiar para o armazenamento Data Lake Não Sim Sim Sim Sim
Cópia do armazenamento Data Lake No No Sim Sim Sim

[1] O AdlCopy é otimizado para transferir big data quando usado com uma conta do Data Lake Analytics.

[2] O desempenho do PolyBase pode ser aumentado enviando a computação para o Hadoop e usando grupos de expansão do PolyBase para permitir a transferência paralela de dados entre instâncias do SQL Server e nós do Hadoop.

Interfaces gráficas, sincronização de dados e pipelines de dados

Funcionalidade Explorador de Armazenamento do Azure Portal do Azure * Data Factory Data Box Gateway
Otimizado para big data No No Sim Sim
Copiar para banco de dados relacional No No Sim No
Copiar do banco de dados relacional No No Sim No
Copiar para armazenamento de Blob Sim No Sim Sim
Cópia do armazenamento de Blob Sim No Sim No
Copiar para o armazenamento Data Lake No No Sim No
Cópia do armazenamento Data Lake No No Sim No
Carregar para o Armazenamento de Blobs Sim Sim Sim Sim
Fazer upload para o armazenamento Data Lake Sim Sim Sim Sim
Orquestre transferências de dados No No Sim No
Transformações de dados personalizadas No No Sim No
Modelo de preços Gratuito Gratuito Pagamento por utilização Pagamento por unidade

* O portal do Azure, neste caso, representa as ferramentas de exploração baseadas na Web para o Armazenamento de Blob e o Armazenamento Data Lake.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Próximos passos