Como ingerir dados usando o Azure Data Factory no Azure Cosmos DB for PostgreSQL

APLICA-SE AO: Azure Cosmos DB for PostgreSQL (da plataforma da extensão de dados Citus para PostgreSQL)

O Azure Data Factory é um serviço de integração de dados e ETL baseado em nuvem. Permite criar fluxos de trabalho controlados por dados para mover e transformar dados em escala.

Usando o Data Factory, você pode criar e agendar fluxos de trabalho controlados por dados (chamados pipelines) que ingerem dados de diferentes armazenamentos de dados. Os pipelines podem ser executados localmente, no Azure ou em outros provedores de nuvem para análise e relatórios.

O Data Factory tem um coletor de dados para o Azure Cosmos DB for PostgreSQL. O coletor de dados permite que você traga seus dados (relacionais, NoSQL, arquivos de data lake) para as tabelas do Azure Cosmos DB for PostgreSQL para armazenamento, processamento e relatórios.

Dataflow diagram for Azure Data Factory.

Importante

O Data Factory não dá suporte a pontos de extremidade privados para o Azure Cosmos DB for PostgreSQL no momento.

Data Factory para ingestão em tempo real

Estes são os principais motivos para escolher o Azure Data Factory para ingerir dados no Azure Cosmos DB for PostgreSQL:

  • Fácil de usar – Oferece um ambiente visual sem código para orquestrar e automatizar a movimentação de dados.
  • Eficaz – Usa a capacidade total da largura de banda da rede subjacente, até 5 GiB/s de taxa de transferência.
  • Conectores internos – Integra todas as fontes de dados, com mais de 90 conectores internos.
  • Econômico – Permite um serviço de nuvem sem servidor, totalmente gerenciado e com pagamento conforme o uso, o qual é escalado sob demanda.

Etapas para usar o Data Factory

Neste artigo, você criará um pipeline de dados usando a interface do usuário do Data Factory. O pipeline deste data factory copia dados do Armazenamento de Blobs do Azure para um banco de dados. Para obter uma lista de armazenamentos de dados com suporte como origens e coletores, confira a tabela Armazenamentos de dados com suporte.

No Data Factory, você pode usar a atividade Copy para copiar dados entre armazenamentos de dados locais e na nuvem para o Azure Cosmos DB for PostgreSQL. Se você não estiver familiarizado com o Azure Data Factory, confira abaixo um guia rápido sobre como começar a usá-lo:

  1. Depois que o Data Factory for provisionado, acesse seu data factory e inicie o Estúdio do Azure Data Factory. Você verá a home page Data Factory conforme mostrado na imagem a seguir:

    Screenshot showing the landing page of Azure Data Factory.

  2. Na página inicial do Estúdio do Azure Data Factory, selecione Orquestrar.

    Screenshot showing the 'Orchestrate' page of Azure Data Factory.

  3. Em Propriedades, insira um nome para o pipeline.

  4. Na caixa de ferramentas Atividades, expanda a categoria Migrar e transformar e arraste e solte a atividade Copiar dados na superfície do designer do pipeline. Na parte inferior do painel do designer, na guia Geral, insira um nome para a atividade de cópia.

    Screenshot showing a pipeline in Azure Data Factory.

  5. Configure a Fonte.

    1. Na página Atividades, selecione a guia Origem. Escolha Novo para criar um conjunto de dados de origem.

    2. Na caixa de diálogo Novo conjunto de dados, selecione Armazenamento de Blobs do Azure e, em seguida, selecione Continuar.

    3. Escolha o tipo de formato dos dados e selecione Continuar.

    4. Na página Definir propriedades, em Serviço vinculado, selecione Novo.

    5. Na página Novo serviço vinculado, insira um nome para o serviço vinculado e escolha a conta de armazenamento na lista Nome da conta de armazenamento.

      Screenshot that shows configuring Source in Azure Data Factory.

    6. Em Testar conectividade, selecione Para caminho do arquivo, insira o contêiner e o diretório ao qual você se conectará e escolha Testar conectividade.

    7. Selecione Criar para salvar a configuração.

    8. Na tela Definir propriedades, escolha OK.

  6. Configure o Coletor.

    1. Na página Atividades, selecione a guia Coletor. Escolha Novo para criar um conjunto de dados do coletor.

    2. Na caixa de diálogo Novo Conjunto de Dados, selecione Banco de Dados do Azure para PostgreSQL e, em seguida, Continuar.

    3. Na página Definir propriedades, em Serviço vinculado, selecione Novo.

    4. Na página Novo serviço vinculado, digite um nome para o serviço vinculado e selecione Entrar manualmente no Método de seleção de conta.

    5. Digite o nome do coordenador do cluster no campo Nome de domínio totalmente qualificado. Você pode copiar o nome do coordenador na página Visão geral do seu cluster do Azure Cosmos DB para PostgreSQL.

    6. Deixe a porta padrão 5432 no campo Porta para conexão direta com o coordenador ou substitua-a pela porta 6432 para se conectar à porta gerenciada do PgBouncer.

    7. Insira o nome do banco de dados em seu cluster e forneça as credenciais para se conectar a ele.

    8. Selecione SSL na lista suspensa Método de criptografia.

      Screenshot that shows configuring Sink in Azure Data Factory.

    9. Selecione Testar conectividade na parte inferior do painel para validar a configuração do coletor.

    10. Selecione Criar para salvar a configuração.

    11. Na tela Definir propriedades, escolha OK.

    12. Na guia Coletor da página Atividades, selecione Abrir ao lado da lista suspensa Conjunto de dados do Coletor e selecione o nome da tabela no cluster de destino em que deseja ingerir os dados.

    13. No método Write, selecione Comando Copy.

    Screenshot that shows selecting the table and Copy command.

  7. Na barra de ferramentas acima da tela, selecione Validar para validar as configurações do pipeline. Corrija os erros, revalide e garanta que o pipeline seja validado com êxito.

  8. Selecione Depurar na barra de ferramentas para executar o pipeline.

    Screenshot that shows Debug and Execute in Azure Data Factory.

  9. Depois que o pipeline for executado corretamente, na barra de ferramentas superior, selecione Publicar tudo. Esta ação publica as entidades (conjuntos de dados e pipelines) que você criou para o Data Factory.

Chamar um procedimento armazenado no Data Factory

Em alguns cenários específicos, o ideal é chamar um procedimento armazenado/uma função para enviar dados agregados da tabela de preparo para a tabela de resumo. O Data Factory não oferece uma atividade de procedimento armazenado para o Azure Cosmos DB for PostgreSQL, mas, como solução alternativa, você pode usar a atividade Pesquisa com uma consulta para chamar um procedimento armazenado, conforme mostrado abaixo:

Screenshot that shows calling a procedure in Azure Data Factory.

Próximas etapas