Tutorial do Lakehouse: Ingerir dados no Lakehouse
Neste tutorial, você ingere mais tabelas de fatos e dimensionais da Wide World Importers (WWI) no lakehouse.
Pré-requisitos
- Caso você não tenha um lakehouse, crie um.
Ingestão de dados
Nesta seção, utilize a atividade Copiar dados do pipeline do Data Factory para ingerir dados de amostra de uma conta de armazenamento do Azure para a seção Arquivos do lakehouse criado anteriormente.
Selecione Espaços de Trabalho no painel de navegação esquerdo e, em seguida, selecione o novo espaço de trabalho no menu Espaços de Trabalho. A exibição de itens do seu espaço de trabalho é exibida.
No item de menu +Novo da faixa espaço de trabalho, selecione Pipeline de dados.
Na caixa de diálogo Novo pipeline, especifique o nome como IngestDataFromSourceToLakehouse e selecione Criar. Um novo pipeline do data factory é criado e aberto.
No pipeline do Data Factory recém-criado, selecione Atividade do pipeline para adicionar uma atividade ao pipeline e selecione Copiar dados. Essa ação adiciona uma atividade de cópia de dados à tela do pipeline.
Selecione a atividade de cópia de dados recém-adicionada na tela. As propriedades da atividade aparecem em um painel abaixo da tela (talvez seja necessário expandir o painel para cima, arrastando a borda superior). Na guia Geral no painel de propriedades, digite Cópia de Dados para Lakehouse no campo Nome.
Na guia Origem da atividade de cópia de dados selecionada, selecione Externo como Tipo de armazenamento de dados e, em seguida, selecione +Novo para criar uma nova conexão com a fonte de dados.
Neste tutorial, todos os dados de amostra estão disponíveis em um contêiner público do armazenamento de blobs do Azure. Conecte-se a esse contêiner para copiar os dados dele. Na tela Nova conexão, selecione Armazenamento de Blobs do Azure e, em seguida, Continuar.
Na tela Nova conexão, insira os seguintes detalhes e selecione Criar para criar a conexão com a fonte de dados.
Propriedade Valor Nome ou URL da conta https://azuresynapsestorage.blob.core.windows.net/sampledata
Conexão Criar nova conexão Nome da conexão wwisampledata Tipo de autenticação Anônima Depois que a nova conexão for criada, retorne à guia Origem da atividade de cópia de dados e a conexão recém-criada será selecionada por padrão. Especifique as seguintes propriedades antes de passar para as configurações de destino.
Propriedade Valor Tipo de armazenamento de dados Externo Conexão wwisampledata Tipo de caminho do arquivo Caminho do arquivo Caminho do arquivo Nome do contêiner (primeira caixa de texto): sampledata
Nome do diretório (segunda caixa de texto): WideWorldImportersDW/parquetRecursivamente Verificado Formato de arquivo Binário Na guia Destino da atividade de cópia selecionada, especifique as seguintes propriedades:
Propriedade Valor Tipo de armazenamento de dados Workspace Tipo de armazenamento de dados do workspace Lakehouse Lakehouse wwilakehouse Pasta raiz Arquivos Caminho do arquivo Nome do diretório (primeira caixa de texto): wwi-raw-data Formato de arquivo Binário Você configurou a atividade de cópia dos dados. Selecione o ícone Salvar na faixa superior (abaixo de Início) para salvar as alterações e selecione Executar para executar o pipeline e sua atividade. Também é possível agendar os pipelines para atualizar os dados em intervalos definidos para atender às exigências do seu negócio. Para este tutorial, executamos o pipeline apenas uma vez, clicando no botão Executar.
Essa ação dispara a cópia de dados da fonte de dados subjacente para o lakehouse especificado e pode levar até um minuto para ser concluída. Você pode monitorar a execução do pipeline e sua atividade na guia Saída, que aparece quando você clica em qualquer lugar da tela. Opcionalmente, você pode selecionar o ícone de óculos, que aparece quando você passa o mouse sobre o nome, para ver os detalhes da transferência de dados.
Depois que os dados forem copiados, acesse a exibição de itens do espaço de trabalho e selecione o novo lakehouse (wwilakehouse) para abrir a exibição do Explorer.
Verifique se a nova pasta wwi-raw-data aparece na exibição do Explorer e se os dados de todas as tabelas estão copiados nela.
Para carregar dados incrementais em um lakehouse, consulte Carregar dados de forma incremental de um data warehouse para um lakehouse.