Obter dados do Amazon S3

Artigo
01/16/2024

A ingestão de dados é o processo utilizado para carregar dados de uma ou mais origens para uma tabela no Azure Data Explorer. Depois de ingeridos, os dados ficam disponíveis para consulta. Neste artigo, irá aprender a obter dados do Amazon S3 para uma tabela nova ou existente.

Para obter mais informações sobre o Amazon S3, consulte O que é o Amazon S3?.

Para obter informações gerais sobre a ingestão de dados, veja Descrição geral da ingestão de dados do Azure Data Explorer.

Pré-requisitos

Uma conta Microsoft ou uma identidade de utilizador Microsoft Entra. Não é necessária uma subscrição do Azure.
Inicie sessão na IU da Web do Azure Data Explorer.
Um cluster e uma base de dados do Azure Data Explorer. Criar um cluster e uma base de dados.

Obter dados

No menu esquerdo, selecione Consulta.
Clique com o botão direito do rato na base de dados onde pretende ingerir os dados e, em seguida, selecione Obter dados.

Origem

Na janela Obter dados, o separador Origem está selecionado.

Selecione a origem de dados na lista disponível. Neste exemplo, está a ingerir dados do Amazon S3.

Configurar

Selecione uma base de dados e uma tabela de destino. Se quiser ingerir dados numa nova tabela, selecione +Nova tabela e introduza um nome de tabela.

Nota

Os nomes das tabelas podem ter até 1024 carateres, incluindo espaços, alfanuméricos, hífenes e carateres de sublinhado. Os carateres especiais não são suportados.
No campo URI, cole o cadeia de ligação de um único registo ou um objeto individual no seguinte formato.

Bucket: https://BucketName.s3.RegionName.amazonaws.com

Objeto: ObjectName;AwsCredentials=AwsAccessID,AwsSecretKey

Opcionalmente, pode aplicar filtros de registo para filtrar dados de acordo com uma extensão de ficheiro específica.

Nota

A ingestão suporta um tamanho máximo de ficheiros de 6 GB. A recomendação é ingerir ficheiros entre 100 MB e 1 GB.
Selecione Seguinte.

Inspecionar

O separador inspecionar é aberto com uma pré-visualização dos dados.

Para concluir o processo de ingestão, selecione Concluir.

Opcionalmente:

Selecione Visualizador de comandos para ver e copiar os comandos automáticos gerados a partir das suas entradas.
Utilize a lista pendente Ficheiro de definição de esquema para alterar o ficheiro a partir do qual o esquema é inferido.
Altere o formato de dados inferidos automaticamente ao selecionar o formato pretendido na lista pendente. Veja Formatos de dados suportados pelo Azure Data Explorer para ingestão.
Editar colunas.
Explore as Opções avançadas com base no tipo de dados.

Editar colunas

Nota

Para formatos tabulares (CSV, TSV, PSV), não pode mapear uma coluna duas vezes. Para mapear para uma coluna existente, elimine primeiro a nova coluna.
Não pode alterar um tipo de coluna existente. Se tentar mapear para uma coluna com um formato diferente, poderá ficar com colunas vazias.

As alterações que pode fazer numa tabela dependem dos seguintes parâmetros:

O tipo de tabela é novo ou existente
O tipo de mapeamento é novo ou existente

Tipo de tabela	Tipo de mapeamento	Ajustes disponíveis
Nova tabela	Novo mapeamento	Mudar o nome da coluna, alterar o tipo de dados, alterar a origem de dados, mapear a transformação, adicionar coluna, eliminar coluna
Tabela existente	Novo mapeamento	Adicionar coluna (na qual pode alterar o tipo de dados, mudar o nome e atualizar)
Tabela existente	Mapeamento existente	nenhum

Transformações de mapeamento

Alguns mapeamentos de formato de dados (Parquet, JSON e Avro) suportam transformações de tempo de ingestão simples. Para aplicar transformações de mapeamento, crie ou atualize uma coluna na janela Editar colunas .

As transformações de mapeamento podem ser realizadas numa coluna do tipo cadeia ou datetime, com a origem com o tipo de dados int ou long. As transformações de mapeamento suportadas são:

DateTimeFromUnixSeconds
DateTimeFromUnixMilliseconds
DateTimeFromUnixMicroseconds
DateTimeFromUnixNanoseconds

Opções avançadas baseadas no tipo de dados

Tabular (CSV, TSV, PSV):

Se estiver a ingerir formatos tabulares numa tabela existente, pode selecionar Avançadas>Manter o esquema de tabela atual. Os dados tabulares não incluem necessariamente os nomes de coluna que são utilizados para mapear dados de origem para as colunas existentes. Quando esta opção está selecionada, o mapeamento é feito por ordem e o esquema da tabela permanece o mesmo. Se esta opção estiver desmarcada, serão criadas novas colunas para dados recebidos, independentemente da estrutura de dados.
Para utilizar a primeira linha como nomes de coluna, selecione Avançadas>Primeira linha é cabeçalho de coluna.

JSON:

Para determinar a divisão de colunas de dados JSON, selecioneNíveis AninhadosAvançados>, de 1 a 100.
Se selecionar Avançadas>Ignorar erros de formato de dados, os dados são ingeridos no formato JSON. Se deixar esta caixa de verificação desmarcada, os dados são ingeridos no formato multijson.

Resumo

Na janela Preparação de dados , os três passos são marcados com marcas de verificação verdes quando a ingestão de dados é concluída com êxito. Pode ver os comandos que foram utilizados para cada passo ou selecionar um cartão para consultar, visualizar ou remover os dados ingeridos.

Partilhar via

Obter dados do Amazon S3

Pré-requisitos

Obter dados

Origem

Configurar

Inspecionar

Editar colunas

Transformações de mapeamento

Opções avançadas baseadas no tipo de dados

Resumo

Comentários

Comentários

Recursos adicionais

Partilhar via

Obter dados do Amazon S3

Pré-requisitos

Obter dados

Origem

Configurar

Inspecionar

Editar colunas

Transformações de mapeamento

Opções avançadas baseadas no tipo de dados

Resumo

Conteúdo relacionado

Comentários

Comentários

Recursos adicionais