Compartilhar via


Criar ou modificar uma tabela usando o upload de arquivo

A página Criar ou modificar uma tabela usando o upload de arquivo permite fazer upload de arquivos CSV, TSV ou JSON, Avro, Parquet ou arquivo de texto para criar ou substituir uma tabela gerenciada do Delta Lake.

Você pode criar tabelas Delta gerenciadas no Catálogo do Unity ou na metastore do Hive.

Importante

Você pode usar a interface do usuário para criar uma tabela Delta importando pequenos arquivos CSV, TSV, JSON, Avro, Parquet, ou arquivos de texto do computador local.

  • A página Criar ou modificar uma tabela usando o upload de arquivo dá suporte ao carregamento de até 10 arquivos por vez.
  • O tamanho total dos arquivos carregados deve ser inferior a 2 gigabytes.
  • O arquivo deve ser um arquivo CSV, TSV, JSON, Avro, Parquet ou de texto e ter a extensão “.csv”, “.tsv” (ou “.tab”), “.json”, “.avro”, “.parquet” ou “.txt”.
  • Não há suporte para arquivos compactados, como zip e tar.

Carregar o arquivo

  1. Clique em ícone NovoNovo > Adicionar dados.
  2. Clique em Criar ou modificar uma tabela.
  3. Clique no botão do navegador de arquivos ou arraste e solte arquivos diretamente na área para arrastar e soltar.

Observação

Os arquivos importados são carregados em um local interno seguro em sua conta, que é o lixo coletado diariamente.

Visualizar, configurar e criar uma tabela

Você pode carregar dados na área de preparo sem se conectar aos recursos de computação, mas deve selecionar um recurso de computação ativo para visualizar e configurar a tabela.

Você pode visualizar 50 linhas de dados ao configurar as opções para a tabela carregada. Clique nos botões de grade ou lista sob o nome do arquivo para alternar a apresentação dos dados.

O Azure Databricks armazena arquivos de dados para tabelas gerenciadas nos locais configurados para o esquema contido. Você precisa de permissões adequadas para criar uma tabela em um esquema.

Selecione o esquema desejado no qual a tabela deve ser criada fazendo o seguinte:

  1. (Somente para workspaces habilitados para o Catálogo do Unity) Você pode selecionar um catálogo ou o hive_metastore herdado.
  2. Selecione um esquema.
  3. (Opcional) Edite o nome da tabela.

Observação

Você pode usar a lista suspensa para selecionar Substituir tabela existente ou Criar tabela. Operações que tentam criar tabelas com conflitos de nome exibem uma mensagem de erro.

Você pode configurar opções ou colunas antes de criar a tabela.

Para criar a tabela, clique em Criar na parte inferior da página.

Opções de formato

As opções de formato dependem do formato de arquivo carregado. As opções de formato comuns aparecem na barra superior, enquanto as menos usadas ficam disponíveis no diálogo Atributos avançados.

  • Para CSV, as seguintes opções estão disponíveis:
    • A primeira linha contém o cabeçalho (habilitado por padrão): essa opção especifica se o arquivo CSV/TSV contém um cabeçalho.
    • Delimitador de colunas: o caractere separador entre colunas. Apenas um caractere é permitido e não há suporte para barra invertida. O padrão é a vírgula para arquivos CSV.
    • Detectar automaticamente tipos de coluna (habilitado por padrão): detecta automaticamente os tipos de coluna do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se for definido como falso, todos os tipos de coluna serão inferidos como STRING.
    • As linhas abrangem várias linhas (desabilitado por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
    • Mesclar o esquema em vários arquivos: inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Se desabilitado, o esquema de um arquivo será usado.
  • Para JSON, as seguintes opções estão disponíveis:
    • Detectar automaticamente tipos de coluna (habilitado por padrão): detecta automaticamente os tipos de coluna do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se for definido como falso, todos os tipos de coluna serão inferidos como STRING.
    • As linhas abrangem várias linhas (habilitado por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
    • Permitir comentários (habilitado por padrão): se os comentários são permitidos no arquivo.
    • Permitir aspas simples (habilitadas por padrão): se as aspas simples são permitidas no arquivo.
    • Inferir carimbo de data/hora (habilitado por padrão): se deve tentar inferir cadeias de caracteres de carimbo de data/hora como TimestampType.
  • Para JSON, as seguintes opções estão disponíveis:
    • Detectar automaticamente tipos de coluna (habilitado por padrão): detecta automaticamente os tipos de coluna do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se for definido como falso, todos os tipos de coluna serão inferidos como STRING.
    • As linhas abrangem várias linhas (desabilitado por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
    • Permitir comentários Se os comentários são permitidos no arquivo.
    • Permitir aspas simples: se as aspas simples são permitidas no arquivo.
    • Inferir carimbo de data/hora: Se deseja tentar inferir as cadeias de caracteres de carimbo de data/hora como TimestampType.

A visualização de dados é atualizada automaticamente quando você edita opções de formato.

Observação

Quando você carrega vários arquivos, as seguintes regras se aplicam:

  • As configurações de cabeçalho se aplicam a todos os arquivos. Verifique se os cabeçalhos estão consistentemente ausentes ou presentes em todos os arquivos carregados para evitar a perda de dados.
  • Os arquivos carregados são combinados acrescentando todos os dados como linhas na tabela de destino. Não há suporte para a junção ou mesclagem de registros durante o upload de arquivos.

Nomes e tipos de coluna

Você pode editar os nomes e os tipos de coluna.

  • Para editar os tipos, clique no ícone com o tipo.

    Observação

    Não é possível editar tipos aninhados para STRUCT ou ARRAY.

  • Para editar o nome da coluna, clique na caixa de entrada na parte superior dela.

    Os nomes das colunas não dão suporte a vírgulas, barras invertidas nem caracteres Unicode (como emojis).

Os tipos de dados de coluna são inferidos por padrão para arquivos CSV e JSON. Você pode interpretar todas as colunas como sendo do tipo STRING desabilitando Atributos avançados>Detecção automática de tipos de coluna.

Observação

  • A inferência de esquema faz uma detecção baseada no melhor esforço dos tipos de coluna. Alterar os tipos de coluna pode fazer com que alguns valores sejam convertidos em NULL quando o valor não pode ser convertido corretamente no tipo de dados de destino. Não há suporte para a conversão de colunas de BIGINT para DATE ou TIMESTAMP. O Databricks recomenda que você crie uma tabela primeiro e transforme essas colunas usando SQL funções posteriormente.
  • Para dar suporte a nomes de coluna de tabela com caracteres especiais, a página Criar ou modificar uma tabela usando o upload de arquivo aproveita o Mapeamento de colunas.
  • Para adicionar comentários a colunas, crie a tabela e navegue até o Explorador de Catálogos, onde você pode adicionar comentários.

Tipos de dados com suporte

A página Criar ou modificar uma tabela usando o upload de arquivo dá suporte aos seguintes tipos de dados. Para obter mais informações sobre tipos de dados individuais, consulte tipos de dados SQL.

Tipo de Dados Descrição
BIGINT Números inteiros com sinal de 8 bytes.
BOOLEAN Valores boolianos (true, false).
DATE Valores que incluem valores de campos de ano, mês e dia, sem um fuso horário.
DOUBLE Números de ponto flutuante de precisão dupla de 8 bytes.
STRING Valores de cadeia de caracteres.
TIMESTAMP Valores que incluem valores de campos de ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão.
STRUCT Valores com a estrutura descrita por uma sequência de campos.
ARRAY Valores que compõem uma sequência de elementos com o tipo
elementType.
DECIMAL(P,S) Número com precisão máxima P e escala fixa S.

Problemas conhecidos

A conversão de BIGINT em tipos que não podem ser convertidos, como DATE, como datas no formato 'aaaa', pode disparar erros.