Partilhar via


Carregar dados usando um local externo do Unity Catalog

Importante

Esta funcionalidade está em Pré-visualização Pública.

Este artigo descreve como usar a interface do usuário adicionar dados para criar uma tabela gerenciada a partir de dados no Azure Data Lake Storage Gen2 usando um local externo do Catálogo Unity. Um local externo é um objeto que combina um caminho de armazenamento em nuvem com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento em nuvem.

Antes de começar

Antes de começar, você deve ter o seguinte:

Tipos de ficheiros

Os seguintes tipos de ficheiro são suportados:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

Etapa 1: Confirmar o acesso ao local externo

Para confirmar o acesso ao local externo, faça o seguinte:

  1. Na barra lateral do seu espaço de trabalho do Azure Databricks, clique em Catálogo.
  2. No Gerenciador de Catálogos, clique em Locais Externos de Dados>Externos.

Etapa 2: Criar a tabela gerenciada

Para criar a tabela gerenciada, faça o seguinte:

  1. Na barra lateral do espaço de trabalho, clique em + Novo>Adicionar dados.

  2. Na interface do usuário adicionar dados, clique em Armazenamento do Azure Data Lake.

  3. Selecione um local externo na lista suspensa.

  4. Selecione as pastas e os ficheiros que pretende carregar no Azure Databricks e, em seguida, clique em Pré-visualizar tabela.

  5. Selecione um catálogo e um esquema nas listas suspensas.

  6. (Opcional) Edite o nome da tabela.

  7. (Opcional) Para definir opções avançadas de formato por tipo de arquivo, clique em Atributos avançados, desative Detetar automaticamente o tipo de arquivo e selecione um tipo de arquivo.

    Para obter uma lista de opções de formato, consulte a seção a seguir.

  8. (Opcional) Para editar o nome da coluna, clique na caixa de entrada na parte superior da coluna.

    Os nomes das colunas não suportam vírgulas, barras invertidas ou caracteres unicode (como emojis).

  9. (Opcional) Para editar tipos de coluna, clique no ícone com o tipo.

  10. Clique em Criar tabela.

Opções de formato de tipo de ficheiro

As seguintes opções de formato estão disponíveis, dependendo do tipo de arquivo:

Opção Formatar Description Tipos de ficheiro suportados
Column delimiter O caractere separador entre colunas. Apenas um único caractere é permitido, e a barra invertida não é suportada.

O padrão é uma vírgula.
CSV
Escape character O caractere de escape a ser usado ao analisar os dados.

O padrão é uma aspas.
CSV
First row contains the header Esta opção especifica se o arquivo contém um cabeçalho.

Ativado por predefinição.
CSV
Automatically detect file type Detete automaticamente o tipo de arquivo. A predefinição é true. XML
Automatically detect column types Detete automaticamente os tipos de coluna do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como STRING.

Ativado por predefinição.
* CSV

* JSON
* XML
Rows span multiple lines Se o valor de uma coluna pode abranger várias linhas no arquivo.

Desativado por predefinição.
* CSV

* JSON
Merge the schema across multiple files Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo.

Ativado por predefinição.
CSV
Allow comments Se os comentários são permitidos no arquivo.

Ativado por predefinição.
JSON
Allow single quotes Se aspas simples são permitidas no arquivo.

Ativado por predefinição.
JSON
Infer timestamp Se deve tentar inferir cadeias de caracteres de carimbo de data/hora como TimestampType.

Ativado por predefinição.
JSON
Rescued data column Se as colunas que não correspondem ao esquema devem ser salvas. Para obter mais informações, consulte O que é a coluna de dados resgatados?.

Ativado por predefinição.
* CSV

* JSON
* Avro
* Parquet
Exclude attribute Se os atributos devem ser excluídos em elementos. A predefinição é false. XML
Attribute prefix O prefixo para atributos para diferenciar atributos e elementos. A predefinição é _. XML

Tipos de dados de coluna

Os seguintes tipos de dados de coluna são suportados. Para obter mais informações sobre tipos de dados individuais, consulte Tipos de dados SQL.

Tipo de Dados Description
BIGINT Números inteiros assinados de 8 bytes.
BOOLEAN Valores booleanos (true, false).
DATE e dia, sem fuso horário.
DECIMAL (P,S) Números com a máxima precisão P e escala Sfixa.
DOUBLE Números de ponto flutuante de precisão dupla de 8 bytes.
STRING Valores de cadeia de caracteres.
TIMESTAMP Valores que compreendem valores de campos ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão.

Problemas conhecidos

  • Você pode ter problemas com caracteres especiais em tipos de dados complexos, como um objeto JSON com uma chave contendo um backtick ou dois pontos.
  • Alguns arquivos JSON podem exigir que você selecione manualmente JSON para o tipo de arquivo. Para selecionar manualmente um tipo de arquivo depois de selecionar arquivos, clique em Atributos avançados, desative Detetar automaticamente o tipo de arquivo e selecione JSON.
  • Carimbos de data/hora aninhados e decimais dentro de tipos complexos podem encontrar problemas.