Carregar dados usando um local externo do Unity Catalog

Artigo
06/27/2024

Importante

Esta funcionalidade está em Pré-visualização Pública.

Este artigo descreve como usar a interface do usuário adicionar dados para criar uma tabela gerenciada a partir de dados no Azure Data Lake Storage Gen2 usando um local externo do Catálogo Unity. Um local externo é um objeto que combina um caminho de armazenamento em nuvem com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento em nuvem.

Antes de começar

Antes de começar, você deve ter o seguinte:

Um espaço de trabalho com o Unity Catalog ativado. Para obter mais informações, consulte Configurar e gerenciar o catálogo Unity.
O READ FILES privilégio no local externo. Para obter mais informações, consulte Criar um local externo para conectar o armazenamento em nuvem ao Azure Databricks.
O CREATE TABLE privilégio no esquema no qual você deseja criar a tabela gerenciada, o USE SCHEMA privilégio no esquema e o USE CATALOG privilégio no catálogo pai. Para obter mais informações, consulte Privilégios do catálogo Unity e objetos protegíveis.

Tipos de ficheiros

Os seguintes tipos de ficheiro são suportados:

CSV
TSV
JSON
XML
AVRO
Parquet

Etapa 1: Confirmar o acesso ao local externo

Para confirmar o acesso ao local externo, faça o seguinte:

Na barra lateral do seu espaço de trabalho do Azure Databricks, clique em Catálogo.
No Gerenciador de Catálogos, clique em Locais Externos de Dados>Externos.

Etapa 2: Criar a tabela gerenciada

Para criar a tabela gerenciada, faça o seguinte:

Na barra lateral do espaço de trabalho, clique em + Novo>Adicionar dados.
Na interface do usuário adicionar dados, clique em Armazenamento do Azure Data Lake.
Selecione um local externo na lista suspensa.
Selecione as pastas e os ficheiros que pretende carregar no Azure Databricks e, em seguida, clique em Pré-visualizar tabela.
Selecione um catálogo e um esquema nas listas suspensas.
(Opcional) Edite o nome da tabela.
(Opcional) Para definir opções avançadas de formato por tipo de arquivo, clique em Atributos avançados, desative Detetar automaticamente o tipo de arquivo e selecione um tipo de arquivo.

Para obter uma lista de opções de formato, consulte a seção a seguir.
(Opcional) Para editar o nome da coluna, clique na caixa de entrada na parte superior da coluna.

Os nomes das colunas não suportam vírgulas, barras invertidas ou caracteres unicode (como emojis).
(Opcional) Para editar tipos de coluna, clique no ícone com o tipo.
Clique em Criar tabela.

Opções de formato de tipo de ficheiro

As seguintes opções de formato estão disponíveis, dependendo do tipo de arquivo:

Opção Formatar	Description	Tipos de ficheiro suportados
`Column delimiter`	O caractere separador entre colunas. Apenas um único caractere é permitido, e a barra invertida não é suportada. O padrão é uma vírgula.	CSV
`Escape character`	O caractere de escape a ser usado ao analisar os dados. O padrão é uma aspas.	CSV
`First row contains the header`	Esta opção especifica se o arquivo contém um cabeçalho. Ativado por predefinição.	CSV
`Automatically detect file type`	Detete automaticamente o tipo de arquivo. A predefinição é `true`.	XML
`Automatically detect column types`	Detete automaticamente os tipos de coluna do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como STRING. Ativado por predefinição.	* CSV * JSON * XML
`Rows span multiple lines`	Se o valor de uma coluna pode abranger várias linhas no arquivo. Desativado por predefinição.	* CSV * JSON
`Merge the schema across multiple files`	Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Ativado por predefinição.	CSV
`Allow comments`	Se os comentários são permitidos no arquivo. Ativado por predefinição.	JSON
`Allow single quotes`	Se aspas simples são permitidas no arquivo. Ativado por predefinição.	JSON
`Infer timestamp`	Se deve tentar inferir cadeias de caracteres de carimbo de data/hora como `TimestampType`. Ativado por predefinição.	JSON
`Rescued data column`	Se as colunas que não correspondem ao esquema devem ser salvas. Para obter mais informações, consulte O que é a coluna de dados resgatados?. Ativado por predefinição.	* CSV * JSON * Avro * Parquet
`Exclude attribute`	Se os atributos devem ser excluídos em elementos. A predefinição é `false`.	XML
`Attribute prefix`	O prefixo para atributos para diferenciar atributos e elementos. A predefinição é `_`.	XML

Tipos de dados de coluna

Os seguintes tipos de dados de coluna são suportados. Para obter mais informações sobre tipos de dados individuais, consulte Tipos de dados SQL.

Tipo de Dados	Description
`BIGINT`	Números inteiros assinados de 8 bytes.
`BOOLEAN`	Valores booleanos (`true`, `false`).
`DATE`	e dia, sem fuso horário.
`DECIMAL (P,S)`	Números com a máxima precisão `P` e escala `S`fixa.
`DOUBLE`	Números de ponto flutuante de precisão dupla de 8 bytes.
`STRING`	Valores de cadeia de caracteres.
`TIMESTAMP`	Valores que compreendem valores de campos ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão.

Problemas conhecidos

Você pode ter problemas com caracteres especiais em tipos de dados complexos, como um objeto JSON com uma chave contendo um backtick ou dois pontos.
Alguns arquivos JSON podem exigir que você selecione manualmente JSON para o tipo de arquivo. Para selecionar manualmente um tipo de arquivo depois de selecionar arquivos, clique em Atributos avançados, desative Detetar automaticamente o tipo de arquivo e selecione JSON.
Carimbos de data/hora aninhados e decimais dentro de tipos complexos podem encontrar problemas.

Partilhar via