Consultar arquivos de armazenamento usando o pool SQL sem servidor

Tip

Microsoft Fabric Data Warehouse é um armazém relacional de escala empresarial baseado numa base de data lake, com uma arquitetura pronta para o futuro, IA incorporada e novas funcionalidades. Se és novo no data warehousing, começa pelo Fabric Data Warehouse. As cargas de trabalho existentes de pool SQL dedicado podem atualizar para o Fabric para acessar novas capacidades em ciência de dados, análise em tempo real e relatórios.

O pool SQL sem servidor permite que você consulte dados em seu data lake. Ele oferece uma área de superfície de consulta Transact-SQL (T-SQL) que acomoda consultas de dados semiestruturadas e não estruturadas. Para consulta, os seguintes aspetos T-SQL são suportados:

Área total da instrução SELECT incluindo a maioria das funções e operadores SQL.
CREATE EXTERNAL TABLE AS SELECT (CETAS) cria uma tabela externa e, em seguida, exporta, em paralelo, os resultados de uma instrução T-SQL SELECT para o Armazenamento do Azure.

Para obter mais informações sobre o que é ou não suportado atualmente, leia a visão geral do pool SQL sem servidor ou os seguintes artigos:

Desenvolva o acesso ao armazenamento onde você pode usar tabelas externas e a função OPENROWSET para ler dados do armazenamento.
Controle o acesso ao armazenamento onde você pode aprender a habilitar o Synapse SQL para acessar o armazenamento usando a autenticação SAS ou a Identidade Gerenciada do espaço de trabalho.

Descrição geral

Para dar suporte a uma experiência suave para consulta in-loco de dados localizados em arquivos de Armazenamento do Azure, o pool SQL sem servidor usa a função OPENROWSET com mais recursos:

Consultar arquivos PARQUET
Consultar arquivos CSV e texto delimitado (terminador de campo, terminador de linha, caracteres de escape)
Formato de consulta DELTA LAKE
Ler um subconjunto de colunas escolhido
Inferência de esquema
Consultar vários arquivos ou pastas
Função de nome de arquivo
Função Filepath
Trabalhar com tipos complexos e estruturas de dados aninhadas ou repetidas

Consultar arquivos PARQUET

Para consultar os dados fonte do Parquet, utilize FORMAT = 'PARQUET':

SELECT * FROM
OPENROWSET( BULK N'https://myaccount.dfs.core.windows.net/mycontainer/mysubfolder/data.parquet', FORMAT = 'PARQUET') 
WITH (C1 int, C2 varchar(20), C3 varchar(max)) as rows

Para obter exemplos de uso, consulte Arquivos do Query Parquet.

Consultar ficheiros CSV

Para consultar dados de origem CSV, use FORMAT = 'CSV'. Você pode especificar o esquema do arquivo CSV como parte da OPENROWSET função ao consultar arquivos CSV:

SELECT * FROM
OPENROWSET( BULK N'https://myaccount.dfs.core.windows.net/mycontainer/mysubfolder/data.csv', FORMAT = 'CSV', PARSER_VERSION='2.0') 
WITH (C1 int, C2 varchar(20), C3 varchar(max)) as rows

Existem algumas opções extras que podem ser usadas para ajustar as regras de análise para o formato CSV personalizado:

ESCAPE_CHAR = 'char' Especifica o carácter no ficheiro que é usado para escapar a si próprio e a todos os valores delimitadores no ficheiro. Se o caractere de escape for seguido por um valor diferente de si mesmo, ou qualquer um dos valores do delimitador, o caractere de escape será descartado ao ler o valor. O parâmetro ESCAPE_CHAR é aplicado quer o FIELDQUOTE esteja ou não habilitado. Não é usado para escapar ao carácter das citações. O caractere de citação deve ser precedido por outro caractere de citação. O carácter de citação só pode aparecer dentro do valor da coluna se o valor estiver encapsulado com caracteres de aspas.
FIELDTERMINATOR ='field_terminator' Especifica o terminador de campo a ser usado. O terminador de campo padrão é uma vírgula (,).
ROWTERMINATOR ='row_terminator' Especifica o terminador de linha a ser usado. O terminador de linha por defeito é um carácter de nova linha (\r\n).

Consultar o formato DELTA LAKE

Para consultar os dados de origem do Delta Lake, use FORMAT = 'DELTA' e faça referência à pasta raiz que contém os arquivos do Delta Lake.

SELECT * FROM
OPENROWSET( BULK N'https://myaccount.dfs.core.windows.net/mycontainer/mysubfolder', FORMAT = 'DELTA') 
WITH (C1 int, C2 varchar(20), C3 varchar(max)) as rows

A pasta raiz deve conter uma subpasta chamada _delta_log. Para exemplos de utilização, veja Consultar ficheiros Delta Lake (v1).

Esquema de arquivo

A linguagem SQL no Synapse SQL permite definir o esquema do arquivo como parte da OPENROWSET função e ler todas ou subconjuntos de colunas, ou tenta determinar automaticamente os tipos de coluna do arquivo usando inferência de esquema.

Ler um subconjunto de colunas escolhido

Para especificar colunas que pretende ler, pode fornecer uma cláusula opcional WITH dentro da sua OPENROWSET declaração.

Se houver arquivos de dados CSV, forneça nomes de colunas e seus tipos de dados para ler todas as colunas. Se pretender um subconjunto de colunas, utilize números ordinais para selecionar as colunas dos ficheiros de dados originais por ordinal. As colunas estão vinculadas pela designação ordinal.
Se existirem ficheiros de dados Parquet, forneça nomes de colunas que correspondam aos nomes de colunas dos ficheiros de dados de origem. As colunas são associadas pelo nome.

SELECT * FROM
OPENROWSET( BULK N'https://myaccount.dfs.core.windows.net/mycontainer/mysubfolder/data.parquet', FORMAT = 'PARQUET') 
WITH (
      C1 int, 
      C2 varchar(20),
      C3 varchar(max)
) as rows;

Para cada coluna, você precisa especificar o nome da coluna e digitar a WITH cláusula. Para exemplos, consulte Ler arquivos CSV sem especificar todas as colunas.

Inferência do esquema

Ao omitir a cláusula WITH da instrução OPENROWSET, pode-se instruir o serviço a detetar automaticamente (inferir) o esquema dos ficheiros subjacentes.

SELECT * FROM
OPENROWSET( BULK N'https://myaccount.dfs.core.windows.net/mycontainer/mysubfolder/data.parquet', FORMAT = 'PARQUET')

Certifique-se de que os tipos de dados inferidos apropriados sejam usados para um desempenho ideal.

Consultar vários arquivos ou pastas

Para executar uma consulta T-SQL sobre um conjunto de arquivos dentro de uma pasta ou conjunto de pastas, tratando-os como uma única entidade ou conjunto de linhas, forneça um caminho para uma pasta ou um padrão (usando curingas) em um conjunto de arquivos ou pastas.

Aplicam-se as seguintes regras:

Os padrões podem aparecer em parte de um caminho de diretório ou em um nome de arquivo.
Vários padrões podem aparecer na mesma etapa de diretório ou nome de arquivo.
Se existirem múltiplos caracteres universais, então os ficheiros dentro de todos os caminhos correspondentes são incluídos no conjunto de ficheiros resultante.

SELECT * FROM
OPENROWSET( BULK N'https://myaccount.dfs.core.windows.net/myroot/*/mysubfolder/*.parquet', FORMAT = 'PARQUET' ) as rows

Para obter exemplos de uso, consulte Consultar pastas e vários arquivos.

Funções de metadados de arquivo

Função de nome de arquivo

Esta função retorna o nome do arquivo do qual a linha se origina.

Para consultar arquivos específicos, leia a seção Nome do arquivo no artigo Consultar arquivos específicos.

O tipo de dados de retorno é nvarchar(1024). Para um desempenho ideal, sempre converta o resultado da função de nome de arquivo para o tipo de dados apropriado. Se utilizares o tipo de dados de caracteres, assegura-te de que o tamanho apropriado é usado.

Função Filepath

Esta função retorna um caminho completo ou uma parte do caminho:

Quando chamado sem parâmetro, retorna o caminho completo do arquivo do qual uma linha se origina.
Quando chamado com parâmetro, devolve a parte do caminho que corresponde ao caracter curinga na posição especificada no parâmetro. Por exemplo, o valor do parâmetro 1 devolveria parte do caminho que corresponde ao primeiro coringa.

Para obter informações adicionais, leia a seção Filepath do artigo Consultar arquivos específicos.

O tipo de dados de retorno é nvarchar(1024). Para um desempenho ideal, sempre converta o resultado da função filepath para o tipo de dados apropriado. Se utilizares o tipo de dados de caracteres, assegura-te de que o tamanho apropriado é usado.

Trabalhar com tipos complexos e estruturas de dados aninhadas ou repetidas

Para permitir uma experiência suave com dados armazenados em tipos de dados aninhados ou repetidos, como em arquivos Parquet , o pool SQL sem servidor adicionou as seguintes extensões.

Projetar dados aninhados ou repetidos

Para projetar dados, execute uma SELECT instrução sobre o ficheiro Parquet que contenha colunas de tipos de dados aninhados. Na saída, os valores aninhados são serializados para JSON e retornados como um tipo de dados SQL varchar(8000).

    SELECT * FROM
    OPENROWSET
    (   BULK 'unstructured_data_path' ,
        FORMAT = 'PARQUET' )
    [AS alias]

Para mais informações, consulte a secção Projetar dados aninhados ou repetidos do artigo Consultar tipos aninhados do Parquet.

Aceder a elementos a partir de colunas aninhadas

Para aceder a elementos aninhados a partir de uma coluna aninhada, como o Struct, use notação de pontos para concatenar nomes de campos no caminho. Fornecer o caminho como column_name na cláusula WITH da função OPENROWSET.

O exemplo de fragmento de sintaxe é o seguinte:

    OPENROWSET
    (   BULK 'unstructured_data_path' ,
        FORMAT = 'PARQUET' )
    WITH ('column_name' 'column_type')
    [AS alias]
    'column_name' ::= '[field_name.] field_name'

Por defeito, a função OPENROWSET associa o nome do campo de origem e o caminho aos nomes das colunas fornecidos na cláusula WITH. Elementos contidos em diferentes níveis de aninhamento dentro do mesmo ficheiro Parquet de origem podem ser acedidos usando a cláusula WITH.

Valores de retorno

Função devolve um valor escalar, como int, decimal e varchar, do elemento especificado e no caminho especificado, para todos os tipos Parquet que não estão no grupo Tipos Aninhados.
Se o caminho apontar para um elemento do Tipo Aninhado, a função devolve um trecho JSON começando pelo elemento superior do caminho especificado. O fragmento JSON é do tipo varchar(8000).
Se a propriedade não puder ser encontrada no especificado column_name, a função retornará um erro.
Se a propriedade não for encontrada no column_path especificado, dependendo do modo de caminho, a função devolve um erro quando está em modo estrito ou null quando está em modo lax.

Para exemplos de consultas, consulte a secção Read properties from nested object columns no artigo Query Parquet nested types.

Aceder a elementos a partir de colunas repetidas

Para acessar elementos de uma coluna repetida, como um elemento de uma matriz ou mapa, use a função JSON_VALUE para cada elemento escalar que você precisa projetar e fornecer:

Coluna aninhada ou repetida, como o primeiro parâmetro
Um caminho JSON que especifica o elemento ou propriedade a aceder como segundo parâmetro

Para acessar elementos não escalares de uma coluna repetida, use a função JSON_QUERY para cada elemento não escalar necessário para projetar e forneça:

Coluna aninhada ou repetida, como o primeiro parâmetro
Um caminho JSON que especifica o elemento ou propriedade a aceder como segundo parâmetro

Consulte o seguinte fragmento de sintaxe:

    SELECT
       JSON_VALUE (column_name, path_to_sub_element),
       JSON_QUERY (column_name [ , path_to_sub_element ])
    FROM
    OPENROWSET
    (   BULK 'unstructured_data_path' ,
        FORMAT = 'PARQUET' )
    [AS alias]

Pode encontrar exemplos de consulta para aceder a elementos em colunas repetidas no artigo Query Parquet nested types.

Para obter mais informações sobre como consultar diferentes tipos de arquivo e para criar e usar modos de exibição, consulte os seguintes artigos:

Comentários

Esta página foi útil?

Last updated on 2026-05-03