Virtualização de dados com a Instância Gerenciada SQL do Azure

Aplica-se a:Azure SQL Managed Instance

Este artigo descreve o recurso de virtualização de dados da Instância Gerenciada SQL do Azure. A virtualização de dados permite executar consultas Transact-SQL (T-SQL) em arquivos que armazenam dados em formatos de dados comuns no Azure Data Lake Storage Gen2 ou no Armazenamento de Blobs do Azure. Você pode combinar esses dados com dados relacionais armazenados localmente usando junções. Com a virtualização de dados, você pode acessar dados externos de forma transparente no modo somente leitura, mantendo-os em seu formato e local originais.

Visão geral

A virtualização de dados fornece duas maneiras de consultar arquivos destinados a diferentes conjuntos de cenários:

Sintaxe OPENROWSET: Otimizada para consultas ad hoc de arquivos. Normalmente usado para explorar rapidamente o conteúdo e a estrutura de um novo conjunto de arquivos.
Sintaxe CREATE EXTERNAL TABLE: Otimizada para consultas repetitivas de arquivos usando sintaxe idêntica como se os dados fossem armazenados localmente no banco de dados. As tabelas externas exigem várias etapas de preparação em comparação com a sintaxe OPENROWSET, mas permitem mais controle sobre o acesso aos dados. Use tabelas externas para cargas de trabalho analíticas e relatórios.

Em ambos os casos, crie uma fonte de dados externa usando a sintaxe CREATE EXTERNAL DATA SOURCE T-SQL, conforme demonstrado neste artigo.

A sintaxe CREATE EXTERNAL TABLE AS SELECT também está disponível para a Instância Gerenciada SQL do Azure. Isso é para exportar os resultados de uma instrução T-SQL SELECT para os arquivos Parquet ou CSV no Armazenamento de Blobs do Azure ou no Azure Data Lake Storage (ADLS) Gen 2 e criar uma tabela externa sobre esses arquivos.

Formatos de ficheiro

Os formatos de arquivo Parquet e texto delimitado (CSV) são diretamente suportados. O formato de arquivo JSON é suportado indiretamente, especificando o formato de arquivo CSV onde as consultas retornam cada documento como uma linha separada. Você pode analisar linhas ainda mais usando JSON_VALUE e OPENJSON.

Tipos de armazenamento

Armazene arquivos no Azure Data Lake Storage Gen2 ou no Armazenamento de Blobs do Azure. Para consultar arquivos, forneça o local em um formato específico e use o prefixo do tipo de local que corresponde ao tipo de fonte externa e ponto de extremidade ou protocolo, como os seguintes exemplos:

--Blob Storage endpoint
abs://<container>@<storage_account>.blob.core.windows.net/<path>/<file_name>.parquet

--Data Lake endpoint
adls://<container>@<storage_account>.dfs.core.windows.net/<path>/<file_name>.parquet

Importante

O prefixo de tipo de localização fornecido é usado para escolher o protocolo ideal para comunicação e para usar quaisquer recursos avançados oferecidos pelo tipo de armazenamento específico. O uso do prefixo https:// genérico está desabilitado. Use sempre prefixos específicos do ponto de extremidade.

Introdução

Se você é novo na virtualização de dados e deseja testar rapidamente a funcionalidade, comece consultando conjuntos de dados públicos disponíveis em Conjuntos de Dados Abertos do Azure, como o conjunto de dados do Bing COVID-19 que permite acesso anônimo.

Use as seguintes interfaces para consultar os conjuntos de dados do Bing COVID-19.

Parquet: abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet
VCS: abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.csv

Para um início rápido, execute uma consulta T-SQL para obter as primeiras informações sobre o conjunto de dados. Esta consulta usa OPENROWSET para consultar um arquivo armazenado em uma conta de armazenamento disponível publicamente:

--Quick query on a file stored in a publicly available storage account:
SELECT TOP 10 *
FROM OPENROWSET(
 BULK 'abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet',
 FORMAT = 'parquet'
) AS filerows

Você pode continuar a exploração do conjunto de dados anexando WHERE, GROUP BYe outras cláusulas com base no conjunto de resultados da primeira consulta.

Se a primeira consulta falhar em sua instância gerenciada pelo SQL, essa instância provavelmente terá acesso restrito às contas de armazenamento do Azure. Fale com seu especialista em rede para habilitar o acesso antes de prosseguir com a consulta.

Quando estiver familiarizado com a consulta de conjuntos de dados públicos, considere mudar para conjuntos de dados não públicos que exijam o fornecimento de credenciais, a concessão de direitos de acesso e a configuração de regras de firewall. Em muitos cenários do mundo real, você opera principalmente com conjuntos de dados privados.

Acesso a contas de armazenamento não públicas

Um usuário que entra em uma instância gerenciada SQL deve ser autorizado a acessar e consultar arquivos armazenados em uma conta de armazenamento não pública. As etapas de autorização dependem de como a instância gerenciada SQL se autentica na conta de armazenamento. O tipo de autenticação e quaisquer parâmetros relacionados não são fornecidos diretamente com cada consulta. O objeto de credencial com escopo específico armazenado no banco de dados do utilizador encapsula estas informações. O banco de dados usa a credencial para acessar a conta de armazenamento sempre que a consulta for executada.

A Instância Gerenciada SQL do Azure dá suporte aos seguintes tipos de autenticação:

Identidade gerenciada
Assinatura de acesso compartilhado (SAS)

Identidade gerenciada
Assinatura de acesso compartilhado

Uma identidade gerenciada é um recurso do Microsoft Entra ID (anteriormente Azure Ative Directory) que fornece serviços do Azure - como a Instância Gerenciada SQL do Azure - com uma identidade gerenciada no Microsoft Entra ID. Você pode usar essa identidade para autorizar solicitações de acesso a dados em contas de armazenamento não públicas. Serviços como a Instância Gerenciada SQL do Azure têm uma identidade gerenciada atribuída ao sistema e também podem ter uma ou mais identidades gerenciadas atribuídas pelo usuário. Você pode usar identidades gerenciadas atribuídas pelo sistema ou identidades gerenciadas atribuídas pelo usuário para virtualização de dados com a Instância Gerenciada SQL do Azure.

O administrador de armazenamento do Azure deve primeiro conceder permissões à identidade gerenciada para acessar os dados. Conceda permissões à identidade gerenciada atribuída pelo sistema da instância gerenciada SQL da mesma forma que concede permissões a qualquer outro usuário do Microsoft Entra. Por exemplo:

No portal do Azure, na página Controle de Acesso (IAM) de uma conta de armazenamento, selecione Adicionar atribuição de função.
Escolha a função RBAC integrada do Azure Leitor de Dados de Blob de Armazenamento. Essa função fornece acesso de leitura à identidade gerenciada para os contêineres de Armazenamento de Blob do Azure necessários.
- Em vez de conceder à identidade gerida a função Leitor de Dados de Blob de Armazenamento do RBAC do Azure, pode-se também conceder permissões mais detalhadas em um subconjunto de arquivos. Todos os utilizadores que precisam de acesso a Ler arquivos individuais neste conjunto de dados também devem ter permissão Executar em todas as pastas-mãe até à raiz (o contentor). Para obter mais informações, consulte Definir ACLs no Azure Data Lake Storage Gen2.
Na página seguinte, selecione Atribuir acesso àidentidade gerenciada. Selecione + Selecionar membros e, na lista suspensa Identidade gerenciada , selecione a identidade gerenciada desejada. Para obter mais informações, consulte Atribuir funções do Azure usando o portal do Azure.
Em seguida, crie a credencial com escopo de banco de dados para autenticação de identidade gerenciada. Observe no exemplo a seguir que 'Managed Identity' é uma cadeia de caracteres codificada.

-- Optional: Create MASTER KEY if it doesn't exist in the database:
-- CREATE MASTER KEY ENCRYPTION BY PASSWORD = '<Some Very Strong Password Here>'
GO
CREATE DATABASE SCOPED CREDENTIAL MyCredential
WITH IDENTITY = 'Managed Identity'

A assinatura de acesso compartilhado (SAS) fornece acesso delegado a arquivos em uma conta de armazenamento. O SAS oferece controle granular sobre o tipo de acesso concedido, incluindo um intervalo de validade, permissões concedidas e um intervalo de endereços IP aceitável. Uma vez criado, o token SAS não pode ser revogado ou excluído. Um token SAS permite o acesso até que seu período de validade expire.

Você pode obter um token SAS de várias maneiras:

Navegue até o portal do Azure -><Your_Storage_Account> -> Assinatura de acesso compartilhado -> Configurar permissões -> Gerar SAS e cadeia de conexão. Para obter mais informações, consulte Gerar uma assinatura de acesso compartilhado.
Crie e configure uma SAS com o Azure Storage Explorer.
Crie um token SAS programaticamente por meio do PowerShell, CLI do Azure, .NET e API REST. Para obter mais informações, consulte Conceder acesso limitado aos recursos do Armazenamento do Azure usando assinaturas de acesso compartilhado (SAS).

Conceda permissões de Leitura e Lista através do SAS para aceder a dados externos. Atualmente, a virtualização de dados com a Instância Gerenciada SQL do Azure é somente leitura.

Quando você gera um token SAS, ele inclui um ponto de interrogação (?) no início do token. Para usar o token, remova o ponto de interrogação (?) ao criar uma credencial. Por exemplo:

-- Optional: Create MASTER KEY if it doesn't exist in the database:
-- CREATE MASTER KEY ENCRYPTION BY PASSWORD = '<Some Very Strong Password Here>'
GO
CREATE DATABASE SCOPED CREDENTIAL MyCredential
WITH IDENTITY = 'SHARED ACCESS SIGNATURE',
SECRET = 'sv=2018-03-28&ss=bfqt&srt=sco&sp=rwdlacup&se=2019-04-18T20:42:12Z&st=2019-04-18T12:42:12Z&spr=https&sig=lQHczNvrk1Ko3VYEIq78%3D'

Fonte de dados externa

Uma fonte de dados externa é uma abstração que fornece uma referência fácil a um local de arquivo em várias consultas. Para consultar locais públicos, especifique o local do arquivo ao criar uma fonte de dados externa:

CREATE EXTERNAL DATA SOURCE MyExternalDataSource
WITH (
    LOCATION = 'abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest'
)

Para acessar contas de armazenamento não públicas, especifique o local e faça referência a uma credencial com escopo de banco de dados com parâmetros de autenticação encapsulados. O script a seguir cria uma fonte de dados externa que aponta para o caminho do arquivo e faz referência a uma credencial com escopo de banco de dados:

-- Create external data source that points to the file path, and that references a database scoped credential:
CREATE EXTERNAL DATA SOURCE MyPrivateExternalDataSource
WITH (
    LOCATION = 'abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest'
        CREDENTIAL = [MyCredential];
)

Consultar fontes de dados usando OPENROWSET

A sintaxe OPENROWSET permite consultas ad hoc instantâneas enquanto cria apenas o número mínimo de objetos de banco de dados necessários.

OPENROWSET requer apenas a criação da fonte de dados externa (e possivelmente a credencial) em oposição à abordagem de tabela externa, que requer um formato de arquivo externo e a própria tabela externa .

O DATA_SOURCE valor do parâmetro é automaticamente anexado ao parâmetro BULK para formar o caminho completo para o arquivo.

Ao usar OPENROWSETo , forneça o formato do arquivo, como o exemplo a seguir, que consulta um único arquivo:

SELECT TOP 10 *
FROM OPENROWSET(
 BULK 'bing_covid-19_data.parquet',
 DATA_SOURCE = 'MyExternalDataSource',
 FORMAT = 'parquet'
) AS filerows;

Consultar vários arquivos e pastas

O OPENROWSET comando também permite consultar vários arquivos ou pastas usando curingas no caminho MASS.

O exemplo a seguir usa o conjunto de dados abertos de registros de viagem de táxi amarelo de Nova York.

Primeiro, crie a fonte de dados externa:

--Create the data source first:
CREATE EXTERNAL DATA SOURCE NYCTaxiExternalDataSource
WITH (LOCATION = 'abs://nyctlc@azureopendatastorage.blob.core.windows.net');

Agora, você pode consultar todos os arquivos com .parquet extensão em pastas. Por exemplo, a consulta a seguir é apenas para os arquivos que correspondem a um padrão de nome:

--Query all files with .parquet extension in folders matching name pattern:
SELECT TOP 10 *
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT = 'parquet'
) AS filerows;

Ao consultar vários arquivos ou pastas, todos os arquivos acessados com o único OPENROWSET devem ter a mesma estrutura (como o mesmo número de colunas e tipos de dados). As pastas não podem ser percorridas recursivamente.

Inferência do esquema

A inferência automática de esquema ajuda você a escrever consultas e explorar dados rapidamente quando você não conhece esquemas de arquivo. A inferência de esquema só funciona com arquivos parquet.

Embora convenientes, os tipos de dados inferidos podem ser maiores do que os tipos de dados reais, porque pode não haver informações suficientes nos arquivos de origem para garantir que o tipo de dados apropriado seja usado. Tal pode levar a um fraco desempenho da consulta. Por exemplo, os arquivos parquet não contêm metadados sobre o comprimento máximo da coluna de caracteres, então a instância infere como varchar(8000).

Utilize o procedimento armazenado sp_describe_first_results_set para verificar os tipos de dados resultantes da consulta, tais como o seguinte exemplo:

EXEC sp_describe_first_result_set N'
 SELECT
 vendorID, tpepPickupDateTime, passengerCount
 FROM
 OPENROWSET(
  BULK ''yellow/*/*/*.parquet'',
  DATA_SOURCE = ''NYCTaxiExternalDataSource'',
  FORMAT=''parquet''
 ) AS nyc';

Depois de conhecer os tipos de dados, especifique-os usando a cláusula para melhorar o WITH desempenho:

SELECT TOP 100
 vendorID, tpepPickupDateTime, passengerCount
FROM
OPENROWSET(
 BULK 'yellow/*/*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT='PARQUET'
 )
WITH (
vendorID varchar(4), -- we're using length of 4 instead of the inferred 8000
tpepPickupDateTime datetime2,
passengerCount int
) AS nyc;

Como o esquema de arquivos CSV não pode ser determinado automaticamente, sempre especifique colunas usando a WITH cláusula:

SELECT TOP 10 id, updated, confirmed, confirmed_change
FROM OPENROWSET(
 BULK 'bing_covid-19_data.csv',
 DATA_SOURCE = 'MyExternalDataSource',
 FORMAT = 'CSV',
 FIRSTROW = 2
)
WITH (
 id int,
 updated date,
 confirmed int,
 confirmed_change int
) AS filerows;

Funções de metadados de arquivo

Ao consultar vários arquivos ou pastas, você pode usar filepath() e filename() funções para ler metadados de arquivo e obter parte do caminho ou caminho completo e nome do arquivo do qual a linha no conjunto de resultados se origina:

--Query all files and project file path and file name information for each row:
SELECT TOP 10 filerows.filepath(1) as [Year_Folder], filerows.filepath(2) as [Month_Folder],
filerows.filename() as [File_name], filerows.filepath() as [Full_Path], *
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT = 'parquet') AS filerows;
--List all paths:
SELECT DISTINCT filerows.filepath(1) as [Year_Folder], filerows.filepath(2) as [Month_Folder]
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT = 'parquet') AS filerows;

Quando chamada sem um parâmetro, a filepath() função retorna o caminho do arquivo do qual a linha se origina. Quando DATA_SOURCE usado no OPENROWSET, ele retorna o caminho relativo ao DATA_SOURCE, caso contrário, retorna o caminho completo do arquivo.

Quando chamado com um parâmetro, ele retorna parte do caminho que corresponde ao caracter curinga na posição especificada no parâmetro. Por exemplo, o valor do parâmetro 1 retorna parte do caminho que corresponde ao primeiro curinga.

A filepath() função também pode ser usada para filtrar e agregar linhas:

SELECT
 r.filepath() AS filepath
 ,r.filepath(1) AS [year]
 ,r.filepath(2) AS [month]
 ,COUNT_BIG(*) AS [rows]
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
DATA_SOURCE = 'NYCTaxiExternalDataSource',
FORMAT = 'parquet'
 ) AS r
WHERE
 r.filepath(1) IN ('2017')
 AND r.filepath(2) IN ('10', '11', '12')
GROUP BY
 r.filepath()
 ,r.filepath(1)
 ,r.filepath(2)
ORDER BY
 filepath;

Criar vista na parte superior de OPENROWSET

Você pode criar e usar modos de exibição para encapsular consultas OPENROWSET para que possa reutilizar facilmente a consulta subjacente:

CREATE VIEW TaxiRides AS
SELECT *
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT = 'parquet'
) AS filerows

Também é conveniente adicionar colunas com os dados de localização do arquivo a uma visualização usando a filepath() função para uma filtragem mais fácil e mais eficiente. O uso de modos de exibição pode reduzir o número de arquivos e a quantidade de dados, a consulta na parte superior do modo de exibição precisa ler e processar quando filtrada por qualquer uma dessas colunas:

CREATE VIEW TaxiRides AS
SELECT *
 , filerows.filepath(1) AS [year]
 , filerows.filepath(2) AS [month]
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT = 'parquet'
) AS filerows

As exibições também permitem que ferramentas analíticas e de relatórios, como o Power BI, consumam resultados do OPENROWSET.

Tabelas externas

As tabelas externas encapsulam o acesso a arquivos, portanto, consultá-las parece quase o mesmo que consultar dados relacionais locais armazenados em tabelas de usuário. Para criar uma tabela externa, você precisa ter uma fonte de dados externa e objetos de formato de arquivo externo no lugar:

--Create external file format
CREATE EXTERNAL FILE FORMAT DemoFileFormat
WITH (
 FORMAT_TYPE=PARQUET
)
GO

--Create external table:
CREATE EXTERNAL TABLE tbl_TaxiRides(
 vendorID VARCHAR(100) COLLATE Latin1_General_BIN2,
 tpepPickupDateTime DATETIME2,
 tpepDropoffDateTime DATETIME2,
 passengerCount INT,
 tripDistance FLOAT,
 puLocationId VARCHAR(8000),
 doLocationId VARCHAR(8000),
 startLon FLOAT,
 startLat FLOAT,
 endLon FLOAT,
 endLat FLOAT,
 rateCodeId SMALLINT,
 storeAndFwdFlag VARCHAR(8000),
 paymentType VARCHAR(8000),
 fareAmount FLOAT,
 extra FLOAT,
 mtaTax FLOAT,
 improvementSurcharge VARCHAR(8000),
 tipAmount FLOAT,
 tollsAmount FLOAT,
 totalAmount FLOAT
)
WITH (
 LOCATION = 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = NYCTaxiExternalDataSource,
 FILE_FORMAT = DemoFileFormat
);
GO

Depois de criar a tabela externa, você pode consultá-la como qualquer outra tabela:

SELECT TOP 10 *
FROM tbl_TaxiRides;

Como OPENROWSET, as tabelas externas suportam a consulta de vários ficheiros e pastas com curingas. No entanto, as tabelas externas não suportam inferência de esquema.

Considerações sobre desempenho

Não há limite rígido para o número de arquivos ou a quantidade de dados que você pode consultar, mas o desempenho da consulta depende da quantidade de dados, do formato dos dados, da forma como os dados são organizados e da complexidade das consultas e junções.

Consultar dados particionados

Os dados geralmente são organizados em subpastas, também chamadas de partições. Você pode instruir a instância gerenciada do SQL a consultar apenas pastas e arquivos específicos. Isso reduz o número de arquivos e a quantidade de dados que a consulta precisa ler e processar, resultando em um melhor desempenho. Este tipo de otimização de consulta é conhecido como redução de partição ou remoção de partição. Você pode eliminar partições da execução da consulta usando a filepath() função WHERE de metadados na cláusula da consulta.

A consulta de exemplo a seguir lê os arquivos de dados do NYC Yellow Taxi somente para os últimos três meses de 2017:

SELECT
    r.filepath() AS filepath
    ,r.filepath(1) AS [year]
    ,r.filepath(2) AS [month]
    ,COUNT_BIG(*) AS [rows]
FROM OPENROWSET(
        BULK 'yellow/puYear=*/puMonth=*/*.parquet',
        DATA_SOURCE = 'NYCTaxiExternalDataSource',
        FORMAT = 'parquet'
    )
WITH (
    vendorID INT
) AS [r]
WHERE
    r.filepath(1) IN ('2017')
    AND r.filepath(2) IN ('10', '11', '12')
GROUP BY
    r.filepath()
    ,r.filepath(1)
    ,r.filepath(2)
ORDER BY
    filepath;

Se os dados armazenados não estiverem particionados, considere particioná-los para melhorar o desempenho da consulta.

Se estiveres a usar tabelas externas, as funções filepath() e filename() são suportadas, mas não na cláusula WHERE. Você ainda pode filtrar por filename ou filepath se usá-los em colunas computadas, como o exemplo a seguir demonstra:

CREATE EXTERNAL TABLE tbl_TaxiRides (
 vendorID VARCHAR(100) COLLATE Latin1_General_BIN2,
 tpepPickupDateTime DATETIME2,
 tpepDropoffDateTime DATETIME2,
 passengerCount INT,
 tripDistance FLOAT,
 puLocationId VARCHAR(8000),
 doLocationId VARCHAR(8000),
 startLon FLOAT,
 startLat FLOAT,
 endLon FLOAT,
 endLat FLOAT,
 rateCodeId SMALLINT,
 storeAndFwdFlag VARCHAR(8000),
 paymentType VARCHAR(8000),
 fareAmount FLOAT,
 extra FLOAT,
 mtaTax FLOAT,
 improvementSurcharge VARCHAR(8000),
 tipAmount FLOAT,
 tollsAmount FLOAT,
 totalAmount FLOAT,
 [Year]  AS CAST(filepath(1) AS INT), --use filepath() for partitioning
 [Month]  AS CAST(filepath(2) AS INT) --use filepath() for partitioning
)
WITH (
 LOCATION = 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = NYCTaxiExternalDataSource,
 FILE_FORMAT = DemoFileFormat
);
GO

SELECT *
      FROM tbl_TaxiRides
WHERE
      [year]=2017
      AND [month] in (10,11,12);

Se os dados armazenados não estiverem particionados, considere particioná-los para melhorar o desempenho da consulta.

Estatísticas

Coletar estatísticas sobre seus dados externos é uma das coisas mais importantes que você pode fazer para a otimização de consultas. Quanto mais a instância souber sobre seus dados, mais rápido ela poderá executar consultas. O otimizador de consulta do mecanismo SQL é um otimizador baseado em custo. Ele compara o custo de vários planos de consulta e, em seguida, escolhe o plano com o menor custo. Na maioria dos casos, escolhe o plano que executa mais rápido.

Criação automática de estatísticas

A Instância Gerenciada SQL do Azure analisa consultas de usuários de entrada em busca de estatísticas ausentes. Se as estatísticas estiverem ausentes, o otimizador de consulta criará automaticamente estatísticas em colunas individuais no predicado de consulta ou na condição de junção para melhorar as estimativas de cardinalidade para o plano de consulta. A criação automática de estatísticas é feita de forma síncrona, de modo que você pode incorrer em um desempenho de consulta ligeiramente degradado se suas colunas estiverem faltando estatísticas. O tempo para criar estatísticas para uma única coluna depende do tamanho dos arquivos de destino.

Estatísticas manuais OPENROWSET

Estatísticas de coluna única para o caminho de OPENROWSET podem ser criadas usando o procedimento armazenado sys.sp_create_openrowset_statistics, passando a consulta de seleção com uma única coluna como parâmetro.

EXEC sys.sp_create_openrowset_statistics N'
SELECT pickup_datetime
FROM OPENROWSET(
 BULK ''abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest/*.parquet'',
 FORMAT = ''parquet'') AS filerows
';

Por padrão, a instância usa 100% dos dados fornecidos no conjunto de dados para criar estatísticas. Opcionalmente, você pode especificar o tamanho da amostra como uma porcentagem usando as TABLESAMPLE opções. Para criar estatísticas de coluna única para várias colunas, execute sys.sp_create_openrowset_statistics para cada uma das colunas. Não é possível criar estatísticas de várias colunas para o caminho OPENROWSET.

Para atualizar as estatísticas existentes, solte-as primeiro usando o sys.sp_drop_openrowset_statistics procedimento armazenado e, em seguida, recrie-as usando o sys.sp_create_openrowset_statistics:

EXEC sys.sp_drop_openrowset_statistics N'
SELECT pickup_datetime
FROM OPENROWSET(
 BULK ''abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest/*.parquet'',
 FORMAT = ''parquet'') AS filerows
';

Estatísticas manuais de tabelas externas

A sintaxe para criar estatísticas em tabelas externas é semelhante à usada para tabelas de usuários comuns. Para criar estatísticas em uma coluna, forneça um nome para o objeto statistics e o nome da coluna:

CREATE STATISTICS sVendor
ON tbl_TaxiRides (vendorID)
WITH FULLSCAN, NORECOMPUTE;

As WITH opções são obrigatórias e, para o tamanho da amostra, as opções permitidas são FULLSCAN e SAMPLE n porcentagem.

Para criar estatísticas de coluna única para várias colunas, execute CREATE STATISTICS para cada uma das colunas.
Não há suporte para estatísticas de várias colunas.

Solucionar problemas

Os problemas com a execução da consulta normalmente acontecem quando a instância gerenciada pelo SQL não consegue acessar o local do arquivo. Mensagens de erro relacionadas podem relatar direitos de acesso insuficientes, um local que não existe, arquivo sendo usado por outro processo ou que o diretório não pode ser listado. Na maioria dos casos, esses erros indicam que as políticas de controle de tráfego de rede bloqueiam o acesso aos arquivos ou que o usuário não tem direitos de acesso. Confira os seguintes itens:

Caminho de localização errado ou escrito com erros.
Validade da chave SAS. Pode ter expirado, conter um erro de digitação ou começar com um ponto de interrogação.
Permissões de chave SAS permitidas. Leia no mínimo e Liste se curingas são usados.
Tráfego de entrada bloqueado na conta de armazenamento. Verifique Gerenciando regras de rede virtual para o Armazenamento do Azure para obter detalhes e verifique se o acesso da VNet da instância gerenciada SQL é permitido.
Tráfego de saída bloqueado na instância gerenciada SQL usando a política de ponto de extremidade de armazenamento. Permitir o tráfego de saída para a conta de armazenamento.
Direitos de acesso de identidade gerenciados. Verifique se a identidade gerenciada da instância tem direitos de acesso à conta de armazenamento.
O nível de compatibilidade do banco de dados deve ser 130 ou superior para que as consultas de virtualização de dados funcionem.

CRIAR TABELA EXTERNA COMO SELECIONAR (CETAS)

CREATE EXTERNAL TABLE AS SELECT (CETAS) permite exportar dados da sua instância gerenciada SQL para uma conta de armazenamento externa. Você pode usar o CETAS para criar uma tabela externa sobre arquivos Parquet ou CSV no armazenamento de Blob do Azure ou no Azure Data Lake Storage (ADLS) Gen2. O CETAS também pode exportar, em paralelo, os resultados de uma instrução T-SQL SELECT para a tabela externa criada. Há potencial para risco de exfiltração de dados com esses recursos, portanto, a Instância Gerenciada SQL do Azure desabilita o CETAS por padrão. Para ativar, veja CREATE EXTERNAL TABLE AS SELECT (CETAS).

Limitações

O recurso de segurança em nível de linha não é suportado com tabelas externas.
A regra de mascaramento de dados dinâmicos não pode ser definida para uma coluna em uma tabela externa.

Problemas conhecidos

Quando a parametrização para Always Encrypted está habilitada no SQL Server Management Studio (SSMS), as consultas de virtualização de dados falham com Incorrect syntax near 'PUSHDOWN' uma mensagem de erro.

Comentários

Esta página foi útil?

Last updated on 2025-09-11