Fontes de dados e tipos de arquivo com suporte

Este artigo discute as fontes de dados, os tipos de arquivo e os conceitos de verificação com suporte no Mapa de Dados do Microsoft Purview.

Mapa de Dados do Microsoft Purview fontes de dados disponíveis

A tabela abaixo mostra todas as fontes que têm metadados técnicos disponíveis no Microsoft Purview. Selecione a fonte de dados para saber mais. A tabela também lista recursos adicionais com suporte para cada fonte de dados e você pode selecionar o recurso para obter mais informações.

Categoria Armazenamento de dados com suporte Classificação Exibição ao vivo Linhagem Rotulamento Política de Acesso Compartilhamento de dados
Azure Várias fontes Sim Limitado Não Dependente de origem Sim Não
Azure Storage Blob Sim Sim Limitado* Sim Sim (versão prévia) Sim
API do Azure Cosmos DB (API para NoSQL) Sim Não Não* Sim Não Não
Data Explorer do Azure Sim Não Não* Sim Não Não
Azure Data Factory Não Não Sim Não Não Não
Azure Data Lake Storage Gen1 Sim Não Limitado* Sim Não Não
Azure Data Lake Storage Gen2 Sim Sim Limitado* Sim Sim (versão prévia) Sim
Data Share do Azure Não Não Sim Não Não Não
Banco de Dados do Azure para MySQL Sim Não Não* Sim Não Não
Banco de Dados do Azure para PostgreSQL Sim Não Não* Sim Não Não
Azure Databricks Não Não Sim Não Não Não
Catálogo do Azure Databricks Unity Não Não Não Não Não Não
Pool de SQL dedicado do Azure (anteriormente SQL DW) Sim Não Não* Não Não Não
Arquivos do Azure Sim Não Limitado* Sim Não Não
Azure Machine Learning Não Não Sim Não Não Não
Banco de Dados SQL do Azure Sim Sim Sim (versão prévia) Sim Sim Não
Instância Gerenciada de SQL do Azure Sim Não Não* Sim Sim (versão prévia) Não
Azure Synapse Analytics (Workspace) Sim Não Sim - Pipelines do Synapse Sim Não Não
Banco de dados Amazon RDS Sim Não Não Não Não Não
Amazon Redshift Não Não Não Não Não Não
Cassandra Não Não Sim Não Não Não
Db2 Não Não Sim Não Não Não
Google BigQuery Não Não Sim Não Não Não
Banco de Dados Metastore do Hive Não Não Sim* Não Não Não
Mongodb Não Não Não Não Não Não
Mysql Não Não Sim Não Não Não
Oracle Sim Não Sim* Não Não Não
Postgresql Não Não Sim Não Não Não
SAP Business Warehouse Não Não Não Não Não Não
SAP HANA Não Não Não Não Não Não
Snowflake Sim Não Sim Não Não Não
SQL Server Sim Não Não* Sim Não Não
SQL Server no Azure-Arc Sim Não Não* Não Sim Não
Teradata Sim Não Sim* Não Não Não
Arquivo Amazon S3 Sim Não Limitado* Sim Não Não
HDFS Sim Não Não Não Não Não
Serviços e aplicativos Fluxo Não Não Sim Não Não Não
Erwin Não Não Sim Não Não Não
Bonita Não Não Sim Não Não Não
Power BI Não Não Sim Não Não Não
Salesforce Não Não Não Não Não Não
SAP ECC Não Não Sim* Não Não Não
SAP S/4HANA Não Não Sim* Não Não Não

* Além da linhagem em ativos dentro da fonte de dados, a linhagem também terá suporte se o conjunto de dados for usado como fonte/coletor no Pipeline do Data Factory ou do Synapse.

Observação

Atualmente, o Mapa de Dados do Microsoft Purview não pode verificar um ativo que tenha /, \ou # em seu nome. Para escopo da verificação e evitar a verificação de ativos que têm esses caracteres no nome do ativo, use o exemplo em Registrar e examine um banco de dados SQL do Azure.

Importante

Se você planeja usar um runtime de integração auto-hospedado, a verificação de algumas fontes de dados requer uma configuração adicional no computador de runtime de integração auto-hospedada. Por exemplo, JDK, Pacote Redistribuível do Visual C++ ou driver específico. Para sua origem, consulte cada artigo de origem para obter detalhes do pré-requisito. Todos os requisitos serão listados na seção Pré-requisitos .

Verificar regiões

A seguir está uma lista de todas as regiões de fonte de dados (data center) do Azure em que o scanner de Mapa de Dados do Microsoft Purview é executado. Se sua fonte de dados do Azure estiver em uma região fora dessa lista, o scanner será executado na região da instância do Microsoft Purview.

Mapa de Dados do Microsoft Purview regiões do scanner

  • Leste da Austrália
  • Sudeste da Austrália
  • Sul do Brasil
  • Canadá Central
  • Leste do Canadá
  • Índia Central
  • China North 3
  • Leste da Ásia
  • Leste dos EUA
  • Leste 2 dos EUA
  • França Central
  • Centro-Oeste da Alemanha
  • Leste do Japão
  • Korea Central
  • Centro-Norte dos EUA
  • Norte da Europa
  • Qatar Central
  • Norte da África do Sul
  • Centro-Sul dos EUA
  • Sudeste da Ásia
  • Norte da Suíça
  • Norte dos Emirados Árabes Unidos
  • Sul do Reino Unido
  • USGov Virginia
  • Centro-Oeste dos EUA
  • Europa Ocidental
  • Oeste dos EUA
  • Oeste 2 dos EUA
  • Oeste dos EUA 3

Tipos de arquivo com suporte para verificação

Os seguintes tipos de arquivo têm suporte para verificação, extração de esquema e classificação quando aplicável:

  • Os formatos de arquivo estruturados com suporte por extensão incluem verificação, extração de esquema e classificação de nível de ativo e coluna: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
  • Os formatos de arquivo de documento com suporte por extensão incluem verificação e classificação de nível de ativo: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLSB, XLSM, XLSM, XLSX, XLT
  • O Mapa de Dados do Microsoft Purview também dá suporte a extensões de arquivo personalizadas e analisadores personalizados.

Observação

Limitações conhecidas:

  • O scanner Mapa de Dados do Microsoft Purview só dá suporte à extração de esquema para os tipos de arquivo estruturados listados acima.
  • Para tipos de arquivo AVRO, ORC e PARQUET, o scanner não dá suporte à extração de esquema para arquivos que contêm tipos de dados complexos (por exemplo, MAP, LIST, STRUCT).
  • O scanner dá suporte à verificação de tipos PARQUET compactados e rápidos para extração e classificação de esquema.
  • Para tipos de arquivo GZIP, o GZIP deve ser mapeado para um único arquivo csv dentro. Os arquivos Gzip estão sujeitos a regras de classificação personalizada e de sistema. Atualmente, não há suporte para a verificação de um arquivo gzip mapeado para vários arquivos dentro ou qualquer tipo de arquivo diferente do csv.
  • Para tipos de arquivo delimitados (CSV, PSV, SSV, TSV, TXT):
    • Não oferecemos suporte à detecção de tipo de dados. O tipo de dados será listado como "cadeia de caracteres" para todas as colunas.
    • Só oferecemos suporte a vírgula(','), ponto e vírgula(';'), barra vertical('|') e tab('\t') como delimitadores.
    • Arquivos delimitados com menos de três linhas não podem ser determinados como arquivos CSV se estiverem usando um delimitador personalizado. Por exemplo: arquivos com ~ delimitador e menos de três linhas não poderão ser determinados como arquivos CSV.
    • Se um campo contiver aspas duplas, as aspas duplas só poderão aparecer no início e no final do campo e devem ser correspondidas. Aspas duplas que aparecem no meio do campo ou aparecem no início e no final, mas não são correspondidas, serão reconhecidas como dados ruins e não haverá nenhum esquema a ser analisado do arquivo. Linhas que têm um número diferente de colunas que a linha de cabeçalho serão julgadas como linhas de erro. (números de linhas de erro/números de linhas amostradas ) devem ser inferiores a 0,1.
  • Para arquivos Parquet, se você estiver usando um runtime de integração auto-hospedado, precisará instalar o JRE 11 de 64 bits (Ambiente do Java Runtime) ou OpenJDK em seu computador IR. Verifique nossa seção Ambiente do Java Runtime na parte inferior da página para obter um guia de instalação.

Extração de esquema

Atualmente, o número máximo de colunas com suporte na guia esquema de ativos é 800 para fontes do Azure, Power BI e SQL Server.

Dados aninhados

Atualmente, os dados aninhados só têm suporte para conteúdo JSON.

Para todos os tipos de arquivo com suporte do sistema, se houver conteúdo JSON aninhado em uma coluna, o scanner analisará os dados JSON aninhados e os apresentará na guia esquema do ativo.

Não há suporte para análise de dados aninhados ou esquema aninhado no SQL. Uma coluna com dados aninhados será relatada e classificada como é e subdata não será analisada.

Dados de amostragem para classificação

Em Mapa de Dados do Microsoft Purview terminologia,

  • Verificação L1: extrai informações básicas e meta dados como nome do arquivo, tamanho e nome totalmente qualificado
  • Verificação L2: extrai o esquema para tipos de arquivo estruturados e tabelas de banco de dados
  • Verificação L3: extrai o esquema quando aplicável e submete o arquivo amostrado às regras de classificação personalizadas e do sistema

Para todos os formatos de arquivo estruturados, o Mapa de Dados do Microsoft Purview scanner amostra arquivos da seguinte maneira:

  • Para tipos de arquivo estruturados, ele amostra as 128 principais linhas em cada coluna ou os primeiros 1 MB, o que for menor.
  • Para formatos de arquivo de documento, ele amostra os primeiros 20 MB de cada arquivo.
    • Se um arquivo de documento for maior que 20 MB, ele não estará sujeito a uma verificação profunda (sujeito à classificação). Nesse caso, o Microsoft Purview captura apenas meta dados básicos, como nome do arquivo e nome totalmente qualificado.
  • Para fontes de dados tabulares (SQL), ele amostra as 128 principais linhas.
  • Para o Azure Cosmos DB for NoSQL, até 300 propriedades distintas dos primeiros 10 documentos em um contêiner serão coletadas para o esquema e, para cada propriedade, valores de até 128 documentos ou os primeiros 1 MB serão amostrados.

Amostragem de arquivo de conjunto de recursos

Uma pasta ou um grupo de arquivos de partição é detectado como um conjunto de recursos no Mapa de Dados do Microsoft Purview se corresponder a uma política de conjunto de recursos do sistema ou a uma política de conjunto de recursos definida pelo cliente. Se um conjunto de recursos for detectado, o scanner amostrará cada pasta que ele contém. Saiba mais sobre conjuntos de recursos aqui.

Amostragem de arquivo para conjuntos de recursos por tipos de arquivo:

  • Arquivos delimitados (CSV, PSV, SSV, TSV) – 1 em cada 100 arquivos são amostrados (verificação L3) em uma pasta ou grupo de arquivos de partição que são considerados um "conjunto de recursos"
  • Tipos de arquivo do Data Lake (Parquet, Avro, Orc) – 1 em 18446744073709551615 arquivos (long max) são amostrados (verificação L3) dentro de uma pasta ou grupo de arquivos de partição que são considerados um "conjunto de recursos"
  • Outros tipos de arquivo estruturados (JSON, XML, TXT) – 1 em cada 100 arquivos são amostrados (verificação L3) dentro de uma pasta ou grupo de arquivos de partição que são considerados um 'conjunto de recursos'
  • Objetos SQL e entidades do Azure Cosmos DB – cada arquivo é verificado em L3.
  • Tipos de arquivo de documento – Cada arquivo é verificado em L3. Os padrões de conjunto de recursos não se aplicam a esses tipos de arquivo.

Próximas etapas