Fontes de dados e tipos de arquivo com suporte
Este artigo discute as fontes de dados, os tipos de arquivo e os conceitos de verificação com suporte no Mapa de Dados do Microsoft Purview.
Mapa de Dados do Microsoft Purview fontes de dados disponíveis
A tabela abaixo mostra todas as fontes que têm metadados técnicos disponíveis no Microsoft Purview. Selecione a fonte de dados para saber mais. A tabela também lista recursos adicionais com suporte para cada fonte de dados e você pode selecionar o recurso para obter mais informações.
Categoria | Armazenamento de dados com suporte | Classificação | Exibição ao vivo | Linhagem | Rotulamento | Política de Acesso | Compartilhamento de dados |
---|---|---|---|---|---|---|---|
Azure | Várias fontes | Sim | Limitado | Não | Dependente de origem | Sim | Não |
Azure Storage Blob | Sim | Sim | Limitado* | Sim | Sim (versão prévia) | Sim | |
API do Azure Cosmos DB (API para NoSQL) | Sim | Não | Não* | Sim | Não | Não | |
Data Explorer do Azure | Sim | Não | Não* | Sim | Não | Não | |
Azure Data Factory | Não | Não | Sim | Não | Não | Não | |
Azure Data Lake Storage Gen1 | Sim | Não | Limitado* | Sim | Não | Não | |
Azure Data Lake Storage Gen2 | Sim | Sim | Limitado* | Sim | Sim (versão prévia) | Sim | |
Data Share do Azure | Não | Não | Sim | Não | Não | Não | |
Banco de Dados do Azure para MySQL | Sim | Não | Não* | Sim | Não | Não | |
Banco de Dados do Azure para PostgreSQL | Sim | Não | Não* | Sim | Não | Não | |
Azure Databricks | Não | Não | Sim | Não | Não | Não | |
Catálogo do Azure Databricks Unity | Não | Não | Não | Não | Não | Não | |
Pool de SQL dedicado do Azure (anteriormente SQL DW) | Sim | Não | Não* | Não | Não | Não | |
Arquivos do Azure | Sim | Não | Limitado* | Sim | Não | Não | |
Azure Machine Learning | Não | Não | Sim | Não | Não | Não | |
Banco de Dados SQL do Azure | Sim | Sim | Sim (versão prévia) | Sim | Sim | Não | |
Instância Gerenciada de SQL do Azure | Sim | Não | Não* | Sim | Sim (versão prévia) | Não | |
Azure Synapse Analytics (Workspace) | Sim | Não | Sim - Pipelines do Synapse | Sim | Não | Não | |
Banco de dados | Amazon RDS | Sim | Não | Não | Não | Não | Não |
Amazon Redshift | Não | Não | Não | Não | Não | Não | |
Cassandra | Não | Não | Sim | Não | Não | Não | |
Db2 | Não | Não | Sim | Não | Não | Não | |
Google BigQuery | Não | Não | Sim | Não | Não | Não | |
Banco de Dados Metastore do Hive | Não | Não | Sim* | Não | Não | Não | |
Mongodb | Não | Não | Não | Não | Não | Não | |
Mysql | Não | Não | Sim | Não | Não | Não | |
Oracle | Sim | Não | Sim* | Não | Não | Não | |
Postgresql | Não | Não | Sim | Não | Não | Não | |
SAP Business Warehouse | Não | Não | Não | Não | Não | Não | |
SAP HANA | Não | Não | Não | Não | Não | Não | |
Snowflake | Sim | Não | Sim | Não | Não | Não | |
SQL Server | Sim | Não | Não* | Sim | Não | Não | |
SQL Server no Azure-Arc | Sim | Não | Não* | Não | Sim | Não | |
Teradata | Sim | Não | Sim* | Não | Não | Não | |
Arquivo | Amazon S3 | Sim | Não | Limitado* | Sim | Não | Não |
HDFS | Sim | Não | Não | Não | Não | Não | |
Serviços e aplicativos | Fluxo | Não | Não | Sim | Não | Não | Não |
Erwin | Não | Não | Sim | Não | Não | Não | |
Bonita | Não | Não | Sim | Não | Não | Não | |
Power BI | Não | Não | Sim | Não | Não | Não | |
Salesforce | Não | Não | Não | Não | Não | Não | |
SAP ECC | Não | Não | Sim* | Não | Não | Não | |
SAP S/4HANA | Não | Não | Sim* | Não | Não | Não |
* Além da linhagem em ativos dentro da fonte de dados, a linhagem também terá suporte se o conjunto de dados for usado como fonte/coletor no Pipeline do Data Factory ou do Synapse.
Observação
Atualmente, o Mapa de Dados do Microsoft Purview não pode verificar um ativo que tenha /
, \
ou #
em seu nome. Para escopo da verificação e evitar a verificação de ativos que têm esses caracteres no nome do ativo, use o exemplo em Registrar e examine um banco de dados SQL do Azure.
Importante
Se você planeja usar um runtime de integração auto-hospedado, a verificação de algumas fontes de dados requer uma configuração adicional no computador de runtime de integração auto-hospedada. Por exemplo, JDK, Pacote Redistribuível do Visual C++ ou driver específico. Para sua origem, consulte cada artigo de origem para obter detalhes do pré-requisito. Todos os requisitos serão listados na seção Pré-requisitos .
Verificar regiões
A seguir está uma lista de todas as regiões de fonte de dados (data center) do Azure em que o scanner de Mapa de Dados do Microsoft Purview é executado. Se sua fonte de dados do Azure estiver em uma região fora dessa lista, o scanner será executado na região da instância do Microsoft Purview.
Mapa de Dados do Microsoft Purview regiões do scanner
- Leste da Austrália
- Sudeste da Austrália
- Sul do Brasil
- Canadá Central
- Leste do Canadá
- Índia Central
- China North 3
- Leste da Ásia
- Leste dos EUA
- Leste 2 dos EUA
- França Central
- Centro-Oeste da Alemanha
- Leste do Japão
- Korea Central
- Centro-Norte dos EUA
- Norte da Europa
- Qatar Central
- Norte da África do Sul
- Centro-Sul dos EUA
- Sudeste da Ásia
- Norte da Suíça
- Norte dos Emirados Árabes Unidos
- Sul do Reino Unido
- USGov Virginia
- Centro-Oeste dos EUA
- Europa Ocidental
- Oeste dos EUA
- Oeste 2 dos EUA
- Oeste dos EUA 3
Tipos de arquivo com suporte para verificação
Os seguintes tipos de arquivo têm suporte para verificação, extração de esquema e classificação quando aplicável:
- Os formatos de arquivo estruturados com suporte por extensão incluem verificação, extração de esquema e classificação de nível de ativo e coluna: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
- Os formatos de arquivo de documento com suporte por extensão incluem verificação e classificação de nível de ativo: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLSB, XLSM, XLSM, XLSX, XLT
- O Mapa de Dados do Microsoft Purview também dá suporte a extensões de arquivo personalizadas e analisadores personalizados.
Observação
Limitações conhecidas:
- O scanner Mapa de Dados do Microsoft Purview só dá suporte à extração de esquema para os tipos de arquivo estruturados listados acima.
- Para tipos de arquivo AVRO, ORC e PARQUET, o scanner não dá suporte à extração de esquema para arquivos que contêm tipos de dados complexos (por exemplo, MAP, LIST, STRUCT).
- O scanner dá suporte à verificação de tipos PARQUET compactados e rápidos para extração e classificação de esquema.
- Para tipos de arquivo GZIP, o GZIP deve ser mapeado para um único arquivo csv dentro. Os arquivos Gzip estão sujeitos a regras de classificação personalizada e de sistema. Atualmente, não há suporte para a verificação de um arquivo gzip mapeado para vários arquivos dentro ou qualquer tipo de arquivo diferente do csv.
- Para tipos de arquivo delimitados (CSV, PSV, SSV, TSV, TXT):
- Não oferecemos suporte à detecção de tipo de dados. O tipo de dados será listado como "cadeia de caracteres" para todas as colunas.
- Só oferecemos suporte a vírgula(','), ponto e vírgula(';'), barra vertical('|') e tab('\t') como delimitadores.
- Arquivos delimitados com menos de três linhas não podem ser determinados como arquivos CSV se estiverem usando um delimitador personalizado. Por exemplo: arquivos com ~ delimitador e menos de três linhas não poderão ser determinados como arquivos CSV.
- Se um campo contiver aspas duplas, as aspas duplas só poderão aparecer no início e no final do campo e devem ser correspondidas. Aspas duplas que aparecem no meio do campo ou aparecem no início e no final, mas não são correspondidas, serão reconhecidas como dados ruins e não haverá nenhum esquema a ser analisado do arquivo. Linhas que têm um número diferente de colunas que a linha de cabeçalho serão julgadas como linhas de erro. (números de linhas de erro/números de linhas amostradas ) devem ser inferiores a 0,1.
- Para arquivos Parquet, se você estiver usando um runtime de integração auto-hospedado, precisará instalar o JRE 11 de 64 bits (Ambiente do Java Runtime) ou OpenJDK em seu computador IR. Verifique nossa seção Ambiente do Java Runtime na parte inferior da página para obter um guia de instalação.
Extração de esquema
Atualmente, o número máximo de colunas com suporte na guia esquema de ativos é 800 para fontes do Azure, Power BI e SQL Server.
Dados aninhados
Atualmente, os dados aninhados só têm suporte para conteúdo JSON.
Para todos os tipos de arquivo com suporte do sistema, se houver conteúdo JSON aninhado em uma coluna, o scanner analisará os dados JSON aninhados e os apresentará na guia esquema do ativo.
Não há suporte para análise de dados aninhados ou esquema aninhado no SQL. Uma coluna com dados aninhados será relatada e classificada como é e subdata não será analisada.
Dados de amostragem para classificação
Em Mapa de Dados do Microsoft Purview terminologia,
- Verificação L1: extrai informações básicas e meta dados como nome do arquivo, tamanho e nome totalmente qualificado
- Verificação L2: extrai o esquema para tipos de arquivo estruturados e tabelas de banco de dados
- Verificação L3: extrai o esquema quando aplicável e submete o arquivo amostrado às regras de classificação personalizadas e do sistema
Para todos os formatos de arquivo estruturados, o Mapa de Dados do Microsoft Purview scanner amostra arquivos da seguinte maneira:
- Para tipos de arquivo estruturados, ele amostra as 128 principais linhas em cada coluna ou os primeiros 1 MB, o que for menor.
- Para formatos de arquivo de documento, ele amostra os primeiros 20 MB de cada arquivo.
- Se um arquivo de documento for maior que 20 MB, ele não estará sujeito a uma verificação profunda (sujeito à classificação). Nesse caso, o Microsoft Purview captura apenas meta dados básicos, como nome do arquivo e nome totalmente qualificado.
- Para fontes de dados tabulares (SQL), ele amostra as 128 principais linhas.
- Para o Azure Cosmos DB for NoSQL, até 300 propriedades distintas dos primeiros 10 documentos em um contêiner serão coletadas para o esquema e, para cada propriedade, valores de até 128 documentos ou os primeiros 1 MB serão amostrados.
Amostragem de arquivo de conjunto de recursos
Uma pasta ou um grupo de arquivos de partição é detectado como um conjunto de recursos no Mapa de Dados do Microsoft Purview se corresponder a uma política de conjunto de recursos do sistema ou a uma política de conjunto de recursos definida pelo cliente. Se um conjunto de recursos for detectado, o scanner amostrará cada pasta que ele contém. Saiba mais sobre conjuntos de recursos aqui.
Amostragem de arquivo para conjuntos de recursos por tipos de arquivo:
- Arquivos delimitados (CSV, PSV, SSV, TSV) – 1 em cada 100 arquivos são amostrados (verificação L3) em uma pasta ou grupo de arquivos de partição que são considerados um "conjunto de recursos"
- Tipos de arquivo do Data Lake (Parquet, Avro, Orc) – 1 em 18446744073709551615 arquivos (long max) são amostrados (verificação L3) dentro de uma pasta ou grupo de arquivos de partição que são considerados um "conjunto de recursos"
- Outros tipos de arquivo estruturados (JSON, XML, TXT) – 1 em cada 100 arquivos são amostrados (verificação L3) dentro de uma pasta ou grupo de arquivos de partição que são considerados um 'conjunto de recursos'
- Objetos SQL e entidades do Azure Cosmos DB – cada arquivo é verificado em L3.
- Tipos de arquivo de documento – Cada arquivo é verificado em L3. Os padrões de conjunto de recursos não se aplicam a esses tipos de arquivo.
Próximas etapas
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários