Como catalogar big data no Catálogo de Dados do Azure

Artigo
12/13/2023

Importante

O Catálogo de Dados do Azure foi desativado em 15 de maio de 2024.

Para recursos de catálogo de dados, use o serviço Microsoft Purview, que oferece governança de dados unificada para todo o seu conjunto de dados.

Introdução

O Catálogo de Dados do Microsoft Azure é um serviço de nuvem totalmente gerenciado que serve como um sistema de registro e sistema de descoberta para fontes de dados corporativas. Trata-se de ajudar as pessoas a descobrir, entender e usar fontes de dados e ajudar as organizações a obter mais valor de suas fontes de dados existentes, incluindo big data.

O Catálogo de Dados do Azure dá suporte ao registro de blobs e diretórios do Armazenamento do Azure, bem como arquivos e diretórios Hadoop HDFS. A natureza semi-estruturada dessas fontes de dados proporciona grande flexibilidade. No entanto, para obter o máximo valor do registro deles no Catálogo de Dados do Azure, os usuários devem considerar como as fontes de dados são organizadas.

Diretórios como conjuntos de dados lógicos

Um padrão comum para organizar fontes de big data é tratar diretórios como conjuntos de dados lógicos. Os diretórios de nível superior são usados para definir um conjunto de dados, enquanto as subpastas definem partições e os arquivos que contêm armazenam os próprios dados.

Um exemplo desse padrão pode ser:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

Neste exemplo, vehicle_maintenance_events e location_tracking_events representam conjuntos de dados lógicos. Cada uma dessas pastas contém arquivos de dados que são organizados por ano e mês em subpastas. Cada uma dessas pastas pode potencialmente conter centenas ou milhares de arquivos.

Nesse padrão, registrar arquivos individuais no Catálogo de Dados do Azure provavelmente não faz sentido. Em vez disso, registre os diretórios que representam os conjuntos de dados que são significativos para os usuários que trabalham com os dados.

Ficheiros de dados de referência

Um padrão complementar é armazenar conjuntos de dados de referência como arquivos individuais. Esses conjuntos de dados podem ser considerados como o lado "pequeno" do big data e geralmente são semelhantes às dimensões de um modelo de dados analíticos. Os arquivos de dados de referência contêm registros que são usados para fornecer contexto para a maior parte dos arquivos de dados armazenados em outro lugar no armazenamento de big data.

Um exemplo desse padrão pode ser:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Quando um analista ou cientista de dados está trabalhando com os dados contidos nas estruturas de diretórios maiores, os dados nesses arquivos de referência podem ser usados para fornecer informações mais detalhadas para entidades que são referidas apenas por nome ou ID no conjunto de dados maior.

Nesse padrão, faz sentido registrar os arquivos de dados de referência individuais no Catálogo de Dados do Azure. Cada arquivo representa um conjunto de dados, e cada um pode ser anotado e descoberto individualmente.

Padrões alternativos

Os padrões descritos nas seções anteriores são duas maneiras possíveis de organizar um armazenamento de big data, mas cada implementação é diferente. Independentemente de como suas fontes de dados são estruturadas, ao registrar fontes de big data com o Catálogo de Dados do Azure, concentre-se em registrar os arquivos e diretórios que representam os conjuntos de dados que são de valor para outras pessoas em sua organização. Registrar todos os arquivos e diretórios pode sobrecarregar o catálogo, tornando mais difícil para os usuários encontrar o que precisam.

Resumo

O registo de origens de dados com o Catálogo de Dados do Azure torna-as mais fáceis de descobrir e compreender. Ao registrar e anotar os arquivos de big data e diretórios que representam conjuntos de dados lógicos, você pode ajudar os usuários a encontrar e usar as fontes de big data de que precisam.

Partilhar via