Compreender os tipos de dados e armazenamento de dados

Concluído

Compreender como os dados são estruturados e armazenados é uma etapa crítica que ocorre no início de cada projeto de análise, durante a coleta de requisitos. Dados estruturados e não estruturados são adequados para análise, mas as ferramentas que a equipe de dados usará para ingerir, transformar e armazenar dados serão diferentes de acordo com o tipo de dados.

Dados estruturados

Os dados estruturados são familiares para a maioria de nós. Letras e números são organizados em colunas e linhas para pesquisa e processamento simplificados. Os dados estruturados são tipicamente quantitativos por natureza e armazenados em bancos de dados relacionais e armazéns de dados. Os dados estruturados podem residir em algo familiar, uma tabela do Microsoft Excel. O armazenamento de dados estruturados em maior escala pode ser armazenado em um banco de dados relacional, como um banco de dados SQL do Azure.

Os dados estruturados prestam bem a todos os tipos de análise e são os mais acessíveis. A linguagem de consulta estruturada (SQL) é usada para consultar bancos de dados relacionais e é comumente usada por analistas de dados, engenheiros de dados e cientistas de dados.

Excel workbook annual financial report for Contoso, displaying summarized revenues, net profit, interes, depreciation, and operating profit. A table below key metrics displays metrics over time with a 5-year trend line.

A apresentação de dados financeiros anuais é um exemplo comum de utilização de dados estruturados, quer esses dados estejam armazenados em folhas de cálculo do Excel ou numa base de dados relacional como a base de dados SQL do Azure.

Dados não estruturados

Dados não estruturados são informações que não são organizadas de forma percetível. Os dados não estruturados são frequentemente mais adequados para análise qualitativa e são armazenados em bases de dados não relacionais e data lakes.

Os formatos de dados não estruturados variam muito, desde documentos do Word, arquivos .csv, arquivos json, imagens e PDFs, até arquivos de áudio e vídeo. Esses arquivos seriam armazenados em um Azure Data Lake.

Azure Data Lake icon with data from devices, social, LOB applications, video, web, sensors, relationsal, and clickstream shown going into the data lake.