Entender os tipos de dados e armazenamento de dados

Concluído

Entender como os dados são estruturados e armazenados é uma etapa crítica que ocorre no início de cada projeto de análise, durante a coleta de requisitos. Tanto os dados estruturados quanto os não estruturados são adequados para análise, mas as ferramentas que a equipe de dados usará para ingerir, transformar e armazenar dados serão diferentes de acordo com o tipo de dados.

Dados estruturados

Os Dados estruturados são o que a maioria de nós conhece. Letras e números são organizados em colunas e linhas para pesquisa e processamento simplificados. Os dados estruturados geralmente são de natureza quantitativa e armazenados em bancos de dados relacionais e data warehouses. Dados estruturados podem residir em estruturas familiares, uma tabela do Microsoft Excel. O armazenamento de dados estruturados em uma escala maior pode ser feito em um banco de dados relacional, como o do SQL do Azure.

Os dados estruturados se adaptam bem a todos os tipos de análise e são os mais acessíveis. A Linguagem SQL é usada para consultar bancos de dados relacionais e é comumente usada por analistas de dados, engenheiros de dados e cientistas de dados.

Excel workbook annual financial report for Contoso, displaying summarized revenues, net profit, interes, depreciation, and operating profit. A table below key metrics displays metrics over time with a 5-year trend line.

A apresentação de dados financeiros anuais é um exemplo comum de uso de dados estruturados, sejam esses dados armazenados em planilhas do Excel ou em um banco de dados relacional, como o do SQL do Azure.

Dados não estruturados

Dados não estruturados consistem de informações não organizadas de maneira discernível. Os dados não estruturados geralmente são mais adequados para análises qualitativas e são armazenados em bancos de dados não relacionais e data lakes.

Os formatos de dados não estruturados variam muito, desde documentos do Word, arquivos .csv, arquivos json, imagens e PDFs, até arquivos de áudio e vídeo. Esses arquivos seriam armazenados em um Azure Data Lake.

Azure Data Lake icon with data from devices, social, LOB applications, video, web, sensors, relationsal, and clickstream shown going into the data lake.