Entender os tipos de dados e armazenamento de dados
Entender como os dados são estruturados e armazenados é uma etapa crítica que ocorre no início de cada projeto de análise, durante a coleta de requisitos. Tanto os dados estruturados quanto os não estruturados são adequados para análise, mas as ferramentas que a equipe de dados usará para ingerir, transformar e armazenar dados serão diferentes de acordo com o tipo de dados.
Dados estruturados
Os Dados estruturados são o que a maioria de nós conhece. Letras e números são organizados em colunas e linhas para pesquisa e processamento simplificados. Os dados estruturados geralmente são de natureza quantitativa e armazenados em bancos de dados relacionais e data warehouses. Dados estruturados podem residir em estruturas familiares, uma tabela do Microsoft Excel. O armazenamento de dados estruturados em uma escala maior pode ser feito em um banco de dados relacional, como o do SQL do Azure.
Os dados estruturados se adaptam bem a todos os tipos de análise e são os mais acessíveis. A Linguagem SQL é usada para consultar bancos de dados relacionais e é comumente usada por analistas de dados, engenheiros de dados e cientistas de dados.
A apresentação de dados financeiros anuais é um exemplo comum de uso de dados estruturados, sejam esses dados armazenados em planilhas do Excel ou em um banco de dados relacional, como o do SQL do Azure.
Dados não estruturados
Dados não estruturados consistem de informações não organizadas de maneira discernível. Os dados não estruturados geralmente são mais adequados para análises qualitativas e são armazenados em bancos de dados não relacionais e data lakes.
Os formatos de dados não estruturados variam muito, desde documentos do Word, arquivos .csv, arquivos json, imagens e PDFs, até arquivos de áudio e vídeo. Esses arquivos seriam armazenados em um Azure Data Lake.