Descripción de los tipos de datos y almacenamiento de datos

Completado

Comprender cómo se estructuran y se almacenan los datos es un paso crítico que se produce al principio de cada proyecto de análisis, durante la recopilación de requisitos. Tanto los datos estructurados como los no estructurados son adecuados para el análisis, pero las herramientas que el equipo de datos usará para ingerir, transformar y almacenar los datos variarán según el tipo de estos.

Datos estructurados

La mayoría de nosotros estamos familiarizados con los datos estructurados. Las letras y los números se organizan en columnas y filas para simplificar la búsqueda y el procesamiento. Los datos estructurados suelen ser cuantitativos por naturaleza y se almacenan en bases de datos relacionales y en almacenamientos de datos. Los datos estructurados pueden residir en elementos conocidos, como una tabla de Microsoft Excel. El almacenamiento de datos estructurados a mayor escala puede realizarse en una base de datos relacional, por ejemplo, una base de datos de Azure SQL.

Los datos estructurados se prestan bien a todos los tipos de análisis y son los más accesibles. El lenguaje de consulta estructurado (SQL) se usa para consultar bases de datos relacionales y lo suelen usar los analistas de datos, ingenieros de datos y científicos de datos por igual.

Excel workbook annual financial report for Contoso, displaying summarized revenues, net profit, interes, depreciation, and operating profit. A table below key metrics displays metrics over time with a 5-year trend line.

La presentación de datos financieros anuales es un ejemplo común del uso de datos estructurados, tanto si los datos se almacenan en hojas de cálculo de Excel como en una base de datos relacional, por ejemplo, una base de datos de Azure SQL.

Datos no estructurados

Los datos no estructurados son información que no se organiza de ninguna forma perceptible. Los datos no estructurados suelen ser más adecuados para el análisis cualitativo y se almacenan en bases de datos no relacionales y en lagos de datos.

Los formatos de los datos no estructurados se presentan en una amplia variedad, desde documentos de Word, archivos .csv, archivos json, imágenes y archivos PDF, hasta archivos de audio y vídeo. Estos archivos se almacenarían en una instancia de Azure Data Lake.

Azure Data Lake icon with data from devices, social, LOB applications, video, web, sensors, relationsal, and clickstream shown going into the data lake.