Introdução
Soluções de análise de dados em grande escala combinam o data warehousing convencional usado para dar suporte à business intelligence (BI) com técnicas utilizadas para análises de "Big Data". Uma solução de armazenamento de dados convencional normalmente envolve a cópia de dados transacionais armazenados em um banco de dados relacional com um esquema otimizado para consultar e construir modelos multidimensionais. As soluções de processamento de Big Data, no entanto, são usadas com grandes volumes de dados em vários formatos, que são carregados em lote ou capturados em streams em tempo real e armazenados em um data lake, a partir do qual motores de processamento distribuído, como o Apache Spark, são usados para processá-los. A combinação de armazenamento flexível de data lake e análises SQL de data warehouse levou ao surgimento de um design de análise em grande escala frequentemente chamado de data lakehouse.