介绍
大规模数据分析解决方案将用于支持商业智能 (BI) 的传统数据仓库与用于所谓的“大数据”分析的技术相结合。 传统的数据仓库解决方案通常涉及将数据从事务数据存储复制到关系数据库中,使用的是一种包含已针对查询和生成多维模型进行优化的架构。 然而,大数据处理解决方案用于处理多种格式的大量数据,这些数据以实时流的形式批量加载或捕获,并存储在数据湖中,其中 Apache Spark 等分布式处理引擎用于处理数据。 通过结合灵活的数据湖存储和数据仓库 SQL 分析,我们得到了通常称为“数据湖屋”的大规模分析设计。