确定数据服务

已完成

Microsoft Azure 是一个云平台,可为一些世界上最大的组织提供应用程序和 IT 基础结构。 它包括许多支持云解决方案的服务,其中包括事务性工作负载和分析数据工作负载。

下面介绍了一些最常用的数据云服务。

注意

本主题仅介绍新式事务性解决方案和分析解决方案中一些最常用的数据服务。 其他服务也可用。

Azure SQL

Azure SQL logo.Azure SQL 是一系列基于 Microsoft SQL Server 数据库引擎的关系数据库解决方案的统称。 特定的 Azure SQL 服务包括:

  • Azure SQL 数据库 - 一个托管在 Azure 中的完全托管的平台即服务 (PaaS) 数据库
  • Azure SQL 托管实例 - 一个具有自动维护功能的 SQL Server 托管实例,其配置比 Azure SQL DB 更灵活,但所有者需承担更多的管理责任
  • Azure SQL VM - 一个安装了 SQL Server 的虚拟机,可实现最大的可配置性并承担全部管理责任

数据库管理员通常会预配和管理 Azure SQL 数据库系统,用于支持需要存储事务数据的业务线 (LOB) 应用程序。

数据工程师可使用 Azure SQL 数据库系统作为数据管道的源,这些数据管道执行提取、转换和加载 (ETL) 操作以将事务数据引入到分析系统

数据分析师可直接查询 Azure SQL 数据库以创建报表,但在大型组织中,数据通常与来自分析数据存储中的其他源的数据相结合,以支持企业分析。

适用于开放源代码关系数据库的 Azure 数据库

Azure Database for MariaDB, MySQL, and PostreSQL logos. Azure 包含适用于常用开源关系数据库系统的托管服务,包括:

  • Azure Database for MySQL - 一个简单易用的开放源代码数据库管理系统,通常用于 Linux、Apache、MySQL 和 PHP (LAMP) 堆栈应用

  • Azure Database for MariaDB - 一个由 MySQL 的原始开发人员创建的新式数据库管理系统。 此后,数据库引擎被重写和优化,以提高性能。 MariaDB 提供与 Oracle 数据库(另一个常见商业数据库管理系统)的兼容性。

  • Azure Database for PostgreSQL - 一个混合关系对象数据库。 你可以在关系表中存储数据,但使用 PostgreSQL 数据库还可以存储自定义数据类型及其非关系属性。

与 Azure SQL 数据库系统一样,开放源代码关系数据库由数据库管理员进行管理以支持事务性应用程序,并为数据工程师提供用于生成管道的数据源,为数据分析师提供用于创建报告的分析解决方案。

Azure Cosmos DB

Azure Cosmos DB logo. Azure Cosmos DB 是一个全球规模的非关系 (NoSQL) 数据库系统,支持多个应用程序编程接口 (API),使你能够以 JSON 文档、键值对、列族和图形的形式存储和管理数据

在一些组织中,Cosmos DB 实例可能由数据库管理员进行预配和管理;不过,软件开发人员通常将 NoSQL 数据存储作为整个应用程序体系结构的一部分进行管理。 数据工程师通常需要将 Cosmos DB 数据源集成到支持数据分析师建模和报告的企业分析解决方案中。

Azure 存储

Azure Storage logo. Azure 存储是一项核心 Azure 服务,它让你能够将数据存储在以下位置:

  • Blob 容器 - 适用于二进制文件的可缩放、经济高效的存储
  • 文件共享 - 网络文件共享,例如通常在公司网络中找到的文件
  • 表 - 针对需要快速读取和写入数据值的应用程序的键值存储

数据工程师使用 Azure 存储来托管 Data Lake,该存储是具有分层命名空间的 Blob 存储,可在分布式文件系统的文件夹中组织文件

Azure 数据工厂

Azure Data Factory logo. Azure 数据工厂是一项 Azure 服务,它让你能够定义和安排数据管道以传输和转换数据。 你可将管道与其他 Azure 服务集成,这样就可以从云数据存储引入数据,使用基于云的计算处理数据,并将结果保存在另一个数据存储中。

数据工程师使用 Azure 数据工厂构建提取、转换和加载 (ETL) 解决方案,这些解决方案使用来自组织中事务系统的数据填充分析数据存储

Azure Synapse Analytics

Azure Synapse Analytics logo. Azure Synapse Analytics 是一个全面、统一的平台即服务 (PaaS) 数据分析解决方案,为多种分析功能提供单一服务接口,包括:

  • Pipelines - 基于与 Azure 数据工厂相同的技术
  • SQL - 一种高度可缩放的 SQL 数据库引擎,它针对数据仓库工作负载进行了优化
  • Apache Spark - 一个开放源代码分布式数据处理系统,可支持多种编程语言和 API,包括 Java、Scala、Python 和 SQL
  • Azure Synapse 数据资源管理器 - 一种高性能数据分析解决方案,它使用 Kusto 查询语言 (KQL) 针对实时查询日志和遥测数据进行了优化

数据工程师可使用 Azure Synapse Analytics 创建统一的数据分析解决方案,该解决方案通过单一服务将数据引入管道、数据仓库存储和 Data Lake 存储相结合。

数据分析师可通过交互式笔记本使用 SQL 和 Spark 池来探索和分析数据,并利用与 Azure 机器学习和 Microsoft Power BI 等服务的集成来创建数据模型和从数据中提取见解。

Azure Databricks

Azure Databricks logo. Azure Databricks 是受欢迎的 Databricks 平台的 Azure 集成版本,它将 Apache Spark 数据处理平台与 SQL 数据库语义及集成管理界面相结合,以实现大规模数据分析。

数据工程师可使用现有的 Databricks 和 Spark 技能在 Azure Databricks 中创建分析数据存储。

数据分析师可使用 Azure Databricks 中的原生笔记本支持在易于使用的基于 Web 的界面中查询和可视化数据。

Azure HDInsight

Azure HDInsight logo. Azure HDInsight 是一项 Azure 服务,它为常用的 Apache 开源大数据处理技术提供 Azure 托管的群集,包括:

  • Apache Spark - 一个分布式数据处理系统,可支持多种编程语言和 API,包括 Java、Scala、Python 和 SQL
  • Apache Hadoop - 一个分布式系统,它使用 MapReduce 作业跨多个群集节点高效处理大量数据。 MapReduce 作业可以用 Java 编写,也可通过 Apache Hive(在 Hadoop 上运行的基于 SQL 的 API)等接口进行抽象。
  • Apache HBase - 一个用于大规模 NoSQL 数据存储和查询的开放源代码系统
  • Apache Kafka - 用于数据流处理的消息代理

数据工程师可使用 Azure HDInsight 来支持依赖多种开放源代码技术的大数据分析工作负载。

Azure 流分析

Azure Stream Analytics logo. Azure 流分析是一个实时流处理引擎,可从输入中捕获数据流,应用查询以从输入流中提取和操作数据,并将结果写入输出以进行分析或进一步处理。

数据工程师可以将 Azure 流分析整合到数据分析体系结构中,这些体系结构捕获流式数据以将其引入分析数据存储或进行实时可视化。

Azure 数据资源管理器

Azure Data Explorer logo. Azure 数据资源管理器是一项独立的服务,它提供了与 Azure Synapse Analytics 中的 Azure Synapse 数据资源管理器运行时相同的高性能日志和遥测数据查询。

数据分析师可使用 Azure 数据资源管理器来查询和分析包含时间戳属性的数据,例如通常在日志文件和物联网 (IoT) 遥测数据中找到的数据

Microsoft Purview

Azure Purview logo. Microsoft Purview 为企业范围内的数据治理和可发现性提供解决方案。 可以使用 Microsoft Purview 创建数据地图并跨多个数据源和系统跟踪数据世系,以便找到值得信赖的数据以供分析和报告。

数据工程师可以使用 Microsoft Purview 在整个企业中强制实施数据治理,并确保所使用的数据的完整性,从而支持分析工作负载。

Microsoft Fabric

Microsoft Fabric logo. Microsoft Fabric 是基于开放和受治理的湖屋的统一软件即服务 (SaaS) 分析平台,它包含的功能可以支持:

  • 数据引入和 ETL
  • 数据湖屋分析
  • 数据仓库分析
  • 数据科学和机器学习
  • 实时分析
  • 数据可视化
  • 数据治理和管理