Azure Cosmos DB

重要

本文档已过时,将来可能不会更新。 请参阅官方 Cosmos DB Spark 连接器 Github 存储库

Azure Cosmos DB 是由 Microsoft 提供的全球分布式多模型数据库。 使用 Azure Cosmos DB 可跨任意数量的 Azure 地理区域弹性且独立地缩放吞吐量和存储。 它通过综合服务级别协议 (SLA) 提供吞吐量、延迟、可用性和一致性保证。 Azure Cosmos DB 为以下数据模型提供 API,并提供多种语言的 SDK:

  • SQL API
  • MongoDB API
  • Cassandra API
  • 图形 (Gremlin) API
  • 表 API

本文介绍如何使用 Azure Databricks 从 Azure Cosmos DB 读取数据或将数据写入 Azure Cosmos DB。 有关 Azure Cosmos DB 的最新详细信息,请参阅使用 Apache Spark 到 Azure Cosmos DB 连接器加速大数据分析

资源:

重要

此连接器支持 Azure Cosmos DB 的核心 (SQL) API。 对于 Cosmos DB for MongoDB API,请使用 MongoDB Spark 连接器。 对于 Cosmos DB Cassandra API,请使用 Cassandra Spark 连接器

创建并附加所需的库

  1. 下载最新版 azure-cosmosdb-spark 库以获取你正在运行的 Apache Spark 版本。
  2. 将下载的 JAR 文件上传到 Databricks。 请参阅
  3. 安装上传的库,将其安装到 Databricks 群集中。