用于基因组学的 Databricks Runtime(不推荐使用)

用于基因组学的 Databricks Runtime(Databricks Runtime 基因组学)是为处理基因组和生物医学数据而优化的 Databricks Runtime 版本。 它是用于基因组学的 Azure Databricks 统一分析平台的组件。 若要详细了解如何开发基因组学应用程序,请参阅基因组学指南

重要

本文档已过时,将来可能不会更新。 本内容中提及的产品、服务或技术不再受支持。

Databricks 基因组学运行时已弃用。 若要获取开放源代码的等效服务,请查看基因组学管道Glow 的存储库。 属于运行时的生物信息学库已作为 Docker 容器发布,可从 ProjectGlow Dockerhub 页进行拉取。

有关 Databricks Runtime 弃用策略和计划的详细信息,请参阅支持的 Databricks 运行时版本和支持计划

用于基因组学的 Databricks Runtime 中有哪些内容?

  • Databricks-Regeneron 开源库 Glow 的优化版本及其所有功能,以及:
    • 针对读取和写入变体数据的 Spark SQL 支持
    • 用于常见工作流元素的函数
    • 针对常见查询模式的优化
  • 与 Apache Spark 并行化的统包管道:
  • Hail 0.2 集成
  • 针对性能和可靠性进行了优化的常用开源库:
    • ADAM
    • GATK
    • Hadoop-bam
  • 常用命令行工具:
    • samtools
  • 参考数据(grch37 或 38,已知的 SNP 网站)

有关包含的库和版本的完整列表,请参阅用于基因组学的 Databricks Runtime 发行说明

要求

Azure Databricks 工作区必须已启用用于基因组学的 Databricks Runtime。

使用用于基因组学的 Databricks Runtime 创建群集

创建群集时,请从“Databricks Runtime 版本”下拉列表中选择用于基因组学的 Databricks Runtime 版本。