Anotación de variantes mediante Pipe Transformer

Importante

Esta documentación se ha retirado y es posible que no se actualice. Los productos, servicios o tecnologías mencionados en este contenido ya no se admiten.

El entorno de ejecución de Databricks Genomics está en desuso. Para obtener código abierto equivalentes, consulte repositorios para canalizaciones de genomics y Glow. Las bibliotecas de bioinformática que formaban parte del entorno de ejecución se han publicado como contenedores de Docker, que puede encontrar en la página ProjectGlow Dockerhub.

Para más información sobre la programación y la directiva de entrada en desuso de Databricks Runtime, consulte el apartado sobre la programación de soporte y las versiones de Databricks Runtime que reciben soporte técnico.

Cualquier método de anotación se puede usar en datos variantes mediante Pipe Transformer de Glow.

Por ejemplo, la anotación VEP se realiza descargando orígenes de datos de anotación (la caché) en cada nodo de un clúster, y llamando al script de línea de comandos de VEP con Pipe Transformer, mediante un script similar a la celda siguiente.

import glow
import json

input_vcf = "/databricks-datasets/hail/data-001/1kg_sample.vcf.bgz"
input_df = spark.read.format("vcf").load(input_vcf)
cmd = json.dumps([
  "/opt/vep/src/ensembl-vep/vep",
  "--dir_cache", "/mnt/dbnucleus/dbgenomics/grch37_merged_vep_96",
  "--fasta", "/mnt/dbnucleus/dbgenomics/grch37_merged_vep_96/data/human_g1k_v37.fa",
  "--assembly", "GRCh37",
  "--format", "vcf",
  "--output_file", "STDOUT",
  "--no_stats",
  "--cache",
  "--offline",
  "--vcf",
  "--merged"])
output_df = glow.transform("pipe", input_df, cmd=cmd, input_formatter='vcf', in_vcf_header=input_vcf, output_formatter='vcf')
output_df.write.format("delta").save("dbfs:/mnt/vep-pipe")