Inicio rápido: Ejecución de un flujo de trabajo mediante el servicio Microsoft Genomics

Artículo
06/01/2023

En este inicio rápido, se cargan los datos de entrada en una cuenta de Azure Blob Storage y se ejecuta un flujo de trabajo a través del servicio Microsoft Genomics mediante el cliente Genomics de Python. Microsoft Genomics es un servicio escalable y seguro para el análisis secundario que puede procesar rápidamente un genoma; este proceso empieza por lecturas de datos sin formato y produce lecturas alineadas y llamadas a variantes.

Prerrequisitos

Una cuenta de Azure con una suscripción activa. Cree una cuenta gratuita.
Python 2.7.12 +, con pip instalado y python en la ruta de acceso del sistema. El cliente de Microsoft Genomics no es compatible con Python 3.

Configuración: Creación de una cuenta de Microsoft Genomics en Azure Portal

Para crear una cuenta de Microsoft Genomics, vaya a Crear una cuenta de Genomics en Azure Portal. Si aún no tiene una suscripción a Azure, cree una antes de crear una cuenta de Microsoft Genomics.

Microsoft Genomics en Azure Portal

Configure la cuenta de Genomics con la siguiente información, como se muestra en la imagen anterior.

Configuración	Valor sugerido	Descripción del campo
Subscription	Nombre de la suscripción	Esta es la unidad de facturación para los servicios de Azure. Para más información sobre su suscripción, consulte el artículo Suscripciones.
Resource group	MyResourceGroup	Los grupos de recursos le permiten agrupar varios recursos de Azure (cuenta de almacenamiento o cuenta genómica, entre otros) en un único grupo para una administración sencilla. Para más información, consulte Grupos de recursos. Para conocer cuáles son los nombres de grupo de recursos válidos, consulte el artículo Convenciones de nomenclatura.
Nombre de cuenta	MyGenomicsAccount	Elija un identificador de cuenta único. Para ver los nombres válidos, consulte Convenciones de nomenclatura.
Location	Oeste de EE. UU. 2	El servicio está disponible en Oeste de EE. UU. 2, Oeste de Europa y Sudeste de Asia.

Puede seleccionar Notificaciones en la barra de menús superior para supervisar el proceso de implementación.

Notificaciones

Para más información sobre Microsoft Genomics, consulte ¿Qué es Microsoft Genomics?

Configuración: Instalación del cliente de Python de Microsoft Genomics

Es preciso instalar tanto Python como el cliente Python de Microsoft Genomics msgen en el entorno local.

Instalación de Python

El cliente de Python de Microsoft Genomics es compatible con Python 2.7.12 o una versión de 2.7.xx posterior. 2.7.14 es la versión que se sugiere. Puede encontrar aquí la descarga.

Importante

Python 3.x no es compatible con Python 2.7.xx. msgen es una aplicación de Python 2.7. Al ejecutar msgen, asegúrese de que su entorno de Python activo usa una versión 2.7.xx de Python. Si intenta usar msgen con una versión 3.x de Python, es posible que se produzcan errores.

Instalación del cliente de Python de Microsoft Genomics `msgen`

Utilice pip de Python para instalar el cliente de Microsoft Genomics msgen. En las siguientes instrucciones se da por hecho que Python 2.x ya está instalado en la ruta de acceso del sistema. Si tiene problemas de reconocimiento en la instalación de pip, debe agregar Python y la subcarpeta de scripts a la ruta de acceso del sistema.

pip install --upgrade --no-deps msgen
pip install msgen

Si no desea instalar msgen como un archivo binario para todo el sistema ni modificar paquetes de Python en todo el sistema, utilice la marca –-user con pip. Si utiliza la instalación basada en paquetes o setup.py, se instalarán todos los paquetes necesarios.

Prueba del cliente de Python `msgen`

Para probar el cliente de Microsoft Genomics, descargue el archivo de configuración de la cuenta de Genomics. En Azure Portal, vaya a la cuenta de Genomics, para lo que debe seleccionar Todos los servicios en la parte superior izquierda y después buscar y seleccionar las cuentas de Genomics.

Buscar Microsoft Genomics wn Azure Portal

Seleccione la cuenta de Genomics que acaba de crear, vaya a Claves de acceso y descargue el archivo de configuración.

Descarga del archivo de configuración de Microsoft Genomics

Pruebe que el cliente de Python de Microsoft Genomics está trabajando con el siguiente comando:

msgen list -f "<full path where you saved the config file>"

Creación de una cuenta de Microsoft Azure Storage

El servicio Microsoft Genomics espera que las entradas se almacenen como blobs en bloques en una cuenta de almacenamiento de Azure. También escribe archivos de salida como blobs en bloques en un contenedor especificado por el usuario en una cuenta de almacenamiento de Azure. Las entradas y salidas pueden residir en diferentes cuentas de almacenamiento. Si ya tiene los datos en una cuenta de almacenamiento de Azure, solo tiene que asegurarse de que se encuentran en la misma ubicación que la cuenta de Genomics. De lo contrario, se cobrarán cargos de salida cuando se ejecute el servicio Microsoft Genomics. Si aún no tiene una cuenta de Azure Storage, tendrá que crearla y cargar los datos. Aquí puede encontrar más información sobre las cuentas de Azure Storage, lo que incluye qué es una cuenta de almacenamiento y qué servicios proporciona. Para crear una cuenta de Azure Storage, vaya a Crear cuenta de almacenamiento en Azure Portal.

Página de creación de una cuenta de almacenamiento

Configure la cuenta de almacenamiento con la siguiente información, como se muestra en la imagen anterior. Utilice la mayoría de las opciones estándar para una cuenta de almacenamiento, especificando únicamente que la cuenta es de almacenamiento de blobs, no de uso general. El almacenamiento de blobs puede ser de dos a cinco veces más rápido para cargas y descargas. El modelo de implementación predeterminado, el de Azure Resource Manager, es el recomendado.

Configuración	Valor sugerido	Descripción del campo
Subscription	Su suscripción de Azure	Para más información acerca la suscripción, consulte Suscripciones.
Resource group	MyResourceGroup	Puede seleccionar el mismo grupo de recursos que la cuenta de Genomics. Para conocer cuáles son los nombres de grupo de recursos válidos, consulte el artículo Reglas de nomenclatura
Nombre de la cuenta de almacenamiento	MyStorageAccount	Elija un identificador de cuenta único. Para saber cuáles son los nombres válidos, consulte Reglas de nomenclatura
Location	Oeste de EE. UU. 2	Para reducir tanto los cargos de salida como la latencia, utilice la misma ubicación que la de su cuenta de Genomics.
Rendimiento	Estándar	El valor predeterminado es Estándar. Para obtener más detalles sobre las cuentas de almacenamiento Estándar y Premium, consulte Introducción a Microsoft Azure Storage
Tipo de cuenta	BlobStorage	El almacenamiento de blobs puede ser de dos a cinco veces más rápido que el uso general para cargas y descargas.
Replicación	Almacenamiento con redundancia local	El almacenamiento con redundancia local replica los datos en el centro de datos de la región en la que creó la cuenta de almacenamiento. Para más información, consulte Replicación de Azure Storage.
Nivel de acceso	Acceso frecuente	Un acceso frecuente indica los objetos a los que se accederá con mayor frecuencia en la cuenta de almacenamiento.

Luego, seleccione Revisar y crear para crear la cuenta de almacenamiento. Igual que hizo con la creación de su cuenta de Genomics, puede seleccionar Notificaciones en la barra de menús superior para supervisar el proceso de implementación.

Carga de los datos de entrada en la cuenta de almacenamiento

El servicio Microsoft Genomics espera lecturas de extremos emparejados (archivos fastq o bam) como archivos de entrada. Puede elegir entre cargar sus propios datos o explorarlos mediante los datos de muestra disponibles públicamente que se le proporcionan.

Dentro de la cuenta de almacenamiento, necesita crear un contenedor de blobs para los datos de entrada y un segundo contenedor de blobs para los datos de salida. Cargue los datos de entrada en el contenedor de blobs de entrada. Se pueden utilizar varias herramientas para ello, como Explorador de Microsoft Azure Storage, BlobPorter o AzCopy.

Ejecute un flujo de trabajo a través del servicio Microsoft Genomics mediante el cliente de Python `msgen`

Para ejecutar un flujo de trabajo mediante el servicio Microsoft Genomics, edite el archivo config.txt para especificar el contenedor de almacenamiento de entrada y salida para los datos. Abra el archivo config.txt que descargó de su cuenta de Genomics. Las secciones que necesita especificar son la clave de suscripción y los seis elementos de la parte inferior, el nombre de la cuenta de almacenamiento, la clave y el nombre del contenedor tanto de la entrada como de la salida. Para encontrar esta información, en Azure Portal vaya la opción Claves de acceso de su cuenta de almacenamiento, o bien hágalo directamente desde el Explorador de Azure Storage.

Configuración de Genomics

Si desea ejecutar GATK4, establezca el parámetro process_name en gatk4.

De forma predeterminada, el servicio Genomics genera archivos VCF. Si desea que la salida sea gVCF, en lugar de VCF (equivalente a -emitRefConfidence en GATK 3.x y emit-ref-confidence en GATK 4.x), agregue el parámetro emit_ref_confidence al archivo config.txt y establézcalo en gvcf, como se muestra en la figura anterior. Para volver a la salida VCF, quítela del archivo config.txt o establezca el parámetro emit_ref_confidence en none.

bgzip es una herramienta que comprime el archivo vcf o gvcf, y tabix crea un índice para el archivo comprimido. De manera predeterminada, el servicio Genomics ejecuta bgzip y, a continuación, tabix en la salida ".g.vcf"; sin embargo, no ejecuta estas herramientas de manera predeterminada si la salida es ".vcf". Cuando se ejecuta, el servicio genera los archivos ".gz" (salida bgzip) y ".tbi" (salida tabix). El argumento es un valor booleano, que se establece en false de forma predeterminada si la salida es ".vcf" y en true si la salida es ".g.vcf". Para usarlo en la línea de comandos, especifique -bz o --bgzip-output como true (ejecute bgzip y tabix) o false. Para usar este argumento en el archivo config.txt, agregue bgzip_output: true o bgzip_output: false al archivo.

Envío de un flujo de trabajo al servicio Microsoft Genomics mediante el cliente de Python `msgen`

Utilice el cliente de Python de Microsoft Genomics para enviar el flujo de trabajo con el siguiente comando:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Puede ver el estado de los flujos de trabajo con el siguiente comando:

msgen list -f c:\temp\config.txt

Una vez se complete el flujo de trabajo, puede ver los archivos de salida en la cuenta de Azure Storage, en el contenedor de salida que ha configurado.

Pasos siguientes

En este artículo, ha cargado datos de entrada de ejemplo en Azure Storage y ha enviado un flujo de trabajo al servicio Microsoft Genomics mediante el cliente de Python msgen. Para más información sobre otros tipos de archivo de entrada que pueden utilizarse con el servicio Microsoft Genomics, consulte las páginas siguientes: Archivos FASTQ emparejados | BAM | Varios archivos FASTQ o BAM.