Envío de un flujo de trabajo con varias entradas del mismo ejemplo

Este artículo demuestra cómo enviar un flujo de trabajo al servicio de Microsoft Genomics, si la entrada son varios archivos FASTQ o BAM procedentes del mismo ejemplo. Por ejemplo, si ha ejecutado el mismo ejemplo en varias líneas en el secuenciador, el secuenciador podría generar un par de archivos FASTQ para cada línea. En lugar de concatenar estos archivos FASTQ antes del alineamiento y variant calling, puede enviar directamente todas estas entradas al cliente msgen. La salida del cliente msgen sería un único conjunto de archivos entre los que se incluirían un archivo .bam, un archivo .bai y un archivo .vcf.

Tenga en cuenta, sin embargo, que no puede mezclar archivos FASTQ y BAM en el mismo envío. Además, tampoco es posible enviar varios archivos FASTQ o BAM de varios individuos.

En este artículo se da por supuesto que ya ha instalado y ejecutado el cliente msgen y está familiarizado con el uso de Azure Storage. Si ha enviado correctamente un flujo de trabajo usando los datos de ejemplo proporcionados, puede continuar con este artículo.

Varios archivos BAM

Carga de los archivos de entrada en Azure Storage

Supongamos que tiene varios archivos BAM como entrada, reads.bam, additional_reads.bam y yet_more_reads.bam, y los ha cargado en su cuenta de almacenamiento myaccount de Azure. Tiene la dirección URL de la API y la clave de acceso. Desea los resultados en https://myaccount.blob.core.windows.net/outputs.

Envío del trabajo al cliente msgen

Puede enviar varios archivos BAM pasando todos sus nombres al argumento --input-blob-name-1. Tenga en cuenta que todos los archivos deben provenir del mismo ejemplo, pero su orden no es importante. En la siguiente sección se describen envíos de ejemplo desde una línea de comandos en Windows, en Unix y con un archivo de configuración. Para mayor claridad, se agregan saltos de línea:

Para Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Para Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Si prefiere usar un archivo de configuración, esto es lo que podría contener:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads.bam additional_reads.bam yet_more_reads.bam
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Envíe el archivo config.txt con esta invocación: msgen submit -f config.txt

Varios archivos FASTQ emparejados

Carga de los archivos de entrada en Azure Storage

Supongamos que tiene varios archivos FASTQ emparejados como entrada, reads_1.fq.gz y reads_2.fq.gz, additional_reads_1.fq.gz y , additional_reads_2.fq.gz y , y yet_more_reads_1.fq.gz y yet_more_reads_2.fq.gz. Los ha cargado en su cuenta de almacenamiento myaccount de Azure y tiene la dirección URL de la API y la clave de acceso. Desea los resultados en https://myaccount.blob.core.windows.net/outputs.

Envío del trabajo al cliente msgen

Los archivos FASTQ emparejados no solo deben proceder del mismo ejemplo, sino que también deben procesarse de forma conjunta. Cuando los nombres de archivo se pasan como argumentos --input-blob-name-1 e --input-blob-name-2, su orden es importante.

En la siguiente sección se describen envíos de ejemplo desde una línea de comandos en Windows, en Unix y con un archivo de configuración. Para mayor claridad, se agregan saltos de línea:

Para Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz ^
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Para Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz \
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Si prefiere usar un archivo de configuración, esto es lo que podría contener:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz
input_blob_name_2:                reads_2.fq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Envíe el archivo config.txt con esta invocación: msgen submit -f config.txt

Pasos siguientes

En este artículo, se cargan varios archivos BAM o FASTQ emparejados en Azure Storage y se envía un flujo de trabajo al servicio Microsoft Genomics mediante el cliente de Python msgen. Para más información sobre el envío del flujo de trabajo y otros comandos que puede usar con el servicio Microsoft Genomics, vea las preguntas más frecuentes.