Submeter um fluxo de trabalho através de várias entradas do mesmo exemplo

Artigo
09/02/2024

Este artigo demonstra como enviar um fluxo de trabalho para o serviço Microsoft Genomics se o arquivo de entrada for vários arquivos FASTQ ou BAM provenientes do mesmo exemplo. Por exemplo, se executou o mesmo exemplo em múltiplas faixas no sequenciador, o sequenciador poderá criar como resultado um par de ficheiros FASTQ para cada faixa. Em vez de concatenar esses ficheiros FASTQ antes do alinhamento e pesquisa de variantes, pode submeter diretamente todas estas entradas no cliente msgen. O resultado do cliente msgen seria um conjunto único de ficheiros, incluindo um ficheiro .bam, .bai, .vcf.

No entanto, tenha em atenção que não pode misturar ficheiros FASTQ e BAM na mesma submissão. Além disso, não pode submeter múltiplos ficheiros FASTQ ou BAM a partir de múltiplos indivíduos.

Este artigo pressupõe que já instalou e executou o cliente msgen e está familiarizado com a utilização do Armazenamento do Microsoft Azure. Se você enviou com êxito um fluxo de trabalho usando os dados de exemplo fornecidos, está pronto para prosseguir com este artigo.

Múltiplos ficheiros BAM

Carregar os ficheiros de entrada para o armazenamento do Azure

Vamos supor que tem múltiplos ficheiros BAM como entrada, reads.bam, additional_reads.bam e yet_more_reads.bam, e os carregou para a sua conta de armazenamento myaccount no Azure. Tem o URL da API e a chave de acesso. Quer ter saídas em https://myaccount.blob.core.windows.net/outputs.

Submeter a tarefa para o cliente `msgen`

Pode submeter múltiplos ficheiros BAM ao transmitir todos os respetivos nomes para o argumento --input-blob-name-1. Tenha em atenção que todos os ficheiros devem vir do mesmo exemplo, mas a ordem não é importante. A secção seguinte detalha submissões de exemplo de uma linha de comandos no Windows, no Unix e através de um ficheiro de configuração. As quebras de linha são adicionadas para maior clareza:

Para Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Para Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Se preferir utilizar um ficheiro de configuração, eis o que deverá conter:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads.bam additional_reads.bam yet_more_reads.bam
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Submeta o ficheiro config.txt com esta invocação: msgen submit -f config.txt

Múltiplos ficheiros FASTQ emparelhados

Carregar os ficheiros de entrada para o armazenamento do Azure

Vamos supor que tem múltiplos ficheiros FASTQ emparelhados como entrada, reads_1.fq.gz e reads_2.fq.gz, additional_reads_1.fq.gz e additional_reads_2.fq.gz e yet_more_reads_1.fq.gz e yet_more_reads_2.fq.gz. Carregou-os para a sua conta de armazenamento myaccount no Azure e tem o URL da API e a chave de acesso. Quer ter saídas em https://myaccount.blob.core.windows.net/outputs.

Submeter a tarefa para o cliente `msgen`

Os ficheiros FASTQ emparelhados não só têm de ser provenientes do mesmo exemplo, mas também têm de ser processados em conjunto. A ordem dos nomes de ficheiro é importante quando são transmitidos como argumentos para --input-blob-name-1 e --input-blob-name-2.

A secção seguinte detalha submissões de exemplo de uma linha de comandos no Windows, no Unix e através de um ficheiro de configuração. As quebras de linha são adicionadas para maior clareza:

Para Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz ^
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Para Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz \
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Se preferir utilizar um ficheiro de configuração, eis o que deverá conter:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz
input_blob_name_2:                reads_2.fq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Submeta o ficheiro config.txt com esta invocação: msgen submit -f config.txt

Próximos passos

Neste artigo, você carregou vários arquivos BAM ou arquivos FASTQ emparelhados no Armazenamento do Azure e enviou um fluxo de trabalho para o serviço Microsoft Genomics por meio do msgen cliente Python. Para obter mais informações sobre a submissão de fluxos de trabalho e outros comandos que pode utilizar com o serviço Microsoft Genomics, veja a FAQ.

Partilhar via

Submeter um fluxo de trabalho através de várias entradas do mesmo exemplo

Múltiplos ficheiros BAM

Carregar os ficheiros de entrada para o armazenamento do Azure

Submeter a tarefa para o cliente `msgen`

Múltiplos ficheiros FASTQ emparelhados

Carregar os ficheiros de entrada para o armazenamento do Azure

Submeter a tarefa para o cliente `msgen`

Próximos passos

Comentários

Recursos adicionais

Partilhar via

Submeter um fluxo de trabalho através de várias entradas do mesmo exemplo

Múltiplos ficheiros BAM

Carregar os ficheiros de entrada para o armazenamento do Azure

Submeter a tarefa para o cliente msgen

Múltiplos ficheiros FASTQ emparelhados

Carregar os ficheiros de entrada para o armazenamento do Azure

Submeter a tarefa para o cliente msgen

Próximos passos

Comentários

Recursos adicionais

Submeter a tarefa para o cliente `msgen`

Submeter a tarefa para o cliente `msgen`