Submeter um fluxo de trabalho através de entradas de ficheiros FASTQ no Microsoft Genomics

Este artigo demonstra como submeter um fluxo de trabalho para o serviço Microsoft Genomics se os seus ficheiros de entrada forem um único par de ficheiros FASTQ. Este tópico pressupõe que já instalou e executou o cliente msgen e está familiarizado com a utilização do Armazenamento do Azure. Se submeteu com êxito um fluxo de trabalho com os dados de exemplo fornecidos, está pronto para prosseguir com este artigo.

Configurar: carregar os ficheiros FASTQ para o armazenamento do Azure

Vamos supor que tem dois ficheiros, reads_1.fq.gz e reads_2.fq.gz, e os carregou para a sua conta de armazenamento myaccount no Azure como https://myaccount.blob.core.windows.net/inputs/reads_1.fq.gz and https://myaccount.blob.core.windows.net/inputs/reads_2.fq.gz. Tem o URL da API e a chave de acesso. Quer ter saídas em https://myaccount.blob.core.windows.net/outputs.

Submeter a tarefa para o cliente msgen

Segue-se o conjunto mínimo de argumentos que terá de fornecer ao cliente msgen; as quebras de linha são adicionadas para maior clareza:

Para Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fq.gz ^
  --input-blob-name-2 reads_2.fq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Para Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fq.gz \
  --input-blob-name-2 reads_2.fq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Se preferir utilizar um ficheiro de configuração, eis o que deverá conter:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz
input_blob_name_2:                reads_2.fq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Submeta o ficheiro config.txt com esta invocação: msgen submit -f config.txt

Passos seguintes

Neste artigo, carregou um par de ficheiros FASTQ para o Armazenamento do Microsoft Azure e submeteu um fluxo de trabalho para o serviço Microsoft Genomics através do msgen cliente Python. Para saber mais sobre a submissão de fluxos de trabalho e outros comandos que pode utilizar com o serviço Microsoft Genomics, consulte as nossas FAQ.