Sdílet prostřednictvím


Odeslání pracovního postupu pomocí více vstupů ze stejného vzorku

Tento článek ukazuje, jak odeslat pracovní postup do služby Microsoft Genomics, pokud je vaším vstupním souborem více souborů FASTQ nebo BAM pocházejících ze stejné ukázky. Pokud jste například v sekvenceru spustili stejný vzorek na více řádcích, sekvencer může pro každý řádek vypsat dvojici souborů FASTQ. Místo řetězení těchto souborů FASTQ před porovnáváním sekvencí a detekcí variant můžete všechny tyto vstupy odeslat přímo do klienta msgen. Výstupem z klienta msgen bude jedna sada souborů, včetně souborů .bam, .bai a .vcf.

Mějte ale na paměti, že v jednom odeslání nelze kombinovat soubory FASTQ a BAM. Navíc nelze odeslat více souborů FASTQ nebo BAM od více jednotlivců.

Tento článek předpokládá, že jste už nainstalovali a spustili klienta msgen a že víte, jak používat službu Azure Storage. Pokud jste úspěšně odeslali pracovní postup s použitím zadaných ukázkových dat, jste připraveni pokračovat v tomto článku.

Více souborů BAM

Odeslání vstupních souborů do Azure Storage

Předpokládejme, že máte jako vstup několik souborů BAM, reads.bam, additional_reads.bam a yet_more_reads.bam, a odeslali jste je do vašeho účtu úložiště myaccount v Azure. Máte adresu URL rozhraní API a přístupový klíč. Chcete mít výstupy v https://myaccount.blob.core.windows.net/outputs.

Odeslání úlohy do klienta msgen

Můžete odeslat více souborů BAM tak, že jejich názvy zadáte v parametru --input-blob-name-1. Všimněte si, že všechny soubory musí pocházet ze stejného vzorku, ale jejich pořadí není důležité. Následující část obsahuje podrobný popis příkladů odesílání z příkazového řádku ve Windows, v Unixu a pomocí konfiguračního souboru. Konce řádků jsou přidány pro přehlednost:

Ve Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

V Unixu:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Pokud dáváte přednost použití konfiguračního souboru, měl by obsahovat:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads.bam additional_reads.bam yet_more_reads.bam
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Odešlete soubor config.txt tímto voláním: msgen submit -f config.txt

Více párovaných souborů FASTQ

Odeslání vstupních souborů do Azure Storage

Předpokládejme, že jako vstup máte několik spárovaných souborů FASTQ, reads_1.fq.gz a reads_2.fq.gz, additional_reads_1.fq.gz a additional_reads_2.fq.gz a yet_more_reads_1.fq.gz a yet_more_reads_2.fq.gz. Nahráli jste je do svého účtu úložiště myaccount v Azure a máte adresu URL rozhraní API a přístupový klíč. Chcete mít výstupy v https://myaccount.blob.core.windows.net/outputs.

Odeslání úlohy do klienta msgen

Párované FASTQ soubory nejenom musí pocházet ze stejného vzorku, ale také musí být zpracovány současně. Na pořadí názvů souborů záleží, když jsou předávány jako argumenty pomocí --input-blob-name-1 a --input-blob-name-2.

Následující část obsahuje podrobný popis příkladů odesílání z příkazového řádku ve Windows, v Unixu a pomocí konfiguračního souboru. Konce řádků jsou přidány pro přehlednost:

Ve Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz ^
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

V Unixu:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz \
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Pokud dáváte přednost použití konfiguračního souboru, měl by obsahovat:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz
input_blob_name_2:                reads_2.fq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Odešlete soubor config.txt tímto voláním: msgen submit -f config.txt

Další kroky

V tomto článku jste do služby Azure Storage nahráli několik souborů BAM nebo spárovaných souborů FASTQ a prostřednictvím pythonového msgen klienta jste odeslali pracovní postup do služby Microsoft Genomics. Další informace týkající se odesílání pracovních postupů a dalších příkazů, které můžete použít se službou Microsoft Genomics, najdete v nejčastějších dotazech.