Bagikan melalui


Mengirim alur kerja menggunakan beberapa input dari sampel yang sama

Artikel ini menunjukkan cara mengirimkan alur kerja ke layanan Microsoft Genomics jika file input Anda adalah beberapa file FASTQ atau BAM yang berasal dari sampel yang sama. Misalnya, jika Anda menjalankan sampel yang sama di beberapa jalur pada sequencer, sequencer dapat menghasilkan sepasang file FASTQ untuk setiap jalur. Daripada menggabungkan file FASTQ ini sebelum penjajaran dan pemanggilan varian, Anda dapat langsung mengirimkan semua input ini kepada klien msgen. Output dari klien msgen akan menjadi satu set file, termasuk file .bam, .bai, .vcf.

Namun, perlu diingat bahwa Anda tidak dapat mencampur file FASTQ dan BAM dalam pengiriman yang sama. Selanjutnya, Anda tidak dapat mengirimkan beberapa file FASTQ atau BAM dari beberapa individu.

Artikel ini menganggap bahwa Anda sudah menginstal dan menjalankan klien msgen, serta familier dengan cara menggunakan Azure Storage. Jika telah berhasil mengirimkan alur kerja menggunakan data sampel yang disediakan, Anda siap melanjutkan dengan artikel ini.

Beberapa file BAM

Mengunggah file input ke penyimpanan Azure

Anggaplah Anda memiliki file BAM sebagai input, reads.bam, additional_reads.bam, dan yet_more_reads.bam, serta telah mengunggahnya ke akun penyimpanan Anda myaccount di Azure. Anda memiliki URL API dan kunci akses. Anda ingin memiliki output di https://myaccount.blob.core.windows.net/outputs .

Kirimkan pekerjaan Anda ke klien msgen

Anda dapat mengirimkan beberapa file BAM dengan meneruskan semua namanya ke argumen --input-blob-name-1. Perhatikan bahwa semua file sebaiknya berasal dari sampel yang sama, tetapi urutannya tidak begitu penting. Bagian berikut ini merinci pengiriman sampel dari baris perintah di Windows, Unix, dan menggunakan file konfigurasi. Jeda baris ditambahkan untuk kejelasan:

Untuk Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Untuk Unix

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Jika Anda lebih memilih menggunakan file konfigurasi, berikut ini yang akan dimuat:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads.bam additional_reads.bam yet_more_reads.bam
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Kirimkan file config.txt dengan pemanggilan ini: msgen submit -f config.txt

Beberapa file FASTQ yang dipasangkan

Mengunggah file input ke penyimpanan Azure

Anggaplah Anda memiliki beberapa file FASTQ yang dipasangkan sebagai input, reads_1.fq.gz dan reads_2.fq.gz, additional_reads_1.fq.gz dan additional_reads_2.fq.gz, dan yet_more_reads_1.fq.gz dan yet_more_reads_2.fq.gz. Anda telah mengunggahnya ke akun penyimpanan myaccount di Azure dan Anda memiliki URL API dan kunci akses Anda. Anda ingin memiliki output di https://myaccount.blob.core.windows.net/outputs .

Kirimkan pekerjaan Anda ke klien msgen

File FASTQ yang dipasangkan tidak hanya berasal dari sampel yang sama, tetapi file tersebut juga harus diproses secara bersamaan. Urutan nama file penting ketika diteruskan sebagai argumen ke --input-blob-name-1 dan --input-blob-name-2.

Bagian berikut ini merinci pengiriman sampel dari baris perintah di Windows, Unix, dan menggunakan file konfigurasi. Jeda baris ditambahkan untuk kejelasan:

Untuk Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz ^
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Untuk Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz \
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Jika Anda lebih memilih menggunakan file konfigurasi, berikut ini yang akan dimuat:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz
input_blob_name_2:                reads_2.fq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Kirimkan file config.txt dengan pemanggilan ini: msgen submit -f config.txt

Langkah berikutnya

Dalam artikel ini, Anda telah mengunggah beberapa file BAM atau file FASTQ yang dipasangkan ke Azure Storage dan mengirimkan alur kerja ke layanan Microsoft Genomics melalui klien Python msgen. Untuk informasi selengkapnya terkait pengiriman alur kerja dan perintah lainnya, Anda dapat menggunakan layanan Microsoft Genomics, lihat FAQ.