Aynı örnekten birden fazla giriş kullanarak iş akışı gönderme

Bu makalede, giriş dosyanız aynı örnekten gelen birden çok FASTQ veya BAM dosyasıysa Microsoft Genomiks hizmetine iş akışı gönderme işlemi gösterilmektedir. Örneğin, sıralayıcı üzerinde birden çok şeritte aynı örneği çalıştırdıysanız, sıralayıcı her şerit için bir çift FASTQ dosyası çıkarabilir. Hizalama ve varyant aramadan önce bu FASTQ dosyalarını birleştirmek yerine, bu girişlerin tümünü msgen istemcisine doğrudan gönderebilirsiniz. msgen istemcisinin çıktıları, .bam, .bai, .vcf dosyalarından oluşan tek bir küme olur.

Ancak aynı gönderide FASTQ ve BAM dosyalarını bir arada kullanamayacağınızı unutmayın. Ayrıca, birden çok kişiden birden çok FASTQ veya BAM dosyası gönderemezsiniz.

Bu makalede msgen istemcisini yükleyip çalıştırdığınız ve Azure Depolama’yı kullanma konusunda bilgi sahibi olduğunuz kabul edilmektedir. Sağlanan örnek verileri kullanarak bir iş akışını başarıyla gönderdiyseniz, bu makaleyle devam etmeye hazırsınız.

Birden fazla BAM dosyası

Giriş dosyalarınızı Azure depolamaya yükleme

Giriş olarak reads.bam, additional_reads.bam ve yet_more_reads.bam olmak üzere birden fazla BAM dosyasına sahip olduğunuzu ve bunları myaccount adlı Azure depolama hesabınıza yüklediğinizi düşünelim. API URL'sine ve erişim anahtarına sahipsiniz. https://myaccount.blob.core.windows.net/outputs içinde iki çıkış olmasını istiyorsunuz.

İşinizi msgen istemcisine gönderme

Birden fazla BAM dosyasını adlarını --input-blob-name-1 komutuna bağımsız değişken olarak ileterek gönderebilirsiniz. Tüm dosyaların aynı örnekten gelmesi gerektiğini ancak sıralamanın önemli olmadığını unutmayın. Aşağıda Windows ile Unix’te komut satırında ve yapılandırma dosyası kullanılarak gerçekleştirilen örnek gönderimlere yer verilmiştir. Kodun daha anlaşılır olması için satır sonları eklenmiştir:

Windows için:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Unix için

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Yapılandırma dosyası kullanmayı tercih ediyorsanız şu bileşenleri dahil etmeniz gerekir:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads.bam additional_reads.bam yet_more_reads.bam
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

config.txt dosyasını şu çağrıyla gönderin: msgen submit -f config.txt

Birden fazla eşleştirilmiş FASTQ dosyası

Giriş dosyalarınızı Azure depolamaya yükleme

Giriş olarak birden çok eşleştirilmiş FASTQ dosyanız olduğunu varsayalım: reads_1.fq.gz ve reads_2.fq.gz, additional_reads_1.fq.gz ve additional_reads_2.fq.gz ve yet_more_reads_1.fq.gz ve yet_more_reads_2.fq.gz. Bunları myaccount adlı Azure depolama hesabınıza yüklediniz. API URL'sine ve erişim anahtarına sahipsiniz. https://myaccount.blob.core.windows.net/outputs içinde iki çıkış olmasını istiyorsunuz.

İşinizi msgen istemcisine gönderme

Eşleştirilmiş FASTQ dosyalarının aynı örneğe ait olması ve bir arada işlenmesi gerekir. Dosya adlarının sırası --input-blob-name-1 ve --input-blob-name-2 komutlarına bağımsız değişken olarak ilettiğinizde önemlidir.

Aşağıda Windows ile Unix’te komut satırında ve yapılandırma dosyası kullanılarak gerçekleştirilen örnek gönderimlere yer verilmiştir. Kodun daha anlaşılır olması için satır sonları eklenmiştir:

Windows için:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz ^
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Unix için:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz \
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Yapılandırma dosyası kullanmayı tercih ediyorsanız şu bileşenleri dahil etmeniz gerekir:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz
input_blob_name_2:                reads_2.fq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

config.txt dosyasını şu çağrıyla gönderin: msgen submit -f config.txt

Sonraki adımlar

Bu makalede, Azure Depolama'ya birden çok BAM dosyası veya eşleştirilmiş FASTQ dosyası yüklediniz ve Python istemcisi aracılığıyla msgen Microsoft Genomiks hizmetine bir iş akışı gönderdiniz. İş akışının gönderilmesi ve Microsoft Genomiks hizmetiyle kullanabileceğiniz diğer komutlar hakkında daha fazla bilgi için bkz. SSS.