Mulai cepat: Menjalankan alur kerja melalui layanan Microsoft Genomics

Dalam mulai cepat ini, Anda mengunggah data input ke akun Azure Blob Storage, dan menjalankan alur kerja melalui layanan Microsoft Genomics dengan menggunakan klien Python Genomics. Microsoft Genomics adalah layanan aman, dapat diskalakan untuk analisis sekunder yang dapat dengan cepat memproses genom, mulai dari pembacaan mentah dan menghasilkan pembacaan yang selaras dan panggilan varian.

Prasyarat

Penyiapan: Membuat akun Microsoft Genomics di portal Microsoft Azure

Untuk membuat akun Microsoft Genomics, navigasi ke Buat akun Microsoft Genomics di portal Microsoft Azure. Jika Anda belum memiliki langganan Azure, buat langganan sebelum membuat akun Microsoft Genomics.

Microsoft Genomics di portal Azure

Konfigurasikan akun Microsoft Genomics Anda dengan informasi berikut, seperti yang ditunjukkan pada gambar sebelumnya.

Pengaturan Nilai yang disarankan Deskripsi bidang
Langganan Nama langganan Anda Ini adalah unit tagihan untuk layanan Azure Anda - Untuk detail tentang langganan Anda lihat Langganan
Grup sumber daya MyResourceGroup Grup sumber daya memungkinkan Anda mengelompokkan beberapa sumber daya Azure (akun penyimpanan, akun genomika, dll.) ke dalam satu grup untuk memudahkan manajemen. Untuk informasi selengkapnya, lihat Grup Sumber Daya. Untuk nama grup sumber daya yang valid, lihat Aturan Penamaan
Nama akun MyGenomicsAccount Pilih pengidentifikasi akun yang unik. Untuk nama yang valid, lihat Aturan Penamaan
Lokasi US Barat 2 Layanan tersedia di AS Barat 2, Eropa Barat, dan Asia Tenggara

Anda dapat memilih Pemberitahuan pada bilah menu atas untuk memantau proses penyebaran.

Pemberitahuan Pemberitahuan

Untuk informasi selengkapnya tentang Microsoft Genomics, lihat Apa itu Microsoft Genomics?

Penyiapan: Menginstal klien Microsoft Genomics Python

Anda perlu menginstal klien Python dan klien Microsoft Genomics Python msgen di lingkungan lokal Anda.

Instal Python

Klien Microsoft Genomics Python kompatibel dengan Python 2.7.12 atau versi 2.7.xx yang lebih baru. 2.7.14 adalah versi yang disarankan. Anda dapat menemukan pengunduhan di sini.

Penting

Python 3.x tidak kompatibel dengan Python 2.7.xx. msgen adalah aplikasi Python 2.7. Saat menjalankan msgen, pastikan bahwa lingkungan Python aktif Anda menggunakan Python versi 2.7.xx. Anda mungkin menerima pesan kesalahan saat mencoba msgen menggunakan Python versi 3.x.

Menginstal klien Microsoft Genomics Python msgen

Gunakan Python pip untuk menginstal klien Microsoft Genomics msgen. Instruksi berikut mengasumsikan bahwa Python2.x sudah ada di jalur sistem Anda. Jika Anda mengalami masalah dengan penginstalan pip yang tidak dikenali, Anda perlu menambahkan Python dan subfolder skrip ke jalur sistem Anda.

pip install --upgrade --no-deps msgen
pip install msgen

Jika Anda tidak ingin menginstal sebagai msgen biner seluruh sistem dan memodifikasi paket Python di seluruh sistem, gunakan bendera –-user dengan pip. Jika Anda menggunakan penginstalan berbasis paket atau setup.py, semua paket yang diperlukan diinstal.

Menguji klien Python msgen

Untuk menguji klien Microsoft Genomics, unduh file konfigurasi dari akun Genomics Anda. Di portal Microsoft Azure, navigasi ke akun Microsoft Genomics Anda dengan memilih Semua layanan di kiri atas, lalu cari dan pilih akun Microsoft Genomics.

Temukan Microsoft Genomics di portal Azure

Pilih akun Microsoft Genomics yang baru saja Anda buat, navigasi ke Tombol Akses, dan unduh file konfigurasi.

Unduh file konfigurasi dari file konfigurasi Unduh Microsoft Genomics

Uji bahwa klien Microsoft Genomics Python bekerja dengan perintah berikut

msgen list -f "<full path where you saved the config file>"

Membuat akun Microsoft Azure Storage

Layanan Microsoft Genomics mengharapkan input disimpan sebagai blob blok di akun penyimpanan Azure. Layanan ini juga menulis file output sebagai blob blok ke kontainer yang ditentukan pengguna di akun penyimpanan Azure. Input dan output dapat berada di akun penyimpanan yang berbeda. Jika sudah memiliki data di akun penyimpanan Azure, Anda hanya perlu memastikan bahwa data tersebut berada di lokasi yang sama dengan akun Microsoft Genomics. Jika tidak, biaya keluar dikenakan saat menjalankan layanan Microsoft Genomics. Jika belum memiliki akun penyimpanan Azure, Anda harus membuatnya dan mengunggah data Anda. Anda dapat menemukan informasi selengkapnya tentang akun penyimpanan Azure di sini, termasuk akun penyimpanan dan layanan apa yang disediakan. Untuk membuat akun penyimpanan Azure, navigasi ke Buat akun penyimpanan di portal Microsoft Azure.

Akun penyimpanan membuat halaman

Konfigurasikan akun penyimpanan Anda dengan informasi berikut, seperti yang ditunjukkan pada gambar sebelumnya. Gunakan sebagian besar opsi standar untuk akun penyimpanan, yang hanya menentukan bahwa akun tersebut adalah BlobStorage, bukan tujuan umum. Penyimpanan blob bisa 2-5x lebih cepat untuk unduhan dan unggahan. Model penyebaran default, Azure Resource Manager, disarankan.

Pengaturan Nilai yang disarankan Deskripsi bidang
Langganan Pilih langganan Azure Anda Untuk detail tentang langganan Anda, lihat Langganan
Grup sumber daya MyResourceGroup Anda dapat memilih grup sumber daya yang sama dengan akun Microsoft Genomics Anda. Untuk nama grup sumber daya yang valid, lihat Aturan penamaan
Nama akun penyimpanan MyStorageAccount Pilih pengidentifikasi akun yang unik. Untuk nama yang valid, lihat Aturan penamaan
Lokasi US Barat 2 Gunakan lokasi yang sama dengan lokasi akun Microsoft Genomics Anda, untuk mengurangi biaya keluar, dan mengurangi latensi.
Performa Standard Defaultnya adalah standar. Untuk detail selengkapnya tentang akun penyimpanan standar dan premium, lihat Pengantar penyimpanan Microsoft Azure
Jenis akun BlobStorage Penyimpanan blob bisa 2-5x lebih cepat dari tujuan umum untuk unduhan dan unggahan.
Replikasi Penyimpanan Redundan lokal Penyimpanan redundan secara lokal mereplikasi data Anda dalam pusat data di wilayah tempat Anda membuat akun penyimpanan. Untuk informasi lebih lanjut, lihat Replikasi Microsoft Azure Storage
Tingkat penyimpanan Hot Akses cepat menunjukkan objek di akun penyimpanan akan lebih sering diakses.

Pilih Tinjau + buat untuk membuat akun penyimpanan. Seperti yang Anda lakukan dengan pembuatan akun Microsoft Genomics, Anda dapat memilih Pemberitahuan pada bilah menu atas untuk memantau proses penyebaran.

Mengunggah data input ke akun penyimpanan Anda

Layanan Microsoft Genomics mengharapkan ujung yang dipasangkan terbaca (file fastq atau bam) sebagai file input. Anda dapat memilih untuk mengunggah data Anda sendiri, atau menjelajahi menggunakan data sampel yang tersedia untuk umum yang disediakan untuk Anda.

Dalam akun penyimpanan, Anda perlu membuat satu kontainer blob untuk data input dan kontainer blob kedua untuk data output Anda. Unggah data input ke kontainer blob input Anda. Berbagai alat dapat digunakan untuk melakukannya, termasuk Microsoft Azure Storage Explorer, BlobPorter, atau AzCopy.

Jalankan alur kerja melalui layanan Microsoft Genomics menggunakan klien Python msgen

Untuk menjalankan alur kerja melalui layanan Microsoft Genomics, edit file config.txt untuk menentukan kontainer penyimpanan input dan output untuk data Anda. Buka file config.txt yang Anda unduh dari akun Microsoft Genomics Anda. Bagian yang perlu Anda tentukan adalah kunci langganan dan keenam item di bagian bawah, nama akun penyimpanan, kunci, dan nama kontainer untuk input dan output. Anda dapat menemukan informasi ini dengan menavigasi di portal Microsoft Azure ke Kunci akses untuk akun penyimpanan Anda, atau langsung dari Azure Storage Explorer.

Konfigurasi Genomics

Jika Anda ingin menjalankan GATK4, atur parameter process_name ke gatk4.

Secara default, layanan Microsoft Genomics menghasilkan file VCF. Jika Anda menginginkan output gVCF bukannya output VCF (setara dengan -emitRefConfidence di GATK 3.x dan emit-ref-confidence di GATK 4.x), tambahkan parameter emit_ref_confidence ke config.txt Anda dan atur ke gvcf, seperti yang ditunjukkan pada gambar sebelumnya. Untuk mengubah kembali ke output VCF, hapus dari file config.txt atau atur parameter emit_ref_confidence ke none.

bgzip adalah alat yang mengompresi file vcf atau gvcf, dan tabix membuat indeks untuk file terkompresi. Secara default, layanan Microsoft Genomics menjalankan bgzip diikuti oleh tabix pada output ".g.vcf" tetapi tidak menjalankan alat ini secara default untuk output ".vcf". Saat dijalankan, layanan menghasilkan file ".gz" (output bgzip) dan ".tbi" (output tabix). Argumen adalah boolean, yang diatur ke false secara default untuk output ".vcf", dan ke true secara default untuk output ".g.vcf". Untuk menggunakannya pada baris perintah, tentukan -bz atau --bgzip-output sebagai true (jalankan bgzip dan tabix) atau false. Untuk menggunakan argumen ini dalam file config.txt, tambahkan bgzip_output: true atau bgzip_output: false ke file tersebut.

Kirim alur kerja Anda ke layanan Microsoft Genomics menggunakan klien Python msgen

Gunakan klien Microsoft Genomics Python untuk mengirimkan alur kerja Anda dengan perintah berikut:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Anda bisa melihat status alur kerja Anda menggunakan perintah berikut:

msgen list -f c:\temp\config.txt 

Setelah alur kerja selesai, Anda dapat melihat file output di akun penyimpanan Azure Anda di kontainer output yang Anda konfigurasikan.

Langkah berikutnya

Dalam artikel ini, Anda mengunggah data input sampel ke penyimpanan Azure dan mengirimkan alur kerja ke layanan Microsoft Genomics melalui klien Python msgen. Untuk mempelajari selengkapnya tentang jenis file input lain yang dapat digunakan dengan layanan Microsoft Genomics, lihat halaman berikut: pasangan FASTQ | BAM | Beberapa FASTQ atau BAM.