Mulai cepat: Menjalankan alur kerja melalui layanan Microsoft Genomics
Dalam mulai cepat ini, Anda mengunggah data input ke akun Azure Blob Storage, dan menjalankan alur kerja melalui layanan Microsoft Genomics dengan menggunakan klien Python Genomics. Microsoft Genomics adalah layanan aman, dapat diskalakan untuk analisis sekunder yang dapat dengan cepat memproses genom, mulai dari pembacaan mentah dan menghasilkan pembacaan yang selaras dan panggilan varian.
Prasyarat
- Akun Azure dengan langganan aktif. Membuat akun secara gratis.
- Python 2.7.12+, dengan
pip
terinstal, danpython
di jalur sistem Anda. Klien Microsoft Genomics tidak kompatibel dengan Python 3.
Penyiapan: Membuat akun Microsoft Genomics di portal Microsoft Azure
Untuk membuat akun Microsoft Genomics, navigasi ke Buat akun Microsoft Genomics di portal Microsoft Azure. Jika Anda belum memiliki langganan Azure, buat langganan sebelum membuat akun Microsoft Genomics.
Konfigurasikan akun Microsoft Genomics Anda dengan informasi berikut, seperti yang ditunjukkan pada gambar sebelumnya.
Pengaturan | Nilai yang disarankan | Deskripsi bidang |
---|---|---|
Langganan | Nama langganan Anda | Ini adalah unit tagihan untuk layanan Azure Anda - Untuk detail tentang langganan Anda lihat Langganan |
Grup sumber daya | MyResourceGroup | Grup sumber daya memungkinkan Anda mengelompokkan beberapa sumber daya Azure (akun penyimpanan, akun genomika, dll.) ke dalam satu grup untuk memudahkan manajemen. Untuk informasi selengkapnya, lihat Grup Sumber Daya. Untuk nama grup sumber daya yang valid, lihat Aturan Penamaan |
Nama akun | MyGenomicsAccount | Pilih pengidentifikasi akun yang unik. Untuk nama yang valid, lihat Aturan Penamaan |
Lokasi | US Barat 2 | Layanan tersedia di AS Barat 2, Eropa Barat, dan Asia Tenggara |
Anda dapat memilih Pemberitahuan pada bilah menu atas untuk memantau proses penyebaran.
Untuk informasi selengkapnya tentang Microsoft Genomics, lihat Apa itu Microsoft Genomics?
Penyiapan: Menginstal klien Microsoft Genomics Python
Anda perlu menginstal klien Python dan klien Microsoft Genomics Python msgen
di lingkungan lokal Anda.
Instal Python
Klien Microsoft Genomics Python kompatibel dengan Python 2.7.12 atau versi 2.7.xx yang lebih baru. 2.7.14 adalah versi yang disarankan. Anda dapat menemukan pengunduhan di sini.
Penting
Python 3.x tidak kompatibel dengan Python 2.7.xx. msgen
adalah aplikasi Python 2.7. Saat menjalankan msgen
, pastikan bahwa lingkungan Python aktif Anda menggunakan Python versi 2.7.xx. Anda mungkin menerima pesan kesalahan saat mencoba msgen
menggunakan Python versi 3.x.
Menginstal klien Microsoft Genomics Python msgen
Gunakan Python pip
untuk menginstal klien Microsoft Genomics msgen
. Instruksi berikut mengasumsikan bahwa Python2.x sudah ada di jalur sistem Anda. Jika Anda mengalami masalah dengan penginstalan pip
yang tidak dikenali, Anda perlu menambahkan Python dan subfolder skrip ke jalur sistem Anda.
pip install --upgrade --no-deps msgen
pip install msgen
Jika Anda tidak ingin menginstal sebagai msgen
biner seluruh sistem dan memodifikasi paket Python di seluruh sistem, gunakan bendera –-user
dengan pip
.
Jika Anda menggunakan penginstalan berbasis paket atau setup.py, semua paket yang diperlukan diinstal.
Menguji klien Python msgen
Untuk menguji klien Microsoft Genomics, unduh file konfigurasi dari akun Genomics Anda. Di portal Microsoft Azure, navigasi ke akun Microsoft Genomics Anda dengan memilih Semua layanan di kiri atas, lalu cari dan pilih akun Microsoft Genomics.
Pilih akun Microsoft Genomics yang baru saja Anda buat, navigasi ke Tombol Akses, dan unduh file konfigurasi.
Uji bahwa klien Microsoft Genomics Python bekerja dengan perintah berikut
msgen list -f "<full path where you saved the config file>"
Membuat akun Microsoft Azure Storage
Layanan Microsoft Genomics mengharapkan input disimpan sebagai blob blok di akun penyimpanan Azure. Layanan ini juga menulis file output sebagai blob blok ke kontainer yang ditentukan pengguna di akun penyimpanan Azure. Input dan output dapat berada di akun penyimpanan yang berbeda. Jika sudah memiliki data di akun penyimpanan Azure, Anda hanya perlu memastikan bahwa data tersebut berada di lokasi yang sama dengan akun Microsoft Genomics. Jika tidak, biaya keluar dikenakan saat menjalankan layanan Microsoft Genomics. Jika belum memiliki akun penyimpanan Azure, Anda harus membuatnya dan mengunggah data Anda. Anda dapat menemukan informasi selengkapnya tentang akun penyimpanan Azure di sini, termasuk akun penyimpanan dan layanan apa yang disediakan. Untuk membuat akun penyimpanan Azure, navigasi ke Buat akun penyimpanan di portal Microsoft Azure.
Konfigurasikan akun penyimpanan Anda dengan informasi berikut, seperti yang ditunjukkan pada gambar sebelumnya. Gunakan sebagian besar opsi standar untuk akun penyimpanan, yang hanya menentukan bahwa akun tersebut adalah BlobStorage, bukan tujuan umum. Penyimpanan blob bisa 2-5x lebih cepat untuk unduhan dan unggahan. Model penyebaran default, Azure Resource Manager, disarankan.
Pengaturan | Nilai yang disarankan | Deskripsi bidang |
---|---|---|
Langganan | Pilih langganan Azure Anda | Untuk detail tentang langganan Anda, lihat Langganan |
Grup sumber daya | MyResourceGroup | Anda dapat memilih grup sumber daya yang sama dengan akun Microsoft Genomics Anda. Untuk nama grup sumber daya yang valid, lihat Aturan penamaan |
Nama akun penyimpanan | MyStorageAccount | Pilih pengidentifikasi akun yang unik. Untuk nama yang valid, lihat Aturan penamaan |
Lokasi | US Barat 2 | Gunakan lokasi yang sama dengan lokasi akun Microsoft Genomics Anda, untuk mengurangi biaya keluar, dan mengurangi latensi. |
Performa | Standard | Defaultnya adalah standar. Untuk detail selengkapnya tentang akun penyimpanan standar dan premium, lihat Pengantar penyimpanan Microsoft Azure |
Jenis akun | BlobStorage | Penyimpanan blob bisa 2-5x lebih cepat dari tujuan umum untuk unduhan dan unggahan. |
Replikasi | Penyimpanan Redundan lokal | Penyimpanan redundan secara lokal mereplikasi data Anda dalam pusat data di wilayah tempat Anda membuat akun penyimpanan. Untuk informasi lebih lanjut, lihat Replikasi Microsoft Azure Storage |
Tingkat penyimpanan | Hot | Akses cepat menunjukkan objek di akun penyimpanan akan lebih sering diakses. |
Pilih Tinjau + buat untuk membuat akun penyimpanan. Seperti yang Anda lakukan dengan pembuatan akun Microsoft Genomics, Anda dapat memilih Pemberitahuan pada bilah menu atas untuk memantau proses penyebaran.
Mengunggah data input ke akun penyimpanan Anda
Layanan Microsoft Genomics mengharapkan ujung yang dipasangkan terbaca (file fastq atau bam) sebagai file input. Anda dapat memilih untuk mengunggah data Anda sendiri, atau menjelajahi menggunakan data sampel yang tersedia untuk umum yang disediakan untuk Anda.
Dalam akun penyimpanan, Anda perlu membuat satu kontainer blob untuk data input dan kontainer blob kedua untuk data output Anda. Unggah data input ke kontainer blob input Anda. Berbagai alat dapat digunakan untuk melakukannya, termasuk Microsoft Azure Storage Explorer, BlobPorter, atau AzCopy.
Jalankan alur kerja melalui layanan Microsoft Genomics menggunakan klien Python msgen
Untuk menjalankan alur kerja melalui layanan Microsoft Genomics, edit file config.txt untuk menentukan kontainer penyimpanan input dan output untuk data Anda. Buka file config.txt yang Anda unduh dari akun Microsoft Genomics Anda. Bagian yang perlu Anda tentukan adalah kunci langganan dan keenam item di bagian bawah, nama akun penyimpanan, kunci, dan nama kontainer untuk input dan output. Anda dapat menemukan informasi ini dengan menavigasi di portal Microsoft Azure ke Kunci akses untuk akun penyimpanan Anda, atau langsung dari Azure Storage Explorer.
Jika Anda ingin menjalankan GATK4, atur parameter process_name
ke gatk4
.
Secara default, layanan Microsoft Genomics menghasilkan file VCF. Jika Anda menginginkan output gVCF bukannya output VCF (setara dengan -emitRefConfidence
di GATK 3.x dan emit-ref-confidence
di GATK 4.x), tambahkan parameter emit_ref_confidence
ke config.txt Anda dan atur ke gvcf
, seperti yang ditunjukkan pada gambar sebelumnya. Untuk mengubah kembali ke output VCF, hapus dari file config.txt atau atur parameter emit_ref_confidence
ke none
.
bgzip
adalah alat yang mengompresi file vcf atau gvcf, dan tabix
membuat indeks untuk file terkompresi. Secara default, layanan Microsoft Genomics menjalankan bgzip
diikuti oleh tabix
pada output ".g.vcf" tetapi tidak menjalankan alat ini secara default untuk output ".vcf". Saat dijalankan, layanan menghasilkan file ".gz" (output bgzip) dan ".tbi" (output tabix). Argumen adalah boolean, yang diatur ke false secara default untuk output ".vcf", dan ke true secara default untuk output ".g.vcf". Untuk menggunakannya pada baris perintah, tentukan -bz
atau --bgzip-output
sebagai true
(jalankan bgzip dan tabix) atau false
. Untuk menggunakan argumen ini dalam file config.txt, tambahkan bgzip_output: true
atau bgzip_output: false
ke file tersebut.
Kirim alur kerja Anda ke layanan Microsoft Genomics menggunakan klien Python msgen
Gunakan klien Microsoft Genomics Python untuk mengirimkan alur kerja Anda dengan perintah berikut:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
Anda bisa melihat status alur kerja Anda menggunakan perintah berikut:
msgen list -f c:\temp\config.txt
Setelah alur kerja selesai, Anda dapat melihat file output di akun penyimpanan Azure Anda di kontainer output yang Anda konfigurasikan.
Langkah berikutnya
Dalam artikel ini, Anda mengunggah data input sampel ke penyimpanan Azure dan mengirimkan alur kerja ke layanan Microsoft Genomics melalui klien Python msgen
. Untuk mempelajari selengkapnya tentang jenis file input lain yang dapat digunakan dengan layanan Microsoft Genomics, lihat halaman berikut: pasangan FASTQ | BAM | Beberapa FASTQ atau BAM.