Hızlı Başlangıç: Microsoft Genomiks hizmeti üzerinden iş akışı çalıştırma

Bu hızlı başlangıçta giriş verilerini bir Azure Blob depolama hesabına yükleyecek ve Python Genomiks istemcisini kullanarak Microsoft Genomiks hizmeti aracılığıyla bir iş akışı çalıştıracaksınız. Microsoft Genomiks, ham okumalardan başlayarak hizalanmış okumalar ve varyant ilanları üreten, bir genomu hızlı bir şekilde işleyebilen ikincil analize yönelik ölçeklenebilir ve güvenli bir hizmettir.

Önkoşullar

Kurulum: Azure portalında bir Microsoft Genomiks hesabı oluşturma

Microsoft Genomiks hesabı oluşturmak için Azure portal Genomiks hesabı oluştur'a gidin. Azure aboneliğiniz yoksa Microsoft Genomiks hesabı oluşturmadan bir hesap açın.

microsoft genomiks on Azure portal

Genomiks hesabınızı bir önceki resimde gösterildiği gibi aşağıdaki bilgilerle yapılandırın.

Ayar Önerilen değer Alan açıklaması
Abonelik Aboneliğinizin adı Bu, Azure hizmetleriniz için faturalandırma birimidir. Aboneliğiniz hakkında ayrıntılı bilgi için bkz. Abonelikler
Kaynak grubu MyResourceGroup Kaynak grupları kolay yönetim için birden fazla Azure kaynağını (depolama hesabı, genomiks hesabı vs.) tek bir grupta toplamanızı sağlar. Daha fazla bilgi için bkz. Kaynak Grupları. Geçerli kaynak grubu adları için bkz. Adlandırma Kuralları
Hesap adı MyGenomicsAccount Benzersiz bir hesap tanımlayıcı seçin. Geçerli adlar için bkz. Adlandırma Kuralları
Konum Batı ABD 2 Bu hizmet Batı ABD 2, Batı Avrupa ve Güneydoğu Asya konumlarında kullanılabilir

Dağıtım işlemini izlemek için üst menü çubuğunda Bildirimler'i seçebilirsiniz.

Bildirimler

Microsoft Genomiks hakkında daha fazla bilgi için bkz. Microsoft Genomiks nedir?

Kurulum: Microsoft Genomiks Python istemcisini yükleme

Yerel ortamınıza hem Python hem de Microsoft Genomiks Python istemcisini msgen yüklemeniz gerekir.

Python'ı Yükleme

Microsoft Genomiks Python istemcisi Python 2.7.12 veya sonraki bir 2.7.xx sürümüyle uyumludur. Önerilen sürüm 2.7.14'dür. Dosyayı buradan indirebilirsiniz.

Önemli

Python 3.x, Python 2.7.xx ile uyumlu değildir. msgen bir Python 2.7 uygulamasıdır. komutunu çalıştırırken msgenetkin Python ortamınızın Python'ın 2.7.xx sürümünü kullandığından emin olun. Python'ın 3.x sürümüyle kullanmaya msgen çalışırken hata alabilirsiniz.

Microsoft Genomiks Python istemcisini yükleme msgen

Microsoft Genomiks istemcisini msgenyüklemek için Python pip kullanın. Aşağıdaki yönergelerde Python2.x'in sistem yolunuz içinde olduğu varsayılır. Yüklemenin tanınmamasıyla pip ilgili sorunlarınız varsa, sistem yolunuza Python ve betikler alt klasörünü eklemeniz gerekir.

pip install --upgrade --no-deps msgen
pip install msgen

Sistem genelinde ikili dosya olarak yüklemek msgen ve sistem genelindeki Python paketlerini değiştirmek istemiyorsanız ile pipbayrağını –-user kullanın. Paket tabanlı yüklemeyi veya setup.py kullandığınızda, gerekli tüm paketler yüklenir.

Python istemciyi test etme msgen

Microsoft Genomiks istemcisini test etmek için Genomiks hesabınızdan yapılandırma dosyasını indirin. Azure portal, sol üst kısımdaki Tüm hizmetler'i ve ardından Genomiks hesaplarını arayıp seçerek Genomiks hesabınıza gidin.

Azure portal'de Microsoft Genomiks'i bulmaMicrosoft

Az önce oluşturduğunuz Genomiks hesabını seçin, Erişim Anahtarları'na gidin ve yapılandırma dosyasını indirin.

Microsoft Genomiks'ten yapılandırma dosyasını indirmeMicrosoft

Aşağıdaki komutu kullanarak Microsoft Genomiks Python istemcisinin çalışıp çalışmadığını test edin

msgen list -f "<full path where you saved the config file>"

Microsoft Azure Depolama hesabı oluşturma

Microsoft Genomiks hizmeti girişlerinin Azure depolama hesabında blok blobları olarak depolanmasını bekler. Ayrıca çıkış dosyalarını Azure depolama hesabında kullanıcı tarafından belirtilen bir kapsayıcıya blok blobları olarak yazar. Girişler ve çıkışlar farklı depolama hesaplarında tutulabilir. Azure depolama hesabınızda veri varsa Genomiks hesabınızla aynı konumda olduğundan emin olmanız gerekir. Aksi takdirde, Microsoft Genomiks hizmeti çalıştırılırken çıkış ücretleri uygulanır. Henüz bir Azure depolama hesabınız yoksa bir hesap oluşturup verilerinizi karşıya yüklemeniz gerekir. Depolama hesabının ne olduğu ve hangi hizmetleri sağladığı da dahil olmak üzere Azure depolama hesapları hakkında daha fazla bilgiyi burada bulabilirsiniz. Azure depolama hesabı oluşturmak için Azure portal Depolama hesabı oluştur'a gidin.

Depolama hesabı oluşturma sayfası

Önceki görüntüde gösterildiği gibi depolama hesabınızı aşağıdaki bilgilerle yapılandırın. Depolama hesabı için standart seçeneklerin çoğunu kullanın ve yalnızca hesabın genel amaçlı değil BlobStorage olduğunu belirtin. Blob depolama indirme ve yükleme işlemlerinde 2-5 kat daha yüksek hız sunabilir. Varsayılan dağıtım modeli olan Azure Resource Manager önerilir.

Ayar Önerilen değer Alan açıklaması
Abonelik Azure aboneliğiniz Aboneliğiniz hakkında daha ayrıntılı bilgi için bkz. Abonelikler
Kaynak grubu MyResourceGroup Genomiks hesabınızla aynı kaynak grubunu seçebilirsiniz. Geçerli kaynak grubu adları için bkz . Adlandırma kuralları
Depolama hesabı adı MyStorageAccount Benzersiz bir hesap tanımlayıcı seçin. Geçerli adlar için bkz . Adlandırma kuralları
Konum Batı ABD 2 Çıkış ücretlerini azaltmak ve gecikme süresini azaltmak için Genomiks hesabınızın konumuyla aynı konumu kullanın.
Performans Standart Varsayılan olarak standart seçeneği kullanılır. Standart ve premium depolama hesapları hakkında daha fazla ayrıntı için bkz. Microsoft Azure depolamaya giriş
Hesap türü BlobStorage Blob depolama indirme ve yükleme işlemlerinde genel amaçlı depolama alanından 2-5 kat daha yüksek hız sunabilir.
Çoğaltma Yerel olarak yedekli depolama Yerel olarak yedekli depolama, verilerinizi depolama hesabınızı oluşturduğunuz bölgedeki veri merkezi içinde çoğaltır. Daha fazla bilgi için bkz. Azure Depolama çoğaltması
Erişim katmanı Sık Erişimli Sık erişimli seçeneği, depolama hesabındaki nesnelere erişimin daha sık olduğunu belirtir.

Ardından gözden geçir ve oluştur'u seçerek depolama hesabınızı oluşturun. Genomiks hesabınızın oluşturulmasında yaptığınız gibi, dağıtım işlemini izlemek için üst menü çubuğunda Bildirimler'i seçebilirsiniz.

Giriş verilerini depolama hesabınıza yükleyin

Microsoft Genomiks hizmeti, giriş dosyaları olarak eşleştirilmiş uç okumaları (fastq veya bam dosyaları) bekler. Kendi verilerinizi yükleyebilir veya sunulan genel kullanıma açık örnek verileri kullanarak hizmeti keşfedebilirsiniz.

Depolama hesabınızda biri giriş verileriniz, biri de çıkış verileriniz için olmak üzere iki blob kapsayıcısı oluşturmanız gerekir. Giriş verilerini giriş blob kapsayıcısına yükleyin. Bunu yapmak için Microsoft Azure Depolama Gezgini, BlobPorter veya AzCopy gibi çeşitli araçlar kullanılabilir.

Python istemcisini kullanarak msgen Microsoft Genomiks hizmeti aracılığıyla iş akışı çalıştırma

Microsoft Genomiks hizmeti aracılığıyla bir iş akışı çalıştırmak için config.txt dosyasını düzenleyerek verileriniz için giriş ve çıkış depolama kapsayıcısını belirtin. Genomiks hesabınızdan indirdiğiniz config.txt dosyasını açın. Belirtmeniz gereken bölümler abonelik anahtarınız ve alttaki altı öğe, hem giriş hem de çıkış için depolama hesabı adı, anahtar ve kapsayıcı adıdır. Depolama hesabınızın erişim anahtarları Azure portal veya doğrudan Azure Depolama Gezgini giderek bu bilgileri bulabilirsiniz.

Genomiks yapılandırması

GATK4 çalıştırmak isterseniz parametresini process_name olarak gatk4ayarlayın.

Genomiks hizmeti varsayılan olarak VCF dosyalarının çıkışını alır. VCF çıkışı yerine gVCF çıkışı (GATK 3.x ve emit-ref-confidence GATK 4.x ile eşdeğer-emitRefConfidence) istiyorsanız, parametresini config.txt ekleyin emit_ref_confidence ve önceki şekilde gösterildiği gibi olarak ayarlayıngvcf. VCF çıkışına dönmek için ,config.txt dosyasından kaldırın veya parametresini emit_ref_confidence olarak noneayarlayın.

bgzip vcf veya gvcf dosyasını sıkıştıran ve tabix sıkıştırılmış dosya için bir dizin oluşturan bir araçtır. Genomiks hizmeti varsayılan olarak ".g.vcf" çıkışında çalıştırılır bgziptabix ancak ".vcf" çıkışı için varsayılan olarak bu araçları çalıştırmaz. Çalıştırıldığında, hizmet ".gz" (bgzip çıkışı) ve ".tbi" (tabix çıktısı) dosyaları üretir. Bağımsız değişken, ".vcf" çıkışı için varsayılan olarak false ve ".g.vcf" çıkışı için varsayılan olarak true olarak ayarlanmış bir boole değeridir. Komut satırında kullanmak için veya --bgzip-outputtrue değerini belirtin -bz (bgzip ve tabix'i çalıştırın) veya false. bu bağımsız değişkeni config.txt dosyasında kullanmak için veya dosyasını ekleyin bgzip_output: truebgzip_output: false .

Python istemcisini kullanarak msgen iş akışınızı Microsoft Genomiks hizmetine gönderme

Aşağıdaki komutu kullanarak Microsoft Genomiks Python istemcisiyle iş akışınızı gönderin:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

İş akışlarınızın durumunu görüntülemek için aşağıdaki komutu kullanabilirsiniz:

msgen list -f c:\temp\config.txt 

İş akışınız tamamlandıktan sonra, Azure depolama hesabınızdaki çıkış dosyalarını yapılandırdığınız çıkış kapsayıcısında görüntüleyebilirsiniz.

Sonraki adımlar

Bu makalede, örnek giriş verilerini Azure depolamaya yüklediniz ve Python istemcisi aracılığıyla msgen Microsoft Genomiks hizmetine bir iş akışı gönderdiniz. Microsoft Genomiks hizmetiyle kullanılabilecek diğer giriş dosyası türleri hakkında daha fazla bilgi edinmek için şu sayfalara bakın: eşleştirilmiş FASTQ | BAM | Çoklu FASTQ veya BAM.