Hızlı Başlangıç: Microsoft Genomiks hizmeti üzerinden iş akışı çalıştırma
Bu hızlı başlangıçta giriş verilerini bir Azure Blob depolama hesabına yükleyecek ve Python Genomiks istemcisini kullanarak Microsoft Genomiks hizmeti aracılığıyla bir iş akışı çalıştıracaksınız. Microsoft Genomiks, ham okumalardan başlayarak hizalanmış okumalar ve varyant ilanları üreten, bir genomu hızlı bir şekilde işleyebilen ikincil analize yönelik ölçeklenebilir ve güvenli bir hizmettir.
Önkoşullar
- Etkin aboneliği olan bir Azure hesabı. Ücretsiz bir hesap oluşturun.
- Python 2.7.12+,
pip
yüklü vepython
sistem yolunuzda. Microsoft Genomiks istemcisi Python 3 ile uyumlu değildir.
Kurulum: Azure portalında bir Microsoft Genomiks hesabı oluşturma
Microsoft Genomiks hesabı oluşturmak için Azure portal Genomiks hesabı oluştur'a gidin. Azure aboneliğiniz yoksa Microsoft Genomiks hesabı oluşturmadan bir hesap açın.
Genomiks hesabınızı bir önceki resimde gösterildiği gibi aşağıdaki bilgilerle yapılandırın.
Ayar | Önerilen değer | Alan açıklaması |
---|---|---|
Abonelik | Aboneliğinizin adı | Bu, Azure hizmetleriniz için faturalandırma birimidir. Aboneliğiniz hakkında ayrıntılı bilgi için bkz. Abonelikler |
Kaynak grubu | MyResourceGroup | Kaynak grupları kolay yönetim için birden fazla Azure kaynağını (depolama hesabı, genomiks hesabı vs.) tek bir grupta toplamanızı sağlar. Daha fazla bilgi için bkz. Kaynak Grupları. Geçerli kaynak grubu adları için bkz. Adlandırma Kuralları |
Hesap adı | MyGenomicsAccount | Benzersiz bir hesap tanımlayıcı seçin. Geçerli adlar için bkz. Adlandırma Kuralları |
Konum | Batı ABD 2 | Bu hizmet Batı ABD 2, Batı Avrupa ve Güneydoğu Asya konumlarında kullanılabilir |
Dağıtım işlemini izlemek için üst menü çubuğunda Bildirimler'i seçebilirsiniz.
Microsoft Genomiks hakkında daha fazla bilgi için bkz. Microsoft Genomiks nedir?
Kurulum: Microsoft Genomiks Python istemcisini yükleme
Yerel ortamınıza hem Python hem de Microsoft Genomiks Python istemcisini msgen
yüklemeniz gerekir.
Python'ı Yükleme
Microsoft Genomiks Python istemcisi Python 2.7.12 veya sonraki bir 2.7.xx sürümüyle uyumludur. Önerilen sürüm 2.7.14'dür. Dosyayı buradan indirebilirsiniz.
Önemli
Python 3.x, Python 2.7.xx ile uyumlu değildir. msgen
bir Python 2.7 uygulamasıdır. komutunu çalıştırırken msgen
etkin Python ortamınızın Python'ın 2.7.xx sürümünü kullandığından emin olun. Python'ın 3.x sürümüyle kullanmaya msgen
çalışırken hata alabilirsiniz.
Microsoft Genomiks Python istemcisini yükleme msgen
Microsoft Genomiks istemcisini msgen
yüklemek için Python pip
kullanın. Aşağıdaki yönergelerde Python2.x'in sistem yolunuz içinde olduğu varsayılır. Yüklemenin tanınmamasıyla pip
ilgili sorunlarınız varsa, sistem yolunuza Python ve betikler alt klasörünü eklemeniz gerekir.
pip install --upgrade --no-deps msgen
pip install msgen
Sistem genelinde ikili dosya olarak yüklemek msgen
ve sistem genelindeki Python paketlerini değiştirmek istemiyorsanız ile pip
bayrağını –-user
kullanın.
Paket tabanlı yüklemeyi veya setup.py kullandığınızda, gerekli tüm paketler yüklenir.
Python istemciyi test etme msgen
Microsoft Genomiks istemcisini test etmek için Genomiks hesabınızdan yapılandırma dosyasını indirin. Azure portal, sol üst kısımdaki Tüm hizmetler'i ve ardından Genomiks hesaplarını arayıp seçerek Genomiks hesabınıza gidin.
Az önce oluşturduğunuz Genomiks hesabını seçin, Erişim Anahtarları'na gidin ve yapılandırma dosyasını indirin.
Aşağıdaki komutu kullanarak Microsoft Genomiks Python istemcisinin çalışıp çalışmadığını test edin
msgen list -f "<full path where you saved the config file>"
Microsoft Azure Depolama hesabı oluşturma
Microsoft Genomiks hizmeti girişlerinin Azure depolama hesabında blok blobları olarak depolanmasını bekler. Ayrıca çıkış dosyalarını Azure depolama hesabında kullanıcı tarafından belirtilen bir kapsayıcıya blok blobları olarak yazar. Girişler ve çıkışlar farklı depolama hesaplarında tutulabilir. Azure depolama hesabınızda veri varsa Genomiks hesabınızla aynı konumda olduğundan emin olmanız gerekir. Aksi takdirde, Microsoft Genomiks hizmeti çalıştırılırken çıkış ücretleri uygulanır. Henüz bir Azure depolama hesabınız yoksa bir hesap oluşturup verilerinizi karşıya yüklemeniz gerekir. Depolama hesabının ne olduğu ve hangi hizmetleri sağladığı da dahil olmak üzere Azure depolama hesapları hakkında daha fazla bilgiyi burada bulabilirsiniz. Azure depolama hesabı oluşturmak için Azure portal Depolama hesabı oluştur'a gidin.
Önceki görüntüde gösterildiği gibi depolama hesabınızı aşağıdaki bilgilerle yapılandırın. Depolama hesabı için standart seçeneklerin çoğunu kullanın ve yalnızca hesabın genel amaçlı değil BlobStorage olduğunu belirtin. Blob depolama indirme ve yükleme işlemlerinde 2-5 kat daha yüksek hız sunabilir. Varsayılan dağıtım modeli olan Azure Resource Manager önerilir.
Ayar | Önerilen değer | Alan açıklaması |
---|---|---|
Abonelik | Azure aboneliğiniz | Aboneliğiniz hakkında daha ayrıntılı bilgi için bkz. Abonelikler |
Kaynak grubu | MyResourceGroup | Genomiks hesabınızla aynı kaynak grubunu seçebilirsiniz. Geçerli kaynak grubu adları için bkz . Adlandırma kuralları |
Depolama hesabı adı | MyStorageAccount | Benzersiz bir hesap tanımlayıcı seçin. Geçerli adlar için bkz . Adlandırma kuralları |
Konum | Batı ABD 2 | Çıkış ücretlerini azaltmak ve gecikme süresini azaltmak için Genomiks hesabınızın konumuyla aynı konumu kullanın. |
Performans | Standart | Varsayılan olarak standart seçeneği kullanılır. Standart ve premium depolama hesapları hakkında daha fazla ayrıntı için bkz. Microsoft Azure depolamaya giriş |
Hesap türü | BlobStorage | Blob depolama indirme ve yükleme işlemlerinde genel amaçlı depolama alanından 2-5 kat daha yüksek hız sunabilir. |
Çoğaltma | Yerel olarak yedekli depolama | Yerel olarak yedekli depolama, verilerinizi depolama hesabınızı oluşturduğunuz bölgedeki veri merkezi içinde çoğaltır. Daha fazla bilgi için bkz. Azure Depolama çoğaltması |
Erişim katmanı | Sık Erişimli | Sık erişimli seçeneği, depolama hesabındaki nesnelere erişimin daha sık olduğunu belirtir. |
Ardından gözden geçir ve oluştur'u seçerek depolama hesabınızı oluşturun. Genomiks hesabınızın oluşturulmasında yaptığınız gibi, dağıtım işlemini izlemek için üst menü çubuğunda Bildirimler'i seçebilirsiniz.
Giriş verilerini depolama hesabınıza yükleyin
Microsoft Genomiks hizmeti, giriş dosyaları olarak eşleştirilmiş uç okumaları (fastq veya bam dosyaları) bekler. Kendi verilerinizi yükleyebilir veya sunulan genel kullanıma açık örnek verileri kullanarak hizmeti keşfedebilirsiniz.
Depolama hesabınızda biri giriş verileriniz, biri de çıkış verileriniz için olmak üzere iki blob kapsayıcısı oluşturmanız gerekir. Giriş verilerini giriş blob kapsayıcısına yükleyin. Bunu yapmak için Microsoft Azure Depolama Gezgini, BlobPorter veya AzCopy gibi çeşitli araçlar kullanılabilir.
Python istemcisini kullanarak msgen
Microsoft Genomiks hizmeti aracılığıyla iş akışı çalıştırma
Microsoft Genomiks hizmeti aracılığıyla bir iş akışı çalıştırmak için config.txt dosyasını düzenleyerek verileriniz için giriş ve çıkış depolama kapsayıcısını belirtin. Genomiks hesabınızdan indirdiğiniz config.txt dosyasını açın. Belirtmeniz gereken bölümler abonelik anahtarınız ve alttaki altı öğe, hem giriş hem de çıkış için depolama hesabı adı, anahtar ve kapsayıcı adıdır. Depolama hesabınızın erişim anahtarları Azure portal veya doğrudan Azure Depolama Gezgini giderek bu bilgileri bulabilirsiniz.
GATK4 çalıştırmak isterseniz parametresini process_name
olarak gatk4
ayarlayın.
Genomiks hizmeti varsayılan olarak VCF dosyalarının çıkışını alır. VCF çıkışı yerine gVCF çıkışı (GATK 3.x ve emit-ref-confidence
GATK 4.x ile eşdeğer-emitRefConfidence
) istiyorsanız, parametresini config.txt ekleyin emit_ref_confidence
ve önceki şekilde gösterildiği gibi olarak ayarlayıngvcf
. VCF çıkışına dönmek için ,config.txt dosyasından kaldırın veya parametresini emit_ref_confidence
olarak none
ayarlayın.
bgzip
vcf veya gvcf dosyasını sıkıştıran ve tabix
sıkıştırılmış dosya için bir dizin oluşturan bir araçtır. Genomiks hizmeti varsayılan olarak ".g.vcf" çıkışında çalıştırılır bgzip
tabix
ancak ".vcf" çıkışı için varsayılan olarak bu araçları çalıştırmaz. Çalıştırıldığında, hizmet ".gz" (bgzip çıkışı) ve ".tbi" (tabix çıktısı) dosyaları üretir. Bağımsız değişken, ".vcf" çıkışı için varsayılan olarak false ve ".g.vcf" çıkışı için varsayılan olarak true olarak ayarlanmış bir boole değeridir. Komut satırında kullanmak için veya --bgzip-output
true
değerini belirtin -bz
(bgzip ve tabix'i çalıştırın) veya false
. bu bağımsız değişkeni config.txt dosyasında kullanmak için veya dosyasını ekleyin bgzip_output: true
bgzip_output: false
.
Python istemcisini kullanarak msgen
iş akışınızı Microsoft Genomiks hizmetine gönderme
Aşağıdaki komutu kullanarak Microsoft Genomiks Python istemcisiyle iş akışınızı gönderin:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
İş akışlarınızın durumunu görüntülemek için aşağıdaki komutu kullanabilirsiniz:
msgen list -f c:\temp\config.txt
İş akışınız tamamlandıktan sonra, Azure depolama hesabınızdaki çıkış dosyalarını yapılandırdığınız çıkış kapsayıcısında görüntüleyebilirsiniz.
Sonraki adımlar
Bu makalede, örnek giriş verilerini Azure depolamaya yüklediniz ve Python istemcisi aracılığıyla msgen
Microsoft Genomiks hizmetine bir iş akışı gönderdiniz. Microsoft Genomiks hizmetiyle kullanılabilecek diğer giriş dosyası türleri hakkında daha fazla bilgi edinmek için şu sayfalara bakın: eşleştirilmiş FASTQ | BAM | Çoklu FASTQ veya BAM.