Rychlý start: Spuštění pracovního postupu ve službě Microsoft Genomics

V tomto rychlém startu nahrajete vstupní data do účtu úložiště Objektů blob v Azure a spustíte pracovní postup prostřednictvím služby Microsoft Genomics pomocí klienta Python Genomics. Microsoft Genomics je škálovatelná a bezpečná služba pro sekundární analýzu, která dokáže rychle analyzovat genom počínaje od nezpracovaných čtení a vytváří zarovnaná čtení a volání variant.

Požadavky

Příprava: vytvoření účtu Microsoft Genomics na webu Azure Portal

Pokud chcete vytvořit účet Microsoft Genomics, přejděte v Azure Portal na vytvořit účet Genomics. Pokud ještě nemáte předplatné Azure, založte si ho před vytvořením účtu Microsoft Genomics.

Microsoft Genomics na Azure Portal

Nastavte v účtu Genomics následující údaje, viz předchozí obrázek.

Nastavení Navrhovaná hodnota Popis pole
Předplatné Název vašeho předplatného Toto je fakturační jednotka pro vaše služby Azure – podrobnosti o vašem předplatném najdete v části Předplatná
Skupina prostředků MyResourceGroup Skupiny prostředků umožňují sdružení několika prostředků Azure (účet úložiště, účet Genomics atd.) do jedné skupiny pro zjednodušení správy. Další informace najdete v tématu Skupiny prostředků. Platné názvy skupin prostředků najdete v tématu Pravidla pojmenování.
Název účtu MyGenomicsAccount Zvolte jedinečný identifikátor účtu. Informace o platných názvech najdete v části Pravidla pojmenování
Umístění Západní USA 2 Služba je dostupná v oblastech USA – západ 2, Západní Evropa a Jihovýchodní Asie

Pokud chcete monitorovat proces nasazení, v horním řádku nabídek vyberte Oznámení .

Oznámení

Další informace o Microsoft Genomics najdete v tématu Co je Microsoft Genomics?

Příprava: instalace pythonového klienta Microsoft Genomics

V místním prostředí musíte nainstalovat Python i pythonového klienta msgen Microsoft Genomics.

Instalace Pythonu

Pythonový klient Microsoft Genomics je kompatibilní s Pythonem 2.7.12 nebo novější verzí 2.7.xx. Navrhovaná verze je 2.7.14. Můžete si ji stáhnout tady.

Důležité

Python 3.x není kompatibilní s Pythonem 2.7.xx. msgen je aplikace Pythonu 2.7. Pokud používáte msgen, ujistěte se, že vaše aktivní prostředí Pythonu používá verzi Pythonu 2.7.xx. Při pokusu o použití msgen s verzí Pythonu 3.x může dojít k chybám.

Instalace pythonového klienta Microsoft Genomics msgen

Pomocí Pythonu pip nainstalujte klienta msgenMicrosoft Genomics. Následující pokyny předpokládají, že python2.x už je ve vaší systémové cestě. Pokud máte problémy s pip nerozpoznanou instalací, musíte do systémové cesty přidat Python a podsložku scripts.

pip install --upgrade --no-deps msgen
pip install msgen

Pokud nechcete instalovat msgen jako binární soubor pro celý systém a upravovat balíčky Pythonu pro celý systém, použijte –-user příznak s pip. Když použijete instalaci založenou na balíčcích nebo setup.py, nainstalují se všechny potřebné balíčky.

Testování msgen klienta Pythonu

Pokud chcete otestovat klienta Microsoft Genomics, stáhněte si konfigurační soubor ze svého účtu Genomics. V Azure Portal přejděte na svůj účet Genomics tak, že vlevo nahoře vyberete Všechny služby a pak vyhledáte a vyberete účty Genomics.

Vyhledejte Microsoft Genomics na Azure Portal

Vyberte účet Genomics, který jste právě vytvořili, přejděte na Přístupové klíče a stáhněte si konfigurační soubor.

Stažení konfiguračního souboru z Microsoft Genomics

Vyzkoušejte správnou funkci pythonového klienta Microsoft Genomics pomocí následujícího příkazu

msgen list -f "<full path where you saved the config file>"

Vytvoření účtu Microsoft Azure Storage

Služba Microsoft Genomics očekává vstupy uložené jako objekty blob bloku v účtu úložiště Azure. Také výstupní soubory zapisuje jako objekty blob bloku do uživatelem zadaného kontejneru v účtu úložiště Azure. Vstupy a výstupy můžou patřit do různých účtů úložiště. Pokud již máte data v účtu úložiště Azure, stačí se ujistit, že je ve stejném umístění jako účet Genomics. V opačném případě se při spuštění služby Microsoft Genomics účtují poplatky za výchozí přenos dat. Pokud ještě nemáte účet úložiště Azure, musíte si ho vytvořit a nahrát data. Další informace o účtech úložiště Azure najdete tady, včetně toho, co je účet úložiště a jaké služby poskytuje. Pokud chcete vytvořit účet úložiště Azure, přejděte v Azure Portal na Vytvořit účet úložiště.

Stránka pro vytvoření účtu úložiště

Pro svůj účet úložiště nakonfigurujte následující informace, jak je znázorněno na předchozím obrázku. Použijte většinu standardních možností pro účet úložiště a určete pouze, že se jedná o účet BlobStorage, nikoli pro obecné účely. Úložiště objektů blob nabízí 2–5× rychlejší stahování a nahrávání. Doporučuje se výchozí model nasazení Azure Resource Manager.

Nastavení Navrhovaná hodnota Popis pole
Předplatné Vaše předplatné Azure Podrobnosti o vašich předplatných najdete v tématu Předplatná.
Skupina prostředků MyResourceGroup Můžete vybrat stejnou skupinu prostředků jako váš účet Genomics. Platné názvy skupin prostředků najdete v tématu Pravidla pojmenování.
Název účtu úložiště MyStorageAccount Zvolte jedinečný identifikátor účtu. Platné názvy najdete v tématu Pravidla pojmenování.
Umístění Západní USA 2 Použijte stejné umístění jako umístění vašeho účtu Genomics, abyste snížili poplatky za výchozí přenos dat a snížili latenci.
Výkon Standard Výchozí nastavení je Standard. Další podrobnosti o účtech služby Storage úrovně Standard a Premium najdete v tématu Úvod do úložiště Microsoft Azure.
Druh účtu Blob Storage Úložiště objektů blob nabízí 2–5× rychlejší stahování a nahrávání než úložiště pro obecné účely.
Replikace (Locally redundant storage) Místně redundantní úložiště Místně redundantní úložiště replikuje data třikrát v rámci oblasti, ve které jste vytvořili účet úložiště. Další informace najdete v tématu Replikace služby Azure Storage.
Úroveň přístupu Horká Horká úroveň přístupu znamená, že k objektům v účtu úložiště budete přistupovat častěji.

Pak vyberte Zkontrolovat a vytvořit a vytvořte účet úložiště. Stejně jako při vytváření účtu Genomics můžete v horním řádku nabídek vybrat Oznámení a monitorovat proces nasazení.

Nahrání vstupních dat do účtu úložiště

Služba Microsoft Genomics očekává jako vstupní soubory spárovaná koncová čtení (soubory fastq nebo bam). Můžete nahrát svoje vlastní data, nebo použít veřejně dostupná ukázková data, která jsme pro vás připravili.

V rámci účtu úložiště budete potřebovat jeden kontejner objektů blob pro vstupní data a druhý kontejner objektů blob pro výstupní data. Nahrajte vstupní data do vstupního kontejneru objektů blob. Můžete k tomu použít různé nástroje, včetně Průzkumník služby Microsoft Azure Storage, BlobPorter nebo AzCopy.

Spuštění pracovního postupu prostřednictvím služby Microsoft Genomics pomocí klienta Pythonu msgen

Pokud chcete spustit pracovní postup prostřednictvím služby Microsoft Genomics, upravte souborconfig.txt a určete vstupní a výstupní kontejner úložiště pro vaše data. Otevřete souborconfig.txt , který jste stáhli ze svého účtu Genomics. Oddíly, které musíte zadat, jsou klíč předplatného a šest položek v dolní části, název účtu úložiště, klíč a název kontejneru pro vstup i výstup. Tyto informace najdete tak, že přejdete na Azure Portal přístupové klíče pro váš účet úložiště nebo přímo z Průzkumník služby Azure Storage.

Konfigurace Genomics

Pokud chcete spustit GATK4, nastavte process_name parametr na gatk4.

Ve výchozím nastavení služba Genomics vypíše soubory VCF. Pokud chcete výstup gVCF místo výstupu VCF (ekvivalent -emitRefConfidence v GATK 3.x a emit-ref-confidence GATK 4.x), přidejte emit_ref_confidence do config.txt parametr a nastavte ho na gvcf, jak je znázorněno na předchozím obrázku. Pokud chcete přejít zpět na výstup VCF, odeberte ho ze souboru config.txt nebo nastavte emit_ref_confidence parametr na none.

bgzip je nástroj, který komprimuje soubor vcf nebo gvcf a tabix vytvoří index pro komprimovaný soubor. Ve výchozím nastavení se služba Genomics spouští bgziptabix na výstupu .g.vcf, ale ve výchozím nastavení nespouští tyto nástroje pro výstup .vcf. Při spuštění služba vytvoří soubory .gz (výstup bgzip) a .tbi (výstup tabix). Argument je logická hodnota, která je ve výchozím nastavení pro výstup .vcf nastavená na false a ve výchozím nastavení na hodnotu true pro výstup .g.vcf. Pokud chcete příkaz použít na příkazovém řádku, zadejte -bz nebo --bgzip-output as true (spusťte bgzip a tabix) nebo false. Pokud chcete tento argument použít v souboruconfig.txt , přidejte bgzip_output: true do souboru nebo bgzip_output: false .

Odeslání pracovního postupu do služby Microsoft Genomics pomocí klienta Pythonu msgen

Pomocí pythonového klienta Microsoft Genomics odešlete svůj pracovní postup pomocí následujícího příkazu:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Stav pracovního postupu můžete zkontrolovat následujícím příkazem:

msgen list -f c:\temp\config.txt 

Po dokončení pracovního postupu můžete zobrazit výstupní soubory v účtu úložiště Azure ve výstupním kontejneru, který jste nakonfigurovali.

Další kroky

V tomto článku jste nahráli ukázková vstupní data do úložiště Azure a odeslali jste pracovní postup do služby Microsoft Genomics prostřednictvím pythonového msgen klienta. Další informace o dalších typech vstupních souborů, které lze použít se službou Microsoft Genomics, najdete na následujících stránkách: spárované FASTQ | BAM | Multiple FASTQ nebo BAM.