Guida introduttiva: Eseguire un flusso di lavoro tramite il servizio Genomica di Microsoft

In questo argomento di avvio rapido si caricano i dati di input in un account di archiviazione BLOB di Azure e si esegue un flusso di lavoro tramite il servizio Genomica di Microsoft usando il client di genomica Python. Genomica di Microsoft è un servizio scalabile e sicuro per l'analisi secondaria che consente di elaborare rapidamente un genoma, a partire dalle letture non elaborate e per la produzione di letture allineate e chiamate delle varianti.

Prerequisiti

Configurazione: creare un account di Genomica di Microsoft nel portale di Azure

Per creare un account di Genomica di Microsoft, passare a Crea un account Genomica nel portale di Azure. Se non si ha ancora una sottoscrizione di Azure, crearne una prima di creare un account di Genomica di Microsoft.

Microsoft Genomics on Azure portal

Configurare l'account di Genomica con le informazioni seguenti, come mostrato nell'immagine precedente.

Impostazione Valore consigliato Descrizione campo
Abbonamento nome della sottoscrizione Unità di fatturazione per i servizi di Azure. Per informazioni dettagliate sulla sottoscrizione, vedere Sottoscrizioni
Gruppo di risorse MyResourceGroup I gruppi di risorse consentono di raggruppare più risorse di Azure (account di archiviazione, account di Genomica e così via) in un singolo gruppo per semplificare la gestione. Per altre informazioni, vedere Gruppi di risorse. Per informazioni sui nomi di gruppi di risorse validi, vedere Convenzioni di denominazione
Account name MyGenomicsAccount Scegliere un identificatore dell'account univoco. Per informazioni sui nomi validi, vedere Convenzioni di denominazione
Ufficio West US 2 Il servizio è disponibile nelle aree Stati Uniti occidentali 2, Europa occidentale e Asia sud-orientale

È possibile fare clic su Notifiche sulla barra dei menu per monitorare il processo di distribuzione.

Notifications

Per altre informazioni su Genomica di Microsoft, vedere Informazioni su Genomica di Microsoft

Configurazione: installare il client Python per Genomica di Microsoft

È necessario installare sia Python e che il client Python per Genomica di Microsoft msgen nell'ambiente locale.

Installare Python

Il client Python per Genomica di Microsoft è compatibile con Python 2.7.12 o una versione 2.7.xx successiva. 2.7.14 è la versione consigliata. Il download è disponibile qui.

Importante

Python 3.x non è compatibile con Python 2.7.xx. msgen è un'applicazione Python 2.7. Quando si esegue msgen, assicurarsi che l'ambiente Python attivo usi una versione 2.7.xx di Python. Se si prova a usare msgen con una versione 3.x di Python potrebbero verificarsi errori.

Installare il client Python per Genomica di Microsoft msgen

Usare pip di Python per installare il client msgen per Genomica di Microsoft. Le istruzioni seguenti presuppongono che Python2.x sia già disponibile nel percorso di sistema. In caso di problemi dovuti al mancato riconoscimento dell'installazione di pip, è necessario aggiungere Python e la sottocartella degli script al percorso di sistema.

pip install --upgrade --no-deps msgen
pip install msgen

Se non si vuole installare msgen come file binario a livello di sistema e modificare i pacchetti Python a livello di sistema, usare il flag –-user con pip. Quando si usa l'installazione basata su pacchetto o il file setup.py, vengono installati tutti i pacchetti necessari.

Testare il client Python msgen

Per testare il client di Genomica di Microsoft, scaricare il file di configurazione dall'account di Genomica. Nel portale di Azure passare all'account Genomica facendo clic su Tutti i servizi in alto a sinistra, quindi cercare e selezionare gli account Genomica.

Find Microsoft Genomics on Azure portal

Selezionare l'account Genomica appena creato, passare a Chiavi di accesso e scaricare il file di configurazione.

Download config file from Microsoft Genomics

Verificare il funzionamento del client Python per Genomica di Microsoft con il comando seguente

msgen list -f "<full path where you saved the config file>"

Creare un account di archiviazione di Microsoft Azure

Il servizio Genomica di Microsoft prevede l'archiviazione di input come BLOB in blocchi in un account di archiviazione di Azure. I file di output vengono inoltre scritti come BLOB in blocchi in un contenitore specificato dall'utente in un account di archiviazione di Azure. I file di input e di output possono trovarsi in account di archiviazione diversi. Se i dati sono già disponibili in un account di archiviazione di Azure, è necessario solo assicurarsi che si trovino nella stessa posizione dell'account di Genomica. In caso contrario, quando si esegue il servizio Genomica di Microsoft, verranno applicati addebiti per il traffico in uscita. Se non si ha un account di archiviazione di Azure, è necessario crearne uno e caricare i dati. Altre informazioni sugli account di archiviazione di Azure sono disponibili qui, incluse informazioni sull'account di archiviazione specifico e sui servizi forniti. Per creare un account di archiviazione di Azure, passare a Crea account di archiviazione nel portale di Azure.

Storage account create page

Configurare l'account di archiviazione con le informazioni seguenti, come mostrato nell'immagine precedente. Usare la maggior parte delle opzioni standard per un account di archiviazione, specificando solo che l'account è un account di archiviazione BLOB, non per utilizzo generico. Un archivio BLOB può risultare da 2 a 5 volte più veloce per download e caricamenti. La scelta consigliata è il modello di distribuzione predefinito, Azure Resource Manager.

Impostazione Valore consigliato Descrizione campo
Abbonamento la propria sottoscrizione di Azure Per informazioni dettagliate sulle sottoscrizioni, vedere Sottoscrizioni
Gruppo di risorse MyResourceGroup È possibile selezionare lo stesso gruppo di risorse dell'account Genomica. Per informazioni sui nomi di gruppi di risorse validi, vedere Regole di denominazione
Nome account di archiviazione MyStorageAccount Scegliere un identificatore dell'account univoco. Per informazioni sui nomi validi, vedere Regole di denominazione
Ufficio West US 2 Usare la stessa località specificata per l'account Genomica per ridurre gli addebiti relativi al traffico in uscita e per ridurre la latenza.
Prestazioni Standard Il livello predefinito è Standard. Per informazioni dettagliate sugli account di archiviazione Standard e Premium, vedere Introduzione ad Archiviazione di Microsoft Azure
Tipo di account BlobStorage Un archivio BLOB può risultare da 2 a 5 volte più veloce rispetto all'utilizzo generico per download e caricamenti.
Replica Archiviazione con ridondanza locale L'archiviazione con ridondanza locale replica i dati entro il data center nell'area in cui è stato creato l'account di archiviazione. Per altre informazioni, vedere Replica di Archiviazione di Azure
Livello di accesso Alto Il livello di accesso frequente indica un accesso più frequente agli oggetti nell'account di archiviazione.

Selezionare quindi Rivedi e crea per creare l'account di archiviazione. Analogamente alla creazione dell'account Genomica, è possibile selezionare Notifiche sulla barra dei menu superiore per monitorare il processo di distribuzione.

Caricare i dati di input nell'account di archiviazione

Il servizio Genomica di Microsoft prevede letture di estremità abbinate (file fastq o bam) come file di input. È possibile scegliere di caricare dati personalizzati o esplorare l'uso di dati di esempio disponibili pubblicamente.

Nell'account di archiviazione è necessario creare un contenitore BLOB per i dati di input e un secondo contenitore BLOB per i dati di output. Caricare i dati di input nel contenitore BLOB di input. È possibile usare diversi strumenti per questa procedura, tra cui Microsoft Azure Storage Explorer, BlobPorter o AzCopy.

Eseguire un flusso di lavoro tramite il servizio Genomica di Microsoft con il client Python msgen

Per eseguire un flusso di lavoro tramite il servizio Genomica di Microsoft, modificare il file config.txt per specificare il contenitore di archiviazione di input e di output per i dati. Aprire il file config.txt scaricato dall'account Genomica. Le sezioni da specificare riguardano la chiave di sottoscrizione e i sei elementi nella parte inferiore, il nome dell'account di archiviazione, la chiave e il nome del contenitore per input e output. Queste informazioni sono disponibili nella sezione Chiavi di accesso del portale di Azure per l'account di archiviazione o direttamente da Azure Storage Explorer.

Genomics config

Se si vuole eseguire GATK4, impostare il parametro process_name su gatk4.

Per impostazione predefinita, il servizio Genomica genera file VCF. Se si vuole ottenere un file gVCF anziché VCF come output (equivalente a -emitRefConfidence in GATK 3.x e a emit-ref-confidence in GATK 4.x), aggiungere il parametro emit_ref_confidence al file config.txt e impostarlo su gvcf, come illustrato nella figura qui sopra. Per tornare all'output VCF, rimuoverlo dal file config.txt o impostare il parametro emit_ref_confidence su none.

bgzip è uno strumento che comprime il file VCF o GVCF, mentre tabix crea un indice per il file compresso. Per impostazione predefinita, il servizio Genomica esegue bgzip seguito da tabix nell'output ".g.vcf", ma per impostazione predefinita non esegue questi strumenti per l'output ".vcf". Quando viene eseguito, il servizio produce file con estensione "gz" (output bgzip) e "tbi" (output tabix). L'argomento è un valore booleano, che per impostazione predefinita è impostato su false per l'output ".vcf" e su true per l'output ".g.vcf". Per usarlo nella riga di comando, specificare -bz o --bgzip-output come true (eseguire bgzip e tabix) oppure false. Per usare questo argomento nel file config.txt, aggiungere bgzip_output: true o bgzip_output: false al file.

Inviare il flusso di lavoro al servizio Genomica di Microsoft con il client Python msgen

Usare il client Python di Genomica di Microsoft per inviare il flusso di lavoro con il comando seguente:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

È possibile visualizzare lo stato dei flussi di lavoro usando il comando seguente:

msgen list -f c:\temp\config.txt 

Al termine del flusso di lavoro, è possibile visualizzare i file di output nell'account di archiviazione di Azure nel contenitore di output configurato.

Passaggi successivi

In questo articolo sono stati caricati dati di input di esempio in Archiviazione di Azure ed è stato inviato un flusso di lavoro al servizio Genomica di Microsoft tramite il client msgen Python. Per altre informazioni su altri tipi di file di input che possono essere usati con il servizio Genomica di Microsoft, vedere le pagine seguenti: paired FASTQ (FASTQ abbinato) | BAM | Multiple FASTQ or BAM (Più FASTQ o BAM)