Guida introduttiva: Eseguire un flusso di lavoro tramite il servizio Genomica di Microsoft
In questo argomento di avvio rapido si caricano i dati di input in un account di archiviazione BLOB di Azure e si esegue un flusso di lavoro tramite il servizio Genomica di Microsoft usando il client di genomica Python. Genomica di Microsoft è un servizio scalabile e sicuro per l'analisi secondaria che consente di elaborare rapidamente un genoma, a partire dalle letture non elaborate e per la produzione di letture allineate e chiamate delle varianti.
Prerequisiti
- Un account Azure con una sottoscrizione attiva. Creare un account gratuitamente.
- Python 2.7.12+ con
pip
installato epython
nel percorso di sistema. Il client Genomica di Microsoft non è compatibile con Python 3.
Configurazione: creare un account di Genomica di Microsoft nel portale di Azure
Per creare un account di Genomica di Microsoft, passare a Crea un account Genomica nel portale di Azure. Se non si ha ancora una sottoscrizione di Azure, crearne una prima di creare un account di Genomica di Microsoft.
Configurare l'account di Genomica con le informazioni seguenti, come mostrato nell'immagine precedente.
Impostazione | Valore consigliato | Descrizione campo |
---|---|---|
Abbonamento | nome della sottoscrizione | Unità di fatturazione per i servizi di Azure. Per informazioni dettagliate sulla sottoscrizione, vedere Sottoscrizioni |
Gruppo di risorse | MyResourceGroup | I gruppi di risorse consentono di raggruppare più risorse di Azure (account di archiviazione, account di Genomica e così via) in un singolo gruppo per semplificare la gestione. Per altre informazioni, vedere Gruppi di risorse. Per informazioni sui nomi di gruppi di risorse validi, vedere Convenzioni di denominazione |
Account name | MyGenomicsAccount | Scegliere un identificatore dell'account univoco. Per informazioni sui nomi validi, vedere Convenzioni di denominazione |
Ufficio | West US 2 | Il servizio è disponibile nelle aree Stati Uniti occidentali 2, Europa occidentale e Asia sud-orientale |
È possibile fare clic su Notifiche sulla barra dei menu per monitorare il processo di distribuzione.
Per altre informazioni su Genomica di Microsoft, vedere Informazioni su Genomica di Microsoft
Configurazione: installare il client Python per Genomica di Microsoft
È necessario installare sia Python e che il client Python per Genomica di Microsoft msgen
nell'ambiente locale.
Installare Python
Il client Python per Genomica di Microsoft è compatibile con Python 2.7.12 o una versione 2.7.xx successiva. 2.7.14 è la versione consigliata. Il download è disponibile qui.
Importante
Python 3.x non è compatibile con Python 2.7.xx. msgen
è un'applicazione Python 2.7. Quando si esegue msgen
, assicurarsi che l'ambiente Python attivo usi una versione 2.7.xx di Python. Se si prova a usare msgen
con una versione 3.x di Python potrebbero verificarsi errori.
Installare il client Python per Genomica di Microsoft msgen
Usare pip
di Python per installare il client msgen
per Genomica di Microsoft. Le istruzioni seguenti presuppongono che Python2.x sia già disponibile nel percorso di sistema. In caso di problemi dovuti al mancato riconoscimento dell'installazione di pip
, è necessario aggiungere Python e la sottocartella degli script al percorso di sistema.
pip install --upgrade --no-deps msgen
pip install msgen
Se non si vuole installare msgen
come file binario a livello di sistema e modificare i pacchetti Python a livello di sistema, usare il flag –-user
con pip
.
Quando si usa l'installazione basata su pacchetto o il file setup.py, vengono installati tutti i pacchetti necessari.
Testare il client Python msgen
Per testare il client di Genomica di Microsoft, scaricare il file di configurazione dall'account di Genomica. Nel portale di Azure passare all'account Genomica facendo clic su Tutti i servizi in alto a sinistra, quindi cercare e selezionare gli account Genomica.
Selezionare l'account Genomica appena creato, passare a Chiavi di accesso e scaricare il file di configurazione.
Verificare il funzionamento del client Python per Genomica di Microsoft con il comando seguente
msgen list -f "<full path where you saved the config file>"
Creare un account di archiviazione di Microsoft Azure
Il servizio Genomica di Microsoft prevede l'archiviazione di input come BLOB in blocchi in un account di archiviazione di Azure. I file di output vengono inoltre scritti come BLOB in blocchi in un contenitore specificato dall'utente in un account di archiviazione di Azure. I file di input e di output possono trovarsi in account di archiviazione diversi. Se i dati sono già disponibili in un account di archiviazione di Azure, è necessario solo assicurarsi che si trovino nella stessa posizione dell'account di Genomica. In caso contrario, quando si esegue il servizio Genomica di Microsoft, verranno applicati addebiti per il traffico in uscita. Se non si ha un account di archiviazione di Azure, è necessario crearne uno e caricare i dati. Altre informazioni sugli account di archiviazione di Azure sono disponibili qui, incluse informazioni sull'account di archiviazione specifico e sui servizi forniti. Per creare un account di archiviazione di Azure, passare a Crea account di archiviazione nel portale di Azure.
Configurare l'account di archiviazione con le informazioni seguenti, come mostrato nell'immagine precedente. Usare la maggior parte delle opzioni standard per un account di archiviazione, specificando solo che l'account è un account di archiviazione BLOB, non per utilizzo generico. Un archivio BLOB può risultare da 2 a 5 volte più veloce per download e caricamenti. La scelta consigliata è il modello di distribuzione predefinito, Azure Resource Manager.
Impostazione | Valore consigliato | Descrizione campo |
---|---|---|
Abbonamento | la propria sottoscrizione di Azure | Per informazioni dettagliate sulle sottoscrizioni, vedere Sottoscrizioni |
Gruppo di risorse | MyResourceGroup | È possibile selezionare lo stesso gruppo di risorse dell'account Genomica. Per informazioni sui nomi di gruppi di risorse validi, vedere Regole di denominazione |
Nome account di archiviazione | MyStorageAccount | Scegliere un identificatore dell'account univoco. Per informazioni sui nomi validi, vedere Regole di denominazione |
Ufficio | West US 2 | Usare la stessa località specificata per l'account Genomica per ridurre gli addebiti relativi al traffico in uscita e per ridurre la latenza. |
Prestazioni | Standard | Il livello predefinito è Standard. Per informazioni dettagliate sugli account di archiviazione Standard e Premium, vedere Introduzione ad Archiviazione di Microsoft Azure |
Tipo di account | BlobStorage | Un archivio BLOB può risultare da 2 a 5 volte più veloce rispetto all'utilizzo generico per download e caricamenti. |
Replica | Archiviazione con ridondanza locale | L'archiviazione con ridondanza locale replica i dati entro il data center nell'area in cui è stato creato l'account di archiviazione. Per altre informazioni, vedere Replica di Archiviazione di Azure |
Livello di accesso | Alto | Il livello di accesso frequente indica un accesso più frequente agli oggetti nell'account di archiviazione. |
Selezionare quindi Rivedi e crea per creare l'account di archiviazione. Analogamente alla creazione dell'account Genomica, è possibile selezionare Notifiche sulla barra dei menu superiore per monitorare il processo di distribuzione.
Caricare i dati di input nell'account di archiviazione
Il servizio Genomica di Microsoft prevede letture di estremità abbinate (file fastq o bam) come file di input. È possibile scegliere di caricare dati personalizzati o esplorare l'uso di dati di esempio disponibili pubblicamente.
Nell'account di archiviazione è necessario creare un contenitore BLOB per i dati di input e un secondo contenitore BLOB per i dati di output. Caricare i dati di input nel contenitore BLOB di input. È possibile usare diversi strumenti per questa procedura, tra cui Microsoft Azure Storage Explorer, BlobPorter o AzCopy.
Eseguire un flusso di lavoro tramite il servizio Genomica di Microsoft con il client Python msgen
Per eseguire un flusso di lavoro tramite il servizio Genomica di Microsoft, modificare il file config.txt per specificare il contenitore di archiviazione di input e di output per i dati. Aprire il file config.txt scaricato dall'account Genomica. Le sezioni da specificare riguardano la chiave di sottoscrizione e i sei elementi nella parte inferiore, il nome dell'account di archiviazione, la chiave e il nome del contenitore per input e output. Queste informazioni sono disponibili nella sezione Chiavi di accesso del portale di Azure per l'account di archiviazione o direttamente da Azure Storage Explorer.
Se si vuole eseguire GATK4, impostare il parametro process_name
su gatk4
.
Per impostazione predefinita, il servizio Genomica genera file VCF. Se si vuole ottenere un file gVCF anziché VCF come output (equivalente a -emitRefConfidence
in GATK 3.x e a emit-ref-confidence
in GATK 4.x), aggiungere il parametro emit_ref_confidence
al file config.txt e impostarlo su gvcf
, come illustrato nella figura qui sopra. Per tornare all'output VCF, rimuoverlo dal file config.txt o impostare il parametro emit_ref_confidence
su none
.
bgzip
è uno strumento che comprime il file VCF o GVCF, mentre tabix
crea un indice per il file compresso. Per impostazione predefinita, il servizio Genomica esegue bgzip
seguito da tabix
nell'output ".g.vcf", ma per impostazione predefinita non esegue questi strumenti per l'output ".vcf". Quando viene eseguito, il servizio produce file con estensione "gz" (output bgzip) e "tbi" (output tabix). L'argomento è un valore booleano, che per impostazione predefinita è impostato su false per l'output ".vcf" e su true per l'output ".g.vcf". Per usarlo nella riga di comando, specificare -bz
o --bgzip-output
come true
(eseguire bgzip e tabix) oppure false
. Per usare questo argomento nel file config.txt, aggiungere bgzip_output: true
o bgzip_output: false
al file.
Inviare il flusso di lavoro al servizio Genomica di Microsoft con il client Python msgen
Usare il client Python di Genomica di Microsoft per inviare il flusso di lavoro con il comando seguente:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
È possibile visualizzare lo stato dei flussi di lavoro usando il comando seguente:
msgen list -f c:\temp\config.txt
Al termine del flusso di lavoro, è possibile visualizzare i file di output nell'account di archiviazione di Azure nel contenitore di output configurato.
Passaggi successivi
In questo articolo sono stati caricati dati di input di esempio in Archiviazione di Azure ed è stato inviato un flusso di lavoro al servizio Genomica di Microsoft tramite il client msgen
Python. Per altre informazioni su altri tipi di file di input che possono essere usati con il servizio Genomica di Microsoft, vedere le pagine seguenti: paired FASTQ (FASTQ abbinato) | BAM | Multiple FASTQ or BAM (Più FASTQ o BAM)