Illumina Platinum Genomes

A sequenciação completa do genoma está a permitir aos investigadores de todo o mundo caracterizar o genoma humano de forma mais completa e precisa. Isso requer um catálogo abrangente e abrangente de variantes de alta confiança chamadas em um conjunto de genomas como referência. Illumina gerou dados profundos de sequência de todo o genoma de 17 indivíduos em um pedigree de três gerações. Illumina chamou variantes em cada genoma usando uma gama de algoritmos atualmente disponíveis.

Para mais informações sobre os dados, consulte o site oficial da Illumina.

Nota

A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Data source

Este conjunto de dados é um espelho de ftp://ussd-ftp.illumina.com/

Volumes de dados e frequência de atualização

Este conjunto de dados contém aproximadamente 2 GB de dados e é atualizado diariamente.

Localização do armazenamento

Este conjunto de dados está armazenado nas regiões E.U.A. Oeste 2 e E.U.A. Centro-Oeste do Azure. Recomendamos localizar recursos de computação no Oeste dos EUA 2 ou no Centro-Oeste dos EUA por afinidade.

Acesso a Dados

Oeste dos EUA 2: ''https://datasetplatinumgenomes.blob.core.windows.net/dataset

Centro-Oeste dos EUA: ''https://datasetplatinumgenomes-secondary.blob.core.windows.net/dataset

Token de SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D

Termos de Utilização

Os dados estão disponíveis sem restrições. Para mais informações e detalhes da citação, consulte o site oficial da Illumina.

Contacto

Para quaisquer perguntas ou comentários sobre o conjunto de dados, entre em contato com platinumgenomes@illumina.com.

Acesso a dados

Azure Notebooks

Obter os genomas Illumina Platinum dos conjuntos de dados abertos do Azure e fazer a análise inicial

Use os blocos de anotações Jupyter, GATK e Picard para fazer o seguinte:

  1. Anotar genótipos usando VariantFiltration
  2. Selecionar variantes específicas
  3. Filtrar as variantes relevantes - sem chamadas OU regiões específicas
  4. Realizar análise de concordância
  5. Converter os arquivos VCF finais em uma tabela

Dependências:

Este bloco de notas requer as seguintes bibliotecas:

  • Armazenamento do Azure pip install azure-storage-blob

  • dormência pip install numpy

  • Genome Analysis Toolkit (GATK) (Os usuários precisam baixar o GATK da página da Web do Broad Institute para o mesmo ambiente de computação com este notebook: https://github.com/broadinstitute/gatk/releases)

Informações importantes: Este notebook está usando o kernel Python 3.6

Obter os dados de genómica a partir de conjuntos de dados abertos do Azure

Vários dados de genómica pública foram carregados como um conjunto de dados abertos do Azure aqui. Criamos um serviço de blob vinculado a esse conjunto de dados aberto. Você pode encontrar exemplos de procedimento de chamada de dados do Conjunto de Dados Abertos do Azure para Illumina Platinum Genomes conjuntos de dados abaixo:

Download dos 'Genomas Illumina Platinum' específicos

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetplatinumgenomes', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D')     
blob_service_client.get_blob_to_path('dataset/2017-1.0/hg38/small_variants/NA12877', 'NA12877.vcf.gz', './NA12877.vcf.gz')

1. Anotar genótipos usando VariantFiltration

Nota importante: Verifique se o seu GATK está a ser executado no seu sistema.

Se quisermos filtrar genótipos heterozigóticos, usamos a opção da --genotype-filter-expression isHet == 1 VariantFiltration. Podemos especificar o valor de anotação para a ferramenta para rotular os genótipos heterozigóticos com a --genotype-filter-name opção. Aqui, o valor desse parâmetro é definido como isHetFilter. Em nosso primeiro exemplo, usamos NA12877.vcf.gz o Illimina Platinum Genomes, mas os usuários podem usar qualquer arquivo vcf de outros conjuntos de dados:Platinum Genomes

run gatk VariantFiltration -V NA12877.vcf.gz -O outputannot.vcf --genotype-filter-expression "isHet == 1" --genotype-filter-name "isHetFilter"

2. Selecione variantes específicas

Selecione um subconjunto de variantes de um arquivo VCF. Esta ferramenta permite selecionar um subconjunto de variantes com base em vários critérios, a fim de facilitar determinadas análises. Exemplos de tais análises incluem comparar e contrastar casos versus controles, extrair loci variantes ou não variantes que atendem a certos requisitos ou solucionar alguns resultados inesperados, para citar alguns.

Há muitas opções diferentes para selecionar subconjuntos de variantes de um conjunto de chamadas maior:

Extraia uma ou mais amostras de um conjunto de chamadas com base em um nome de amostra completo ou em uma correspondência de padrão. Especificar critérios de inclusão que coloquem limiares em valores de anotação, por exemplo "DP > 1000" (profundidade de cobertura superior a 1000x), "AF < 0,25" (locais com frequência de alelos inferior a 0,25). Esses critérios são escritos como "expressões JEXL", que são documentadas no artigo sobre o uso de expressões JEXL. Forneça faixas de concordância ou discordância para incluir ou excluir variantes que também estão presentes em outros conjuntos de chamadas. Selecione variantes com base em critérios como seu tipo (por exemplo, apenas INDELs), evidências de violação mendeliana, status de filtragem, aleelicidade, etc. Há também várias opções para gravar os valores originais de certas anotações, que são recalculadas quando um subdefine o novo conjunto de chamadas, corta alelos, etc.

Entrada: Uma chamada variante definida no formato VCF a partir da qual um subconjunto pode ser selecionado.

Saída: Um novo arquivo VCF contendo o subconjunto selecionado de variantes.

run gatk SelectVariants -R Homo_sapiens_assembly38.fasta -V outputannot.vcf --select-type-to-include SNP --select-type-to-include INDEL -O selective.vcf

3. Transforme genótipos filtrados em nenhuma chamada

Executar SelectVariants com --set-filtered-gt-to-nocall transformará ainda mais os genótipos sinalizados com uma chamada de genótipo nula.

Essa conversão é necessária porque as ferramentas a jusante não analisam o campo de filtro no nível FORMAT.

Como podemos filtrar as variantes com 'No call'

run gatk SelectVariants -V outputannot.vcf --set-filtered-gt-to-nocall -O outputnocall.vcf

4. Verifique a concordância do arquivo VCF com a verdade do fundamento

Avalie a concordância no nível do local de um VCF de entrada com um VCF verdadeiro. Esta ferramenta avalia dois conjuntos de chamadas variantes um em relação ao outro e produz uma tabela de métricas de resumo de seis colunas.

Esta função irá:

  1. Estratifica chamadas SNP e INDEL
  2. Relatar chamadas verdadeiro-positivo, falso-positivo e falso-negativo
  3. Calcula sensibilidade e precisão

A ferramenta assume que todos os registros no VCF --truth são variantes de verdade passageira. Para o -eval VCF, a ferramenta usa apenas chamadas de passagem não filtradas.

Opcionalmente, a ferramenta pode ser configurada para produzir VCFs dos seguintes registros de variantes, anotados com o status de concordância de cada variante:

Verdadeiros positivos e falsos negativos (isto é, todas as variantes na verdade VCF): útil para calcular a sensibilidade

Verdadeiros positivos e falsos positivos (ou seja, todas as variantes no VCF eval): útil para obter um conjunto de dados de treinamento para classificadores de artefatos de aprendizado de máquina

Esses VCFs de saída podem ser passados para VariantsToTable para produzir um arquivo TSV para análise estatística em R ou Python.

 run gatk Concordance -R Homo_sapiens_assembly38.fasta -eval outputannot.vcf --truth outputnocall.vcf  --summary summary.tsv 

5. VariantesToTable

Extraia campos de um arquivo VCF para uma tabela delimitada por tabulações. Esta ferramenta extrai campos especificados para cada variante em um arquivo VCF para uma tabela delimitada por tabulações, que pode ser mais fácil de trabalhar do que um VCF. Por padrão, a ferramenta extrai apenas variantes PASS ou (não filtradas) no arquivo VCF. Variantes filtradas podem ser incluídas na saída adicionando o sinalizador --show-filtered. A ferramenta pode extrair campos INFO (ou seja, no nível do site) e FORMAT (ou seja, no nível da amostra).

Campos INFO/ao nível do site:

Use o -F argumento para extrair campos INFO, cada campo ocupará uma única coluna no arquivo de saída. O campo pode ser qualquer coluna VCF padrão (por exemplo, CHROM, ID, QUAL) ou qualquer nome de anotação no campo INFO (por exemplo, AC, AF). A ferramenta também suporta os seguintes campos:

EVENTLENGTH (duração do evento) TRANSIÇÃO (1 para uma transição bi-alélica (SNP), 0 para transversão bi-alélica (SNP), -1 para INDELs e multi-alélicos) HET (contagem de genótipos het) HOM-REF (contagem de genótipos de referência homozigóticos) HOM-VAR (contagem de genótipos de variantes homozigóticas) NO-CALL (contagem de genótipos sem chamada) TYPE (tipo de variante, os valores possíveis são NO_VARIATION, SNP, MNP, INDEL, VAR SIMBÓLICO e MISTO (contagem de genótipos não referenciados) NSAMPLES (número de amostras) NCALLED (número de amostras chamadas) MULTI-ALLELIC (esta variante é multi-alélica? verdadeiro/falso)

Campos FORMATO/nível de exemplo:

Use o -GF argumento para extrair campos FORMAT/sample-level. A ferramenta criará uma nova coluna por amostra com o nome "SAMPLE_NAME. FORMAT_FIELD_NAME", por exemplo, NA12877.GQ, NA12878. GQ.

Entrada:

Um arquivo VCF para converter em uma tabela

Resultado:

Um arquivo delimitado por tabulação contendo os valores dos campos solicitados no arquivo VCF.

run gatk VariantsToTable -V NA12877.vcf.gz -F CHROM -F POS -F TYPE -F AC -F AD -F AF -GF DP -GF AD -O outputtable.table

Referências

  1. VariantFiltration: https://gatk.broadinstitute.org/hc/en-us/articles/360036827111-VariantFiltration
  2. Selecione Variantes:https://gatk.broadinstitute.org/hc/en-us/articles/360037052272-SelectVariants
  3. Concordância: https://gatk.broadinstitute.org/hc/en-us/articles/360041851651-Concordance
  4. Variantes à tabela: https://gatk.broadinstitute.org/hc/en-us/articles/360036882811-VariantsToTable
  5. Genomas Illumina Platinum:https://www.illumina.com/platinumgenomes.html

Próximos passos

Exiba o restante dos conjuntos de dados no catálogo Open Datasets.