Illumina Platinum Genomes

Dankzij WGS (whole genome sequencing) kunnen onderzoekers wereldwijd het menselijk genoom vollediger en nauwkeuriger karakteriseren. Hiervoor is een uitgebreide catalogus met genoombrede varianten met hoge betrouwbaarheid vereist die in een reeks genomen als benchmark worden aangeroepen. Illumina heeft diepe, volledige genoomreeksgegevens gegenereerd van 17 personen in een pedigree van de drie generatie. Illumina heeft varianten in elk genoom genoemd met behulp van een reeks momenteel beschikbare algoritmen.

Zie de officiële Illumina-site voor meer informatie over de gegevens.

Notitie

Microsoft biedt Azure Open Datasets op basis van 'zoals is'. Microsoft geeft geen garanties, uitdrukkelijk of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover toegestaan volgens uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, waaronder directe, gevolgschade, speciale, indirecte, incidentele of strafbare gegevenssets, die het gevolg zijn van uw gebruik van de gegevenssets.

Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.

Gegevensbron

Deze gegevensset is een spiegel van ftp://ussd-ftp.illumina.com/

Gegevensvolumes en updatefrequentie

Deze gegevensset bevat ongeveer 2 GB aan gegevens en wordt dagelijks bijgewerkt.

Opslaglocatie

Deze gegevensset is opgeslagen in de Azure-regio's US - west 2 en VS - west-centraal. We raden u aan rekenresources te zoeken in VS - west 2 of VS - west-centraal voor affiniteit.

Data Access

VS - west 2: 'https://datasetplatinumgenomes.blob.core.windows.net/dataset'

VS - west-centraal: 'https://datasetplatinumgenomes-secondary.blob.core.windows.net/dataset'

SAS-token: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D

Gebruiksrechtovereenkomst

De gegevens zijn zonder beperkingen beschikbaar. Zie de officiële Illumina-site voor meer informatie en bronvermeldingen.

Contactpersoon

Neem voor vragen of feedback over de gegevensset contact op platinumgenomes@illumina.com.

Toegang tot gegevens

Azure Notebooks

De Illumina Platinum Genomes ophalen uit Azure Open Datasets en Initiële analyse uitvoeren

Gebruik Jupyter-notebooks, GATK en Microsoft om het volgende te doen:

  1. Aantekeningen toevoegen aan genotypes met variantfiltratie
  2. Specifieke varianten selecteren
  3. De relevante varianten filteren: geen aanroepen OF specifieke regio's
  4. Concordantieanalyse uitvoeren
  5. De uiteindelijke VCF-bestanden converteren naar een tabel

Afhankelijkheden:

Voor dit notebook zijn de volgende bibliotheken vereist:

  • Azure Storage pip install azure-storage-blob

  • Numpy pip install numpy

  • Genome Analysis Toolkit (GATK) (Gebruikers moeten GATK downloaden van de webpagina van Broad Institute naar dezelfde rekenomgeving met dit notebook: https://github.com/broadinstitute/gatk/releases)

Belangrijke informatie: dit notebook maakt gebruik van python 3.6-kernel

De Genomics-gegevens ophalen uit Azure Open Datasets

Hier zijn verschillende openbare genomics-gegevens geüpload als een Azure Open Dataset. We maken een blobservice die is gekoppeld aan deze geopende gegevensset. Hieronder vindt u voorbeelden van de procedure voor het aanroepen van gegevens uit Azure Open Dataset voor Illumina Platinum Genomes gegevenssets:

De specifieke 'Illumina Platinum Genomes' downloaden

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetplatinumgenomes', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D')     
blob_service_client.get_blob_to_path('dataset/2017-1.0/hg38/small_variants/NA12877', 'NA12877.vcf.gz', './NA12877.vcf.gz')

1. Aantekeningen toevoegen aan genotypes met behulp van VariantFiltratie

Belangrijke opmerking: Controleer of uw GATK wordt uitgevoerd op uw systeem.

Als we heterozygous genotypes willen filteren, gebruiken we de optie VariantFiltratie --genotype-filter-expression isHet == 1 . We kunnen de aantekeningswaarde voor het hulpprogramma opgeven om de heterozygous genotypes te labelen met de --genotype-filter-name optie. Hier is de waarde van deze parameter ingesteld op isHetFilter. In ons eerste voorbeeld hebben we Illimina Platinum Genomes gebruikt NA12877.vcf.gz , maar gebruikers kunnen vcf-bestanden uit andere gegevenssets gebruiken:Platinum Genomes

run gatk VariantFiltration -V NA12877.vcf.gz -O outputannot.vcf --genotype-filter-expression "isHet == 1" --genotype-filter-name "isHetFilter"

2. Specifieke varianten selecteren

Selecteer een subset met varianten uit een VCF-bestand. Met dit hulpprogramma kunt u een subset van varianten selecteren op basis van verschillende criteria om bepaalde analyses te vergemakkelijken. Voorbeelden van dergelijke analyses zijn het vergelijken en contrasteren van gevallen versus besturingselementen, het extraheren van variant of niet-variant loci die voldoen aan bepaalde vereisten, of het oplossen van problemen met een aantal onverwachte resultaten.

Er zijn veel verschillende opties voor het selecteren van subsets van varianten uit een grotere aanroepset:

Pak een of meer voorbeelden uit een aanroepset op basis van een volledige voorbeeldnaam of een patroonovereenkomst. Geef criteria op voor opname waarbij drempelwaarden voor aantekeningswaarden worden geplaatst, bijvoorbeeld 'DP > 1000' (diepte van dekking groter dan 1000x), 'AF < 0,25' (sites met een frequentie van minder dan 0,25). Deze criteria worden geschreven als 'JEXL-expressies', die worden beschreven in het artikel over het gebruik van JEXL-expressies. Geef concordantie- of discordantiesporen op om varianten op te nemen of uit te sluiten die ook aanwezig zijn in andere aanroepsets. Selecteer varianten op basis van criteria zoals hun type (bijvoorbeeld ALLEEN INDEL's), bewijs van schending van mendelian, filterstatus, alleliciteit, enzovoort. Er zijn ook verschillende opties voor het vastleggen van de oorspronkelijke waarden van bepaalde aantekeningen, die opnieuw worden berekend wanneer een subset van de nieuwe oproepset, allelen bijwerkt, enzovoort.

Invoer: Een variantoproepset in VCF-indeling waaruit een subset kan worden geselecteerd.

Uitvoer: Een nieuw VCF-bestand met de geselecteerde subset van varianten.

run gatk SelectVariants -R Homo_sapiens_assembly38.fasta -V outputannot.vcf --select-type-to-include SNP --select-type-to-include INDEL -O selective.vcf

3. Gefilterde genotypes transformeren tot geen aanroep

Als u SelectVariants uitvoert met --set-filtered-gt-to-nocall, worden de gemarkeerde genotypes verder getransformeerd met een null-genotype-aanroep.

Deze conversie is nodig omdat downstreamhulpprogramma's het filterveld FORMAT-niveau niet parseren.

Hoe kunnen we de varianten filteren met 'Geen aanroep'

run gatk SelectVariants -V outputannot.vcf --set-filtered-gt-to-nocall -O outputnocall.vcf

4. Controleer de Concordance van VCF-bestand met Ground Truth

Evalueer de overeenstemming op siteniveau van een invoer-VCF tegen een waarheids-VCF. Met dit hulpprogramma worden twee verschillende aanroepsets voor elkaar geëvalueerd en wordt een tabel met metrische gegevens over zes kolommen gegenereerd.

Met deze functie wordt het volgende uitgevoerd:

  1. SNP- en INDEL-aanroepen stratiferen
  2. Terecht-positieve, fout-positieve en fout-negatieve aanroepen rapporteren
  3. Berekent gevoeligheid en precisie

Het hulpprogramma gaat ervan uit dat alle records in de VCF --truth waarheidsvarianten doorgeven. Voor de VCF -eval gebruikt het hulpprogramma alleen niet-gefilterde aanroepen die worden doorgegeven.

Optioneel kan het hulpprogramma worden ingesteld om VCF's van de volgende variantrecords te produceren, geannoteerd met de concordantiestatus van elke variant:

Terecht-positieven en fout-negatieven (dat wil zeggen, alle varianten in de waarheid VCF): handig voor het berekenen van de gevoeligheid

Terecht-positieven en fout-positieven (dat wil weten alle varianten in de evaluatie-VCF): handig voor het verkrijgen van een trainingsgegevensset voor machine learning-classificaties van artefacten

Deze uitvoer-VCF's kunnen worden doorgegeven aan VariantsToTable om een TSV-bestand te produceren voor statistische analyse in R of Python.

 run gatk Concordance -R Homo_sapiens_assembly38.fasta -eval outputannot.vcf --truth outputnocall.vcf  --summary summary.tsv 

5. VariantenToTable

Extraheer velden uit een VCF-bestand naar een tabel met tabscheidingstekens. Met dit hulpprogramma worden opgegeven velden voor elke variant in een VCF-bestand geëxtraheerd naar een tabel met tabscheidingstekens, waarmee u gemakkelijker kunt werken dan een VCF. Standaard extraheert het hulpprogramma alleen PASS- of (niet-gefilterde) varianten in het VCF-bestand. Gefilterde varianten kunnen worden opgenomen in de uitvoer door de vlag --show-filter toe te voegen. Het hulpprogramma kan zowel INFO(dat wil gezegd, siteniveau) velden extraheren als FORMAT (dat wil gezegd, velden op voorbeeldniveau).

INFO/velden op siteniveau:

Gebruik het -F argument om INFO-velden te extraheren. Elk veld neemt één kolom in het uitvoerbestand in beslag. Het veld kan elke standaard VCF-kolom zijn (bijvoorbeeld CHROM, ID, QUAL) of een naam van aantekeningen in het veld INFO (bijvoorbeeld AC, AF). Het hulpprogramma ondersteunt ook de volgende velden:

EVENTLENGTH (lengte van de gebeurtenis) TRANSITION (1 voor een bi-allelic-overgang (SNP), 0 voor bi-allelic transversion (SNP), -1 voor INDELs en multi-allelics) HET (aantal van het genotypes) HOM-REF (count of homozygous reference genotypes) HOM-VAR (count of homozygous variant genotypes) NO-CALL (aantal no-call genotypes) TYPE (type variant, mogelijke waarden zijn NO_VARIATION, SNP, MNP, INDEL, SYMBOLISCH en MIXED VAR (aantal niet-referentiegenotypes) NSAMPLES (aantal steekproeven) NCALLED (aantal aangeroepen steekproeven) MULTI-ALLELIC (is deze variant multi-allelic? waar/onwaar)

VELDEN OP FORMAT/voorbeeldniveau:

Gebruik het -GF argument om velden FORMAT/sample-niveau te extraheren. Het hulpprogramma maakt een nieuwe kolom per voorbeeld met de naam 'SAMPLE_NAME. FORMAT_FIELD_NAME bijvoorbeeld NA12877.GQ, NA12878. GQ.

Invoer:

Een VCF-bestand dat moet worden geconverteerd naar een tabel

Uitvoer:

Een door tabs gescheiden bestand met de waarden van de aangevraagde velden in het VCF-bestand.

run gatk VariantsToTable -V NA12877.vcf.gz -F CHROM -F POS -F TYPE -F AC -F AD -F AF -GF DP -GF AD -O outputtable.table

Verwijzingen

  1. VariantFiltratie: https://gatk.broadinstitute.org/hc/en-us/articles/360036827111-VariantFiltration
  2. Varianten selecteren:https://gatk.broadinstitute.org/hc/en-us/articles/360037052272-SelectVariants
  3. Overeenstemming: https://gatk.broadinstitute.org/hc/en-us/articles/360041851651-Concordance
  4. Varianten naar tabel: https://gatk.broadinstitute.org/hc/en-us/articles/360036882811-VariantsToTable
  5. Illumina Platinum Genomes:https://www.illumina.com/platinumgenomes.html

Volgende stappen

Bekijk de rest van de gegevenssets in de catalogus Open Datasets.