Illumina Platinum Genomes

Sekwencjonowanie całego genomu umożliwia badaczom na całym świecie pełniejsze i dokładniejsze scharakteryzowanie ludzkiego genomu. Wymaga to kompleksowego, całego genomu wykazu wariantów o wysokiej pewności, nazywanych zestawem genomów jako test porównawczy. Illumina wygenerowała głębokie, całe genomy dane sekwencji 17 osób w rodowód trójgeneracji. Illumina nazwała warianty w każdym genomie przy użyciu zakresu obecnie dostępnych algorytmów.

Aby uzyskać więcej informacji na temat danych, zobacz oficjalną witrynę Illumina.

Uwaga

Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Źródło danych

Ten zestaw danych jest dublowaniem ftp://ussd-ftp.illumina.com/

Woluminy danych i częstotliwość aktualizacji

Ten zestaw danych zawiera około 2 GB danych i jest codziennie aktualizowany.

Lokalizacja usługi Storage

Ten zestaw danych jest przechowywany w regionach świadczenia platformy Azure: Zachodnie stany USA 2 i Zachodnio-środkowe stany USA. Zalecamy lokalizowanie zasobów obliczeniowych w regionie Zachodnie stany USA 2 lub Zachodnio-środkowe stany USA w celu koligacji.

Dostęp do danych

Zachodnie stany USA 2: "https://datasetplatinumgenomes.blob.core.windows.net/dataset"

Zachodnio-środkowe stany USA: "https://datasetplatinumgenomes-secondary.blob.core.windows.net/dataset"

Token SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D

Warunki użytkowania

Dane są dostępne bez ograniczeń. Aby uzyskać więcej informacji i szczegółów cytatu, zobacz oficjalną witrynę Illumina.

Kontakt biznesowy

Aby uzyskać odpowiedzi na pytania lub opinie dotyczące zestawu danych, skontaktuj się z .platinumgenomes@illumina.com

Dostęp do danych

Azure Notebooks

Uzyskiwanie genomów Illumina Platinum z zestawów danych Platformy Azure Open i wykonywanie analizy początkowej

Użyj notesów Jupyter, GATK i Picard, aby wykonać następujące czynności:

  1. Dodawanie adnotacji do genotypów przy użyciu funkcji VariantFiltration
  2. Wybieranie określonych wariantów
  3. Filtrowanie odpowiednich wariantów — brak wywołań LUB określonych regionów
  4. Wykonywanie analizy konkordancji
  5. Konwertowanie końcowych plików VCF na tabelę

Zależności:

Ten notes wymaga następujących bibliotek:

  • Azure Storage pip install azure-storage-blob

  • Numpy pip install numpy

  • Zestaw narzędzi Genome Analysis Toolkit (GATK) (użytkownicy muszą pobrać zestaw GATK ze strony internetowej Broad Institute do tego samego środowiska obliczeniowego przy użyciu tego notesu: https://github.com/broadinstitute/gatk/releases)

Ważne informacje: ten notes korzysta z jądra języka Python 3.6

Pobieranie danych usługi Genomics z usługi Azure Open Datasets

Kilka publicznych danych genomics zostało przekazanych w tym miejscu jako zestaw danych azure Open. Tworzymy usługę obiektów blob połączoną z tym otwartym zestawem danych. Poniżej przedstawiono przykłady procedury wywoływania danych z zestawu danych Azure Open Dataset dla Illumina Platinum Genomes zestawów danych:

Pobieranie konkretnego genomu "Illumina Platinum Genomes"

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetplatinumgenomes', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D')     
blob_service_client.get_blob_to_path('dataset/2017-1.0/hg38/small_variants/NA12877', 'NA12877.vcf.gz', './NA12877.vcf.gz')

1. Dodawanie adnotacji do genotypów przy użyciu funkcji VariantFiltration

Ważna uwaga: Sprawdź, czy w systemie jest uruchomiona funkcja GATK.

Jeśli chcemy filtrować heterozygous genotypy, użyjemy opcji VariantFiltration --genotype-filter-expression isHet == 1 . Możemy określić wartość adnotacji dla narzędzia, aby oznaczyć heterozygous genotypes za pomocą --genotype-filter-name opcji . W tym miejscu wartość tego parametru jest ustawiona na isHetFilterwartość . W naszym pierwszym przykładzie użyliśmy funkcji NA12877.vcf.gz Illimina Platinum Genomes, ale użytkownicy mogą używać dowolnych plików vcf z innych zestawów danych:Platinum Genomes

run gatk VariantFiltration -V NA12877.vcf.gz -O outputannot.vcf --genotype-filter-expression "isHet == 1" --genotype-filter-name "isHetFilter"

2. Wybierz określone warianty

Wybierz podzbiór wariantów z pliku VCF. To narzędzie umożliwia wybranie podzbioru wariantów na podstawie różnych kryteriów w celu ułatwienia niektórych analiz. Przykłady takich analiz obejmują porównywanie i kontrastowanie przypadków w porównaniu z kontrolkami, wyodrębnianie wariantów lub lokali innych niż warianty spełniające określone wymagania lub rozwiązywanie problemów z nieoczekiwanymi wynikami, aby wymienić kilka.

Istnieje wiele różnych opcji wybierania podzestawów wariantów z większego zestawu wywołań:

Wyodrębnij co najmniej jeden przykład z zestawu wywołań na podstawie pełnej nazwy przykładu lub dopasowania wzorca. Określ kryteria dołączania, które umieszczają progi w wartościach adnotacji, na przykład "DP > 1000" (głębokość pokrycia większa niż 1000x), "AF < 0,25" (witryny z częstotliwością allele mniejszą niż 0,25). Te kryteria są zapisywane jako "wyrażenia JEXL", które zostały udokumentowane w artykule dotyczącym używania wyrażeń JEXL. Podaj ścieżki concordance lub niezgody w celu uwzględnienia lub wykluczenia wariantów, które są również obecne w innych zestawach wywołań. Wybierz warianty na podstawie kryteriów, takich jak ich typ (na przykład tylko INDELs), dowody naruszenia mendeliańskiego, stan filtrowania, allelicity itp. Istnieje również kilka opcji rejestrowania oryginalnych wartości niektórych adnotacji, które są ponownie obliczane, gdy jeden podzestaw nowego zestawu wywołań, przycina alleles itp.

Dane wejściowe: zestaw wywołań wariantów w formacie VCF, z którego można wybrać podzbiór.

Dane wyjściowe: nowy plik VCF zawierający wybrany podzestaw wariantów.

run gatk SelectVariants -R Homo_sapiens_assembly38.fasta -V outputannot.vcf --select-type-to-include SNP --select-type-to-include INDEL -O selective.vcf

3. Przekształć przefiltrowane genotypy bez wywołania

Uruchomienie poleceń SelectVariants z parametrem --set-filtered-gt-to-nocall spowoduje dalsze przekształcenie oflagowanych typów genotypów z wywołaniem genotypu o wartości null.

Ta konwersja jest konieczna, ponieważ narzędzia podrzędne nie analizują pola filtru na poziomie FORMATU.

Jak można filtrować warianty za pomocą polecenia "Bez wywołania"

run gatk SelectVariants -V outputannot.vcf --set-filtered-gt-to-nocall -O outputnocall.vcf

4. Sprawdź Concordance pliku VCF z Ground Truth

Oceń konkordowanie na poziomie lokacji wejściowego programu VCF względem rzeczywistości VCF. To narzędzie ocenia dwa zestawy wywołań wariantów względem siebie i tworzy sześciokolumna tabela metryk podsumowania.

Ta funkcja będzie następująca:

  1. Warstwy wywołań SNP i INDEL
  2. Zgłaszanie wywołań prawdziwie dodatnich, fałszywie dodatnich i fałszywie ujemnych
  3. Oblicza czułość i precyzję

Narzędzie zakłada, że wszystkie rekordy w --truth VCF przechodzą warianty prawdy. W przypadku -eval VCF narzędzie używa tylko niefiltrowanych wywołań przekazujących.

Opcjonalnie można ustawić narzędzie w celu utworzenia plików VCF następujących rekordów wariantów, z adnotacjami ze stanem konfekcji każdego wariantu:

Prawdziwie dodatnie i fałszywie ujemne (czyli wszystkie warianty w rzeczywistości VCF): przydatne do obliczania poufności

Prawdziwie dodatnie i fałszywie dodatnie (czyli wszystkie warianty w eval VCF): przydatne do uzyskiwania zestawu danych treningowych dla klasyfikatorów uczenia maszynowego artefaktów

Te wyjściowe pliki VCFs można przekazać do tabeli VariantToTable, aby utworzyć plik TSV na potrzeby analizy statystycznej w języku R lub Python.

 run gatk Concordance -R Homo_sapiens_assembly38.fasta -eval outputannot.vcf --truth outputnocall.vcf  --summary summary.tsv 

5. VariantToTable

Wyodrębnij pola z pliku VCF do tabeli rozdzielanej tabulatorami. To narzędzie wyodrębnia określone pola dla każdego wariantu w pliku VCF do tabeli rozdzielanej tabulatorami, która może być łatwiejsza do pracy z programem VCF. Domyślnie narzędzie wyodrębnia tylko warianty PASS lub (niefiltrowane) w pliku VCF. Filtrowane warianty mogą być uwzględniane w danych wyjściowych przez dodanie flagi --show-filtered. Narzędzie może wyodrębnić pola INFO (czyli poziom lokacji) i pola FORMAT (czyli na poziomie próbki).

Pola na poziomie info/lokacji:

Użyj argumentu -F , aby wyodrębnić pola INFO. Każde pole zajmie jedną kolumnę w pliku wyjściowym. Pole może być dowolną standardową kolumną VCF (na przykład CHROM, ID, QUAL) lub dowolną nazwą adnotacji w polu INFO (na przykład AC, AF). Narzędzie obsługuje również następujące pola:

EVENTLENGTH (długość zdarzenia) TRANSITION (1 dla przejścia dwukierunkowego (SNP), 0 dla transwersji dwukierunkowej (SNP), -1 dla INDELs i wieloaplikowych) HET (liczba het geno HOM-REF (liczba genotypów referencyjnych homozygou) HOM-VAR (liczba genotypów wariantu homozygousa) NO-CALL (liczba genotypów bez wywołań) TYP (typ wariantu, możliwe wartości są NO_VARIATION, SNP, MNP, INDEL, SYMBOLICZNE i MIESZANE VAR (liczba genotypów innych niż odwołania) NSAMPLES (liczba próbek) NCALLED (liczba wywołań próbek) MULTI-ALLELIC (czy ten wariant wieloaplikowy? prawda/fałsz)

Pola FORMAT/sample-level:

Użyj argumentu -GF , aby wyodrębnić pola FORMAT/sample-level. Narzędzie utworzy nową kolumnę na przykład o nazwie "SAMPLE_NAME. FORMAT_FIELD_NAME" na przykład NA12877.GQ, NA12878. GQ.

Dane wejściowe:

Plik VCF do konwersji na tabelę

Dane wyjściowe:

Plik rozdzielany tabulatorami zawierający wartości żądanych pól w pliku VCF.

run gatk VariantsToTable -V NA12877.vcf.gz -F CHROM -F POS -F TYPE -F AC -F AD -F AF -GF DP -GF AD -O outputtable.table

Informacje

  1. VariantFiltration: https://gatk.broadinstitute.org/hc/en-us/articles/360036827111-VariantFiltration
  2. Wybierz warianty:https://gatk.broadinstitute.org/hc/en-us/articles/360037052272-SelectVariants
  3. Zgodności: https://gatk.broadinstitute.org/hc/en-us/articles/360041851651-Concordance
  4. Warianty do tabeli: https://gatk.broadinstitute.org/hc/en-us/articles/360036882811-VariantsToTable
  5. Illumina Platinum Genomes:https://www.illumina.com/platinumgenomes.html

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).