Illumina Platinum Genomes
Sekwencjonowanie całego genomu umożliwia badaczom na całym świecie pełniejsze i dokładniejsze scharakteryzowanie ludzkiego genomu. Wymaga to kompleksowego, całego genomu wykazu wariantów o wysokiej pewności, nazywanych zestawem genomów jako test porównawczy. Illumina wygenerowała głębokie, całe genomy dane sekwencji 17 osób w rodowód trójgeneracji. Illumina nazwała warianty w każdym genomie przy użyciu zakresu obecnie dostępnych algorytmów.
Aby uzyskać więcej informacji na temat danych, zobacz oficjalną witrynę Illumina.
Uwaga
Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.
Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.
Źródło danych
Ten zestaw danych jest dublowaniem ftp://ussd-ftp.illumina.com/
Woluminy danych i częstotliwość aktualizacji
Ten zestaw danych zawiera około 2 GB danych i jest codziennie aktualizowany.
Lokalizacja usługi Storage
Ten zestaw danych jest przechowywany w regionach świadczenia platformy Azure: Zachodnie stany USA 2 i Zachodnio-środkowe stany USA. Zalecamy lokalizowanie zasobów obliczeniowych w regionie Zachodnie stany USA 2 lub Zachodnio-środkowe stany USA w celu koligacji.
Dostęp do danych
Zachodnie stany USA 2: "https://datasetplatinumgenomes.blob.core.windows.net/dataset"
Zachodnio-środkowe stany USA: "https://datasetplatinumgenomes-secondary.blob.core.windows.net/dataset"
Token SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D
Warunki użytkowania
Dane są dostępne bez ograniczeń. Aby uzyskać więcej informacji i szczegółów cytatu, zobacz oficjalną witrynę Illumina.
Kontakt biznesowy
Aby uzyskać odpowiedzi na pytania lub opinie dotyczące zestawu danych, skontaktuj się z .platinumgenomes@illumina.com
Dostęp do danych
Azure Notebooks
Uzyskiwanie genomów Illumina Platinum z zestawów danych Platformy Azure Open i wykonywanie analizy początkowej
Użyj notesów Jupyter, GATK i Picard, aby wykonać następujące czynności:
- Dodawanie adnotacji do genotypów przy użyciu funkcji VariantFiltration
- Wybieranie określonych wariantów
- Filtrowanie odpowiednich wariantów — brak wywołań LUB określonych regionów
- Wykonywanie analizy konkordancji
- Konwertowanie końcowych plików VCF na tabelę
Zależności:
Ten notes wymaga następujących bibliotek:
Azure Storage
pip install azure-storage-blob
numpy
pip install numpy
Zestaw narzędzi Genome Analysis Toolkit (GATK) (użytkownicy muszą pobrać zestaw GATK ze strony internetowej Broad Institute do tego samego środowiska obliczeniowego przy użyciu tego notesu: https://github.com/broadinstitute/gatk/releases)
Ważne informacje: ten notes korzysta z jądra języka Python 3.6
Pobieranie danych usługi Genomics z usługi Azure Open Datasets
Kilka publicznych danych genomics zostało przekazanych w tym miejscu jako zestaw danych azure Open. Tworzymy usługę obiektów blob połączoną z tym otwartym zestawem danych. Poniżej przedstawiono przykłady procedury wywoływania danych z zestawu danych Azure Open Dataset dla Illumina Platinum Genomes
zestawów danych:
Pobieranie konkretnego genomu "Illumina Platinum Genomes"
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetplatinumgenomes', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D')
blob_service_client.get_blob_to_path('dataset/2017-1.0/hg38/small_variants/NA12877', 'NA12877.vcf.gz', './NA12877.vcf.gz')
1. Dodawanie adnotacji do genotypów przy użyciu funkcji VariantFiltration
Ważna uwaga: Sprawdź, czy w systemie jest uruchomiona funkcja GATK.
Jeśli chcemy filtrować heterozygous genotypy, użyjemy opcji VariantFiltration --genotype-filter-expression isHet == 1
. Możemy określić wartość adnotacji dla narzędzia, aby oznaczyć heterozygous genotypes za pomocą --genotype-filter-name
opcji . W tym miejscu wartość tego parametru jest ustawiona na isHetFilter
wartość . W naszym pierwszym przykładzie użyliśmy funkcji NA12877.vcf.gz
Illimina Platinum Genomes, ale użytkownicy mogą używać dowolnych plików vcf z innych zestawów danych:Platinum Genomes
run gatk VariantFiltration -V NA12877.vcf.gz -O outputannot.vcf --genotype-filter-expression "isHet == 1" --genotype-filter-name "isHetFilter"
2. Wybierz określone warianty
Wybierz podzbiór wariantów z pliku VCF. To narzędzie umożliwia wybranie podzbioru wariantów na podstawie różnych kryteriów w celu ułatwienia niektórych analiz. Przykłady takich analiz obejmują porównywanie i kontrastowanie przypadków w porównaniu z kontrolkami, wyodrębnianie wariantów lub lokali innych niż warianty spełniające określone wymagania lub rozwiązywanie problemów z nieoczekiwanymi wynikami, aby wymienić kilka.
Istnieje wiele różnych opcji wybierania podzestawów wariantów z większego zestawu wywołań:
Wyodrębnij co najmniej jeden przykład z zestawu wywołań na podstawie pełnej nazwy przykładu lub dopasowania wzorca. Określ kryteria dołączania, które umieszczają progi w wartościach adnotacji, na przykład "DP > 1000" (głębokość pokrycia większa niż 1000x), "AF < 0,25" (witryny z częstotliwością allele mniejszą niż 0,25). Te kryteria są zapisywane jako "wyrażenia JEXL", które zostały udokumentowane w artykule dotyczącym używania wyrażeń JEXL. Podaj ścieżki concordance lub niezgody w celu uwzględnienia lub wykluczenia wariantów, które są również obecne w innych zestawach wywołań. Wybierz warianty na podstawie kryteriów, takich jak ich typ (na przykład tylko INDELs), dowody naruszenia mendeliańskiego, stan filtrowania, allelicity itp. Istnieje również kilka opcji rejestrowania oryginalnych wartości niektórych adnotacji, które są ponownie obliczane, gdy jeden podzestaw nowego zestawu wywołań, przycina alleles itp.
Dane wejściowe: zestaw wywołań wariantów w formacie VCF, z którego można wybrać podzbiór.
Dane wyjściowe: nowy plik VCF zawierający wybrany podzestaw wariantów.
run gatk SelectVariants -R Homo_sapiens_assembly38.fasta -V outputannot.vcf --select-type-to-include SNP --select-type-to-include INDEL -O selective.vcf
3. Przekształć przefiltrowane genotypy bez wywołania
Uruchomienie poleceń SelectVariants z parametrem --set-filtered-gt-to-nocall spowoduje dalsze przekształcenie oflagowanych typów genotypów z wywołaniem genotypu o wartości null.
Ta konwersja jest konieczna, ponieważ narzędzia podrzędne nie analizują pola filtru na poziomie FORMATU.
Jak można filtrować warianty za pomocą polecenia "Bez wywołania"
run gatk SelectVariants -V outputannot.vcf --set-filtered-gt-to-nocall -O outputnocall.vcf
4. Sprawdź Concordance pliku VCF z Ground Truth
Oceń konkordowanie na poziomie lokacji wejściowego programu VCF względem rzeczywistości VCF. To narzędzie ocenia dwa zestawy wywołań wariantów względem siebie i tworzy sześciokolumna tabela metryk podsumowania.
Ta funkcja będzie następująca:
- Warstwy wywołań SNP i INDEL
- Zgłaszanie wywołań prawdziwie dodatnich, fałszywie dodatnich i fałszywie ujemnych
- Oblicza czułość i precyzję
Narzędzie zakłada, że wszystkie rekordy w --truth VCF przechodzą warianty prawdy. W przypadku -eval VCF narzędzie używa tylko niefiltrowanych wywołań przekazujących.
Opcjonalnie można ustawić narzędzie w celu utworzenia plików VCF następujących rekordów wariantów, z adnotacjami ze stanem konfekcji każdego wariantu:
Prawdziwie dodatnie i fałszywie ujemne (czyli wszystkie warianty w rzeczywistości VCF): przydatne do obliczania poufności
Prawdziwie dodatnie i fałszywie dodatnie (czyli wszystkie warianty w eval VCF): przydatne do uzyskiwania zestawu danych treningowych dla klasyfikatorów uczenia maszynowego artefaktów
Te wyjściowe pliki VCFs można przekazać do tabeli VariantToTable, aby utworzyć plik TSV na potrzeby analizy statystycznej w języku R lub Python.
run gatk Concordance -R Homo_sapiens_assembly38.fasta -eval outputannot.vcf --truth outputnocall.vcf --summary summary.tsv
5. VariantToTable
Wyodrębnij pola z pliku VCF do tabeli rozdzielanej tabulatorami. To narzędzie wyodrębnia określone pola dla każdego wariantu w pliku VCF do tabeli rozdzielanej tabulatorami, która może być łatwiejsza do pracy z programem VCF. Domyślnie narzędzie wyodrębnia tylko warianty PASS lub (niefiltrowane) w pliku VCF. Filtrowane warianty mogą być uwzględniane w danych wyjściowych przez dodanie flagi --show-filtered. Narzędzie może wyodrębnić pola INFO (czyli poziom lokacji) i pola FORMAT (czyli na poziomie próbki).
Pola na poziomie info/lokacji:
Użyj argumentu -F
, aby wyodrębnić pola INFO. Każde pole zajmie jedną kolumnę w pliku wyjściowym. Pole może być dowolną standardową kolumną VCF (na przykład CHROM, ID, QUAL) lub dowolną nazwą adnotacji w polu INFO (na przykład AC, AF). Narzędzie obsługuje również następujące pola:
EVENTLENGTH (długość zdarzenia) TRANSITION (1 dla przejścia dwukierunkowego (SNP), 0 dla transwersji dwukierunkowej (SNP), -1 dla INDELs i wieloaplikowych) HET (liczba het geno HOM-REF (liczba genotypów referencyjnych homozygou) HOM-VAR (liczba genotypów wariantu homozygousa) NO-CALL (liczba genotypów bez wywołań) TYP (typ wariantu, możliwe wartości są NO_VARIATION, SNP, MNP, INDEL, SYMBOLICZNE i MIESZANE VAR (liczba genotypów innych niż odwołania) NSAMPLES (liczba próbek) NCALLED (liczba wywołań próbek) MULTI-ALLELIC (czy ten wariant wieloaplikowy? prawda/fałsz)
Pola FORMAT/sample-level:
Użyj argumentu -GF
, aby wyodrębnić pola FORMAT/sample-level. Narzędzie utworzy nową kolumnę na przykład o nazwie "SAMPLE_NAME. FORMAT_FIELD_NAME" na przykład NA12877.GQ, NA12878. GQ.
Dane wejściowe:
Plik VCF do konwersji na tabelę
Wyjście:
Plik rozdzielany tabulatorami zawierający wartości żądanych pól w pliku VCF.
run gatk VariantsToTable -V NA12877.vcf.gz -F CHROM -F POS -F TYPE -F AC -F AD -F AF -GF DP -GF AD -O outputtable.table
Informacje
- VariantFiltration: https://gatk.broadinstitute.org/hc/en-us/articles/360036827111-VariantFiltration
- Wybierz warianty:https://gatk.broadinstitute.org/hc/en-us/articles/360037052272-SelectVariants
- Zgodności: https://gatk.broadinstitute.org/hc/en-us/articles/360041851651-Concordance
- Warianty do tabeli: https://gatk.broadinstitute.org/hc/en-us/articles/360036882811-VariantsToTable
- Illumina Platinum Genomes:https://www.illumina.com/platinumgenomes.html
Następne kroki
Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).