Baza danych agregacji genome (gnomAD)
Baza danych agregacji Genome (gnomAD) jest zasobem opracowanym przez międzynarodową koalicję badaczy, która ma na celu agregowanie i zharmonizowanie zarówno danych sekwencjonowania exome, jak i genomu z szerokiej gamy projektów sekwencjonowania na dużą skalę oraz udostępnianie danych podsumowania szerszej społeczności naukowej.
Uwaga
Firma Microsoft udostępnia zestawy danych Azure Open Datasets w zasadzie "tak jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym na mocy prawa lokalnego firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wynikowe, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.
Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.
Źródło danych
Ten zestaw danych jest hostowany we współpracy z instytutem Broad Institute, a pełny katalog danych gnomAD można znaleźć pod adresem https://gnomad.broadinstitute.org/downloads
Woluminy danych i częstotliwość aktualizacji
Ten zestaw danych zawiera około 30 TB danych i jest aktualizowany wraz z każdą wersją bazy danych gnomAD.
Lokalizacja magazynu
Konto magazynu hostujące ten zestaw danych znajduje się w regionie Wschodnie stany USA platformy Azure. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.
Dostęp do danych
Konto magazynu: "https://datasetgnomad.blob.core.windows.net/dataset/"
Dane są dostępne publicznie bez ograniczeń, a narzędzie AzCopy jest zalecane w przypadku operacji zbiorczych. Aby na przykład wyświetlić pliki VCF w wersji 3.0 bazy danych gnomAD:
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
Aby cyklicznie pobrać wszystkie pliki VCF:
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
NOWY: Format Parquet plików VCF gnomAD v2.1.1 (exomes i genomes)
Aby wyświetlić pliki parquet:
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
Aby pobrać wszystkie pliki parquet rekursywnie:
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
Eksplorator usługi Azure Storage jest również użytecznym narzędziem do przeglądania listy plików w wersji bazy danych gnomAD.
Warunki użytkowania
Dane są dostępne bez ograniczeń. Aby uzyskać więcej informacji i szczegółów cytatu, zobacz stronę gnomAD about (Informacje o usłudze gnomAD).
Kontakt
W przypadku pytań lub opinii dotyczących tego zestawu danych skontaktuj się z zespołem gnomAD.
Następne kroki
Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwarte zestawy danych).