Baza danych agregacji genome (gnomAD)

Baza danych agregacji Genome (gnomAD) jest zasobem opracowanym przez międzynarodową koalicję badaczy, która ma na celu agregowanie i zharmonizowanie zarówno danych sekwencjonowania exome, jak i genomu z szerokiej gamy projektów sekwencjonowania na dużą skalę oraz udostępnianie danych podsumowania szerszej społeczności naukowej.

Uwaga

Firma Microsoft udostępnia zestawy danych Azure Open Datasets w zasadzie "tak jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym na mocy prawa lokalnego firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wynikowe, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Źródło danych

Ten zestaw danych jest hostowany we współpracy z instytutem Broad Institute, a pełny katalog danych gnomAD można znaleźć pod adresem https://gnomad.broadinstitute.org/downloads

Woluminy danych i częstotliwość aktualizacji

Ten zestaw danych zawiera około 30 TB danych i jest aktualizowany wraz z każdą wersją bazy danych gnomAD.

Lokalizacja magazynu

Konto magazynu hostujące ten zestaw danych znajduje się w regionie Wschodnie stany USA platformy Azure. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.

Dostęp do danych

Konto magazynu: "https://datasetgnomad.blob.core.windows.net/dataset/"

Dane są dostępne publicznie bez ograniczeń, a narzędzie AzCopy jest zalecane w przypadku operacji zbiorczych. Aby na przykład wyświetlić pliki VCF w wersji 3.0 bazy danych gnomAD:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

Aby cyklicznie pobrać wszystkie pliki VCF:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

NOWY: Format Parquet plików VCF gnomAD v2.1.1 (exomes i genomes)

Aby wyświetlić pliki parquet:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

Aby pobrać wszystkie pliki parquet rekursywnie:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

Eksplorator usługi Azure Storage jest również użytecznym narzędziem do przeglądania listy plików w wersji bazy danych gnomAD.

Warunki użytkowania

Dane są dostępne bez ograniczeń. Aby uzyskać więcej informacji i szczegółów cytatu, zobacz stronę gnomAD about (Informacje o usłudze gnomAD).

Kontakt

W przypadku pytań lub opinii dotyczących tego zestawu danych skontaktuj się z zespołem gnomAD.

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwarte zestawy danych).