Baza danych agregacji genome (gnomAD)

2025-05-09

Uwaga

Ważna aktualizacja z maja 2025 r.: Szanowna społeczność, chcielibyśmy poinformować Cię o nadchodzącej zmianie dotyczącej otwartych zestawów danych Genomics, które są obecnie dostępne za pośrednictwem platformy Azure. Po starannym rozważeniu postanowiliśmy skupić się na nowych inicjatywach, które będą lepiej służyć naszej społeczności i dostosować się do naszych długoterminowych celów. W związku z tym dostęp do otwartych zestawów danych Usługi Genomics na platformie Azure zostanie wycofany w najbliższych miesiącach. Rozumiemy, że te zestawy danych były cenne dla badań, rozwoju i uczenia się, a my głęboko doceniamy wkład i zaangażowanie naszej społeczności w czasie. Dziękujemy za zrozumienie i wsparcie.

Baza danych agregacji genome (gnomAD) jest zasobem opracowanym przez międzynarodową koalicję badaczy, mającą na celu agregowanie i zharmonizowanie zarówno danych sekwencjonowania exome, jak i genomu z wielu różnych projektów sekwencjonowania na dużą skalę i udostępnianie danych podsumowania dla szerszej społeczności naukowej.

Uwaga

Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Źródło danych

Ten zestaw danych jest hostowany we współpracy z instytutem Broad Institute, a pełny katalog danych gnomAD można znaleźć pod adresem https://gnomad.broadinstitute.org/downloads

Woluminy danych i częstotliwość aktualizacji

Ten zestaw danych zawiera około 30 TB danych i jest aktualizowany wraz z każdą wersją bazy danych gnomAD.

Lokalizacja usługi Storage

Konto magazynu hostujące ten zestaw danych znajduje się w regionie Wschodnie stany USA platformy Azure. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.

Dostęp do danych

Konto magazynu: "https://datasetgnomad.blob.core.windows.net/dataset/"

Dane są dostępne publicznie bez ograniczeń, a narzędzie AzCopy jest zalecane w przypadku operacji zbiorczych. Aby na przykład wyświetlić pliki VCF w wersji 3.0 bazy danych gnomAD:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

Aby cyklicznie pobrać wszystkie pliki VCF:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

NOWY: Format Parquet plików VCF gnomAD w wersji 2.1.1 (exomes i genomes)

Aby wyświetlić pliki parquet:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

Aby pobrać wszystkie pliki parquet rekursywnie:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

Eksplorator usługi Azure Storage jest również użytecznym narzędziem do przeglądania listy plików w wersji bazy danych gnomAD.

Warunki użytkowania

Dane są dostępne bez ograniczeń. Aby uzyskać więcej informacji i szczegółów cytatu, zobacz stronę gnomAD na temat.

Kontakt biznesowy

W przypadku pytań lub opinii dotyczących tego zestawu danych skontaktuj się z zespołem gnomAD.

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).