Base de Dados de Agregação do Genoma (gnomAD)

A Base de Dados de Agregação do Genoma (gnomAD) é um recurso desenvolvido por uma coligação internacional de investigadores, com o objetivo de agregar e harmonizar dados de sequenciação de exomes e genomas de uma grande variedade de projetos de sequenciação em larga escala e disponibilizar dados de resumo para a comunidade científica mais ampla.

Nota

A Microsoft fornece conjuntos de dados do Azure Open numa base "tal como está". A Microsoft não concede garantias, expressas ou implícitas, nem condições relativas à sua utilização dos conjuntos de dados. Na medida do permitido pela sua legislação local, a Microsoft declina toda a responsabilidade por quaisquer danos ou perdas, incluindo danos diretos, consequentes, especiais, indiretos, incidentais ou punitivos, resultantes da utilização dos conjuntos de dados.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Origem de dados

Este conjunto de dados é alojado como uma colaboração com o Broad Institute e o catálogo de dados completo do gnomAD pode ser visto em https://gnomad.broadinstitute.org/downloads

Volumes de dados e frequência de atualização

Este conjunto de dados contém aproximadamente 30 TB de dados e é atualizado em cada versão do gnomAD.

Localização do armazenamento

A Conta de Armazenamento que aloja este conjunto de dados está na região E.U.A. Leste do Azure. A alocação de recursos de computação nos E.U.A. Leste é recomendada por questões de afinidade.

Acesso a Dados

Conta de Armazenamento: "https://datasetgnomad.blob.core.windows.net/dataset/"

Os dados estão disponíveis publicamente sem restrições e a ferramenta AzCopy é recomendada para operações em massa. Por exemplo, para visualizar os VCFs na versão 3.0 do gnomAD:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

Para fazer download de todos os VCFs recorrentes:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

NOVO: Formato parquet de ficheiros VCF gnomAD v2.1.1 (exomes e genomas)

Para ver os ficheiros parquet:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

Para transferir todos os ficheiros parquet de forma recursiva:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

O Explorador de Armazenamento do Azure é também uma ferramenta útil para pesquisar a lista de ficheiros na versão do gnomAD.

Termos de Utilização

Os dados estão disponíveis sem restrições. Para obter mais informações e detalhes de citação, consulte o gnomAD sobre a página.

Contacto

Para quaisquer perguntas ou comentários sobre este conjunto de dados, contacte a equipa do gnomAD.

Passos seguintes

Veja o resto dos conjuntos de dados no catálogo Abrir Conjuntos de Dados.