1000 Genomes

Artigo
01/10/2024

O Projeto 1000 Genomas decorreu entre 2008 e 2015, criando o maior catálogo público de dados de variação humana e genótipos. O conjunto de dados final contém dados de 2504 indivíduos provenientes de 26 populações e 84 milhões de variantes identificadas. Para mais informações, consulte o website do 1000 Genome Project e as seguintes publicações:

Análise-piloto: Um mapa da variação do genoma humano a partir da sequenciação à escala populacional Nature 467, 1061-1073 (28 de outubro de 2010)

Análise da Fase 1: Um mapa integrado da variação genética de 1.092 genomas humanos Nature 491, 56-65 (01 de novembro de 2012)

Fase 3 Análise: Uma referência global para a variação genética humana Nature 526, 68-74 (01 de outubro de 2015) e Um mapa integrado da variação estrutural em 2.504 genomas humanos Nature 526, 75-81 (01 de outubro de 2015)

Para obter detalhes sobre os formatos de dados, consulte http://www.internationalgenome.org/formats

[NOVO] O conjunto de dados também está disponível em formato Parquet

Nota

A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Data source

Este conjunto de dados é um espelho de ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

Volumes de dados e frequência de atualização

Este conjunto de dados contém aproximadamente 815 TB de dados e é atualizado diariamente.

Localização do armazenamento

Este conjunto de dados está armazenado nas regiões E.U.A. Oeste 2 e E.U.A. Centro-Oeste do Azure. A alocação de recursos de computação nas regiões E.U.A. Oeste 2 ou E.U.A. Centro-Oeste é recomendada por questões de afinidade.

Acesso a Dados

Oeste dos EUA 2: ''https://dataset1000genomes.blob.core.windows.net/dataset

Centro-Oeste dos EUA: ''https://dataset1000genomes-secondary.blob.core.windows.net/dataset

Token de SAS: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

Acesso aos dados: conjunto de dados de 1000 genomas curados em formato parquet

Leste dos EUA: https://curated1000genomes.blob.core.windows.net/dataset

Token SAS: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

Termos de Utilização

Após as publicações finais, os dados do Projeto 1000 Genomas são disponibilizados publicamente sem embargo a ninguém para uso nos termos fornecidos pela fonte do conjunto de dados (http://www.internationalgenome.org/data). Deve citar a utilização dos dados de acordo com os detalhes disponíveis nas FAQs do 1000 Genomes Project.

Contacto

https://www.internationalgenome.org/contact

Próximos passos

Exiba o restante dos conjuntos de dados no catálogo Open Datasets.