1000 Genomes

1000 Genomes Project는 2008~2015년에 운영된 것으로, 인간 변이와 유전자형 데이터의 최대 퍼블릭 카탈로그를 만들었습니다. 최종 데이터 세트에는 26개 모집단의 개인 2,504명과 8,400만 개의 식별된 변종에 대한 데이터가 포함되어 있습니다. 자세한 내용은 1000 Genome Project 웹 사이트 및 다음 발행물을 참조하세요.

파일럿 분석: 모집단 규모 시퀀싱을 통한 인간 게놈 변이 맵 Nature 467, 1061-1073(2010년 10월 28일)

1단계 분석: 1,092개 인간 게놈의 유전적 변이 통합 맵 Nature 491, 56-65(2012년 11월 1일)

3단계 분석: 인간 유전적 변이에 대한 글로벌 참조 Nature 526, 68-74(2015년 10월 1일) 및 2,504개 인간 게놈의 구조적 변이에 대한 통합 맵 Nature 526, 75-81(2015년 10월 1일)

데이터 형식에 대한 자세한 내용은 http://www.internationalgenome.org/formats를 참조하세요.

[새로운 기능] 데이터 세트는 parquet 형식으로 사용할 수도 있습니다.

참고 항목

Microsoft는 Azure Open Datasets를 “있는 그대로” 제공합니다. Microsoft는 귀하의 데이터 세트 사용과 관련하여 어떠한 명시적이거나 묵시적인 보증, 보장 또는 조건을 제공하지 않습니다. 귀하가 거주하는 지역의 법규가 허용하는 범위 내에서 Microsoft는 귀하의 데이터 세트 사용으로 인해 발생하는 일체의 직접적, 결과적, 특별, 간접적, 부수적 또는 징벌적 손해 또는 손실을 비롯한 모든 손해 또는 손실에 대한 모든 책임을 부인합니다.

이 데이터 세트는 Microsoft가 원본 데이터를 받은 원래 사용 약관에 따라 제공됩니다. 데이터 세트에는 Microsoft가 제공한 데이터가 포함될 수 있습니다.

데이터 원본

이 데이터 세트는 ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/의 미러입니다.

데이터 볼륨 및 업데이트 빈도

이 데이터 세트는 약 815TB의 데이터를 포함하며 매일 업데이트됩니다.

스토리지 위치

이 데이터 세트는 미국 서부 2 및 미국 중서부 Azure 지역에 저장됩니다. 선호도를 위해 미국 서부 2 또는 미국 중서부에 컴퓨팅 리소스를 할당하는 것이 좋습니다.

데이터 액세스

미국 서부 2: 'https://dataset1000genomes.blob.core.windows.net/dataset'

미국 중서부: 'https://dataset1000genomes-secondary.blob.core.windows.net/dataset'

SAS 토큰: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

데이터 액세스: parquet 형식으로 큐레이팅된 1,000개 게놈 데이터 세트

미국 동부: https://curated1000genomes.blob.core.windows.net/dataset

SAS 토큰: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

사용 약관

최종 게시 후 1000 Genomes Project의 데이터는 데이터 세트 원본(http://www.internationalgenome.org/data)에서 제공하는 사용 약관에 따라 모든 사람이 엠바고 없이 공개적으로 사용할 수 있습니다. 데이터 사용은 1000 Genome Project의 FAQ에서 제공되는 세부 정보에 따라 인용되어야 합니다.

연락처

https://www.internationalgenome.org/contact

다음 단계

Open Datasets 카탈로그에서 나머지 데이터 세트를 봅니다.