gnomAD(Genome Aggregation Database)

2025-05-09

참고 항목

중요 업데이트 2025년 5월: 친애하는 커뮤니티, 현재 Azure를 통해 사용할 수 있는 Genomics 오픈 데이터 세트에 대한 향후 변경 내용을 알려 드립니다. 신중하게 고려한 후, 우리는 지역 사회에 더 잘 봉사하고 장기적인 목표에 부합하는 새로운 이니셔티브로 초점을 전환하기로 결정했습니다. 따라서 Azure에서 Genomics 개방형 데이터 세트에 대한 액세스는 향후 몇 개월 내에 더 이상 사용되지 않습니다. 이러한 데이터 세트는 연구, 개발 및 학습에 유용하다는 것을 알고 있으며, 시간이 지남에 따라 커뮤니티의 기여와 참여에 깊이 감사드립니다. 이해와 지원에 감사드립니다.

gnomAD(Genome Aggregation Database)는 다양한 대규모 시퀀싱 프로젝트에서 진유전체 및 게놈 시퀀싱 데이터를 집계하고 맞추며 더 광범위한 과학 커뮤니티에 요약 데이터를 제공하려는 목표로 국제 연구자 연합에서 개발한 리소스입니다.

참고 항목

Microsoft는 Azure Open Datasets를 “있는 그대로” 제공합니다. Microsoft는 귀하의 데이터 세트 사용과 관련하여 어떠한 명시적이거나 묵시적인 보증, 보장 또는 조건을 제공하지 않습니다. 귀하가 거주하는 지역의 법규가 허용하는 범위 내에서 Microsoft는 귀하의 데이터 세트 사용으로 인해 발생하는 일체의 직접적, 결과적, 특별, 간접적, 부수적 또는 징벌적 손해 또는 손실을 비롯한 모든 손해 또는 손실에 대한 모든 책임을 부인합니다.

이 데이터 세트는 Microsoft가 원본 데이터를 받은 원래 사용 약관에 따라 제공됩니다. 데이터 세트에는 Microsoft가 제공한 데이터가 포함될 수 있습니다.

데이터 원본

이 데이터 세트는 Broad Institute와의 협업으로 호스트되며 전체 gnomAD 데이터 카탈로그는 https://gnomad.broadinstitute.org/downloads에서 확인할 수 있습니다.

데이터 볼륨 및 업데이트 빈도

이 데이터 세트는 약 30TB의 데이터를 포함하며 각 gnomAD 릴리스로 업데이트됩니다.

스토리지 위치

이 데이터 세트를 호스트하는 스토리지 계정은 미국 동부 Azure 지역에 있습니다. 선호도를 위해 미국 동부에 컴퓨팅 리소스를 할당하는 것이 좋습니다.

데이터 액세스

스토리지 계정: ‘https://datasetgnomad.blob.core.windows.net/dataset/’

이 데이터는 제한 없이 공개적으로 사용할 수 있으며, 대량 작업에는 AzCopy 도구를 사용하는 것이 좋습니다. 예를 들어 gnomAD 릴리스 3.0에서 VCF를 보려면:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

모든 VCF를 재귀적으로 다운로드하려면:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

신규: gnomAD v2.1.1 VCF 파일의 Parquet 형식(exomes 및 genomes)

Parquet 파일을 보려면:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

모든 Parquet 파일을 재귀적으로 다운로드하려면:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

또한 Azure Storage Explorer는 gnomAD 릴리스의 파일 목록을 검색하는 데 유용한 도구입니다.

사용 약관

데이터는 제한 없이 사용할 수 있습니다. 자세한 내용과 인용 세부 정보는 gnomAD 정보 페이지를 참조하세요.

연락처

이 데이터 세트에 대한 질문이나 피드백은 gnomAD 팀에 문의하세요.

다음 단계

Open Datasets 카탈로그에서 나머지 데이터 세트를 봅니다.