Genomics Data Lake

Genomics Data Lake는 무료로 액세스하고 유전체학 분석 워크플로 및 애플리케이션에 통합할 수 있는 다양한 퍼블릭 데이터 세트를 제공합니다. 이 데이터 세트는 BAM, FASTA, VCF, CSV 파일 형식의 게놈 시퀀스, 변이 정보 및 주제/샘플 메타데이터를 포함합니다.

게놈 데이터 레이크는 미국 서부 2 및 미국 중서부 Azure 지역에서 호스트됩니다. 선호도를 위해 미국 서부 2 및 미국 중서부에 컴퓨팅 리소스를 할당하는 것이 좋습니다.

참고 항목

데이터 세트 사용에는 데이터 세트 소유자가 설정한 계약조건이 적용됩니다. 해당 계약조건은 각 데이터 세트의 세부 정보 페이지를 참조하세요.

데이터 집합

데이터 집합 설명
Illumina Platinum Genomes Illumina Platinum Genomes
Human Reference Genomes Human Reference Genomes
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: 게놈 변형 주석 및 기능 영향 예측 도구 상자
gnomAD gnomAD: Genome Aggregation Database
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: 변이의 순위가 지정된 개방형 사용자 지정 분석 도구 키트
ENCODE ENCODE: DNA 요소 Encyclopedia
GATK 리소스 번들 GATK 리소스 번들
TCGA 공개 데이터 TCGA 공개 데이터
Pan UK-Biobank Pan UK-Biobank

다음 단계

Open Datasets 카탈로그에서 나머지 데이터 세트를 봅니다.