Genomics Data Lake

Usługa Genomics Data Lake udostępnia różne publiczne zestawy danych, do których można uzyskać bezpłatny dostęp i zintegrować je z przepływami pracy i aplikacjami analizy genomiki. Zestawy danych obejmują sekwencje genów, informacje o odmianach oraz metadane podmiotów/próbek w formatach plików BAM, FASTA, VCF i CSV.

Zestaw Genomics Data Lake jest hostowany w regionie świadczenia usługi Azure Zachodnie stany USA 2 i Zachodnio-środkowe stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Zachodnie stany USA 2 i Zachodnio-środkowe stany USA z uwagi na koligację.

Uwaga

Korzystanie z zestawów danych podlega warunkom i warunkom określonym przez właścicieli zestawów danych. Zobacz stronę szczegółów dla każdego zestawu danych dla odpowiednich warunków i postanowień.

Zestawy danych

Zestawy danych Opis
Illumina Platinum Genomes Illumina Platinum Genomes
Referencyjne genomy ludzkie Referencyjne genomy ludzkie
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: Adnotacje odmian genomiki i przybornik prognoz efektów funkcjonalnych
gnomAD gnomAD: baza danych agregacji genomu
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Otwarty zestaw narzędzi do niestandardowej analizy rang wariantów
KODOWANIA ENCODE: Encyclopedia of DNA Elements
Pakiet zasobów GATK Pakiet zasobów GATK
Otwarte dane TCGA Otwarte dane TCGA
Pan UK-Biobank UK-Biobank

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwarte zestawy danych).