Base de données d’agrégation du génome (gnomAD)

2025-05-10

Notes

Mise à jour importante mai 2025 : Chère communauté, nous aimerions vous informer d’une modification à venir concernant les jeux de données ouverts Genomics actuellement disponibles via Azure. Après un examen attentif, nous avons décidé de nous concentrer sur de nouvelles initiatives qui serviront mieux notre communauté et s’aligneront sur nos objectifs à long terme. Par conséquent, l’accès aux jeux de données ouverts Genomics sur Azure sera déconseillé au cours des prochains mois. Nous comprenons que ces jeux de données ont été utiles pour la recherche, le développement et l’apprentissage, et nous apprécions profondément les contributions et l’engagement de notre communauté au fil du temps. Merci de votre compréhension et de votre soutien.

Genome Aggregation Database (gnomAD) est une ressource développée par une coalition internationale de chercheurs, dans le but de regrouper et d’harmoniser les données de séquençage tant des exomes que des génomes provenant d’un large éventail de projets de séquençage à grande échelle, et de mettre des données de synthèse à la disposition de la communauté scientifique au sens large.

Notes

Microsoft fournit Azure Open Datasets « en l’état ». Microsoft n’offre aucune garantie, expresse ou implicite, ni de conditions relatives à votre utilisation des jeux de données. Dans la mesure autorisée par votre droit local, Microsoft décline toute responsabilité pour les dommages ou pertes, y compris directs, consécutifs, spéciaux, indirects ou punitifs, résultant de votre utilisation des jeux de données.

Ce jeu de données est fourni selon les conditions initiales par lesquelles Microsoft a reçu les données sources. Le jeu de données peut inclure des données provenant de Microsoft.

Source de données

Ce jeu de données est hébergé en collaboration avec le Broad Institute, et le catalogue complet des données gnomAD peut être consulté à l’adresse https://gnomad.broadinstitute.org/downloads

Volumes de données et fréquence de mise à jour

Ce jeu de données contient environ 30 To de données et est mis à jour à chaque publication de gnomAD.

Emplacement de stockage

Le compte de stockage qui héberge ce jeu de données se trouve dans la région Azure USA Est. L’allocation de ressources de calcul dans la région USA Est est recommandée à des fins d’affinité.

Accès aux données

Compte de stockage : « https://datasetgnomad.blob.core.windows.net/dataset/ »

Les données sont publiquement accessibles sans restrictions. L’outil AzCopy est recommandé pour les opérations en bloc. Par exemple, pour afficher les fichiers VCF dans la version 3.0 de gnomAD :

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

Pour télécharger tous les fichiers VCF de manière récursive :

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

NOUVEAU : format Parquet des fichiers VCF de gnomAD v2.1.1 (exomes et génomes)

Pour afficher les fichiers Parquet :

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

Pour télécharger l’ensemble des fichiers de manière récursive :

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

L’Explorateur Stockage Azure est également un outil utile pour parcourir la liste des fichiers dans la version gnomAD.

Conditions d’utilisation

Les données sont disponibles sans restrictions. Pour plus d’informations, consultez la page « À propos » de gnomAD.

Contact

Si vous avez des questions ou des commentaires sur ce jeu de données, contactez l’équipe gnomAD.

Étapes suivantes

Consultez les autres jeux de données du catalogue Open Datasets.