Partager via


Groupe de ressources GATK

Notes

Mise à jour importante mai 2025 : Chère communauté, nous aimerions vous informer d’une modification à venir concernant les jeux de données ouverts Genomics actuellement disponibles via Azure. Après un examen attentif, nous avons décidé de nous concentrer sur de nouvelles initiatives qui serviront mieux notre communauté et s’aligneront sur nos objectifs à long terme. Par conséquent, l’accès aux jeux de données ouverts Genomics sur Azure sera déconseillé au cours des prochains mois. Nous comprenons que ces jeux de données ont été utiles pour la recherche, le développement et l’apprentissage, et nous apprécions profondément les contributions et l’engagement de notre communauté au fil du temps. Merci de votre compréhension et de votre soutien.

GATK Resource Bundle est un ensemble de fichiers standard permettant d’utiliser des données de reséquençage humain avec GATK.

Notes

Microsoft fournit Azure Open Datasets « en l’état ». Microsoft n’offre aucune garantie, expresse ou implicite, ni de conditions relatives à votre utilisation des jeux de données. Dans la mesure autorisée par votre droit local, Microsoft décline toute responsabilité pour les dommages ou pertes, y compris directs, consécutifs, spéciaux, indirects ou punitifs, résultant de votre utilisation des jeux de données.

Ce jeu de données est fourni selon les conditions initiales par lesquelles Microsoft a reçu les données sources. Le jeu de données peut inclure des données provenant de Microsoft.

Source de données

Ce jeu de données est une copie du magasin de données sur https://gatk.broadinstitute.org/hc/articles/360035890811-Resource-bundle

Volumes de données et fréquence de mise à jour

  1. datasetgatkbestpractices : 542 Go
  2. datasetgatklegacybundles : 61 Go
  3. datasetgatktestdata : 2 To
  4. datasetpublicbroadref : 477 Go
  5. datasetbroadpublic : 3 To

Les jeux de données sont mis à jour tous les mois durant la première semaine de chaque mois.

Emplacement de stockage

Ce jeu de données est stocké dans les régions Azure USA Ouest 2 et USA Centre-Ouest. L’allocation de ressources de calcul dans la région USA Ouest 2 ou USA Centre-Ouest est recommandée à des fins d’affinité.

Accès aux données

  1. datasetgatkbestpractices

    USA Ouest 2 : « https://datasetgatkbestpractices.blob.core.windows.net/dataset  »

    USA Centre-Ouest : « https://datasetgatkbestpractices-secondary.blob.core.windows.net/dataset  »

  2. datasetgatklegacybundles

    USA Ouest 2 : « https://datasetgatklegacybundles.blob.core.windows.net/dataset  »

    USA Centre-Ouest : « https://datasetgatklegacybundles-secondary.blob.core.windows.net/dataset  »

  3. datasetgatktestdata

    USA Ouest 2 : « https://datasetgatktestdata.blob.core.windows.net/dataset  »

    USA Centre-Ouest : « https://datasetgatktestdata-secondary.blob.core.windows.net/dataset  »

  4. datasetpublicbroadref

    USA Ouest 2 : « https://datasetpublicbroadref.blob.core.windows.net/dataset  »

    USA Centre-Ouest : « https://datasetpublicbroadref-secondary.blob.core.windows.net/dataset  »

    USA Centre Sud : « https://datasetpublicbroadrefsc.blob.core.windows.net/dataset »

  5. datasetbroadpublic

    USA Ouest 2 : « https://datasetbroadpublic.blob.core.windows.net/dataset  »

    USA Centre-Ouest : « https://datasetbroadpublic-secondary.blob.core.windows.net/dataset  »

    USA Centre Sud : « https://datasetbroadpublicsc.blob.core.windows.net/dataset »

Conditions d’utilisation

Consultez le site officiel GATK Resource Bundle.

Contact

Consultez le site officiel GATK Resource Bundle.

Étapes suivantes

Consultez les autres jeux de données du catalogue Open Datasets.