Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Notes
Mise à jour importante mai 2025 : Chère communauté, nous aimerions vous informer d’une modification à venir concernant les jeux de données ouverts Genomics actuellement disponibles via Azure. Après un examen attentif, nous avons décidé de nous concentrer sur de nouvelles initiatives qui serviront mieux notre communauté et s’aligneront sur nos objectifs à long terme. Par conséquent, l’accès aux jeux de données ouverts Genomics sur Azure sera déconseillé au cours des prochains mois. Nous comprenons que ces jeux de données ont été utiles pour la recherche, le développement et l’apprentissage, et nous apprécions profondément les contributions et l’engagement de notre communauté au fil du temps. Merci de votre compréhension et de votre soutien.
L’Atlas du génome du cancer (TCGA), un programme phare de la génomique du cancer, a caractérisé moléculairement plus de 20 000 cancers primaires et a mis en correspondance des échantillons normaux couvrant 33 types de cancer[1]. Les données sur le cancer du TCGA rendues publiques sont à deux niveaux : l’accès ouvert ou l’accès contrôlé.
- L’accès ouvert [disponible sur Azure] : ce jeu de données contient des données identifiées cliniques et des échantillons biologiques ou des données résumées qui ne contiennent aucune information d’identification individuelle. Les types de données inclus sont des expressions de gène, des valeurs bêta de méthylation et une quantification des protéines. Le type de données au niveau de l’ADN comprend le numéro de copie au niveau du gène et le segment de numéro de copie masqué.
- Accès contrôlé : ce jeu de données représente les données de séquence au niveau individuel et doit être approuvé via dbGap pour l’accès.
Notes
Microsoft fournit Azure Open Datasets « en l’état ». Microsoft n’offre aucune garantie, expresse ou implicite, ni de conditions relatives à votre utilisation des jeux de données. Dans la mesure autorisée par votre droit local, Microsoft décline toute responsabilité pour les dommages ou pertes, y compris directs, consécutifs, spéciaux, indirects ou punitifs, résultant de votre utilisation des jeux de données.
Ce jeu de données est fourni selon les conditions initiales par lesquelles Microsoft a reçu les données sources. Le jeu de données peut inclure des données provenant de Microsoft.
Source de données
Ce jeu de données est un miroir des Données ouvertes TCGA
Volumes de données et fréquence de mise à jour
Ce jeu de données contient environ 387 Go
Emplacement de stockage
Ce jeu de données est stocké dans les régions Azure USA Est 2. L’allocation de ressources de calcul dans la région USA Est 2 est recommandée à des fins d’affinité.
Accès aux données
USA Est 2 : « https://datasettcga.blob.core.windows.net/dataset »
Conditions d’utilisation
Les données sont disponibles sans restrictions. Pour obtenir plus d’informations, voir la page du Programme TCGA
Contact
Pour toute question concernant le programme et les données TCGA : https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga/contact
Étapes suivantes
Consultez les autres jeux de données du catalogue Open Datasets.