Udostępnij za pośrednictwem


Otwarte dane TCGA

Uwaga

Ważna aktualizacja z maja 2025 r.: Szanowna społeczność, chcielibyśmy poinformować Cię o nadchodzącej zmianie dotyczącej otwartych zestawów danych Genomics, które są obecnie dostępne za pośrednictwem platformy Azure. Po starannym rozważeniu postanowiliśmy skupić się na nowych inicjatywach, które będą lepiej służyć naszej społeczności i dostosować się do naszych długoterminowych celów. W związku z tym dostęp do otwartych zestawów danych Usługi Genomics na platformie Azure zostanie wycofany w najbliższych miesiącach. Rozumiemy, że te zestawy danych były cenne dla badań, rozwoju i uczenia się, a my głęboko doceniamy wkład i zaangażowanie naszej społeczności w czasie. Dziękujemy za zrozumienie i wsparcie.

Cancer Genome Atlas (TCGA), przełomowy program genomiki raka, molekularnie scharakteryzował ponad 20.000 podstawowych nowotworów i dopasowane normalne próbki obejmujące 33 typy nowotworów[1]. Dane dotyczące raka TCGA są udostępniane publicznie w dwóch warstwach: otwarty lub kontrolowany dostęp.

  • Otwarty dostęp [dostępny na platformie Azure]: ten zestaw danych zawiera zdeindentyfikowane dane kliniczne i biospecimen lub podsumowane dane, które nie zawierają żadnych indywidualnie możliwych do zidentyfikowania informacji. Uwzględnione typy danych to wyrażenia genów, wartości beta metylacji i kwantyfikacji białka. Typ danych na poziomie DNA obejmuje numer kopii na poziomie genu i zamaskowany segment numerów kopii.
  • Kontrolowany dostęp: ten zestaw danych to dane sekwencji poszczególnych poziomów i wymaga zatwierdzenia za pośrednictwem dbGap w celu uzyskania dostępu.

Uwaga

Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Źródło danych

Ten zestaw danych jest dublowaniem danych open data TCGA

Woluminy danych i częstotliwość aktualizacji

Ten zestaw danych zawiera około 387 GB

Lokalizacja usługi Storage

Ten zestaw danych jest przechowywany w regionach świadczenia usługi Azure Wschodnie stany USA 2. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA 2 z uwagi na koligację.

Dostęp do danych

Wschodnie stany USA 2: "https://datasettcga.blob.core.windows.net/dataset"

Warunki użytkowania 

Dane są dostępne bez ograniczeń. Aby uzyskać więcej informacji i szczegółów cytatu, zobacz stronę programu TCGA

Kontakt biznesowy

W przypadku pytań dotyczących danych i programu TCGA: https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga/contact

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).