TCGA 공개 데이터

획기적인 암 유전체학 프로그램인 Cancer Genome Atlas(TCGA)는 20,000개가 넘는 원발성 암을 분자적으로 특성화하고 33개 암 형식에 걸쳐 있는 정상 샘플과 일치시켰습니다[1]. 공용적으로 제공되는 TCGA 암 데이터는 공용 또는 제어된 액세스라는 두 가지 계층으로 구성됩니다.

  • 오픈 액세스 [Azure에서 사용 가능]: 이 데이터 세트에는 식별되지 않은 임상 및 생체 표본 데이터 또는 개별적으로 식별 가능한 정보가 포함되지 않은 요약 데이터가 포함되어 있습니다. 포함된 데이터 형식은 유전자 발현, 메틸화 베타 값 및 단백질 정량입니다. DNA 수준 데이터 형식에는 유전자 수준 복사본 번호와 마스크된 복사본 번호 세그먼트가 포함됩니다.
  • 제어된 액세스: 이 데이터 세트는 개별 수준의 시퀀스 데이터이며 액세스하려면 dbGap을 통한 승인이 필요합니다.

참고 항목

Microsoft는 Azure Open Datasets를 “있는 그대로” 제공합니다. Microsoft는 귀하의 데이터 세트 사용과 관련하여 어떠한 명시적이거나 묵시적인 보증, 보장 또는 조건을 제공하지 않습니다. 귀하가 거주하는 지역의 법규가 허용하는 범위 내에서 Microsoft는 귀하의 데이터 세트 사용으로 인해 발생하는 일체의 직접적, 결과적, 특별, 간접적, 부수적 또는 징벌적 손해 또는 손실을 비롯한 모든 손해 또는 손실에 대한 모든 책임을 부인합니다.

이 데이터 세트는 Microsoft가 원본 데이터를 받은 원래 사용 약관에 따라 제공됩니다. 데이터 세트에는 Microsoft가 제공한 데이터가 포함될 수 있습니다.

데이터 원본

이 데이터 세트는 TCGA 공개 데이터의 미러입니다.

데이터 볼륨 및 업데이트 빈도

이 데이터 세트에는 약 387GB가 포함되어 있습니다.

스토리지 위치

이 데이터 세트는 미국 동부 2 Azure 지역에 저장됩니다. 선호도를 위해 미국 동부 2에 컴퓨팅 리소스를 할당하는 것이 좋습니다.

데이터 액세스

미국 동부 2: 'https://datasettcga.blob.core.windows.net/dataset'

SAS 토큰: ?sp=rl&st=2022-10-07T19:43:37Z&se=2030-10-02T03:43:37Z&spr=https&sv=2021-06-08&sr=c&sig=9YgXjisOpHJNgdeMb5lOOzBhA38PWGM8g2DHjo9A5Cs%3D

사용 약관

데이터는 제한 없이 사용할 수 있습니다. 자세한 내용 및 인용 세부 정보는 TCGA 프로그램 페이지를 참조하세요.

연락처

TCGA 데이터 및 프로그램에 관한 질문: https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga/contact

다음 단계

Open Datasets 카탈로그에서 나머지 데이터 세트를 봅니다.