TCGA Open Data
Note
重要な更新 2024 年 9 月 19 日: すべての URL が変更されています。 すべての Genomics Data Lake コンテナーへのパブリック アクセスを有効にしています。 既存の "署名された URL" (Shared Access Signature) は、2024-11-04T00:00:00Z で廃止されます。 これより後も、クエリ文字列のない URL は引き続き機能しますが、"署名された URL" は機能しなくなり、403 HTTP 状態コードが返されます。 この日付以降は、適宜、クエリ文字列を含まないパブリック URL にアクセスするように計画してください ('?' と末尾の文字を削除する)。
画期的ながんゲノミクス プログラムである、がんゲノム アトラス (TCGA) は、20,000 を超える主要がんを分子的に特徴付け、33 のがん種にまたがる正常サンプルをマッチしました [1]。 公開されている TCGA がんデータは、オープン アクセスまたは制限アクセスの 2 つのレベルとなっています。
- オープン アクセス [Azure で利用可能]: このデータセットには、匿名化された臨床および生体試料のデータと個人を特定可能な情報を含まない要約データが含まれています。 含まれるデータの種類は、遺伝子発現、メチル化ベータ値、タンパク質定量です。 DNA レベルのデータ型には、遺伝子レベルのコピー番号およびマスクされたコピー番号セグメントが含まれます。
- 制限アクセス: このデータセットは個人レベルのシーケンス データであり、アクセスには dbGap による承認が必要です。
Note
Microsoft は、Azure Open Datasets を "現状有姿" で提供します。 Microsoft は、データセットの使用に関して、明示または黙示を問わず、いかなる保証も行わないものとし、条件を定めることもありません。 現地の法律の下で認められている範囲内で、Microsoft は、データセットの使用に起因する、直接的、派生的、特別、間接的、偶発的、または懲罰的なものを含めたいかなる損害または損失に対しても一切の責任を負わないものとします。
このデータセットは、Microsoft がソース データを受け取った元の条件に基づいて提供されます。 データセットには、Microsoft が提供するデータが含まれている場合があります。
データ ソース
このデータセットは、TCGA Open Data のミラーです
データ量と更新の頻度
このデータセットには約 387 GB が含まれています
保存先
このデータセットは、米国東部 2 の Azure リージョンに保存されています。 アフィニティのために、米国東部 2 でコンピューティング リソースを割り当てることをお勧めします。
データ アクセス
米国東部 2: 'https://datasettcga.blob.core.windows.net/dataset'
SAS トークン: ?sp=rl&st=2022-10-07T19:43:37Z&se=2030-10-02T03:43:37Z&spr=https&sv=2021-06-08&sr=c&sig=9YgXjisOpHJNgdeMb5lOOzBhA38PWGM8g2DHjo9A5Cs%3D
使用条件
データは制限なく使用できます。 詳細情報と引用の詳細については、「TCGA プログラム ページ」を参照してください
Contact
TCGA データとプログラムに関する質問については: https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga/contact
次の手順
Open Datasets カタログの残りのデータセットを表示します。