1000 ゲノム
Note
重要な更新 2024 年 9 月 19 日: すべての URL が変更されています。 すべての Genomics Data Lake コンテナーへのパブリック アクセスを有効にしています。 既存の "署名された URL" (Shared Access Signature) は、2024-11-04T00:00:00Z で廃止されます。 これより後も、クエリ文字列のない URL は引き続き機能しますが、"署名された URL" は機能しなくなり、403 HTTP 状態コードが返されます。 この日付以降は、適宜、クエリ文字列を含まないパブリック URL にアクセスするように計画してください ('?' と末尾の文字を削除する)。
1000 Genomes Project は 2008 年から 2015 年にかけて実施され、ヒトの多様性と遺伝子型データの最大の公開カタログが作成されました。 最終的なデータ セットには、26 の母集団からの 2,504 人のデータと、特定された 8,400 万の変異が含まれています。 詳細については、1000 Genomes Project の Web サイトと以下の出版物をご覧ください。
関連するデータ形式の詳細については、このリソースを参照してください。
[NEW]: データセットは Parquet 形式でも使用できます。
Note
Microsoft は、Azure Open Datasets を "現状有姿" で提供します。 Microsoft は、データセットの使用に関して、明示または黙示を問わず、いかなる保証も行わないものとし、条件を定めることもありません。 現地の法律の下で認められている範囲内で、Microsoft は、データセットの使用に起因する、直接的、派生的、特別、間接的、偶発的、または懲罰的なものを含めたいかなる損害または損失に対しても一切の責任を負わないものとします。
このデータセットは、Microsoft がソース データを受け取った元の条件に基づいて提供されます。 データセットには、Microsoft が提供するデータが含まれている場合があります。
データ ソース
このデータセットは、こちらの FTP リソースのミラーです。
データ量と更新の頻度
このデータセットには約 815 TB のデータが含まれています。 これは毎日更新されます。
使用条件
最終的に出版された後、1000 Genomes Project のデータは、データセットの提供元が提供する条件の下で、誰もが制限なく利用できるようになりました。 データの使用は、1000 Genome Project の FAQ リソースに記載されている詳細に従って引用する必要があります。
お問い合わせ先
連絡先情報については、こちらのリソースで下方にスクロールします。
次のステップ
Open Datasets カタログの残りのデータセットを表示します。