ゲノム集計データベース (gnomAD)
ゲノム集計データベース (gnomAD) は国際的な研究者連合によって開発されたリソースであり、さまざまな大規模シーケンス プロジェクトから得られたエクソームとゲノム シーケンス データの両方を集約および調和させ、その要約データをより幅広い科学コミュニティで利用できるようにすることを目的としています。
注意
Microsoft は、Azure Open Datasets を "現状有姿" で提供します。 Microsoft は、データセットの使用に関して、明示または黙示を問わず、いかなる保証も行わないものとし、条件を定めることもありません。 現地の法律の下で認められている範囲内で、Microsoft は、データセットの使用に起因する、直接的、派生的、特別、間接的、偶発的、または懲罰的なものを含めたいかなる損害または損失に対しても一切の責任を負わないものとします。
このデータセットは、Microsoft がソース データを受け取った元の条件に基づいて提供されます。 データセットには、Microsoft が提供するデータが含まれている場合があります。
データ ソース
このデータセットは Broad Institute との共同研究として提供されており、完全な gnomAD データ カタログは https://gnomad.broadinstitute.org/downloads で見ることができます
データ量と更新の頻度
このデータセットには約 30 TB のデータが含まれており、gnomAD のリリースごとに更新されます。
保存先
このデータセットをホストしているストレージ アカウントは、米国東部 Azure リージョンにあります。 アフィニティのために、米国東部でコンピューティング リソースを割り当てることをお勧めします。
データ アクセス
ストレージ アカウント: 'https://datasetgnomad.blob.core.windows.net/dataset/ '
データは制限なく公開されており、一括操作には AzCopy ツールをお勧めします。 たとえば、gnomAD のリリース 3.0 で VCF を表示するには、次のように行います。
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
すべての VCF を再帰的にダウンロードするには、次のように行います。
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
新規: gnomAD v2.1.1 VCF ファイル (エクソームとゲノム) の Parquet 形式
Parquet ファイルを表示するには:
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
すべての Parquet ファイルを再帰的にダウンロードするには:
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
また、Azure Storage Explorer は、gnomAD リリースのファイル一覧を閲覧するのに便利なツールです。
使用条件
データは制限なく使用できます。 詳細情報と引用の詳細については、gnomAD の概要ページを参照してください。
Contact
このデータセットに関する質問またはフィードバックについては、gnomAD チームまでご連絡ください。
次の手順
Open Datasets カタログの残りのデータセットを表示します。