1000 геномов

Проект "1000 геномов" был запущен в 2008 г. К его завершению в 2015 г. был создан крупнейший общедоступный каталог генетических вариаций человека с данными о генотипах. Окончательный набор данных содержит данные, полученные у 2504 лиц из 26 популяций, с 84 млн идентифицированных вариантов. Дополнительные сведения см. на веб-сайте проекта "1000 геномов" и в следующих публикациях.

Пилотный анализ: карта вариации генома человека из масштабируемого популяции характера 467, 1061-1073 (28 октября 2010 г.)

Анализ этапа 1. Интегрированная карта генетических вариаций из 1092 человеческих геномов Природа 491, 56-65 (01 ноября 2012 г.)

Анализ этапа 3. Глобальная ссылка на генетический вариант природы 526, 68-74 (01 октября 2015) и интегрированная карта структурных вариаций в 2504 человеческих геномах Природы 526, 75-81 (01 октября 2015 г.)

Дополнительные сведения о форматах данных см. здесь: http://www.internationalgenome.org/formats

[NEW] Набор данных также доступен в формате Parquet.

Примечание.

Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.

Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.

Источник данных

Этот набор данных является зеркальной копией набора, представленного здесь: ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

Объемы данных и частота обновления

Этот набор данных содержит примерно 815 ТБ данных и обновляется ежедневно.

Расположение хранилища

Этот набор данных хранится в регионах Azure "Западная часть США 2" и "Центрально-западная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионе "Западная часть США 2" или "Центрально-западная часть США".

Доступ к данным

Западная часть США 2: https://dataset1000genomes.blob.core.windows.net/dataset

Центрально-западная часть США: https://dataset1000genomes-secondary.blob.core.windows.net/dataset

Токен SAS: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

Доступ к данным: курированный набор данных "1000 геномов" в формате Parquet

Восточная часть США: https://curated1000genomes.blob.core.windows.net/dataset

Токен SAS: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhhqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

Условия использования

После финальных публикаций данные, полученные в ходе проекта "1000 геномов", предоставляются для общего использования без ограничений согласно условиям, которые определяются источником набора данных (http://www.internationalgenome.org/data). Сведения об использовании данных следует указывать согласно инструкциям из раздела с вопросами и ответами на сайте проекта "1000 геномов".

Контакт

https://www.internationalgenome.org/contact

Следующие шаги

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.