1000 геномов

Проект "1000 геномов" был запущен в 2008 г. К его завершению в 2015 г. был создан крупнейший общедоступный каталог генетических вариаций человека с данными о генотипах. Окончательный набор данных содержит данные, полученные у 2504 лиц из 26 популяций, с 84 млн идентифицированных вариантов. Дополнительные сведения см. на веб-сайте проекта "1000 геномов" и в следующих публикациях.

Анализ по результатам пилотного проекта: A map of human genome variation from population-scale sequencing (Карта вариаций человеческого генома согласно результатам популяционного секвенирования), Nature 467, 1061–1073 (28 октября 2010 г.)

Анализ по результатам первого этапа: An integrated map of genetic variation from 1,092 human genomes (Интегрированная карта генетической изменчивости на основе 1092 вариаций человеческого генома), Nature 491, 56–65 (1 ноября 2012 г.)

Анализ по результатам третьего этапа: A global reference for human genetic variation (Глобальный справочник генетических вариаций человека), Nature 526, 68–74 (1 октября 2015 г.), и An integrated map of structural variation in 2,504 human genomes (Интегрированная карта структурных вариаций на основе 2504 вариаций человеческого генома), Nature 526, 75–81 (1 октября 2015 г.)

Дополнительные сведения о форматах данных см. здесь: http://www.internationalgenome.org/formats

[NEW] Набор данных также доступен в формате Parquet.

Примечание

Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.

Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.

Источник данных

Этот набор данных является зеркальной копией набора, представленного здесь: ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

Объемы данных и частота обновления

Этот набор данных содержит примерно 815 ТБ данных и обновляется ежедневно.

Расположение хранения

Этот набор данных хранится в регионах Azure "Западная часть США 2" и "Центрально-западная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионе "Западная часть США 2" или "Центрально-западная часть США".

Доступ к данным

Западная часть США 2: https://dataset1000genomes.blob.core.windows.net/dataset

Центрально-западная часть США: https://dataset1000genomes-secondary.blob.core.windows.net/dataset

Маркет SAS: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

Доступ к данным: курированный набор данных "1000 геномов" в формате Parquet

Восточная часть США: https://curated1000genomes.blob.core.windows.net/dataset

Маркер SAS: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

Условия использования

После финальных публикаций данные, полученные в ходе проекта "1000 геномов", предоставляются для общего использования без ограничений согласно условиям, которые определяются источником набора данных (http://www.internationalgenome.org/data). Сведения об использовании данных следует указывать согласно инструкциям из раздела с вопросами и ответами на сайте проекта "1000 геномов".

Contact

https://www.internationalgenome.org/contact

Дальнейшие действия

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.