1000 Genomes
Projekt 1000 Genomes běžel v letech 2008 až 2015 a vytvořil největší veřejný katalog lidských variací a dat genomu. Finální datová sada obsahuje údaje o 2 504 jednotlivcích z 26 populací a 84 milionů identifikovaných variant. Další informace najdete na webu 1000 Genome Project a v následujících publikacích:
Pilotní analýza: Mapa variace lidského genomu od sekvencování přírody 467, 1061–1073 (28. října 2010)
Analýza fáze 1: Integrovaná mapa genetické variace z 1 092 lidských genomů Nature 491, 56–65 (01. listopadu 2012)
Analýza fáze 3: Globální odkaz na lidskou genetickou variaci Nature 526, 68-74 (01. října 2015) a integrovanou mapu strukturální variace v 2 504 lidských genomech Nature 526, 75-81 (01. října 2015)
Podrobnosti o datových formátech najdete na webu http://www.internationalgenome.org/formats.
[NOVÝ] datová sada je k dispozici také ve formátu parquet.
Poznámka:
Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Zdroj dat
Tato datová sada je zrcadlem ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/
Objemy dat a frekvence aktualizací
Tato datová sada obsahuje přibližně 815 TB dat a aktualizuje se každý den.
Umístění úložiště
Tato datová sada se uchovává v těchto oblastech Azure: USA – středozápad a USA – západ 2. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti USA – středozápad nebo USA – západ 2.
Přístup k datům
USA – západ 2: 'https://dataset1000genomes.blob.core.windows.net/dataset'
USA – středozápad: 'https://dataset1000genomes-secondary.blob.core.windows.net/dataset'
Token SAS: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D
Přístup k datům: Kurátorovaná datová sada 1000 genomů ve formátu parquet
USA – východ: https://curated1000genomes.blob.core.windows.net/dataset
Token SAS: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D
Podmínky použití
Po dokončení publikací jsou data z projektu 1000 Genomes Project veřejně dostupná bez toho, aby je někdo mohl používat podle podmínek poskytovaných zdrojem datové sady (http://www.internationalgenome.org/data). Použití těchto dat by se mělo citovat v souladu s informacemi uvedenými v nejčastějších dotazech k projektu 1000 Genome Project.
Kontakt
https://www.internationalgenome.org/contact
Další kroky
Prohlédněte si zbývající datové sady v katalogu Open Datasets.