1000 Genomes
Il progetto 1000 genoma è stato completato tra il 2008 e il 2015, creando il più grande catalogo pubblico di dati sulla variazione umana e sul genotipo. Il set di dati finale contiene dati per 2.504 individui da 26 popolazioni e 84 milioni di varianti identificate. Per altre informazioni, vedere il sito Web del progetto 1000 Genome Project e le pubblicazioni seguenti:
"Pilot Analysis: A map of human genome variation from population-scale sequencing" - Nature 467, 1061-1073 (28 ottobre 2010)
"Phase 1 Analysis: An integrated map of genetic variation from 1,092 human genomes" - Nature 491, 56-65 (01 novembre 2012)
"Phase 3 Analysis: A global reference for human genetic variation" - Nature 526, 68-74 (01 ottobre 2015) e "An integrated map of structural variation in 2,504 human genomes" - Nature 526, 75-81 (01 ottobre 2015)
Per informazioni sui formati dei dati, vedi http://www.internationalgenome.org/formats
[NOVITÀ] il set di dati è disponibile anche in formato Parquet
Nota
Microsoft fornisce set di dati aperti di Azure "così come sono". Microsoft non offre alcuna garanzia o condizione esplicita o implicita relativamente all'uso dei set di dati da parte dell'utente. Nella misura massima consentita dalle leggi locali, Microsoft non riconosce alcuna responsabilità relativamente a danni o perdite commerciali, inclusi i danni diretti, consequenziali, speciali, indiretti, incidentali o punitivi derivanti dall'uso dei set di dati da parte dell'utente.
Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.
Origine dati
Questo set di dati è un mirror di ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/
Volumi di dati e frequenza di aggiornamento
Questo set di dati contiene all'incirca 815 TB di dati e viene aggiornato quotidianamente.
Posizione di archiviazione
Questo set di dati è archiviato nelle aree di Azure Stati Uniti occidentali 2 e Stati Uniti centro-occidentali. L'allocazione delle risorse di calcolo nell'area Stati Uniti occidentali 2 o Stati Uniti centro-occidentali è consigliata per motivi di affinità.
Accesso ai dati
Stati Uniti occidentali 2: 'https://dataset1000genomes.blob.core.windows.net/dataset'
Stati Uniti centro-occidentali: 'https://dataset1000genomes-secondary.blob.core.windows.net/dataset'
Token di firma di accesso condiviso: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D
Accesso ai dati: set di dati curato di 1000 genomi in formato Parquet
Stati Uniti orientali: https://curated1000genomes.blob.core.windows.net/dataset
Token SAS: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D
Condizioni per l'utilizzo
In seguito alle pubblicazioni finali, i dati del progetto 1000 Genomes sono disponibili pubblicamente senza alcun embargo per chiunque per l'uso in base ai termini forniti dall'origine del set di dati (http://www.internationalgenome.org/data). L'uso dei dati deve includere citazioni in base ai dettagli disponibili nelle domande frequenti di 1000 Genome Project.
Contatto
https://www.internationalgenome.org/contact
Passaggi successivi
Visualizzare il resto dei set di dati nel catalogo di set di dati aperti.