1000 Genomes

Articolo
04/16/2024

Il progetto 1000 genoma è stato completato tra il 2008 e il 2015, creando il più grande catalogo pubblico di dati sulla variazione umana e sul genotipo. Il set di dati finale contiene dati per 2.504 individui da 26 popolazioni e 84 milioni di varianti identificate. Per altre informazioni, vedere il sito Web del progetto 1000 Genome Project e le pubblicazioni seguenti:

"Pilot Analysis: A map of human genome variation from population-scale sequencing" - Nature 467, 1061-1073 (28 ottobre 2010)

"Phase 1 Analysis: An integrated map of genetic variation from 1,092 human genomes" - Nature 491, 56-65 (01 novembre 2012)

"Phase 3 Analysis: A global reference for human genetic variation" - Nature 526, 68-74 (01 ottobre 2015) e "An integrated map of structural variation in 2,504 human genomes" - Nature 526, 75-81 (01 ottobre 2015)

Per informazioni sui formati dei dati, vedi http://www.internationalgenome.org/formats

[NOVITÀ] il set di dati è disponibile anche in formato Parquet

Nota

Microsoft fornisce set di dati aperti di Azure "così come sono". Microsoft non offre alcuna garanzia o condizione esplicita o implicita relativamente all'uso dei set di dati da parte dell'utente. Nella misura massima consentita dalle leggi locali, Microsoft non riconosce alcuna responsabilità relativamente a danni o perdite commerciali, inclusi i danni diretti, consequenziali, speciali, indiretti, incidentali o punitivi derivanti dall'uso dei set di dati da parte dell'utente.

Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.

Origine dati

Questo set di dati è un mirror di ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

Volumi di dati e frequenza di aggiornamento

Questo set di dati contiene all'incirca 815 TB di dati e viene aggiornato quotidianamente.

Posizione di archiviazione

Questo set di dati è archiviato nelle aree di Azure Stati Uniti occidentali 2 e Stati Uniti centro-occidentali. L'allocazione delle risorse di calcolo nell'area Stati Uniti occidentali 2 o Stati Uniti centro-occidentali è consigliata per motivi di affinità.

Accesso ai dati

Stati Uniti occidentali 2: 'https://dataset1000genomes.blob.core.windows.net/dataset'

Stati Uniti centro-occidentali: 'https://dataset1000genomes-secondary.blob.core.windows.net/dataset'

Token di firma di accesso condiviso: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

Accesso ai dati: set di dati curato di 1000 genomi in formato Parquet

Stati Uniti orientali: https://curated1000genomes.blob.core.windows.net/dataset

Token SAS: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

Condizioni per l'utilizzo

In seguito alle pubblicazioni finali, i dati del progetto 1000 Genomes sono disponibili pubblicamente senza alcun embargo per chiunque per l'uso in base ai termini forniti dall'origine del set di dati (http://www.internationalgenome.org/data). L'uso dei dati deve includere citazioni in base ai dettagli disponibili nelle domande frequenti di 1000 Genome Project.

Contatto

https://www.internationalgenome.org/contact

Passaggi successivi

Visualizzare il resto dei set di dati nel catalogo di set di dati aperti.

Share via