Human Reference Genomes

Ez az adatkészlet két emberi genomhivatkozást tartalmaz, amelyeket a Genome Reference Consortium állított össze: Hg19 és Hg38.

A Hg19- (GRCh37-) adatokról további információt a GRCh37-jelentésben talál az NCBI-nél.

A Hg38-adatokról a GRCh38-jelentésben talál az NCBI-nél.

Az adatokról további információ az NCBI RefSeq webhelyén található.

Feljegyzés

A Microsoft az Azure Open Datasets szolgáltatást "adott módon" biztosítja. A Microsoft nem vállal kifejezett vagy vélelmezett garanciát vagy feltételeket az adathalmazok Ön általi használatára vonatkozóan. A microsoft a helyi jogszabályok által megengedett mértékben kizár minden felelősséget az adathalmazok használatából eredő károkért vagy veszteségekért, beleértve a közvetlen, következményi, különleges, közvetett, incidenses vagy büntető jellegű károkat is.

Az adatkészletet a Microsoft forrásadataihoz tartozó eredeti feltételek szerint szolgáltatjuk. A készlet tartalmazhat Microsofttól származó adatokat.

Adatforrás

Ennek az adatkészletnek két FTP-hely a forrása:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

A blobnevek az URI "vertebrate_mammalian" szegmensével kezdődnek.

Adatkötetek és frissítés gyakorisága

Ez az adatkészlet körülbelül 10 GB méretű adatot tartalmaz, és naponta frissül.

Tárolási hely

Ez az adatkészlet az USA 2. nyugati régiójában, az USA nyugati középső régiójában és az USA déli középső régiójában van tárolva. A számítási erőforrások hozzárendelése az USA 2. nyugati régiójában, az USA nyugati középső régiójában vagy az USA déli középső régiójában ajánlott az affinitáshoz.

Adathozzáférés

USA 2. nyugati régiója: "https://datasetreferencegenomes.blob.core.windows.net/dataset"

USA nyugati középső régiója: "https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset"

SAS-jogkivonat: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

USA déli középső régiója: "https://datasetreferencegenomesc.blob.core.windows.net/dataset"

SAS-jogkivonat: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

Használati feltételek

Az adatok korlátozások nélkül felhasználhatók. További információkért és idézetek részleteiért tekintse meg az NCBI referenciaütemezési adatbázis webhelyét.

Kapcsolat

Az adathalmazsal kapcsolatos kérdésekért vagy visszajelzésért forduljon a Genome Referenciakonferenshez.

Az adatok elérése

Azure Notebooks

A referencia genomok lekérése az Azure Open Datasetsből

Itt számos nyilvános genomikai adat lett feltöltve Azure Open Datasetként. Létrehozunk egy blobszolgáltatást, amely ehhez a nyitott adatkészlethez kapcsolódik. Az adathalmazhoz Reference Genomes tartozó Azure Open Datasets-adathalmazok adathívási eljárására az alábbiakban talál példákat:

A felhasználók a következő elérési utat hívhatják meg és tölthetik le ezzel a jegyzetfüzettel: ""https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt

Fontos megjegyzés: A felhasználóknak az Azure CLI-vel kell bejelentkezniük az Azure-fiókjukba az adatok Azure ML SDK-val való megtekintéséhez. Az adatok letöltéséhez azonban nincs szükség semmilyen műveletre.

Telepítse az Azure CLI-t.

Az adatok meghívása a "Referencia Genome-adathalmazokból"

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Az adott fájl letöltése

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Következő lépések

Tekintse meg a többi adathalmazt az Open Datasets katalógusban.