Freigeben über


Menschliche Referenzgenome

Dieses Dataset enthält zwei Humangenomreferenzen, die vom Genome Reference Consortium zusammengestellt wurden: Hg19 und Hg38.

Weitere Informationen zu Hg19-Daten (GRCh37) finden Sie im Bericht zu GRCh37 des NCBI.

Weitere Informationen zu Hg38-Daten finden Sie im Bericht zu GRCh38 des NCBI.

Weitere Details zu den Daten finden Sie unter NCBI RefSeq.

Hinweis

Microsoft stellt Datasets der Plattform Azure Open Datasets auf einer „As is“-Basis (d. h. ohne Mängelgewähr) zur Verfügung. Microsoft übernimmt weder ausdrücklich noch stillschweigend die Gewährleistung für Ihre Nutzung der Datasets und sichert keinerlei Garantien oder Bedingungen zu. Soweit nach örtlich anwendbarem Recht zulässig, lehnt Microsoft jegliche Haftung für Schäden oder Verluste ab. Dies schließt direkte, indirekte, besondere oder zufällige Schäden oder Verluste sowie Folge- und Strafschäden und damit verbundene Verluste ein, die sich aus Ihrer Nutzung der Datasets ergeben.

Für die Bereitstellung dieses Datasets gelten die ursprünglichen Nutzungsbedingungen, unter denen Microsoft die Quelldaten bezogen hat. Das Dataset kann Daten von Microsoft enthalten.

Datenquelle

Dieses Dataset stammt aus zwei FTP-Quellen:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Blobnamen wird der URI-Bestandteil „vertebrate_mammalian“ vorangestellt.

Datenvolumes und Aktualisierungshäufigkeit

Dieses Dataset enthält etwa 10 GB Daten und wird täglich aktualisiert.

Speicherort

Dieses Dataset wird in den Azure-Regionen USA, Westen 2, USA, Westen-Mitte und USA, Süden-Mitte gespeichert. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in die Regionen USA, Westen 2 oder USA, Westen-Mitte oder USA, Süden-Mitte empfohlen.

Datenzugriff

USA, Westen 2: https://datasetreferencegenomes.blob.core.windows.net/dataset

USA, Westen-Mitte: ‚ https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset ‘

SAS Token: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

USA, Süden-Mitte: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

SAS-Token: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

Nutzungsbedingungen

Die Daten stehen uneingeschränkt zur Verfügung. Weitere Informationen und Zitatdetails finden Sie auf der Website der NCBI-Referenzsequenzdatenbank.

Contact

Wenn Sie Fragen oder Feedback zu diesem Dataset haben, wenden Sie sich an das Genome Reference Consortium.

Datenzugriff

Azure Notebooks

Abrufen der Referenzgenome aus Azure Open Datasets

Hier finden Sie eine Reihe von öffentlichen Genomikdaten, die in Azure Open Dataset hochgeladen wurden. Es wurde ein Blob-Dienst erstellt, der mit Open Dataset verknüpft ist. Beispiele zur Vorgehensweise beim Aufrufen von Daten aus Azure Open Datasets für das Dataset Reference Genomes finden Sie unten.

Die Benutzer können mit diesem Notebook den folgenden Pfad aufrufen und herunterladen: ‚ https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt ‘

Wichtiger Hinweis: Zum Anzeigen der Daten mit dem Azure ML SDK müssen sich Benutzer über die Azure CLI bei ihrem Azure-Konto anmelden. Zum Herunterladen der Daten sind jedoch keine Aktionen erforderlich.

Installieren Sie die Azure-Befehlszeilenschnittstelle.

Aufrufen der Daten aus „Referenzgenom-Datasets“

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Herunterladen der Datei

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Nächste Schritte

Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.