İnsan Referans Genomları

Bu veri kümesi, Genom Referans Konsorsiyumu tarafından derlenen iki insan genom başvurusu içerir: Hg19 ve Hg38.

Hg19 (GRCh37) verileri hakkında daha fazla bilgi için bkz. NCBI'daki GRCh37 raporu.

Hg38 verileri hakkında daha fazla bilgi için bkz. NCBI'daki GRCh38 raporu.

Verilerin diğer ayrıntıları NCBI RefSeq sitesinde bulunabilir.

Not

Microsoft, Azure Open Datasets'i "olduğu gibi" sağlar. Microsoft, veri kümelerini kullanımınızla ilgili olarak açık veya zımni hiçbir garanti veya koşul sağlamaz. Yerel yasalarınız kapsamında izin verilen ölçüde, Microsoft veri kümelerini kullanımınızdan kaynaklanan doğrudan, sonuçsal, özel, dolaylı, arızi veya cezai dahil olmak üzere tüm zarar veya kayıplar için tüm sorumluluğu kabul etmez.

Bu veri kümesi Microsoft’un kaynak verileri aldığı orijinal hükümler kapsamında sağlanır. Veri kümesi Microsoft’tan alınan verileri içerebilir.

Data source

Bu veri kümesinin kaynağı şu iki FTP konumudur:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Blob adları, URI'nin "vertebrate_mammalian" kesiminden başlayarak öneklenir.

Veri birimleri ve güncelleştirme sıklığı

Bu veri kümesi yaklaşık 10 GB veri içerir ve günlük olarak güncelleştirilir.

Depolama konumu

Bu veri kümesi Batı ABD 2, Orta Batı ABD ve Orta Güney ABD Azure bölgelerinde depolanır. Benzeşim için Batı ABD 2 veya Orta Batı ABD veya Orta Güney ABD'de işlem kaynaklarının ayrılması önerilir.

Veri Erişimi

Batı ABD 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'

Orta Batı ABD: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'

SAS Belirteci: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

Orta Güney ABD: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

SAS Belirteci: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3 AA07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

Kullanım Koşulları

Veriler kısıtlamasız olarak sunulmuştur. Daha fazla bilgi ve alıntı ayrıntıları için NCBI Başvuru Dizisi Veritabanı sitesine bakın.

İlgili kişi

Bu veri kümesiyle ilgili sorularınız veya geri bildirimlerinizi almak için Genom Başvuru Konsorsiyumu'na başvurun.

Veri erişimi

Azure Notebooks

Azure Açık Veri Kümelerinden Başvuru Genomlarını Alma

Burada azure açık veri kümesi olarak birçok genel genomiks verisi karşıya yüklenmiştir. Bu açık veri kümesine bağlı bir blob hizmeti oluştururuz. Veri kümesi için Reference Genomes Azure Açık Veri Kümeleri'nden veri çağırma yordamının örneklerini aşağıda bulabilirsiniz:

Kullanıcılar bu not defteriyle şu yolu arayabilir ve indirebilir: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt'

Önemli not: Kullanıcıların Azure ML SDK'sı ile verileri görüntülemek için Azure CLI aracılığıyla Azure Hesaplarında oturum açmaları gerekir. Öte yandan, verileri indirmek için herhangi bir işlem yapmalarına gerek yoktur.

Azure CLI'yi yükleyin.

'Başvuru Genom Veri Kümeleri'nden verileri çağırma

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Belirli bir dosyayı indirme

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Sonraki adımlar

Açık Veri Kümeleri kataloğundaki diğer veri kümelerini görüntüleyin.