İnsan Referans Genomları
Bu veri kümesi, Genom Referans Konsorsiyumu tarafından derlenen iki insan genom başvurusu içerir: Hg19 ve Hg38.
Hg19 (GRCh37) verileri hakkında daha fazla bilgi için bkz. NCBI'daki GRCh37 raporu.
Hg38 verileri hakkında daha fazla bilgi için bkz. NCBI'daki GRCh38 raporu.
Verilerin diğer ayrıntıları NCBI RefSeq sitesinde bulunabilir.
Not
Microsoft, Azure Open Datasets'i "olduğu gibi" sağlar. Microsoft, veri kümelerini kullanımınızla ilgili olarak açık veya zımni hiçbir garanti veya koşul sağlamaz. Yerel yasalarınız kapsamında izin verilen ölçüde, Microsoft veri kümelerini kullanımınızdan kaynaklanan doğrudan, sonuçsal, özel, dolaylı, arızi veya cezai dahil olmak üzere tüm zarar veya kayıplar için tüm sorumluluğu kabul etmez.
Bu veri kümesi Microsoft’un kaynak verileri aldığı orijinal hükümler kapsamında sağlanır. Veri kümesi Microsoft’tan alınan verileri içerebilir.
Data source
Bu veri kümesinin kaynağı şu iki FTP konumudur:
Blob adları, URI'nin "vertebrate_mammalian" kesiminden başlayarak öneklenir.
Veri birimleri ve güncelleştirme sıklığı
Bu veri kümesi yaklaşık 10 GB veri içerir ve günlük olarak güncelleştirilir.
Depolama konumu
Bu veri kümesi Batı ABD 2, Orta Batı ABD ve Orta Güney ABD Azure bölgelerinde depolanır. Benzeşim için Batı ABD 2 veya Orta Batı ABD veya Orta Güney ABD'de işlem kaynaklarının ayrılması önerilir.
Veri Erişimi
Batı ABD 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'
Orta Batı ABD: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'
SAS Belirteci: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D
Orta Güney ABD: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'
SAS Belirteci: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3 AA07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D
Kullanım Koşulları
Veriler kısıtlamasız olarak sunulmuştur. Daha fazla bilgi ve alıntı ayrıntıları için NCBI Başvuru Dizisi Veritabanı sitesine bakın.
İlgili kişi
Bu veri kümesiyle ilgili sorularınız veya geri bildirimlerinizi almak için Genom Başvuru Konsorsiyumu'na başvurun.
Veri erişimi
Azure Notebooks
Azure Açık Veri Kümelerinden Başvuru Genomlarını Alma
Burada azure açık veri kümesi olarak birçok genel genomiks verisi karşıya yüklenmiştir. Bu açık veri kümesine bağlı bir blob hizmeti oluştururuz. Veri kümesi için Reference Genomes
Azure Açık Veri Kümeleri'nden veri çağırma yordamının örneklerini aşağıda bulabilirsiniz:
Kullanıcılar bu not defteriyle şu yolu arayabilir ve indirebilir: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt'
Önemli not: Kullanıcıların Azure ML SDK'sı ile verileri görüntülemek için Azure CLI aracılığıyla Azure Hesaplarında oturum açmaları gerekir. Öte yandan, verileri indirmek için herhangi bir işlem yapmalarına gerek yoktur.
Azure CLI'yi yükleyin.
'Başvuru Genom Veri Kümeleri'nden verileri çağırma
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')
# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata
Belirli bir dosyayı indirme
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')
Sonraki adımlar
Açık Veri Kümeleri kataloğundaki diğer veri kümelerini görüntüleyin.