Referencyjne genomy ludzkie

Ten zestaw danych zawiera dwa odwołania do genomu człowieka zebrane przez konsorcjum referencyjne Genome: Hg19 i Hg38.

Aby uzyskać więcej informacji o danych Hg19 (GRCh37), zobacz Raport o GRCh37 w witrynie NCBI.

Aby uzyskać więcej informacji o danych Hg38, zobacz Raport o GRCh38 w witrynie NCBI.

Inne szczegóły dotyczące danych można znaleźć w witrynie NCBI RefSeq.

Uwaga

Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Źródło danych

Źródłem tego zestawu danych są dwie lokalizacje FTP:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Nazwy obiektów blob są poprzedzone prefiksem rozpoczynającym się od segmentu "vertebrate_mammalian" identyfikatora URI.

Woluminy danych i częstotliwość aktualizacji

Ten zestaw danych zawiera około 10 GB danych i jest codziennie aktualizowany.

Lokalizacja usługi Storage

Ten zestaw danych jest przechowywany w regionach świadczenia usługi Azure Azure Zachodnie stany USA 2, Zachodnio-środkowe stany USA i Południowo-środkowe stany USA. Przydzielanie zasobów obliczeniowych w regionie Zachodnie stany USA 2 lub Zachodnio-środkowe stany USA lub Południowo-środkowe stany USA jest zalecane w przypadku koligacji.

Dostęp do danych

Zachodnie stany USA 2: "https://datasetreferencegenomes.blob.core.windows.net/dataset"

Zachodnio-środkowe stany USA: "https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset"

Token SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

Południowo-środkowe stany USA: "https://datasetreferencegenomesc.blob.core.windows.net/dataset"

Token SAS: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

Warunki użytkowania

Dane są dostępne bez ograniczeń. Aby uzyskać więcej informacji i szczegółów cytatu, zobacz lokację bazy danych sekwencji odwołań NCBI.

Kontakt biznesowy

Aby uzyskać odpowiedzi na pytania lub opinie dotyczące tego zestawu danych, skontaktuj się z konsorcjum referencyjnym genome.

Dostęp do danych

Azure Notebooks

Pobieranie genomów referencyjnych z usługi Azure Open Datasets

Kilka publicznych danych genomics zostało przekazanych w tym miejscu jako zestaw danych azure Open. Tworzymy usługę obiektów blob połączoną z tym otwartym zestawem danych. Przykłady procedury wywoływania danych z zestawu danych Azure Open Datasets Reference Genomes można znaleźć poniżej:

Użytkownicy mogą wywoływać i pobierać następującą ścieżkę za pomocą tego notesu: "https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt"

Ważna uwaga: użytkownicy muszą zalogować się na swoim koncie platformy Azure za pośrednictwem interfejsu wiersza polecenia platformy Azure, aby wyświetlić dane przy użyciu zestawu Azure ML SDK. Z drugiej strony nie muszą wykonywać żadnych akcji pobierania danych.

Zainstaluj interfejs wiersza polecenia platformy Azure.

Wywoływanie danych z zestawu danych "Reference Genome Datasets"

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Pobieranie określonego pliku

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).