ClinVar Annotations
ClinVar to dostępne bezpłatnie publiczne archiwum raportów dotyczących relacji wśród odmian i fenotypów ludzkich z dowodami pomocniczymi. Ułatwia ono uzyskiwanie dostępu do dowiedzionych relacji między odmianami ludzkimi a obserwowanym stanem zdrowia i historii tej interpretacji oraz komunikowanie się w ich sprawie. Zapewnia dostęp do szerszego zestawu interpretacji klinicznych, które można uwzględnić w aplikacjach i przepływach pracy usługi Genomics.
Aby uzyskać więcej informacji na temat danych, zobacz Słownik danych i często zadawane pytania.
Uwaga
Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.
Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.
Źródło danych
Ten zestaw danych jest dublowaniem ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/
Woluminy danych i częstotliwość aktualizacji
Ten zestaw danych zawiera około 56 GB danych i jest codziennie aktualizowany.
Lokalizacja usługi Storage
Ten zestaw danych jest przechowywany w regionach świadczenia platformy Azure: Zachodnie stany USA 2 i Zachodnio-środkowe stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Zachodnie stany USA 2 lub Zachodnio-środkowe stany USA z uwagi na koligację.
Dostęp do danych
Zachodnie stany USA 2: "https://datasetclinvar.blob.core.windows.net/dataset"
Zachodnio-środkowe stany USA: "https://datasetclinvar-secondary.blob.core.windows.net/dataset"
Token SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D
Warunki użytkowania
Dane są dostępne bez ograniczeń. Więcej informacji i szczegółów cytatu znajduje się w temacie Uzyskiwanie dostępu do danych i używanie ich w języku ClinVar.
Kontakt biznesowy
Aby uzyskać odpowiedzi na pytania lub opinie dotyczące tego zestawu danych, skontaktuj się z .clinvar@ncbi.nlm.nih.gov
Dostęp do danych
Azure Notebooks
Pobieranie danych ClinVar z zestawu danych Azure Open Dataset
Kilka publicznych danych genomics zostało przekazanych w tym miejscu jako zestaw danych azure Open. Tworzymy usługę obiektów blob połączoną z tym otwartym zestawem danych. Przykłady procedury wywoływania danych z zestawu danych Azure Open Dataset ClinVar
można znaleźć poniżej:
Użytkownicy mogą wywoływać i pobierać następującą ścieżkę za pomocą tego notesu: "https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5"
Uwaga
Użytkownicy muszą zalogować się do swojego konta platformy Azure za pośrednictwem interfejsu wiersza polecenia platformy Azure, aby wyświetlić dane przy użyciu zestawu Azure ML SDK. Z drugiej strony nie muszą wykonywać żadnych akcji pobierania danych.
Aby uzyskać więcej informacji na temat instalowania interfejsu wiersza polecenia platformy Azure, zobacz Instalowanie interfejsu wiersza polecenia platformy Azure
Wywoływanie danych z zestawu danych "ClinVar"
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
Pobieranie określonego pliku
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')
Następne kroki
Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).