이 문서에서는 유전체 분석 및 보고를 위한 솔루션을 제시합니다. 프로세스 및 결과는 정밀 의학 시나리오 또는 유전자 프로파일링을 사용하는 의료 분야에 적합합니다.
아키텍처
다이어그램에는 두 개의 상자가 있습니다. 왼쪽의 첫 번째 상자에는 Azure Data Factory for orchestration(오케스트레이션을 위한 Azure Data Factory) 레이블이 있습니다. 두 번째 상자에는 Clinician views(임상의 뷰) 레이블이 있습니다. 첫 번째 상자에는 데이터 또는 다양한 Azure 구성 요소를 나타내는 여러 개의 작은 상자가 포함되어 있습니다. 화살표는 상자를 연결하고 화살표의 번호가 매겨진 레이블은 문서 텍스트의 번호가 매겨진 단계에 해당합니다. 두 화살표가 상자 사이를 흐르며 Clinician views(임상의 뷰) 상자에서 끝납니다. 화살표 하나는 임상의 아이콘을 가리킵니다. 다른 하나는 Power BI 아이콘을 가리킵니다.
이 아키텍처의 Visio 파일을 다운로드합니다.
워크플로
Azure Data Factory는 워크플로를 오케스트레이션합니다.
Data Factory는 초기 샘플 파일을 Azure Blob Storage로 전송합니다. 파일은 FASTQ 형식입니다.
Microsoft Genomics는 파일에 대한 2차 분석을 실행합니다.
Microsoft Genomics는 출력을 다음 형식 중 하나로 Blob Storage에 저장합니다.
- VCF(Variant call format)
- GVCF(Genomic VCF)
Jupyter Notebook은 출력 파일에 주석을 추가합니다. Notebook은 Azure Databricks에서 실행됩니다.
Azure Data Lake Storage는 주석이 달린 파일을 저장합니다.
Jupyter Notebook은 파일을 다른 데이터 세트와 병합하고 데이터를 분석합니다. Notebook은 Azure Databricks에서 실행됩니다.
Data Lake Storage는 처리된 데이터를 저장합니다.
Azure Healthcare API는 데이터를 FHIR(Fast Healthcare Interoperability Resources) 번들에 압축합니다. 그런 다음, 임상 데이터는 환자 EHR(전자 건강 기록)에 입력됩니다.
임상의는 Power BI 대시보드에서 결과를 봅니다.
구성 요소
이 솔루션은 다음 구성 요소를 사용합니다.
Microsoft Genomics
Microsoft Genomics는 업계 모범 사례를 구현하는 효율적이고 정확한 유전체학 파이프라인을 제공합니다. 고성능 엔진은 다음과 같은 작업에 최적화되어 있습니다.
- 대용량 유전체 데이터 파일 읽기
- 이것을 여러 코어에서 효율적으로 처리
- 결과 정렬 및 필터링
- 결과를 출력 파일에 쓰기
처리량을 최대화하기 위해 이 엔진은 BWA(Burrows-Wheeler Aligner) 및 GATK(Genome Analysis Toolkit) HaplotypeCaller 변형 호출자를 작동합니다. 엔진은 표준 유전체학 파이프라인을 구성하는 몇 가지 다른 구성 요소도 사용합니다. 예를 들어 중복 표시, 기본 품질 점수 재보정 및 인덱싱이 있습니다. 몇 시간 안에 엔진은 단일 멀티 코어 서버에서 단일 유전체 샘플을 처리할 수 있습니다. 처리는 원시 읽기로 시작합니다. 정렬된 읽기 및 변형 호출을 생성합니다.
내부적으로 Microsoft Genomics 컨트롤러는 프로세스의 다음과 같은 측면을 관리합니다.
- 클라우드의 컴퓨터 풀 전체에 게놈 일괄 처리 배포
- 들어오는 요청의 큐 유지 관리
- Genomics 엔진을 실행하는 서버에 요청 배포
- 서버의 성능 및 진행률 모니터링
- 결과 평가
- 보안 웹 서비스 API 뒤에서 처리가 규모에 맞게 안정적이고 안전하게 실행되도록 보장
Microsoft Genomics 결과를 3차 분석 및 기계 학습 서비스에 쉽게 사용할 수 있습니다. Microsoft Genomics는 클라우드 서비스이므로 하드웨어 또는 소프트웨어를 관리하거나 업데이트할 필요가 없습니다.
기타 구성 요소
Data Factory는 서로 다른 데이터 저장소의 데이터와 함께 작동하는 통합 서비스입니다. 완전 관리형 서버리스 플랫폼을 사용하여 워크플로를 오케스트레이션하고 자동화할 수 있습니다. 특히 Data Factory 파이프라인은 이 솔루션에서 Azure로 데이터를 전송합니다. 그런 다음, 파이프라인 시퀀스는 워크플로의 각 단계를 트리거합니다.
Blob Storage는 대량의 비정형 데이터에 최적화된 클라우드 개체 스토리지를 제공합니다. 이 시나리오에서 Blob Storage는 FASTQ 파일에 대한 초기 랜딩 존을 제공합니다. 이 서비스는 Microsoft Genomics에서 생성하는 VCF 및 GVCF 파일의 출력 대상으로도 작동합니다. Blob Storage의 계층화 기능은 처리 후 FASTQ 파일을 저렴한 장기 스토리지에 보관하는 방법을 제공합니다.
Azure Databricks는 데이터 분석 플랫폼입니다. 완전 관리형 Spark 클러스터는 다양한 소스에서 대량의 데이터 스트림을 처리합니다. 이 솔루션에서 Azure Databricks는 Jupyter Notebook에서 데이터에 주석을 달고 병합하고 분석하는 데 필요한 계산 리소스를 제공합니다.
Data Lake Storage는 고성능 분석 워크로드를 위한 확장성 있고 안전한 데이터 레이크입니다. 이 서비스는 수백 기가비트의 처리량을 유지하면서 수 페타바이트의 정보를 관리할 수 있습니다. 데이터는 정형, 반정형 또는 비정형일 수 있습니다. 일반적으로 여러 이기종 소스에서 제공됩니다. 이 아키텍처에서 Data Lake Storage는 주석이 달린 파일 및 병합된 데이터 세트에 대한 최종 랜딩 존을 제공합니다. 또한 다운스트림 시스템에 최종 출력에 대한 액세스 권한을 부여합니다.
Power BI는 분석 정보를 표시하는 소프트웨어 서비스 및 앱의 컬렉션입니다. Power BI를 사용하여 관련 없는 데이터 원본을 연결하고 표시할 수 있습니다. 이런 솔루션에서 Power BI 대시보드를 결과로 채울 수 있습니다. 그러면 임상의가 최종 데이터 세트에서 시각적 개체를 만들 수 있습니다.
Azure Healthcare API는 임상 의료 데이터에 액세스하기 위한 관리되는 표준 기반 규격 인터페이스입니다. 이 시나리오에서 Azure Healthcare API는 FHIR 번들을 임상 데이터와 함께 EHR에 전달합니다.
시나리오 정보
이 문서에서는 유전체 분석 및 보고를 위한 솔루션을 제시합니다. 프로세스 및 결과는 정밀 의학 시나리오 또는 유전자 프로파일링을 사용하는 의료 분야에 적합합니다. 특히 이 솔루션은 다음과 같은 작업을 자동화하는 임상 유전체학 워크플로를 제공합니다.
- 시퀀서에서 데이터 가져오기
- 2차 분석을 통한 데이터 이동
- 임상의가 사용할 수 있는 결과 제공
유전체학은 규모와 복잡성 및 보안 요구 사항이 증가하면서 클라우드로 이동하기에 이상적인 후보가 되었습니다. 따라서 솔루션은 오픈 소스 도구 외에도 Azure 서비스를 사용합니다. 이 방식은 Azure 클라우드의 보안, 성능 및 확장성 기능을 활용합니다.
- 과학자들은 앞으로 수십만 개의 게놈을 시퀀싱할 계획입니다. 이 데이터를 저장하고 분석하는 작업에는 상당한 컴퓨팅 성능과 스토리지 용량이 필요합니다. Azure는 이러한 리소스를 제공하는 전 세계의 데이터 센터를 통해 이러한 요구를 충족할 수 있습니다.
- Azure는 ISO 27001과 같은 주요 글로벌 보안 및 개인 정보 보호 표준에 대한 인증을 받았습니다.
- Azure는 HIPAA(Health Insurance Portability and Accountability Act)가 개인 건강 정보에 대해 설정한 보안 및 출처 표준을 준수합니다.
솔루션의 핵심 구성 요소는 Microsoft Genomics입니다. 이 서비스는 몇 시간 안에 30x 게놈을 처리할 수 있는 최적화된 2차 분석 구현을 제공합니다. 표준 기술은 며칠이 걸릴 수 있습니다.
잠재적인 사용 사례
이 솔루션은 의료 업계에 이상적입니다. 다음과 같은 여러 영역에 적용됩니다.
- 암에 대한 위험 평가 환자
- 질병에 걸리기 쉬운 유전적 표지를 가진 환자 식별
- 연구를 위한 환자 코호트 생성
고려 사항
다음 고려 사항은 Microsoft Azure Well-Architected Framework와 일치하며 이 솔루션에 적용됩니다.
가용성
대부분의 Azure 구성 요소에 대한 SLA(서비스 수준 계약)는 가용성을 보장합니다.
- Data Factory 파이프라인의 99.9% 이상이 성공적으로 실행되도록 보장됩니다.
- Azure Databricks SLA는 99.95%의 가용성을 보장합니다.
- Microsoft Genomics는 워크플로 요청에 대해 99.99%의 가용성 SLA를 제공합니다.
- Blob Storage 및 Data Lake Storage는 Azure Storage의 일부이며 중복성을 통해 가용성을 제공합니다.
확장성
대부분의 Azure 서비스는 기본적으로 확장성이 있습니다.
- Data Factory는 데이터를 대규모로 변환합니다.
- Azure Databricks의 클러스터는 필요에 따라 크기가 조정됩니다.
- Blob Storage 확장성을 최적화하는 방법에 대한 자세한 내용은 Blob Storage에 대한 성능 및 확장성 검사 목록을 참조하세요.
- Data Lake Storage는 엑사바이트의 데이터를 관리할 수 있습니다.
- Microsoft Genomics는 엑사바이트 규모의 워크로드를 실행합니다.
보안
우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.
이 솔루션의 기술은 보안에 대한 대부분의 회사 요구 사항을 충족합니다.
지침
의료 데이터의 중요한 특성으로 인해 다음 문서의 지침에 따라 거버넌스 및 보안을 설정합니다.
규정 준수
HIPAA 및 HITECH(Health Information Technology for Economic and Clinical Health) 법 준수에 대한 자세한 내용은 다음 문서를 참조하세요.
이 솔루션의 구성 요소는 Microsoft Azure 규정 준수 제안에 따라 HIPAA의 범위에 있습니다. 다른 구성 요소를 대체하는 경우에는 먼저 해당 문서의 부록에 있는 목록과 대조하여 유효성을 검사하세요.
일반 보안 기능
몇 가지 구성 요소는 다음과 같은 다른 방법으로도 데이터를 보호합니다.
Data Factory는 전송하는 데이터를 암호화합니다. 또한 Azure Key Vault 또는 인증서를 사용하여 자격 증명을 암호화합니다.
Azure Databricks는 네트워크 인프라 및 데이터를 보호하기 위한 여러 가지 도구를 제공합니다. 예를 들어 액세스 제어 목록, 비밀 및 NPIP(공용 IP 없음)가 포함됩니다.
Blob Storage는 데이터를 저장하기 전에 자동으로 암호화하는 SSE(스토리지 서비스 암호화)를 지원합니다. 또한 데이터와 네트워크를 보호하는 다른 많은 방법도 제공합니다.
Data Lake Storage는 액세스 제어를 제공합니다. 해당 모델은 다음과 같은 유형의 컨트롤을 지원합니다.
- Azure RBAC(역할 기반 액세스 제어)
- POSIX(Portable Operating System Interface) ACL(액세스 제어 목록)
비용 최적화
비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.
대부분의 Azure 서비스에서는 사용한 만큼만 비용을 지불하여 비용을 절감할 수 있습니다.
- Data Factory를 사용하면 활동 실행 볼륨에 따라 비용이 결정됩니다.
- Azure Databricks는 다양한 계층, 워크로드 및 가격 책정 계획을 제공하므로 비용을 최소화하는 데 도움이 됩니다.
- Blob Storage 비용은 데이터 중복 옵션 및 볼륨에 따라 달라집니다.
- Data Lake Storage의 가격 책정은 네임스페이스 유형, 스토리지 용량, 계층 선택과 같은 여러 요인에 따라 달라집니다.
- Microsoft Genomics의 경우 요금은 각 워크플로에서 처리하는 기가베이스 수에 따라 달라집니다.
참가자
Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.
주요 작성자:
- Wylie Graham | 선임 프로그램 관리자
- Matt Hansen | 선임 클라우드 솔루션 설계자
비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.
다음 단계
- Microsoft Genomics: 일반적인 질문
- 유전체학 빠른 시작 키트
- Burrows-Wheeler Aligner(버로우즈 휠러 얼라이너)
- Genome Analysis Toolkit
관련 참고 자료
완전히 배포 가능한 아키텍처:
Data Factory 솔루션
- 자동화된 엔터프라이즈 BI
- [Azure Data Factory를 사용하는 하이브리드 ETL] [Azure Data Factory를 사용하는 하이브리드 ETL]
- Azure에서 메인프레임 데이터 복제 및 동기화