유전체학을 사용한 정밀 의학 파이프 라인

Azure Blob Storage
Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Microsoft Genomics

이 문서에서는 유전체 분석 및 보고를 위한 솔루션을 제시합니다. 프로세스 및 결과는 정밀 의학 시나리오 또는 유전자 프로파일링을 사용하는 의료 분야에 적합합니다.

아키텍처

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

다이어그램에는 두 개의 상자가 있습니다. 왼쪽의 첫 번째 상자에는 Azure Data Factory for orchestration(오케스트레이션을 위한 Azure Data Factory) 레이블이 있습니다. 두 번째 상자에는 Clinician views(임상의 뷰) 레이블이 있습니다. 첫 번째 상자에는 데이터 또는 다양한 Azure 구성 요소를 나타내는 여러 개의 작은 상자가 포함되어 있습니다. 화살표는 상자를 연결하고 화살표의 번호가 매겨진 레이블은 문서 텍스트의 번호가 매겨진 단계에 해당합니다. 두 화살표가 상자 사이를 흐르며 Clinician views(임상의 뷰) 상자에서 끝납니다. 화살표 하나는 임상의 아이콘을 가리킵니다. 다른 하나는 Power BI 아이콘을 가리킵니다.

이 아키텍처의 Visio 파일을 다운로드합니다.

워크플로

Azure Data Factory는 워크플로를 오케스트레이션합니다.

  1. Data Factory는 초기 샘플 파일을 Azure Blob Storage로 전송합니다. 파일은 FASTQ 형식입니다.

  2. Microsoft Genomics는 파일에 대한 2차 분석을 실행합니다.

  3. Microsoft Genomics는 출력을 다음 형식 중 하나로 Blob Storage에 저장합니다.

    • VCF(Variant call format)
    • GVCF(Genomic VCF)
  4. Jupyter Notebook은 출력 파일에 주석을 추가합니다. Notebook은 Azure Databricks에서 실행됩니다.

  5. Azure Data Lake Storage는 주석이 달린 파일을 저장합니다.

  6. Jupyter Notebook은 파일을 다른 데이터 세트와 병합하고 데이터를 분석합니다. Notebook은 Azure Databricks에서 실행됩니다.

  7. Data Lake Storage는 처리된 데이터를 저장합니다.

  8. Azure Healthcare API는 데이터를 FHIR(Fast Healthcare Interoperability Resources) 번들에 압축합니다. 그런 다음, 임상 데이터는 환자 EHR(전자 건강 기록)에 입력됩니다.

  9. 임상의는 Power BI 대시보드에서 결과를 봅니다.

구성 요소

이 솔루션은 다음 구성 요소를 사용합니다.

Microsoft Genomics

Microsoft Genomics는 업계 모범 사례를 구현하는 효율적이고 정확한 유전체학 파이프라인을 제공합니다. 고성능 엔진은 다음과 같은 작업에 최적화되어 있습니다.

  • 대용량 유전체 데이터 파일 읽기
  • 이것을 여러 코어에서 효율적으로 처리
  • 결과 정렬 및 필터링
  • 결과를 출력 파일에 쓰기

처리량을 최대화하기 위해 이 엔진은 BWA(Burrows-Wheeler Aligner) 및 GATK(Genome Analysis Toolkit) HaplotypeCaller 변형 호출자를 작동합니다. 엔진은 표준 유전체학 파이프라인을 구성하는 몇 가지 다른 구성 요소도 사용합니다. 예를 들어 중복 표시, 기본 품질 점수 재보정 및 인덱싱이 있습니다. 몇 시간 안에 엔진은 단일 멀티 코어 서버에서 단일 유전체 샘플을 처리할 수 있습니다. 처리는 원시 읽기로 시작합니다. 정렬된 읽기 및 변형 호출을 생성합니다.

내부적으로 Microsoft Genomics 컨트롤러는 프로세스의 다음과 같은 측면을 관리합니다.

  • 클라우드의 컴퓨터 풀 전체에 게놈 일괄 처리 배포
  • 들어오는 요청의 큐 유지 관리
  • Genomics 엔진을 실행하는 서버에 요청 배포
  • 서버의 성능 및 진행률 모니터링
  • 결과 평가
  • 보안 웹 서비스 API 뒤에서 처리가 규모에 맞게 안정적이고 안전하게 실행되도록 보장

Microsoft Genomics 결과를 3차 분석 및 기계 학습 서비스에 쉽게 사용할 수 있습니다. Microsoft Genomics는 클라우드 서비스이므로 하드웨어 또는 소프트웨어를 관리하거나 업데이트할 필요가 없습니다.

기타 구성 요소

  • Data Factory는 서로 다른 데이터 저장소의 데이터와 함께 작동하는 통합 서비스입니다. 완전 관리형 서버리스 플랫폼을 사용하여 워크플로를 오케스트레이션하고 자동화할 수 있습니다. 특히 Data Factory 파이프라인은 이 솔루션에서 Azure로 데이터를 전송합니다. 그런 다음, 파이프라인 시퀀스는 워크플로의 각 단계를 트리거합니다.

  • Blob Storage는 대량의 비정형 데이터에 최적화된 클라우드 개체 스토리지를 제공합니다. 이 시나리오에서 Blob Storage는 FASTQ 파일에 대한 초기 랜딩 존을 제공합니다. 이 서비스는 Microsoft Genomics에서 생성하는 VCF 및 GVCF 파일의 출력 대상으로도 작동합니다. Blob Storage의 계층화 기능은 처리 후 FASTQ 파일을 저렴한 장기 스토리지에 보관하는 방법을 제공합니다.

  • Azure Databricks는 데이터 분석 플랫폼입니다. 완전 관리형 Spark 클러스터는 다양한 소스에서 대량의 데이터 스트림을 처리합니다. 이 솔루션에서 Azure Databricks는 Jupyter Notebook에서 데이터에 주석을 달고 병합하고 분석하는 데 필요한 계산 리소스를 제공합니다.

  • Data Lake Storage는 고성능 분석 워크로드를 위한 확장성 있고 안전한 데이터 레이크입니다. 이 서비스는 수백 기가비트의 처리량을 유지하면서 수 페타바이트의 정보를 관리할 수 있습니다. 데이터는 정형, 반정형 또는 비정형일 수 있습니다. 일반적으로 여러 이기종 소스에서 제공됩니다. 이 아키텍처에서 Data Lake Storage는 주석이 달린 파일 및 병합된 데이터 세트에 대한 최종 랜딩 존을 제공합니다. 또한 다운스트림 시스템에 최종 출력에 대한 액세스 권한을 부여합니다.

  • Power BI는 분석 정보를 표시하는 소프트웨어 서비스 및 앱의 컬렉션입니다. Power BI를 사용하여 관련 없는 데이터 원본을 연결하고 표시할 수 있습니다. 이런 솔루션에서 Power BI 대시보드를 결과로 채울 수 있습니다. 그러면 임상의가 최종 데이터 세트에서 시각적 개체를 만들 수 있습니다.

  • Azure Healthcare API는 임상 의료 데이터에 액세스하기 위한 관리되는 표준 기반 규격 인터페이스입니다. 이 시나리오에서 Azure Healthcare API는 FHIR 번들을 임상 데이터와 함께 EHR에 전달합니다.

시나리오 정보

이 문서에서는 유전체 분석 및 보고를 위한 솔루션을 제시합니다. 프로세스 및 결과는 정밀 의학 시나리오 또는 유전자 프로파일링을 사용하는 의료 분야에 적합합니다. 특히 이 솔루션은 다음과 같은 작업을 자동화하는 임상 유전체학 워크플로를 제공합니다.

  • 시퀀서에서 데이터 가져오기
  • 2차 분석을 통한 데이터 이동
  • 임상의가 사용할 수 있는 결과 제공

유전체학은 규모와 복잡성 및 보안 요구 사항이 증가하면서 클라우드로 이동하기에 이상적인 후보가 되었습니다. 따라서 솔루션은 오픈 소스 도구 외에도 Azure 서비스를 사용합니다. 이 방식은 Azure 클라우드의 보안, 성능 및 확장성 기능을 활용합니다.

  • 과학자들은 앞으로 수십만 개의 게놈을 시퀀싱할 계획입니다. 이 데이터를 저장하고 분석하는 작업에는 상당한 컴퓨팅 성능과 스토리지 용량이 필요합니다. Azure는 이러한 리소스를 제공하는 전 세계의 데이터 센터를 통해 이러한 요구를 충족할 수 있습니다.
  • Azure는 ISO 27001과 같은 주요 글로벌 보안 및 개인 정보 보호 표준에 대한 인증을 받았습니다.
  • Azure는 HIPAA(Health Insurance Portability and Accountability Act)가 개인 건강 정보에 대해 설정한 보안 및 출처 표준을 준수합니다.

솔루션의 핵심 구성 요소는 Microsoft Genomics입니다. 이 서비스는 몇 시간 안에 30x 게놈을 처리할 수 있는 최적화된 2차 분석 구현을 제공합니다. 표준 기술은 며칠이 걸릴 수 있습니다.

잠재적인 사용 사례

이 솔루션은 의료 업계에 이상적입니다. 다음과 같은 여러 영역에 적용됩니다.

  • 암에 대한 위험 평가 환자
  • 질병에 걸리기 쉬운 유전적 표지를 가진 환자 식별
  • 연구를 위한 환자 코호트 생성

고려 사항

다음 고려 사항은 Microsoft Azure Well-Architected Framework와 일치하며 이 솔루션에 적용됩니다.

가용성

대부분의 Azure 구성 요소에 대한 SLA(서비스 수준 계약)는 가용성을 보장합니다.

확장성

대부분의 Azure 서비스는 기본적으로 확장성이 있습니다.

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.

이 솔루션의 기술은 보안에 대한 대부분의 회사 요구 사항을 충족합니다.

지침

의료 데이터의 중요한 특성으로 인해 다음 문서의 지침에 따라 거버넌스 및 보안을 설정합니다.

규정 준수

일반 보안 기능

몇 가지 구성 요소는 다음과 같은 다른 방법으로도 데이터를 보호합니다.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

대부분의 Azure 서비스에서는 사용한 만큼만 비용을 지불하여 비용을 절감할 수 있습니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

주요 작성자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 단계

완전히 배포 가능한 아키텍처:

Data Factory 솔루션

Analytics 솔루션

의료 솔루션