Azure의 의료 데이터 컨소시엄

Azure Data Factory
Azure Data Lake Storage
Azure Data Share
Azure Databricks
Azure SQL Database

데이터 컨소시엄에 대한 이 솔루션은 Azure 구성 요소를 사용합니다. 이는 다음 목표를 충족합니다.

  • 여러 조직에서 데이터를 공유할 수 있는 방법을 제공합니다.
  • 데이터 오케스트레이션 활동을 중앙 집중화합니다.
  • 데이터 보안을 보장합니다.
  • 환자 프라이버시를 보장합니다.
  • 데이터 상호 운용성을 지원합니다.
  • 특정 조직의 요구 사항을 충족하는 사용자 지정 옵션을 제공합니다.

아키텍처

Architecture diagram showing how members of a consortium share data.

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

  1. 원시 데이터는 온-프레미스 및 타사 원본에서 발생합니다. 컨소시엄의 멤버는 이 데이터를 Azure Data Share의 이러한 스토리지 서비스에 로드합니다.

  2. 컨소시엄은 멤버에게 데이터를 공유하도록 요청합니다. 멤버는 데이터 생산자로서 스냅샷을 공유하거나 현재 위치 공유를 사용할 수 있습니다.

  3. 컨소시엄은 데이터 소비자로서 공유 멤버 데이터를 받습니다. 이 데이터는 추가 변환을 위해 컨소시엄 데이터 공유의 Data Lake Storage에 들어갑니다.

  4. Azure Data FactoryAzure Databricks는 멤버 데이터를 정리하고 일반적인 형식으로 변환합니다.

  5. 컨소시엄은 멤버 데이터를 결합하고 서비스에 저장합니다. 데이터의 구조와 볼륨에 따라 가장 적합한 스토리지 서비스 유형이 결정됩니다. 가능한 항목은 다음과 같습니다.

    • Azure Synapse Analytics
    • Azure SQL Database
    • Azure Data Lake Storage
    • Azure Data Explorer
  6. 컨소시엄은 데이터 공유 생산자로서 멤버에게 데이터 수신을 요청합니다. 멤버는 스냅샷 데이터 또는 현재 위치 공유 데이터를 수락할 수 있습니다.

  7. 멤버는 데이터 소비자로서 공유 데이터를 받습니다. 데이터는 연구 및 분석을 위해 멤버 데이터 저장소에 들어갑니다.

시스템 전체에서:

구성 요소

이 솔루션은 다음과 같은 구성 요소를 사용합니다.

의료 플랫폼

  • EHR(Electronic Health Record)은 환자에 대한 실시간 정보의 디지털 버전입니다.

  • FHIR(Fast Healthcare Interoperability Resources)은 HL7(Health Level Seven International)이 게시하는 의료 데이터 교환을 위한 표준입니다.

  • IoMT(의료 사물 인터넷)는 온라인 컴퓨터 네트워크를 통해 IT 시스템에 연결하는 의료 디바이스 및 앱의 컬렉션입니다.

  • 게놈학 데이터는 유전자가 서로 상호 작용하는 방법과 환경에 대한 정보를 제공합니다.

  • 영상 데이터에는 영상의학, 심혈관 영상, 방사선 치료 및 기타 디바이스가 생성하는 영상이 포함됩니다.

  • CRM(고객 관계 관리), 청구 및 타사 시스템은 환자에 대한 데이터를 제공합니다.

Azure 구성 요소

  • Azure Data Share는 여러 조직에서 데이터를 안전하게 공유할 수 있는 방법을 제공합니다. 이 서비스를 사용하면 데이터 공급자가 공유하는 데이터를 계속 제어할 수 있습니다. 어떤 시간에 어떤 데이터를 공유했는지 간편하게 관리하고 모니터링할 수 있습니다. 또한 Data Share를 사용하면 다양한 멤버의 데이터를 결합하여 분석 및 AI 시나리오를 쉽게 보강할 수 있습니다.

  • Azure Synapse Analytics는 데이터 웨어하우스 및 빅 데이터 시스템을 위한 분석 서비스입니다. 이 제품을 사용하면 서버리스, 주문형 리소스 또는 프로비전된 리소스를 사용하여 데이터를 쿼리할 수 있습니다. Azure Synapse Analytics는 많은 양의 정형 데이터에서 잘 작동합니다.

  • Azure SQL Database는 완전 관리형 PaaS(Platform as a Service) 데이터베이스 엔진입니다. AI 기반 자동화된 기능을 사용하면 SQL Database는 업그레이드, 패치, 백업, 모니터링과 같은 데이터베이스 관리 기능을 처리합니다. 이 서비스는 정형 데이터에 적합합니다.

  • Data Lake Storage는 고성능 분석 워크로드를 위한 대량으로 확장 가능하고 안전한 데이터 레이크입니다. 이 서비스는 수백 기가비트의 처리량을 유지하면서 수 페타바이트의 정보를 관리할 수 있습니다. Data Lake Storage는 여러 멤버의 정형 데이터 및 비정형 데이터를 한 위치에 저장하는 방법을 제공합니다.

  • Azure Data Explorer는 빠른 완전 관리형 데이터 분석 서비스입니다. 이 서비스를 사용하여 대량의 데이터에 대한 실시간 분석을 수행할 수 있습니다. Azure Data Explorer는 애플리케이션, 웹 사이트, IoT 디바이스 및 기타 원본에서 다양한 데이터 스트림을 처리할 수 있습니다. Azure Data Explorer는 스트리밍 원격 분석 및 로그 데이터의 현재 위치 공유에 적합합니다.

  • Azure Data Factory는 하이브리드 데이터 통합 서비스입니다. 이 완전 관리형 서버리스 솔루션을 데이터 통합 및 변환 워크플로에 사용할 수 있습니다. Data Factory는 코드 없는 UI와 사용하기 쉬운 모니터링 패널을 제공합니다. 이 솔루션에서 Data Factory 파이프라인은 별개의 멤버 데이터 공유에서 데이터를 수집합니다.

  • Azure Databricks는 데이터 분석 플랫폼입니다. 최신 Apache Spark 분산 처리 시스템에 기반을 둔 Azure Databricks는 오픈 소스 라이브러리와의 원활한 통합을 지원합니다. 이 솔루션은 Azure Databricks Notebook을 사용하여 모든 멤버 데이터를 공통 형식으로 변환합니다.

  • Microsoft Entra ID 는 다중 테넌트 클라우드 기반 ID 및 액세스 관리 서비스입니다.

  • Azure Key Vault는 API 키, 암호, 인증서 및 비밀화 키와 같은 비밀을 안전하게 저장하고 액세스를 제어합니다. 이 클라우드 서비스는 보안 인증서도 관리합니다.

  • Azure Pipelines는 코드 프로젝트를 자동으로 빌드하고 테스트합니다. 이 Azure DevOps 서비스는 CI(연속 통합) 및 CD(지속적인 업데이트)를 결합합니다. Azure Pipelines는 이러한 사례를 사용하여 지속적으로 코드를 테스트하고 빌드하고 모든 대상에 제공합니다.

  • 클라우드용 Defender는 하이브리드 클라우드 워크로드 전반에 걸쳐 통합 보안 관리 및 고급 위협 보호를 제공합니다.

대안

Data Share의 경우 데이터 스토리지에 대한 많은 대안이 존재합니다. 서비스 선택은 공유 방법 및 볼륨과 데이터 형식에 따라 달라집니다.

  • 일괄 처리 데이터의 스냅샷 공유의 경우 다음 서비스를 사용합니다.

    • Azure Synapse Analytics
    • SQL Database
    • Data Lake Storage
    • Azure Blob Storage

    다양한 유형의 데이터를 결합하는 방법에 대한 자세한 내용은 최신 데이터 웨어하우스 아키텍처를 참조하세요.

  • 스트리밍 원격 분석 및 로그 데이터의 현재 위치 공유에는 Azure Data Explorer를 사용하세요. 다양한 원본의 데이터를 분석하는 방법에 대한 자세한 내용은 Azure Data Explorer 대화형 분석을 참조하세요.

  • 일부 데이터 세트는 크거나 비관계형입니다. 일부는 표준화된 형식의 데이터를 포함하지 않습니다. 이러한 유형의 데이터 세트의 경우 Data Share와 데이터를 교환할 때 Azure Synapse Analytics 및 SQL Database보다는 Blob Storage 또는 Azure Data Lake Storage가 더 적합합니다. 의료 데이터를 효율적으로 저장하는 방법에 대한 자세한 내용은 의료 데이터 스토리지 솔루션을 참조하세요.

Data Share가 옵션이 아닌 경우 VPN(가상 사설망)을 대신 고려합니다. 사이트 간 VPN을 사용하여 멤버와 컨소시엄 데이터 저장소 간에 데이터를 전송할 수 있습니다.

시나리오 정보

기존의 임상 시험은 복잡하고 시간이 오래 걸리며 비용이 많이 들 수 있습니다. 이러한 문제를 해결하기 위해 점점 더 많은 의료 조직이 파트너를 맺고 임상 시험 수행을 위한 데이터 컨소시엄을 구축하고 있습니다.

데이터 컨소시엄은 다음과 같은 여러 가지 방면에서 의료에 도움이 됩니다.

  • 연구 데이터를 제공합니다.
  • 새로운 매출원을 제공합니다.
  • 데이터에 대한 빠른 액세스를 제공하여 비용 효율적인 규제 결정을 내리도록 합니다.
  • 혁신을 가속화하여 환자를 더 안전하고 건강하게 만듭니다.

잠재적인 사용 사례

다양한 유형의 의료 전문가가 이 솔루션을 활용할 수 있습니다.

  • 환자 결과와 같은 실제 관찰 데이터를 사용하여 치료를 결정하는 조직.
  • 맞춤 의학 또는 정밀 의학을 전문으로 하는 의사.
  • 환자 데이터에 쉽게 액세스해야 하는 원격 진단 공급자.
  • 게놈 데이터로 연구하는 연구원.

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

이 솔루션의 기술은 대부분의 회사가 가지고 있는 보안, 확장성 및 가용성에 대한 요구 사항을 충족합니다.

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.

의료 정보의 민감도 때문에 여러 구성 요소가 데이터 보안에 중요한 역할을 합니다.

  • Data Share의 보안 기능은 다음과 같은 방법으로 데이터를 보호합니다.

    • 미사용 데이터 암호화. 여기서 기본 데이터 저장소는 미사용 데이터 암호화를 지원합니다.
    • TLS(전송 계층 보안) 1.2를 사용하는 전송 중인 데이터 암호화.
    • 데이터 공유에 대한 메타데이터를 미사용 상태와 전송 상태에서 암호화.
    • 공유 고객 데이터의 콘텐츠를 저장하지 않음.
  • Azure Synapse Analytics는 포괄적인 보안 모델을 제공합니다. 세분화된 컨트롤을 사용하여 단일 셀에서 전체 데이터베이스에 이르기까지 모든 수준에서 데이터를 보호할 수 있습니다.

  • SQL Database는 계층화된 접근 방식을 사용하여 고객 데이터를 보호합니다. 이 전략은 다음 영역에 적용됩니다.

    • 네트워크 보안
    • 액세스 관리
    • 위협 보호
    • 정보 보호
  • Data Lake Storage는 액세스 제어를 제공합니다. 이 모델은 다음과 같은 유형의 컨트롤을 지원합니다.

    • Azure RBAC(역할 기반 액세스 제어)
    • POSIX(Portable Operating System Interface) ACL(액세스 제어 목록)
  • Azure Data Explorer는 다음과 같은 방법으로 데이터를 보호합니다.

    • Azure 리소스에 Microsoft Entra ID 관리 ID를 사용합니다.
    • RBAC를 사용하여 업무를 분리하고 액세스를 제한합니다.
    • Azure Data Explorer 외부의 네트워크 세그먼트에서 발생하는 트래픽을 차단합니다.
    • Azure Disk Encryption을 사용하여 데이터를 보호하고 약정을 충족할 수 있게 해줍니다. 이 서비스는 가상 머신 데이터 디스크 및 OS에 대한 볼륨 암호화를 제공합니다. Azure Disk Encryption은 Microsoft 관리형 키 또는 고객 관리형 키를 사용하여 비밀을 암호화하는 Key Vault와도 통합됩니다.

가용성

이 솔루션은 단일 지역 배포를 사용합니다. 일부 시나리오에서는 고가용성, 재해 복구 또는 근접성을 위해 다중 지역 배포가 필요합니다. 이러한 경우 다음 서비스는 고가용성을 위해 Azure 지역 쌍을 제공합니다.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

이 솔루션의 가격 책정은 다음과 같은 몇 가지 요인에 따라 달라집니다.

  • 선택한 서비스
  • 시스템의 용량 및 처리량
  • 데이터에 사용하는 변환
  • 비즈니스 연속성 수준
  • 재해 복구 수준

자세한 내용은 가격 책정 정보를 참조하세요.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

주요 작성자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 단계

다음 사항을 명확히 하여 솔루션을 사용자 지정하는 방법을 결정합니다.

  • 사용할 수 있는 데이터 원본
  • 각 데이터 원본의 위치
  • 멤버가 원본 데이터를 수신하는 데 사용할 수 있는 Azure 서비스
  • 멤버가 컨소시엄과 공유할 수 있는 데이터
  • 멤버가 데이터를 공유하는 방법: 스냅샷으로 일괄 공유 또는 현재 위치 공유를 사용하여 데이터 스트림으로 공유
  • 컨소시엄이 공유 데이터를 수신하는 데 사용할 수 있는 Azure 서비스
  • 멤버 데이터의 형식 및 정리 또는 변환이 필요한지 여부
  • 컨소시엄이 멤버와 공유할 수 있는 데이터

제품 설명서: