기존 및 자동화된 Machine Learning 기술을 사용하여 병원 재입원 예측

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

이 아키텍처는 모델 개발, 배포 및 사용 경로를 가속화하기 위해 클라우드에서 예측 상태 분석 프레임워크를 제공합니다.

아키텍처

이 프레임워크는 데이터 수집, 스토리지, 데이터 처리, 분석 및 모델 배포를 위해 네이티브 Azure 분석 서비스를 사용합니다.

Diagram demonstrates the architecture of a multi-tier app.

이 아키텍처의 Visio 파일을 다운로드합니다.

워크플로

이 아키텍처의 워크플로는 참가자의 역할에 대해 설명합니다.

  1. 데이터 엔지니어: 원본 시스템에서 데이터를 수집하고 데이터 파이프라인을 오케스트레이션하여 원본에서 대상으로 데이터를 이동하는 작업을 담당합니다. 원시 데이터에 대한 데이터 변환을 수행할 수도 있습니다.

    • 이 시나리오에서는 이전의 병원 재입원 데이터가 온-프레미스 SQL Server 데이터베이스에 저장됩니다.
    • 예상 출력은 클라우드 기반 스토리지 계정에 저장된 재입원 데이터입니다.
  2. 데이터 과학자: 대상 스토리지 계층의 데이터에 대한 다양한 작업을 수행하여 모델 예측을 준비합니다. 이 작업에는 정리, 기능 엔지니어링 및 데이터 표준화가 포함됩니다.

    • 정리: 데이터를 미리 처리하고, null 값을 제거하며, 불필요한 열을 삭제하는 등의 작업을 수행합니다. 이 시나리오에서는 누락된 값이 너무 많은 열을 삭제합니다.
    • 기능 엔지니어링:
      1. 원하는 출력을 예측하는 데 필요한 입력을 결정합니다.
      2. 의사와 간호사와 같은 전문가와 이야기하여 재입원 예측 변수를 결정합니다. 예를 들어, 실제 증거는 과체중인 당뇨병 환자가 병원 재입원의 예측 변수라는 것을 암시할 수 있습니다.
    • 데이터 표준화:
      1. 데이터의 위치 및 가변성을 특성화하여 기계 학습 작업을 준비합니다. 특성에는 데이터 분포, 왜도 및 첨도가 포함되어야 합니다.
        • 왜도는 분포의 모양이 어떤가요?와 같은 질문에 대한 응답입니다.
        • 첨도는 분포의 두께 또는 무거움의 측정은 무엇인가요?와 같은 질문에 대한 응답입니다.
      2. 데이터 세트의 변칙을 식별하고 수정합니다. 예측 모델은 정상적인 분포를 사용하여 데이터 세트에서 수행되어야 합니다.
      3. 예상 출력은 다음과 같은 학습 데이터 세트입니다.
        • 이는 배포할 준비가 된 만족스러운 예측 모델을 만드는 데 사용할 수 있습니다.
        • AutoML(자동화된 모델 예측)을 위해 시민 데이터 과학자에게 부여할 수 있는 모델입니다.
  3. 시민 데이터 과학자: 데이터 과학자의 학습 데이터를 기반으로 하는 예측 모델을 빌드합니다. 시민 데이터 과학자는 예측 모델을 만드는 데 많은 코딩 기술이 필요하지 않은 AutoML 기능을 사용할 가능성이 높습니다.

    예상 출력은 배포할 준비가 된 만족스러운 예측 모델입니다.

  4. BI(비즈니스 인텔리전스) 분석가: 데이터 엔지니어가 생성하는 원시 데이터에 대한 운영 분석을 수행합니다. BI 분석가는 비정형 데이터에서 관계형 데이터를 만들고, SQL 스크립트를 작성하며, 대시보드를 만드는 데 관여할 수 있습니다.

    예상 출력은 관계형 쿼리, BI 보고서 및 대시보드입니다.

  5. MLOps 엔지니어: 데이터 과학자 또는 시민 데이터 과학자가 제공하는 모델을 프로덕션에 투입하는 책임이 있습니다.

    예상 출력은 프로덕션에 대해 준비되고 재현 가능한 모델입니다.

이 목록은 워크플로의 어느 시점에서든 의료 데이터와 상호 작용할 수 있는 모든 잠재적 역할에 대한 포괄적인 보기를 제공하지만 필요에 따라 역할이 통합되거나 확장될 수 있습니다.

구성 요소

  • Azure Data Factory는 온-프레미스 시스템에서 Azure로 데이터를 이동하여 다른 Azure 데이터 서비스와 작업할 수 있는 오케스트레이션 서비스입니다. Pipelines는 데이터 이동에 사용되며, 매핑 데이터 흐름은 ETL(추출, 변환, 로드) 및 ELT(추출, 로드, 변환)와 같은 다양한 변환 작업을 수행하는 데 사용됩니다. 이 아키텍처에서 데이터 엔지니어는 Data Factory를 사용하여 이전의 병원 재입원 데이터를 온-프레미스 SQL Server에서 클라우드 스토리지로 복사하는 파이프라인을 실행합니다.
  • Azure Databricks는 데이터 엔지니어링 및 ML 워크로드에 사용되는 Spark 기반 분석 및 기계 학습 서비스입니다. 이 아키텍처에서 데이터 엔지니어는 Databricks를 통해 Data Factory 파이프라인을 호출하여 Databricks Notebook을 실행합니다. Notebook은 초기 데이터 정리 및 기능 엔지니어링 작업을 처리하기 위해 데이터 과학자에 의해 개발되었습니다. 데이터 과학자는 추가 Notebook에 코드를 작성하여 데이터를 표준화하고 예측 모델을 빌드 및 배포할 수 있습니다.
  • Azure Data Lake Storage는 고성능 분석 워크로드를 위한 대규모의 확장 가능하고 안전한 스토리지 서비스입니다. 이 아키텍처에서 데이터 엔지니어는 Data Lakes Storage를 사용하여 Azure에 로드되는 온-프레미스 데이터에 대한 초기 랜딩 존과 학습 데이터의 최종 랜딩 존을 정의합니다. 원시 또는 최종 형식의 데이터는 다양한 다운스트림 시스템에서 사용할 준비가 되었습니다.
  • Azure Machine Learning은 기계 학습 모델을 학습, 배포, 자동화, 관리 및 추적하는 데 사용되는 공동 작업 환경입니다. AutoML(자동화된 기계 학습)은 ML 모델 개발에 관련된 시간 소모적이고 반복적인 작업을 자동화하는 기능입니다. 데이터 과학자는 Machine Learning을 사용하여 Databricks에서 ML 실행을 추적하고 AutoML 모델을 만들어 데이터 과학자의 ML 모델에 대한 성능 벤치마크 역할을 합니다. 시민 데이터 과학자는 이 서비스를 사용하여 기계 학습 알고리즘에 대한 자세한 지식 없이도 AutoML을 통해 학습 데이터를 신속하게 실행하여 모델을 생성합니다.
  • Azure Synapse Analytics는 데이터 통합, 엔터프라이즈 데이터 웨어하우징 및 빅 데이터 분석을 통합하는 분석 서비스입니다. 사용자는 대규모로 서버리스 또는 전용 리소스를 사용하여 데이터를 자유롭게 쿼리할 수 있습니다. 이 아키텍처에서는 다음을 수행합니다.
    • 데이터 엔지니어는 Synapse Analytics를 사용하여 데이터 레이크의 데이터에서 관계형 테이블을 쉽게 만들어 운영 분석의 기초를 마련합니다.
    • 데이터 과학자는 이를 사용하여 데이터 레이크의 데이터를 신속하게 쿼리하고 Spark Notebook을 사용하여 예측 모델을 개발합니다.
    • BI 분석가는 이를 사용하여 친숙한 SQL 구문을 사용하여 쿼리를 실행합니다.
  • Microsoft Power BI는 소프트웨어 서비스, 앱 및 커넥터의 컬렉션으로, 함께 작동하여 무관한 데이터 원본을 일관되고 시각적으로 몰입도 높은 대화형 인사이트로 변환합니다. BI 분석가는 Power BI를 사용하여 각 환자의 자택 위치 및 가장 가까운 병원의 지도와 같은 데이터에서 시각화를 개발합니다.
  • Microsoft Entra ID 는 클라우드 기반 ID 및 액세스 관리 서비스입니다. 이 아키텍처에서는 Azure 서비스에 대한 액세스를 제어합니다.
  • Azure Key Vault는 키, 암호 및 인증서와 같은 비밀에 대한 보안 저장소를 제공하는 클라우드 서비스입니다. Key Vault는 Databricks가 데이터 레이크에 대한 쓰기 액세스 권한을 얻기 위해 사용하는 비밀을 보유합니다.
  • 클라우드용 Microsoft Defender는 데이터 센터의 보안 태세를 강화하고 클라우드 및 온-프레미스의 하이브리드 워크로드에서 고급 위협 방지를 제공하는 통합 인프라 보안 관리 시스템입니다. 이를 사용하여 Azure 환경에 대한 보안 위협을 모니터링할 수 있습니다.
  • AKS(Azure Kubernetes Service)는 컨테이너화된 애플리케이션을 배포하고 관리하기 위한 완전 관리형 Kubernetes 서비스입니다. AKS는 운영 오버헤드를 Azure로 오프로드하여 Azure에서 관리되는 AKS 클러스터의 배포를 간소화합니다.

대안

  • 데이터 이동: Databricks를 사용하여 온-프레미스 시스템에서 데이터 레이크로 데이터를 복사할 수 있습니다. 일반적으로 Databricks는 의료 기기의 원격 분석과 같이 스트리밍 또는 실시간 요구 사항이 있는 데이터에 적합합니다.

  • Machine Learning: H2O.ai, DataRobot, Dataiku 및 기타 공급업체는 Machine Learning AutoML과 유사한 자동화된 기계 학습 기능을 제공합니다. 이러한 플랫폼을 사용하여 Azure 데이터 엔지니어링 및 기계 학습 활동을 보완할 수 있습니다.

시나리오 정보

이 아키텍처는 1999년부터 2008년까지 10년 동안 130개 미국 병원의 공개적으로 사용 가능한 데이터를 사용하여 당뇨병 환자의 병원 재입원을 예측하기 위한 샘플 엔드 투 엔드 워크플로를 나타냅니다. 먼저 예측 능력을 위한 이진 분류 알고리즘을 평가한 후 자동화된 ML을 사용하여 생성된 예측 모델에 대해 벤치마킹합니다. 자동화된 ML이 불균형 데이터를 수정할 수 없는 경우에는 대체 기술을 적용해야 합니다. 배포 및 사용을 위해 최종 모델이 선택됩니다.

의료 및 생명 과학 조직은 환자와 간병인에게 보다 개인화된 환경을 제공하기 위해 노력함에 따라 레거시 시스템의 데이터를 사용하여 관련성이 높고 정확하며 시기 적절한 예측 통찰력을 제공해야 합니다. 데이터 수집은 기존의 운영 시스템 및 EHR(전자 건강 기록)을 넘어 소비자 건강 앱, 피트니스 웨어러블, 스마트 의료 기기의 구조화되지 않은 형태로 점점 더 많아지고 있습니다. 조직은 이 데이터를 신속하게 중앙 집중화하고 데이터 과학 및 기계 학습의 기능을 활용하여 고객과의 관련성을 유지할 수 있는 기능이 필요합니다.

이러한 목표를 달성하기 위해 의료 및 생명 과학 조직은 다음을 목표로 해야 합니다.

  • 예측 분석이 의료 제공자, 병원 관리자, 의약품 제조업체 등에 실시간 가치를 제공할 수 있는 데이터 원본을 만듭니다.
  • 데이터 과학 및 기계 학습 기술이 없는 업계 SME(실무 전문가)를 수용합니다.
  • 데이터 과학 및 ML(기계 학습) SME에게 예측 모델을 효율적이고 정확하게 대규모로 만들고 배포하는 데 필요한 유연한 도구를 제공합니다.

잠재적인 사용 사례

  • 병원 재입원 예측
  • ML 기반 이미징을 통해 환자 진단 가속화
  • 의사 노트에 대한 텍스트 분석 수행
  • IoMT(의료 사물 인터넷)에서 원격 환자 모니터링 데이터를 분석하여 부작용 예측

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

가용성

많은 의료 기관에서 실시간 임상 데이터 및 인사이트를 제공하는 것이 중요합니다. 가동 중지 시간을 최소화하고 데이터를 안전하게 유지하는 방법은 다음과 같습니다.

성능

Data Factory 자체 호스팅 통합 런타임은 고가용성 및 확장성을 위해 스케일 업할 수 있습니다.

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.

의료 데이터에는 중요한 PHI(보호된 건강 정보) 및 개인 정보가 포함되는 경우가 많습니다. 이 데이터를 보호하는 데 사용할 수 있는 리소스는 다음과 같습니다.

  • Data Lake Storage는 Azure RBAC(역할 기반 액세스 제어) 및 ACL(액세스 제어 목록)을 사용하여 액세스 제어 모델을 만듭니다.
  • Synapse Analytics는 데이터베이스, 열 및 행 수준에서 다양한 액세스 및 보안 제어 를 제공합니다. 셀 수준 및 데이터 암호화를 통해 데이터를 보호할 수도 있습니다.
  • Data Factory는 하이브리드 및 클라우드 시나리오 모두에서 데이터 이동을 위한 기본 보안 인프라를 제공합니다.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

이 솔루션의 가격 책정은 다음을 기반으로 합니다.

  • 사용되는 Azure 서비스
  • 데이터 볼륨
  • 용량 및 처리량 요구 사항
  • 필요한 ETL/ELT 변환
  • 기계 학습 작업을 수행하는 데 필요한 컴퓨팅 리소스

Azure 가격 계산기를 사용하여 비용을 예측할 수 있습니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

주요 작성자:

  • Matt Hansen | 선임 클라우드 솔루션 설계자
  • Sandy Su | 클라우드 솔루션 설계자

다음 단계

Azure 서비스

의료 솔루션