규제된 데이터에 대한 보안 연구 환경

Azure Data Science Virtual Machines
Azure Machine Learning
Azure Data Factory

이 아키텍처는 연구원이 더 높은 수준의 제어 및 데이터 보호 하에 중요한 데이터에 액세스할 수 있도록 하기 위한 안전한 연구 환경을 보여 줍니다. 이 문서는 규정 준수 또는 기타 엄격한 보안 요구 사항이 적용되는 조직에 적용됩니다.

아키텍처

보안 연구 환경의 다이어그램

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

  1. 데이터 소유자는 데이터 세트를 공용 Blob Storage 계정에 업로드합니다. 데이터는 Microsoft 관리형 키를 사용하여 암호화됩니다.

  2. Azure Data Factory는 트리거를 사용하여 업로드된 데이터 세트를 보안 제어가 있는 다른 스토리지 계정의 특정 위치(가져오기 경로)로 복사하기 시작합니다. 스토리지 계정은 프라이빗 엔드포인트를 통해서만 연결할 수 있습니다. 또한 제한된 권한을 가진 서비스 주체가 액세스합니다. Data Factory는 데이터 세트를 변경할 수 없도록 원본 복사본을 삭제합니다.

  3. 연구원은 Azure Virtual Desktop을 권한 있는 Jumpbox로 사용하는 스트리밍 애플리케이션을 통해 보안 환경에 액세스합니다.

  4. 보안 스토리지 계정의 데이터 세트는 연구 작업을 위해 보안 네트워크 환경에서 프로비저닝된 Data Science VM에 제공됩니다. 대부분의 데이터 준비는 해당 VM에서 수행됩니다.

  5. 보안 환경에는 기계 학습 모델 학습, 배포, 자동화 및 관리와 같은 Azure Machine Learning 기능에 대한 사용자의 프라이빗 엔드포인트를 통해 데이터 세트에 액세스할 수 있는 Azure Machine Learning 컴퓨팅이 있습니다. 이 시점에서 규제 지침을 충족하는 모델이 만들어집니다. 모든 모델 데이터는 개인 정보를 제거하여 식별할 수 없습니다.

  6. 모델 또는 식별할 수 없는 데이터는 보안 스토리지(내보내기 경로)의 별도 위치에 저장됩니다. 새 데이터가 내보내기 경로에 추가되면 논리 앱이 트리거됩니다. 이 아키텍처에서는 논리 앱에 데이터가 전송되지 않으므로 논리 앱이 보안 환경 외부에 있습니다. 유일한 기능은 알림을 보내고 수동 승인 프로세스를 시작하는 것입니다.

    앱은 내보내기 위해 대기 중인 데이터 검토를 요청하는 승인 프로세스를 시작합니다. 수동 검토자는 중요한 데이터가 내보내지지 않도록 합니다. 검토 프로세스 후에 데이터가 승인되거나 거부됩니다.

    참고

    반출 시 승인 단계가 필요하지 않은 경우 논리 앱 단계를 생략할 수 있습니다.

  7. 식별할 수 없는 데이터가 승인되면 Data Factory 인스턴스로 전송됩니다.

  8. Data Factory는 외부 연구원이 내보낸 데이터 및 모델에 액세스할 수 있도록 별도의 컨테이너에 있는 공용 스토리지 계정으로 데이터를 이동합니다. 또는 보안 수준이 낮은 환경에서 다른 스토리지 계정을 프로비저닝할 수 있습니다.

구성 요소

이 아키텍처는 필요에 따라 리소스 크기를 조정하는 여러 Azure 서비스로 구성됩니다. 서비스 및 해당 역할은 아래에 설명되어 있습니다. 이러한 서비스를 시작하기 위한 제품 설명서 링크는 다음 단계를 참조하세요.

핵심 워크로드 구성 요소

연구 데이터를 이동하고 처리하는 핵심 구성 요소는 다음과 같습니다.

  • Azure DSVM(Data Science Virtual Machine) 데이터 분석 및 기계 학습에 사용되는 도구로 구성된 VM입니다.

  • Azure Machine Learning: 기계 학습 모델을 학습, 배포, 자동화 및 관리하고 기계 학습 컴퓨팅 리소스의 할당 및 사용을 관리하는 데 사용됩니다.

  • Azure Machine Learning 컴퓨팅: 기계 학습 및 AI 모델을 학습 및 테스트하는 데 사용되는 노드 클러스터입니다. 컴퓨팅은 자동 조정 옵션을 기반으로 요청 시 할당됩니다.

  • Azure Blob 스토리지: 두 개의 인스턴스가 있습니다. 공용 인스턴스는 데이터 소유자가 업로드한 데이터를 임시로 저장하는 데 사용됩니다. 또한, 모델링 후 비식별화된 데이터를 별도의 컨테이너에 저장합니다. 두 번째는 프라이빗 인스턴스입니다. 학습 스크립트에서 사용하는 Machine Learning에서 학습 및 테스트 데이터 세트를 수신합니다. 스토리지는 Machine Learning 컴퓨팅 클러스터의 각 노드에 가상 드라이브로 탑재됩니다.

  • Azure Data Factory: 보안 수준이 서로 다른 스토리지 계정 간에 데이터를 자동으로 이동하여 업무를 분리합니다.

  • Azure Virtual Desktop은 필요에 따라 스트리밍 애플리케이션과 전체 데스크톱이 있는 보안 환경의 리소스에 액세스할 수 있는 Jumpbox로 사용됩니다. 또는 Azure Bastion을 사용할 수 있습니다. 그러나 두 옵션 간의 보안 제어 차이점을 명확히 이해해야 합니다. Virtual Desktop에는 다음과 같은 몇 가지 장점이 있습니다.

    • Microsoft Visual Studio Code와 같은 앱을 스트리밍하여 기계 학습 컴퓨팅 리소스에 대해 Notebook을 실행하는 기능.
    • 복사, 붙여넣기 및 화면 캡처를 제한하는 기능.
    • DSVM에 대한 Microsoft Entra 인증 지원.
  • Azure Logic Apps는 수동 승인 프로세스의 트리거 및 릴리스 부분을 모두 개발하기 위한 자동화된 로우코드 워크플로를 제공합니다.

포스처 관리 구성 요소

이러한 구성 요소는 워크로드 및 해당 환경의 상태를 지속적으로 모니터링합니다. 목적은 위험이 발견되는 즉시 발견하고 위험을 완화하는 것입니다.

  • 클라우드용 Microsoft Defender는 구현의 전반적인 보안 태세를 평가하고 규정 준수를 위한 증명 메커니즘을 제공하는 데 사용됩니다. 이전에는 감사 또는 평가 단계에서 발견했던 문제를 조기에 발견할 수 있습니다. 기능을 사용하여 보안 점수 및 규정 준수 점수와 같은 진행 상황을 추적합니다.

  • Microsoft Sentinel 은 SIEM(보안 정보 및 이벤트 관리) 및 보안 오케스트레이션 자동화 응답(SOAR(보안 오케스트레이션, 자동화 및 응답) 솔루션입니다. 다양한 원본의 로그 및 경고를 중앙에서 보고 고급 AI 및 보안 분석을 활용하여 위협을 검색, 헌팅, 예방 및 대응할 수 있습니다.

  • Azure Monitor는 전체 환경에 대한 가시성을 제공합니다. 추가 구성 없이 대부분의 Azure 리소스에서 메트릭, 활동 로그 및 진단 로그를 봅니다. 클라우드용 Microsoft Defender와 같은 관리 도구도 Azure Monitor에 로그 데이터를 푸시합니다.

거버넌스 구성 요소

  • Azure Policy를 사용하면 조직의 표준을 적용하고 규정 준수를 대규모로 평가할 수 있습니다.

대안

  • 이 솔루션은 외부 연구원이 내보낸 데이터 및 모델에 액세스할 수 있도록 Data Factory를 사용하여 데이터를 별도의 컨테이너에 있는 공용 스토리지 계정으로 이동합니다. 또는 보안 수준이 낮은 환경에서 다른 스토리지 계정을 프로비저닝할 수 있습니다.
  • 이 솔루션은 Azure Virtual Desktop을 점프 상자로 사용하여 스트리밍 애플리케이션 및 전체 데스크톱을 통해 보안 환경의 리소스에 액세스합니다. 또는 Azure Bastion을 사용할 수 있습니다. 그러나 Virtual Desktop에는 앱 스트리밍, 복사/붙여넣기 및 화면 캡처 제한, AAC 인증 지원 등의 몇 가지 장점이 있습니다. 오프라인 학습을 위해 로컬로 지점 및 사이트 VPN을 구성하는 것도 고려할 수 있습니다. 또한 워크스테이션에 여러 VM을 사용하면 비용을 절감하는 데 도움이 됩니다.
  • 미사용 데이터를 보호하기 위해 이 솔루션은 강력한 암호화를 사용하여 Microsoft 관리형 키로 모든 Azure Storage를 암호화합니다. 또는 고객 관리형 키를 사용할 수 있습니다. 키는 관리형 키 저장소에 저장해야 합니다.

시나리오 정보

잠재적인 사용 사례

이 아키텍처는 원래 HIPAA(건강 보험 이식성 및 책임법) 요구 사항을 가진 고등 교육 연구 기관을 위해 만들어졌습니다. 그러나 이 디자인은 연구 관점에서 데이터를 격리해야 하는 모든 산업에서 사용할 수 있습니다. 일부 사례:

  • NIST(National Institute of Standards and Technology) 요구 사항에 따라 규제된 데이터를 처리하는 산업
  • 내·외부 연구원과 협업하는 의료 센터
  • 은행 및 금융 업무

지침을 따르면 연구 데이터에 대한 완전한 제어를 유지하고, 직무를 분리하고, 엄격한 규정 준수 표준을 충족하는 동시에 연구 중심 워크로드와 관련된 데이터 소유자, 연구원 및 승인자와 같은 일반적인 역할 간의 협업을 제공할 수 있습니다.

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.

이 아키텍처의 주요 목표는 보안 영역에서의 데이터 유출을 엄격하게 제한하는 안전하고 신뢰할 수 있는 연구 환경을 제공하는 것입니다.

네트워크 보안

연구 데이터 세트를 저장, 테스트 및 학습하는 데 사용되는 Azure 리소스는 보안 환경에서 프로비저닝됩니다. 해당 환경은 액세스를 제한하는 NSG(네트워크 보안 그룹) 규칙이 기본 있는 Azure 가상 네트워크입니다.

  • 공용 인터넷 및 가상 네트워크 내의 인바운드 및 아웃바운드 액세스.

  • 특정 서비스 및 포트에 대한 액세스. 예를 들어 이 아키텍처는 Azure 서비스(예: Azure Monitor)에 필요한 포트 범위를 제외한 모든 포트 범위를 차단합니다. 서비스 태그 및 해당 서비스의 전체 목록은 가상 네트워크 서비스 태그에서 찾을 수 있습니다.

    또한 승인된 액세스 방법으로 제한된 포트에서 AVD(Azure Virtual Desktop)를 사용하여 가상 네트워크에서 액세스할 수 있으며 다른 모든 트래픽은 거부됩니다. 이 환경과 비교할 때 AVD를 사용하는 다른 가상 네트워크는 상대적으로 열려 있습니다.

보안 환경의 기본 Blob Storage는 공용 인터넷에 있지 않습니다. 프라이빗 엔드포인트 연결 및 Azure Storage 방화벽을 통해서만 가상 네트워크 내에서 액세스할 수 있습니다. 클라이언트가 Azure 파일 공유에 연결할 수 있는 네트워크를 제한하는 데 사용됩니다.

이 아키텍처는 보안 환경에 있는 기본 데이터 저장소에 대해 자격 증명 기반 인증을 사용합니다. 이 경우 구독 ID 및 토큰 권한 부여와 같은 연결 정보가 키 자격 증명 모음에 저장됩니다. 또 다른 옵션은 Azure 계정을 사용하여 Storage 서비스에 대한 액세스 권한이 있는지 확인하는 ID 기반 데이터 액세스를 생성하는 것입니다. ID 기반 데이터 액세스 시나리오에서는 인증 자격 증명이 저장되지 않습니다. ID 기반 데이터 액세스를 사용하는 방법에 대한 자세한 내용은 ID 기반 데이터 액세스를 사용하여 스토리지에 연결을 참조하세요.

컴퓨팅 클러스터는 통신에 공용 IP를 사용하는 대신 Azure Private Link 에코시스템 및 서비스/프라이빗 엔드포인트를 사용하여 가상 네트워크 내에서만 통신할 수 있습니다. 공용 IP 없음을 사용하도록 설정해야 합니다. 현재 미리 보기 상태인 이 기능에 대한 자세한 내용은(2022년 3월 7일 현재) 컴퓨팅 인스턴스에 대한 공용 IP 없음을 참조하세요.

보안 환경에는 프라이빗 엔드포인트를 통해 데이터 세트에 액세스할 수 있는 Azure Machine Learning 컴퓨팅을 사용합니다. 또한 Azure Firewall을 사용하여 Azure Machine Learning 컴퓨팅에서 아웃바운드 액세스를 제어할 수 있습니다. 기계 학습 작업 영역에 있는 Azure Machine Learning 컴퓨팅에 대한 액세스를 제어하도록 Azure Firewall을 구성하는 방법에 대한 자세한 내용은 인바운드 및 아웃바운드 네트워크 트래픽 구성을 참조하세요.

Azure Machine Learning 환경을 보호하는 방법 중 하나를 알아보려면 블로그 게시물인 AMLS(Azure Machine Learning Service) 환경 보호를 참조하세요.

프라이빗 엔드포인트로 효과적으로 구성할 수 없거나 상태 저장 패킷 검사를 제공할 수 없는 Azure 서비스의 경우 Azure Firewall 또는 타사 NVA(네트워크 가상 어플라이언스) 사용을 고려합니다.

ID 관리

Blob Storage 액세스는 Azure RBAC(역할 기반 액세스 제어)를 통해 이루어집니다.

Azure Virtual Desktop은 DSVM에 대한 Microsoft Entra 인증을 지원합니다.

Data Factory는 관리 ID를 사용하여 Blob Storage의 데이터에 액세스합니다. DSVM은 수정 작업을 위해 관리 ID도 사용합니다.

데이터 보안

미사용 데이터를 보호하기 위해 모든 Azure Storage는 강력한 암호화를 사용하여 Microsoft 관리형 키로 암호화됩니다.

또는 고객 관리형 키를 사용할 수 있습니다. 키는 관리형 키 저장소에 저장해야 합니다. 이 아키텍처에서 Azure Key Vault는 비밀화 키 및 인증서와 같은 비밀을 저장하기 위해 보안 환경에 배포됩니다. Key Vault는 보안 가상 네트워크의 리소스에 의해 프라이빗 엔드포인트를 통해 액세스됩니다.

거버넌스 고려 사항

Azure Policy를 사용하여 표준을 적용하고 자동화된 수정을 제공하여 리소스를 특정 정책에 대한 규정 준수로 가져옵니다. 정책은 단일 정책으로 또는 규제 이니셔티브의 일부로 프로젝트 구독 또는 관리 그룹 수준에서 적용할 수 있습니다.

예를 들어 이 아키텍처에서 Azure Policy 게스트 구성은 범위의 모든 VM에 적용되었습니다. 정책은 Data Science VM에 대한 운영 체제 및 컴퓨터 구성을 감사할 수 있습니다.

VM 이미지

Data Science VM은 사용자 지정된 기본 이미지를 실행합니다. 기본 이미지를 빌드하려면 Azure Image Builder와 같은 기술을 적극 권장합니다. 이렇게 하면 필요할 때 배포할 수 있는 반복 가능한 이미지를 만들 수 있습니다.

기본 이미지에 추가 이진 파일과 같은 업데이트가 필요할 수 있습니다. 이러한 이진 파일은 데이터 소유자가 데이터 세트를 업로드하는 것과 마찬가지로 공용 Blob Storage에 업로드하고 보안 환경을 통해 흐름을 진행해야 합니다.

기타 고려 사항

대부분의 연구 솔루션은 임시 워크로드이며 장기간 사용할 필요가 없습니다. 이 아키텍처는 가용성 영역이 있는 단일 지역 배포로 설계되었습니다. 비즈니스 요구 사항에 따라 더 높은 가용성이 필요한 경우 이 아키텍처를 여러 지역에 복제합니다. 트래픽을 해당 모든 지역으로 라우팅하려면 글로벌 부하 분산 장치 및 배포자와 같은 다른 구성 요소가 필요합니다. 복구 전략의 일부로 Azure Image Builder를 사용하여 사용자 지정된 기본 이미지의 복사본을 캡처하고 만드는 것이 좋습니다.

Data Science VM의 크기와 유형은 수행 중인 작업 스타일에 적합해야 합니다. 이 아키텍처는 단일 연구 프로젝트를 지원하기 위한 것이며, 확장성은 VM의 크기와 유형 및 Azure Machine Learning에서 사용할 수 있는 컴퓨팅 리소스에 대해 선택한 항목을 조정하여 달성됩니다.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

DSVM 비용은 선택한 기본 VM 시리즈에 따라 다릅니다. 워크로드가 일시적이므로 논리 앱 리소스에 사용 계획을 사용하는 것이 좋습니다. Azure 가격 계산기를 사용하여 필요한 리소스의 예상 크기를 기반으로 비용을 예상합니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

다음 단계