규제 산업에서 AI 및 기계 학습 이니셔티브 스케일링

Azure Machine Learning

Azure Synapse Analytics

Azure Databricks

이 문서에서는 ISRM(정보 보안 위험 관리) 컨트롤의 일반적인 고위험 계층 분류 집합의 분석 및 구현과 관련된 Azure 아키텍처 고려 사항에 대해 설명합니다.

아키텍처

아키텍처는 이 다이어그램에 표시되며 엔터프라이즈 규모 랜딩 존, 특히 엔터프라이즈 규모 분석 및 AI 참조 아키텍처의 원칙을 따릅니다.

이 아키텍처의 Visio 파일을 다운로드합니다.

워크플로

아키텍처는 다음 섹션에 설명된 워크플로로 구성됩니다. 아키텍처의 각 구성 요소에는 다이어그램에 해당하는 번호가 있습니다. 구성 요소의 주요 목적, 아키텍처에 적합한 방법 및 구성 요소를 채택할 때 고려해야 하는 다른 중요한 고려 사항에 대해 설명합니다.

플랫폼 구독 – Microsoft Entra ID를 통해 관리, 연결 및 ID를 제공하는 핵심 Azure 구독 입니다. 여기에 자세히 설명되어 있지 않으며 핵심 엔터프라이즈 규모 설정의 일부로 준비되고 사용할 수 있는 것으로 간주됩니다.

데이터 관리

데이터 관리 영역 – 데이터 관리 영역은 플랫폼 전체의 데이터 거버넌스를 담당하며 데이터 랜딩 존에서 보다 유연한 다운스트림을 제공하기 위해 가드레일을 적용합니다. 자체 구독이 있으며 데이터 카탈로그, 모니터링, 감사 등과 같은 중앙 집중식 서비스를 호스트합니다. 이 환경은 엄격하게 통제되며 엄격한 감사를 받습니다. 모든 데이터 분류 유형은 중앙 데이터 카탈로그(Azure Purview)에 저장됩니다. 메타데이터에 따라 다른 정책과 액세스 패턴이 적용됩니다. 전체 테넌트에 대한 데이터 관리 영역 구독은 하나뿐입니다. 데이터 관리 영역은 다른 모든 데이터 랜딩 존과 피어링됩니다(VNET 피어링을 통해). 배포된 서비스가 공용 인터넷을 통해 액세스할 수 없도록 하기 위해 가능한 경우 언제든지 프라이빗 엔드포인트가 사용됩니다.
네트워킹 리소스 그룹 – Azure Virtual Networks, 네트워크 보안 그룹 및 데이터 관리 영역에 필요한 다른 모든 네트워킹 관련 리소스는 네트워킹 리소스 그룹 내에서 프로비전됩니다.
배포 리소스 그룹 – 배포 리소스 그룹은 데이터 관리 영역에 필요한 프라이빗 Azure DevOps CI/CD 에이전트(가상 머신) 및 배포 관련 비밀을 저장하기 위한 Key Vault를 호스트합니다.
데이터 거버넌스 리소스 그룹 – Azure Purview가 데이터 거버넌스 및 데이터 카탈로그 솔루션으로 사용되며, 데이터 세트가 법률 또는 기타 기관에서 부과하는 데이터 요구 사항 및 데이터 규정을 준수하는 데 필요한 가드 레일을 적용하는 데 사용됩니다. Purview는 비밀을 저장하는 Key Vault 인스턴스와 함께 이 리소스 그룹 내에서 중앙에서 호스트됩니다.
중앙 집중식 자산 – 중앙 집중식 자산은 다음과 같이 플랫폼의 중심인 중요하고 중요한 자산을 호스트합니다.
- Azure Machine Learning 기반 데이터 제품에 사용되는 기본 이미지를 호스트하는 Azure Container Registries(이전에 검사되고 취약성이 없는 이미지)
- 플랫폼에서 소비자가 게시하고 사용할 수 있도록 하는 AI/Machine Learning 모델(필요한 경우 하나 이상의 데이터 랜딩 존에 배포할 수 있음).
추가 서비스 – 중앙 집중화해야 하는 다른 모든 서비스는 중앙 집중식 Azure API Management 인스턴스, 타사 소프트웨어 등을 포함할 수 있는 이러한 리소스 그룹 중 하나에서 호스트될 수 있습니다.
데이터 시각화 리소스 그룹 – 이 리소스 그룹은 데이터 랜딩 존 간에 공유되는 데이터 시각화 솔루션을 호스트합니다. 솔루션은 Power BI, Tableau 또는 기타 시각화 솔루션일 수 있습니다.
추가 인프라 제어 및 거버넌스 – 클라우드용 Microsoft Defender 및 Azure Monitor는 기준 보안 및 모니터링 솔루션으로 사용됩니다.

데이터 랜딩 존

데이터 랜딩 존 001 – 데이터 랜딩 존은 데이터 플랫폼 내의 배율 단위를 나타내는 구독입니다. 데이터 랜딩 존은 분석 및 AI 플랫폼을 호스트하는 모든 주요 기능을 포함하여 핵심 데이터 랜딩 존 아키텍처(청사진)를 기반으로 배포됩니다. 환경 내에 하나 이상의 데이터 랜딩 존이 있을 수 있습니다. Azure Policy는 다양한 Azure 서비스의 액세스 및 구성을 안전하게 유지하기 위해 적용됩니다. 데이터 랜딩 존은 다른 모든 데이터 랜딩 존 및 데이터 관리 영역과 피어링됩니다(VNET 피어링을 통해). 배포된 서비스가 공용 인터넷을 통해 액세스할 수 없도록 하기 위해 가능한 경우 언제든지 프라이빗 엔드포인트가 사용됩니다.
네트워킹 리소스 그룹 – Azure Virtual Networks, 네트워크 보안 그룹 및 데이터 랜딩 영역에 필요한 다른 모든 네트워킹 관련 리소스는 이 리소스 그룹 내에서 프로비전됩니다.
배포 리소스 그룹 – 배포 리소스 그룹은 데이터 랜딩 존에 필요한 프라이빗 Azure DevOps CI/CD 에이전트(가상 머신) 및 배포 관련 비밀을 저장하기 위한 Key Vault를 호스트합니다.
데이터 스토리지 리소스 그룹 – 데이터 스토리지 리소스 그룹에는 계층 구조 네임스페이스가 있는 Azure Data Lake Storage Gen2로 배포된 이 데이터 랜딩 존에 대한 기본 데이터 스토리지 계정이 포함됩니다. 다음 세 가지 주요 영역에 분산되어 있습니다.
- 원시 – 데이터가 원래 상태의 데이터 원본에서 수집됩니다.
- 큐레이팅 및 보강 – 데이터가 정리, 유효성 검사 및 집계됨
- 작업 영역 – 특정 데이터 제품은 해당 데이터 세트 또는 Machine Learning 모델의 출력 등을 저장할 수 있습니다.
다이어그램의 화살표는 원시 데이터에서 큐레이팅되고 보강된(신뢰할 수 있는) 데이터까지, 그리고 검색, 분석 및 데이터 제품의 추가 가치를 제공하기 위한 작업 영역에 이르는 예상 데이터 흐름을 보여 줍니다.
데이터 통합 리소스 그룹 - 데이터 통합 리소스 그룹은 온-프레미스 자체 호스팅 SHIR(통합 런타임)과 연결을 공유하는 Azure Data Factory를 호스트합니다. 주요 목적은 연결을 설정하는 것입니다. 다른 Data Factory 인스턴스는 연결이 한 곳에서만 유지되도록 다시 사용합니다. 다른 목적은 검색을 위해 이 데이터 랜딩 존의 데이터 원본에 액세스할 수 있도록 Azure Purview 서비스에 대한 자체 호스팅 통합 런타임을 호스트하는 것입니다.
메타데이터 관리 리소스 그룹 – 메타데이터 관리 리소스 그룹은 Azure Databricks(Hive 메타 저장소) 및 Azure Data Factory 수집 및 처리 파이프라인에 대한 메타데이터를 호스트합니다. 또한 Key Vault를 호스트하여 이 데이터에 액세스하기 위한 비밀을 저장합니다. Azure SQL Database는 메타데이터를 호스트하는 데 사용됩니다.
데이터 수집 리소스 그룹 – 데이터 수집 리소스 그룹은 데이터 도메인에 특정한 모든 데이터 수집 파이프라인이 배포되는 Azure Data Factory 인스턴스를 호스트합니다. Azure Databricks는 데이터를 로드 및 변환하고 데이터 레이크 계정에 저장하는 처리 엔진으로 사용됩니다.
분석 리소스 그룹 – 분석 리소스 그룹에는 추가 데이터 분석 및 탐색을 위한 두 가지 공유 서비스인 Azure Synapse 및 Azure Databricks가 포함되어 있습니다. 이러한 두 서비스는 모두 대규모 데이터 검색 및 분석을 위해 광범위한 컴퓨팅 및 크기 조정을 제공합니다.
데이터 제품 리소스 그룹 – 데이터 제품 리소스 그룹은 데이터 제품에 필요한 기본 Azure 리소스를 포함하는 리소스 그룹을 포함하는 데이터 제품의 청사진입니다. 배포는 비즈니스의 특정 요구 사항에 따라 Azure DevOps 파이프라인을 통해 구성할 수 있어야 합니다. 여기에 배포되는 핵심 Azure 서비스는 다음과 같습니다.
- Key Vault(비밀 저장용)와 같은 관련 서비스가 포함된 엔터프라이즈 기계 학습 프로젝트의 기반인 Azure Machine Learning 작업 영역
- Application Insights(모델 모니터링용)
- Azure 스토리지(데이터 세트 저장용)
- Azure Container Registry(개발 중인 모델 이미지 저장용)
Cognitive Services는 여러 AI 지원 서비스에 대한 API 액세스를 제공하기 위해 번들로 배포되며, Azure Machine Learning 컴퓨팅 인스턴스 및 컴퓨팅 클러스터는 개발, 모델 빌드 및 테스트 목적으로 사용됩니다. Azure Data Factory는 필요한 경우 모델의 일괄 처리 채점을 오케스트레이션하는 데 사용됩니다. Azure 앱 Service 및 Azure Cosmos DB는 사용자 지정 애플리케이션 또는 API를 자체 내부 데이터 저장소로 호스트할 수 있는 데이터 제품 배포를 위한 추가 계층을 제공합니다.

규제 산업에는 일반적으로 엄격한 데이터 액세스 제한이 있으며, 일반적으로 프로덕션 데이터가 프로덕션 환경 내에서만 호스트할 수 있습니다. 이러한 이유로 데이터 제품의 개발 수명 주기는 프로덕션 데이터 랜딩 존에서만 발생하고 별도의 환경 또는 리소스 그룹은 개발, 테스트 및 배포 목적으로 프로비전됩니다.
추가 데이터 제품 – 하나의 데이터 랜딩 존에서 하나 이상의 데이터 제품을 호스트할 수 있으므로 이러한 리소스 그룹은 다른 데이터 제품을 호스트합니다.
공유 컴퓨팅 리소스 그룹 – 데이터 제품을 호스트하고 배포하는 데 필요한 모든 공유 컴퓨팅은 이 리소스 그룹 내에서 프로비전됩니다. Azure Kubernetes Service 클러스터가 그 예입니다.
추가 인프라 제어 및 거버넌스 – 클라우드용 Microsoft Defender 및 Azure Monitor는 기준 보안 및 모니터링 솔루션으로 사용됩니다.
데이터 랜딩 존 002 – 이 랜딩 존은 새 데이터 랜딩 존을 호스팅하는 데 사용되는 추가 Azure 구독의 자리 표시자입니다. 데이터 상주 요구 사항 또는 부서 간 업무 팀과 제공할 사용 사례 세트가 있는 다른 사업부와 같이 앞에서 언급한 기준을 기반으로 합니다.

구성 요소

대안

분산 조직에서 비즈니스 그룹은 독립적이고 높은 수준의 자율성으로 운영됩니다. 따라서 Azure 랜딩 존에서 사용 사례를 완전히 격리하고 최소한의 공통 서비스 세트를 공유하는 대체 솔루션 설계를 고려할 수 있습니다. 이 디자인은 빠른 시작을 허용하지만 개별 사용 사례의 디자인이 청사진 디자인과 빠르게 다를 수 있으므로 IT 및 ISRM 조직에서 많은 노력이 필요합니다. 또한 Azure에서 호스트되는 각 AI 및 Machine Learning 제품에 대한 독립적인 ISRM 프로세스 및 감사가 필요합니다.

시나리오 정보

규제 환경에서 AI 및 기계 학습 이니셔티브의 크기를 조정하는 것은 조직의 디지털 완성도와 규모에 관계없이 조직에 중대한 과제를 제기합니다. 이 문서에서는 규제 산업에서 Azure의 데이터 엔지니어링 및 기계 학습 서비스를 채택할 때 고려해야 할 주요 아키텍처 결정에 대해 설명합니다. 이러한 결정은 Fortune 500대 글로벌 생명 과학 및 의료 회사의 최근 구현에서 습득한 지식을 기반으로 합니다.

이 문서에 제시된 아키텍처는 엔터프라이즈 규모 분석 및 AI 참조 아키텍처 디자인을 따르며 첫 번째 구현 중 하나입니다.

데이터 과학 프로젝트를 설정하고 생명 과학 및 의료 환경에서 기계 학습 모델을 개발하는 경우 거의 모든 경우에 HBI(높은 비즈니스 영향) 데이터 원본에 액세스해야 합니다. 예를 들어 이러한 소스는 환자 데이터, 분자의 화학 공식 또는 제조 공정 비밀이 없는 임상 시험 프로토콜 정보일 수 있습니다.

규제 산업에서 IT 시스템은 해당 시스템이 액세스하는 데이터 원본의 분류에 따라 분류됩니다. Azure에서 실행되는 AI 및 기계 학습 환경은 HBI로 분류되며 광범위한 ISRM 정책 및 제어 집합을 준수해야 합니다.

디자인 원칙

이 아키텍처는 다음 원칙을 기반으로 합니다.

엔터프라이즈 규모는 아키텍처 접근 방식이며 Azure 로드맵 및 CAF(Microsoft 클라우드 채택 프레임워크)의 일부와 일치하는 참조 구현입니다. Azure에서 규모에 맞게 랜딩 존을 효과적으로 구성하고 운영할 수 있습니다. 이름 랜딩 존 은 신규 또는 마이그레이션된 애플리케이션이 Azure에 도착하는 경계로 사용됩니다. 이 시나리오에서는 데이터를 호스트하는 데 사용되는 데이터 플랫폼의 일부와 AI 및 Machine Learning 모델을 참조합니다.
기존의 모놀리식 데이터 플랫폼 아키텍처에는 기능 및 가치 전달을 늦추는 고유한 제한 사항이 있습니다. 여기서 설명하는 아키텍처를 통해 조직은 소유권 분리(데이터 메시)를 사용하는 분산 방법을 통해 데이터 자산의 크기를 조정하고 중앙 집중식 모놀리식 데이터 레이크의 문제를 해결할 수 있습니다. 이 접근 방식을 통해 조직은 데이터 도메인 및 데이터 제품(하나 이상의 데이터 랜딩 존에 배포됨)에서 핵심 데이터 플랫폼 및 데이터 관리 서비스(데이터 관리 영역이라고 하는 별도의 랜딩 존에 배포됨)를 분리하여 데이터 플랫폼을 안전하고 유지 관리 가능한 상태로 유지하면서 수천 개의 수집 파이프라인 및 데이터 제품으로 확장할 수 있습니다.
구독은 비즈니스 요구 사항 및 우선 순위에 맞게 조정된 관리 및 크기 조정 단위로 사용됩니다. 크기 조정은 다양한 비즈니스 이해 관계자, 다양한 비즈니스 목표 및 요구 사항, 데이터 상주 요구 사항(특정 지역에서 데이터를 호스팅해야 하는 경우)과 같은 기준에 따라 사업부에 새 구독(데이터 랜딩 존)을 제공하여 달성됩니다.
Azure Policy는 가드레일을 제공하고 회사의 IT 환경 내에서 지속적인 규정 준수를 보장하는 데 사용됩니다.
단일 제어 및 관리 평면(Azure Portal을 통해)은 역할 기반 액세스 및 정책 기반 제어가 적용되는 모든 Azure 리소스 및 프로비전 채널에서 일관된 환경을 제공합니다. Azure 네이티브 플랫폼 서비스 및 기능은 가능할 때마다 언제든지 사용됩니다.
부서 간 업무 팀에서 설계, 개발 및 운영에 대한 소유권을 활용하여 플랫폼 내에서 시장 진입 시간과 민첩성을 단축합니다. DevOps, IaC(Infrastructure as Code) 및 복원력 있는 설계와 같은 핵심 원칙은 사용자 오류 및 단일 실패 지점을 방지하는 데 사용됩니다.
도메인 및 데이터 원본 주체 전문가는 데이터 도메인을 사용하여 Azure, 타사 또는 온-프레미스 환경에서 데이터 자산을 가져올 수 있습니다. 데이터 도메인은 교차 기능 팀이 사용자 지정 데이터 수집에 사용할 수 있는 데이터 랜딩 존 내의 리소스 그룹입니다. 데이터 랜딩 존 내에 하나 이상의 데이터 도메인이 있을 수 있습니다. 데이터 도메인은 컨텍스트 경계를 제공하고 자급자족하고 격리된 도메인 기반 디자인의 도메인과 유사하게 볼 수 있습니다. 데이터 도메인의 예로 임상 시험 데이터 또는 공급망 데이터가 있습니다.

잠재적인 사용 사례

이 문서에서 설명하는 아키텍처 고려 사항은 생명 과학 및 의료 산업에서 제공된 것입니다. 그러나 다음 산업을 포함하여 다른 규제 산업의 조직과도 관련이 있습니다.

금융 서비스
의료 서비스 제공자
석유 및 가스

규제 환경에서 엔터프라이즈 규모 분석 및 AI 참조 아키텍처의 구현은 유사한 디자인 패턴을 따릅니다.

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

이 섹션에서는 생명 과학 및 의료 규제 환경의 앞부분에서 설명한 아키텍처 구현에서 배운 교훈을 설명합니다. 또한 일반적인 ISRM 제어 및 정책을 충족하는 높은 수준의 설계 고려 사항에 대해 설명합니다.

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.

환경

규제 환경에서 HBI로 분류된 IT 시스템은 개발, 품질 및 프로덕션과 같은 여러 분리된 환경이 있어야 합니다. 보호된 데이터 원본에 대한 액세스 권한은 프로덕션 인증 환경에서만 부여됩니다.

AI 및 기계 학습 개발에는 중요한 데이터 세트에 대한 액세스가 필요하므로 모델 빌드, 학습 및 유추(또는 이와 유사한)와 같은 기계 학습 운영 프로세스의 다양한 단계가 모두 프로덕션에서 수행됩니다. 개발 및 품질 환경은 일반적으로 인프라, 운영 및 데이터 엔지니어링 작업 유형으로 제한되어 새로운 Azure 서비스 및 기능을 사용할 수 있게 됨에 따라 지속적으로 향상됩니다.

샌드박스 또는 초기 예비 작업을 제외하고 프로덕션 환경에서 AI 및 데이터 과학 개발 활동을 수행해야 합니다.

암호화

중요한 비즈니스 데이터에 액세스, 저장 및 처리하는 IT 시스템은 CMK(고객 관리형 키) 통합을 통해 FIPS 140-2 수준 2 또는 수준 3 정책과 같은 암호화 키 관리에 대한 특정 요구 사항을 구현해야 합니다. 보호된 데이터는 항상 TLS 1.2 이상의 프로토콜을 사용하여 미사용 및 전송 중에 암호화해야 합니다.

아키텍처를 설계하는 동안 조직의 CMK 인프라에 대한 Azure 서비스의 지원 및 통합을 신중하게 분석해야 합니다. 데이터 암호화에 대한 모든 예외는 문서화해야 합니다. HSM(하드웨어 보안 모듈) 공급업체에 대한 지원은 항상 확장되고 있으며, 추가 정보는 Azure Key Vault 관리형 하드웨어 보안 모듈에서 찾을 수 있습니다.

네트워크 설계 및 링 펜싱

AI 및 기계 학습 환경에는 네트워크 세분화 및 네트워크 액세스 제어가 구현된 링 펜싱이 있어야 합니다. 아키텍처 구성 요소 간의 네트워크 통신은 허용 목록 접근 방식에서 작동하는 데 필요한 데이터 흐름과 기본 인프라로 제한됩니다. 서명 기반 분석과 동작 기반 분석을 적용해야 합니다.

Azure Firewall, 인바운드 및 아웃바운드 네트워크 연결 검사, 네트워크 보안 그룹 및 WAF(웹 애플리케이션 방화벽)로 보호되는 웹 애플리케이션 엔드포인트에 대한 액세스를 검사하는 등 아키텍처의 여러 계층에서 네트워크 액세스 제어를 적용합니다.

권한 부여 관리

Azure에서 실행되는 AI 및 기계 학습 환경은 중요한 비즈니스 애플리케이션에 대한 액세스 권한 부여 요청이 제출, 승인 및 감사되는 조직의 기본 계정 프로비전 시스템과 통합해야 합니다.

계정 프로비저닝 시스템은 조직의 Active Directory 및 Microsoft Entra ID에 연결하여 비즈니스 권한 부여 역할이 해당 Active Directory 및 Microsoft Entra 보안 그룹에 매핑되도록 해야 합니다.

AI 및 기계 학습 환경은 역할 기반 액세스 제어 모델을 따릅니다. 액세스 수준 제어 권한 부여를 통해 사용자는 작업 역할 및 비즈니스 요구 사항에 대한 작업 및 작업만 수행할 수 있습니다. 특정 사용 사례에서 작업하는 데이터 과학자는 최소 권한 원칙에 따라 해당 사용 사례의 리소스 부분에만 액세스할 수 있으므로 기계 학습 사용 사례는 고도로 분리해야 합니다. 이러한 리소스에는 다음이 포함될 수 있습니다.

Storage 계정
Azure Machine Learning 작업 영역
컴퓨팅 인스턴스

역할 기반 액세스 제어는 Microsoft Entra ID의 보안 그룹을 사용합니다.

다단계 인증

다단계 인증은 Azure에서 실행되고 높은 비즈니스 영향으로 분류되는 모든 환경에 액세스하기 위해 구현되어야 합니다. Microsoft Entra 다단계 인증 서비스를 사용하여 다단계 인증을 적용할 수 있습니다. Azure DevOps, Azure 관리 포털, Azure Machine Learning, Azure Databricks 및 Azure Kubernetes Services를 포함한 애플리케이션 엔드포인트는 다단계 인증 액세스 제어 정책에서 구성해야 합니다.

다단계 인증은 Azure 서비스 관리자, 데이터 엔지니어 및 데이터 과학자를 비롯한 모든 사용자에게 적용되어야 합니다.

운영 우수성

운영 우수성은 애플리케이션을 배포하고 프로덕션에서 계속 실행하는 운영 프로세스를 다룹니다. 자세한 내용은 운영 우수성 핵심 요소 개요를 참조하세요.

로깅 및 모니터링

모든 Azure 서비스는 보안 이벤트를 조직의 SOC(보안 운영 센터) 플랫폼에 수집해야 하며 다음 보안 이벤트를 기록해야 합니다.

성공 및 실패한 인증 시도
중요한 데이터 액세스
보안 정책 변경
관리 사용자 그룹, 사용자 또는 역할에 대한 변경
해당하는 경우 외부 위치로 중요한 데이터 전송
ABAC(특성 기반 액세스 제어) 컨트롤과 같은 보호 시스템의 활성화 및 비활성화
업데이트된 로그 액세스 및 로깅 중단

Azure 보안 로그는 다양한 패턴을 통해 SOC에 수집할 수 있습니다.

중앙 Azure Log Analytics 작업 영역
Splunk와 같은 SOC 플랫폼 시스템에 연결된 이벤트 허브
SOC 에이전트와 함께 배포된 Windows VM 및 기타 컴퓨팅 리소스

DevOps

규제 환경에서 IT 시스템은 사용자 요구 사항 사양, 기능 사양, 디자인 및 테스트 사양 또는 이와 유사한 프로세스 단계 간에 공식적인 승인(또는 게이트)을 포함하는 엄격한 폭포 스타일의 품질 제어 프로세스를 따라야 하며, 광범위하고 시간이 많이 걸리는 지원 설명서가 있어야 합니다.

Azure 환경 및 데이터 과학 개발은 DevOps 문화권에 고정된 반복 프로세스를 따릅니다. AI 및 기계 학습 이니셔티브를 확장하는 데 상당한 노력을 기울이는 것은 DevOps 조직의 핵심 요소를 전달하고 Azure DevOps 에픽, 기능, 사용자 스토리, 테스트 계획 및 CI/CD 파이프라인, 필요한 품질 관리 엔터티 및 증거 간에 자동화된 엔드 투 엔드 추적 매핑을 만드는 데 사용됩니다.

성능 효율성

성능 효율성은 사용자가 배치된 요구 사항을 효율적인 방식으로 충족하기 위해 워크로드의 크기를 조정할 수 있는 기능입니다. 자세한 내용은 성능 효율성 핵심 요소 개요를 참조하세요.

규제 환경에서 AI 및 기계 학습의 크기를 조정하고 조직의 비즈니스 영역 전체에서 채택을 빠르게 추진하려면 Azure 서비스에서 창출된 가치를 측정, 모니터링 및 평가하는 채택 프레임워크를 설계하고 배치하는 것이 좋습니다. 생명 과학 및 의료 산업 예제에서 다음 비즈니스 가치 레버 및 KPI(핵심 성과 지표)를 평가했습니다.

확장성 – 크기 조정 지점에 관계없이 Azure 아키텍처가 비즈니스 요구 사항에 따라 크기 조정될 수 있도록 다음 KPI가 제안됩니다.

컴퓨팅 인스턴스 수, 사용된 총 스토리지 및 메모리
실행된 실험 수
배포된 모델 수

AI 개발 가속화 – AI 및 기계 학습 솔루션 개발을 가속화하기 위해 다음 KPI가 제안됩니다.

Azure의 AI 및 기계 학습 서비스를 사용하는 여러 사업부 수
범주별 온보딩된 사용자 수(예: 데이터 엔지니어, 데이터 과학자, 시민 데이터 과학자 및 비즈니스 사용자)
실행된 실험 수
사용자 온보딩과 활성 사용 사이의 시간
서비스 프로비전 시간 – 구성 변경 요청에서 서비스 프로비전 완료까지의 시간

규정 준수 – 배포된 AI 및 기계 학습 솔루션의 지속적인 규정 준수를 보장하기 위해 다음 KPI가 제안됩니다.

적용 가능한 ISRM 제어에 대한 전반적인 규정 준수
보안 취약성 경고 수
마지막 기간의 보안 인시던트 수

사용자 환경 – 고품질의 일관된 사용자 환경을 사용할 수 있도록 보장하기 위해 다음 KPI가 제안됩니다.

사용자 지원 센터 요청 수
NPS(Net Promoter Score)

보안 기반 – 안전하고 안정적인 기반을 갖추도록 보장하기 위해 다음 KPI가 제안됩니다.

중요 서비스 가동 시간
성능 가용성과 관련하여 보고된 인시던트 수

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

비용 관리는 실행 비용이 간단하고 예측 가능한 패턴을 따르지 않으므로 확장 가능한 AI 및 기계 학습 플랫폼 구현에서 디자인의 중요한 부분입니다. 비용은 주로 플랫폼에서 실행되는 AI 및 기계 학습 실험의 수와 크기, 특히 모델 학습 및 유추에 사용되는 컴퓨팅 리소스의 수와 SKU에 따라 달라집니다.

권장되는 몇 가지 사례는 다음과 같습니다.

모든 사용 사례 및 AI 및 기계 학습 제품에 고유한 Azure 서비스 예산을 할당합니다. 이는 좋은 비용 관리 사례입니다.
플랫폼 공유 서비스에 대한 투명한 비용 모델을 설정합니다.
태그를 일관되게 사용하여 사용 사례 및 제품 리소스를 비용 센터와 연결합니다.
Azure Advisor 및 Azure Budget을 사용하여 리소스가 최적의 방법으로 사용되지 않는 위치를 파악하고 구성을 정기적으로 검토합니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

Eran Sagi | AI 솔루션 설계자

다음 단계

Azure Machine Learning을 사용하여 모델을 학습 및 배포하고 기계 학습 수명 주기를 관리하는 방법을 알아봅니다. 자습서, 코드 예제, API 참조 등은 다음에서 사용할 수 있습니다.

Azure Machine Learning 설명서

Azure에서 데이터 분석 및 AI를 위한 엔터프라이즈 규모 랜딩 존을 구현하는 방법을 알아봅니다.

엔터프라이즈 규모 분석 및 AI 참조 아키텍처

제품 설명서:

Azure 아키텍처 센터 개요 문서:

Microsoft Azure Well-Architected Framework

다음을 통해 공유

규제 산업에서 AI 및 기계 학습 이니셔티브 스케일링

아키텍처

워크플로

데이터 관리

데이터 랜딩 존

구성 요소

대안

시나리오 정보

디자인 원칙

잠재적인 사용 사례

고려 사항

보안

환경

암호화

네트워크 설계 및 링 펜싱

권한 부여 관리

다단계 인증

운영 우수성

로깅 및 모니터링

DevOps

성능 효율성

비용 최적화

참가자

다음 단계

피드백

추가 리소스

다음을 통해 공유

규제 산업에서 AI 및 기계 학습 이니셔티브 스케일링

아키텍처

워크플로

데이터 관리

데이터 랜딩 존

구성 요소

대안

시나리오 정보

디자인 원칙

잠재적인 사용 사례

고려 사항

보안

환경

암호화

네트워크 설계 및 링 펜싱

권한 부여 관리

다단계 인증

운영 우수성

로깅 및 모니터링

DevOps

성능 효율성

비용 최적화

참가자

다음 단계

관련 참고 자료

피드백

추가 리소스