이 문서에서는 Azure AI 워크로드를 빌드하기 위한 조직 프로세스를 간략하게 설명합니다. 이 문서에서는 AI 워크로드를 대규모로 채택하기 위한 주요 디자인 및 프로세스 결정을 내리기 위한 권장 사항을 제공합니다. 리소스 조직 및 연결에 대한 AI 관련 지침에 중점을 둡니다.
AI 거버넌스 설정
AI 거버넌스를 위해서는 안전하고 규정을 준수하며 비용 효율적인 작업을 보장하기 위해 적절한 리소스 조직 및 정책 관리가 필요합니다. 중요한 데이터를 보호하고 AI 리소스 액세스를 효과적으로 제어하려면 명확한 거버넌스 경계를 만들어야 합니다. 방법은 다음과 같습니다.
인터넷 연결 및 내부 AI 워크로드에 대한 별도의 관리 그룹을 만듭니다. 관리 그룹 분리는 외부("온라인")와 내부 전용("회사") AI 애플리케이션 간에 중요한 데이터 거버넌스 경계를 설정합니다. 이렇게 분리하면 적절한 액세스 제어를 유지하면서 외부 사용자가 중요한 내부 비즈니스 데이터에 액세스할 수 없습니다. 이 접근 방식은 Azure 랜딩 존 관리 그룹 아키텍처 원칙과 일치하며 워크로드 유형 간에 정책 상속을 지원합니다.
각 관리 그룹에 AI 관련 정책을 적용합니다. Azure 랜딩 존 기준 정책으로 시작하고 Foundry에 대한 Azure Policy 정의를 추가합니다. Foundry Tools, Azure AI 검색 및 Azure Virtual Machines. 정책 적용은 플랫폼 전체에서 균일한 AI 거버넌스를 보장하고 수동 규정 준수 감독을 줄입니다.
워크로드별 구독 내에 AI 리소스를 배포합니다. AI 리소스는 플랫폼 구독이 아닌 워크로드 관리 그룹에서 거버넌스 정책을 상속해야 합니다. 이러한 분리는 플랫폼 팀이 제어하는 개발 병목 현상을 방지하고 워크로드 팀이 적절한 자율성으로 운영할 수 있도록 합니다. Azure 랜딩 존 환경에서 애플리케이션 랜딩 존 구독에 AI 워크로드를 배포합니다.
AI 네트워킹 설정
AI 네트워킹에는 AI 워크로드에 대한 네트워크 인프라 설계, 보안 조치 및 효율적인 데이터 전송 패턴이 포함됩니다. 네트워크 기반 중단을 방지하고 일관된 성능을 유지하려면 적절한 보안 제어 및 연결 옵션을 구현해야 합니다. 방법은 다음과 같습니다.
인터넷 연결 AI 워크로드에 대한 Azure DDoS Protection을 활성화합니다.Azure DDoS Protection 분산 서비스 거부 공격으로 인한 잠재적 중단 및 가동 중지 시간으로부터 AI 서비스를 보호합니다. 가상 네트워크 수준의 DDoS 보호는 인터넷 연결 애플리케이션을 대상으로 하는 트래픽 홍수를 방어하고 공격 중에 서비스 가용성을 유지합니다.
Azure Bastion 사용하여 AI 워크로드에 대한 운영 액세스를 보호합니다. jumpbox 및 Azure Bastion 사용하여 AI 워크로드에 대한 운영 액세스를 보호하고 관리 인터페이스의 직접 인터넷 노출을 방지합니다. 이 방법은 AI 리소스에 대한 네트워크 격리를 유지하면서 관리 작업에 대한 보안 게이트웨이를 만듭니다.
온-프레미스 데이터 원본에 적절한 연결을 선택합니다. 온-프레미스 원본에서 클라우드 환경으로 대량의 데이터를 전송하는 조직은 AI 워크로드 성능 요구 사항을 지원하기 위해 높은 대역폭 연결이 필요합니다.
대용 데이터 전송에 Azure ExpressRoute 사용합니다.Azure ExpressRoute는 일관된 성능이 필요한 높은 데이터 볼륨, 실시간 처리 또는 워크로드에 대한 전용 연결을 제공합니다. ExpressRoute에는 특정 트래픽 흐름에 대한 ExpressRoute 게이트웨이를 우회하여 데이터 경로 성능을 향상시키는 FastPath 기능이 포함되어 있습니다.
보통 데이터 전송에 Azure VPN Gateway 사용합니다.Azure VPN Gateway 보통 데이터 볼륨, 드문 데이터 전송 또는 공용 인터넷 액세스가 필요한 경우에 적합합니다. VPN Gateway ExpressRoute에 비해 더 작은 데이터 세트에 대해 더 간단한 설정 및 비용 효율적인 작업을 제공합니다. 크로스-프레미스 연결을 위한 사이트 간 VPN 및 보안 디바이스 액세스를 위한 지점 및 사이트 간 VPN을 포함하여 AI 워크로드에 적절한 토폴로 지 및 디자인을 사용합니다.
AI 안정성 설정
AI 안정성을 위해서는 일관된 성능과 고가용성을 보장하기 위해 전략적 지역 배치 및 중복 계획이 필요합니다. 조직은 신뢰할 수 있는 AI 서비스를 유지하기 위해 모델 호스팅, 데이터 지역성 및 재해 복구를 해결해야 합니다. 서비스 중단을 방지하고 성능을 최적화하려면 지역 배포 전략을 계획해야 합니다. 방법은 다음과 같습니다.
프로덕션 워크로드를 위해 여러 지역에 AI 엔드포인트를 배포합니다. 프로덕션 AI 워크로드를 사용하려면 중복성을 제공하고 고가용성을 보장하기 위해 두 개 이상의 지역에서 호스팅해야 합니다. 다중 지역 배포를 사용하면 지역 오류가 발생한 동안 더 빠른 장애 조치(failover) 및 복구가 가능합니다. Foundry에서 Azure OpenAI를 사용할 때, 사용 가능한 용량이 있는 지역으로 요청을 자동으로 라우팅하는 글로벌 배포를 활용하십시오. 지역 배포의 경우 Azure API Management 구현하여 AI 엔드포인트 간에 API 요청 부하를 분산합니다.
배포 전에 대상 지역에서 AI 서비스 가용성을 확인합니다. 다른 지역은 다양한 수준의 AI 서비스 가용성 및 기능 지원을 제공합니다. 지역별 Azure 서비스 가용성을 확인하여 필요한 AI 서비스를 사용할 수 있는지 확인합니다. Azure OpenAI 배포 모델에는 글로벌 표준, 글로벌 프로비저닝, 지역 표준, 지역 프로비저닝 옵션이 포함되어 있으며, 각 옵션은 지역별 가용성 패턴이 다릅니다.
지역 할당량 한도 및 용량 요구 사항을 평가합니다. Foundry 도구에는 대규모 모델 배포 및 유추 워크로드에 영향을 주는 지역 구독 제한이 있습니다. 크기 조정 중에 서비스 중단을 방지하기 위해 표준 할당량을 초과하는 용량 요구 사항이 예상되는 경우 사전에 Azure 지원 문의하세요.
검색 보강된 세대 애플리케이션에 대한 데이터 배치를 최적화합니다. 데이터 스토리지 위치는 RAG 시나리오의 애플리케이션 성능에 크게 영향을 줍니다. 동일한 지역의 AI 모델과 데이터를 공동 배치하면 대기 시간이 줄어들고 데이터 검색 효율성이 향상되지만 지역 간 구성은 특정 비즈니스 요구 사항에 대해 실행 가능한 상태로 유지됩니다.
중요 AI 자산을 비즈니스 연속성을 위해 보조 지역에 복제합니다. 비즈니스 연속성을 위해서는 미세 조정된 모델, RAG 데이터 세트, 학습된 모델 및 학습 데이터를 보조 지역으로 복제해야 합니다. 자산 복제를 사용하면 중단 중에 더 빠르게 복구할 수 있으며 다양한 오류 시나리오에서 서비스 가용성을 유지 관리합니다.
인공지능 기반 구축
AI 기반은 Azure AI 워크로드를 지원하는 핵심 인프라 및 리소스 계층 구조를 제공합니다. 여기에는 거버넌스 및 운영 요구 사항에 부합하는 확장 가능하고 안전한 환경 설정이 포함됩니다. 강력한 AI 기반을 통해 AI 워크로드를 효율적으로 배포하고 관리할 수 있습니다. 또한 향후 성장을 위한 보안 및 유연성을 보장합니다.
Azure 랜딩 존 사용
Azure 랜딩 존 Azure 환경을 준비하는 데 권장되는 시작점입니다. 플랫폼 및 애플리케이션 리소스에 대해 미리 정의된 설정을 제공합니다. 플랫폼이 구축되면 전용 애플리케이션 랜딩 존에 AI 워크로드를 배포할 수 있습니다.
조직에서 워크로드에 Azure 랜딩 존을 사용하는 경우 AI를 사용하는 워크로드에 계속 사용합니다. 다른 워크로드와 마찬가지로 일반 애플리케이션 랜딩 존에 AI 워크로드를 배포합니다. Azure 랜딩 존의 AI 참조하세요. 아래 그림 2에서는 AI 워크로드가 Azure 랜딩 존 내에서 통합되는 방법을 보여 줍니다.
\
AI 환경 빌드
Azure 랜딩 존을 사용하지 않는 경우 이 문서의 권장 사항에 따라 AI 환경을 빌드합니다. 다음 다이어그램은 기준 리소스 계층 구조를 보여줍니다. 내부 AI 워크로드 및 인터넷 연결 AI 워크로드를 분할합니다. 내부 워크로드는 정책을 사용하여 고객의 온라인 액세스를 거부합니다. 이 분리는 내부 데이터를 외부 사용자에게 노출하지 않도록 보호합니다. AI 개발은 jumpbox를 사용하여 AI 리소스 및 데이터를 관리해야 합니다.
그림 3. AI 워크로드에 대한 기준 리소스 계층 구조입니다.
다음 단계
다음 단계는 AI 워크로드를 빌드하고 AI 환경에 배포하는 것입니다. 다음 링크를 사용하여 요구 사항에 맞는 아키텍처 지침을 찾습니다. PaaS(Platform-as-a-Service) 아키텍처로 시작합니다. PaaS는 Microsoft AI를 채택하는 데 권장되는 방법입니다.