Editar

Dimensione iniciativas de IA e aprendizado de máquina em setores regulamentados

Azure Machine Learning
Azure Synapse Analytics
Azure Databricks

Neste artigo, discutimos as considerações de arquitetura do Azure relacionadas à análise e implementação do conjunto comum de classificação de camada de alto risco de controles ISRM (gerenciamento de risco de segurança da informação).

Arquitetura

A arquitetura é mostrada neste diagrama e segue o princípio das zonas de aterrissagem em escala empresarial, especificamente a análise em escala empresarial e a arquitetura de referência de IA.

Diagram of a scalable AI platform for regulated industries.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de trabalho

A arquitetura consiste no fluxo de trabalho descrito nas seções a seguir. Cada componente da arquitetura tem um número correspondente no diagrama. Descrevemos o objetivo principal do componente, como ele se encaixa na arquitetura e quaisquer outras considerações importantes que você deve tomar ao adotá-lo:

  1. Subscrições de plataforma – subscrições principais do Azure que fornecem gestão, conectividade e identidade, através do Microsoft Entra ID. Eles não são descritos aqui com mais detalhes e presume-se que estejam prontos e disponíveis como parte da configuração principal em escala empresarial.

Gestão de dados

  1. Zona de gerenciamento de dados – A zona de gerenciamento de dados é responsável pela governança de dados em toda a plataforma e impõe guarda-corpos para fornecer mais flexibilidade a jusante nas zonas de aterrissagem de dados. Ele tem sua própria assinatura e hospeda serviços centralizados, como catalogação de dados, monitoramento, auditorias e assim por diante. Este ambiente é altamente controlado e sujeito a auditorias rigorosas. Todos os tipos de classificação de dados são armazenados no catálogo de dados central (Azure Purview). Dependendo dos metadados, diferentes políticas e padrões de acesso são aplicados. Há apenas uma assinatura de zona de gerenciamento de dados para todo o locatário. A zona de gerenciamento de dados é emparelhada (por meio de emparelhamento VNET) com todas as outras zonas de aterrissagem de dados. Os pontos de extremidade privados são usados sempre que possível para garantir que os serviços implantados não sejam acessíveis via Internet pública.
  2. Grupo de recursos de rede – as Redes Virtuais do Azure, os grupos de segurança de rede e todos os outros recursos relacionados à rede necessários para a zona de gerenciamento de dados são provisionados dentro do grupo de recursos de rede.
  3. Grupo de recursos de implantação – Um grupo de recursos de implantação hospeda agentes privados de CI/CD do Azure DevOps (máquinas virtuais) necessários para a zona de gerenciamento de dados e um Cofre de Chaves para armazenar quaisquer segredos relacionados à implantação.
  4. Grupo de recursos de governança de dados – o Azure Purview é usado como uma solução de governança de dados e catálogo de dados e é usado para impor as proteções necessárias para que os conjuntos de dados sigam os requisitos de dados e as regulamentações de dados impostas por lei ou outras entidades. O Purview é hospedado centralmente dentro desse grupo de recursos, juntamente com uma instância do Cofre de Chaves para armazenar segredos.
  5. Ativos centralizados – Os ativos centralizados hospedam ativos importantes e valiosos que são centrais para a plataforma, como:
    • Registos de Contentores do Azure que alojam imagens base utilizadas em produtos de dados baseados no Azure Machine Learning (imagens previamente digitalizadas e livres de vulnerabilidade)
    • Modelos de IA/Machine Learning que são publicados e disponibilizados aos consumidores na plataforma (para que possam ser implantados em uma ou mais zonas de aterrissagem de dados, se necessário).
  6. Serviços adicionais – Quaisquer outros serviços que devem ser centralizados podem ser hospedados em um desses grupos de recursos, que podem incluir instâncias centralizadas de Gerenciamento de API do Azure, software de terceiros e assim por diante.
  7. Grupo de recursos de visualização de dados – Este grupo de recursos hospeda soluções de visualização de dados compartilhadas entre zonas de aterrissagem de dados. As soluções podem ser Power BI, Tableau ou qualquer outra solução de visualização.
  8. Controles de infraestrutura e governança adicionais – o Microsoft Defender for Cloud e o Azure Monitor são usados como soluções básicas de segurança e monitoramento.

Zonas de aterragem de dados

  1. Data landing zone 001 – Uma zona de aterrissagem de dados é uma assinatura que representa uma unidade de escala dentro da plataforma de dados. As zonas de aterrissagem de dados são implantadas com base na arquitetura principal da zona de aterrissagem de dados (blueprint), incluindo todos os principais recursos para hospedar uma plataforma de análise e IA. Pode haver uma ou várias zonas de aterrissagem de dados dentro do ambiente. A Política do Azure é aplicada para manter o acesso e as configurações de vários serviços do Azure seguros. A zona de aterrissagem de dados é emparelhada (por meio de emparelhamento VNET) com todas as outras zonas de aterrissagem de dados e a zona de gerenciamento de dados. Os pontos de extremidade privados são usados sempre que possível para garantir que os serviços implantados não sejam acessíveis via Internet pública.

  2. Grupo de recursos de rede – as Redes Virtuais do Azure, os grupos de segurança de rede e todos os outros recursos relacionados à rede necessários para a zona de aterrissagem de dados são provisionados dentro desse grupo de recursos.

  3. Grupo de recursos de implantação – Um grupo de recursos de implantação hospeda agentes privados de CI/CD do Azure DevOps (máquinas virtuais) necessários para a zona de aterrissagem de dados e um Cofre de Chaves para armazenar quaisquer segredos relacionados à implantação.

  4. Grupo de recursos de armazenamento de dados – Um grupo de recursos de armazenamento de dados contém as principais contas de armazenamento de dados para essa zona de aterrissagem de dados, implantadas como Azure Data Lake Storage Gen2, com namespace hierárquico. Eles estão distribuídos em três áreas principais:

    • Raw – Os dados são ingeridos a partir da fonte de dados em seu estado original
    • Curado e enriquecido – Os dados são limpos, validados e agregados
    • Espaço de trabalho – Produtos de dados específicos podem armazenar seus conjuntos de dados ou as saídas dos modelos de Machine Learning, e assim por diante

    As setas nos diagramas mostram o fluxo de dados esperado, de dados brutos a dados curados e enriquecidos (confiáveis) e mais para o espaço de trabalho para exploração, análise e fornecimento de valor extra do produto de dados.

  5. Grupo de recursos de integração de dados – O grupo de recursos de integração de dados hospeda um Azure Data Factory que compartilha conectividade com o tempo de execução de integração auto-hospedado (SHIR) local. Seu principal objetivo é estabelecer conectividade. Outras instâncias do Data Factory o reutilizam para que a conectividade seja mantida apenas em um lugar. Sua outra finalidade é hospedar o tempo de execução de integração auto-hospedado para o serviço Azure Purview para que ele possa acessar as fontes de dados nessa zona de aterrissagem de dados, para fins de verificação.

  6. Grupo de recursos de gerenciamento de metadados – O grupo de recursos de gerenciamento de metadados hospeda metadados para o Azure Databricks (o repositório de meta do Hive) e pipelines de ingestão e processamento do Azure Data Factory. Ele também hospeda um Cofre de Chaves para armazenar segredos para acessar esses dados. O Banco de Dados SQL do Azure é usado para hospedar os metadados.

  7. Grupo de recursos de ingestão de dados – O grupo de recursos de ingestão de dados hospeda uma instância do Azure Data Factory onde todos os pipelines de ingestão de dados específicos para um domínio de dados são implantados. O Azure Databricks é usado como um mecanismo de processamento para carregar e transformar os dados e armazená-los nas contas do data lake.

  8. Grupo de recursos de análise – O grupo de recursos de análise inclui dois serviços compartilhados para análise e exploração de dados adicionais: Azure Synapse e Azure Databricks. Ambos os serviços fornecem computação e escala extensivas para fins de exploração e análise massiva de dados.

  9. Grupo de recursos de produto de dados – O grupo de recursos de produto de dados é um modelo para um produto de dados, com um grupo de recursos contendo recursos básicos do Azure que um produto de dados pode precisar. A implantação deve ser configurável por meio de um pipeline do Azure DevOps com base nas necessidades específicas da empresa. Os principais serviços do Azure implantados aqui são os seguintes:

    • Espaço de trabalho do Azure Machine Learning como base para qualquer projeto de aprendizado de máquina corporativo com serviços relacionados, como o Cofre da Chave (para armazenar segredos)
    • Application Insights (para monitoramento de modelos)
    • Armazenamento do Azure (para armazenar conjuntos de dados)
    • Um Registro de Contêiner do Azure para armazenar imagens de modelo durante o desenvolvimento

    Os Serviços Cognitivos são implantados como um pacote para fornecer acesso de API a vários serviços apoiados por IA, e a instância de computação e os clusters de computação do Azure Machine Learning são usados para fins de desenvolvimento, criação de modelos e testes. O Azure Data Factory é usado para orquestrar a pontuação em lote de modelos, se necessário. O Serviço de Aplicativo do Azure e o Azure Cosmos DB fornecem uma camada extra para a implantação do produto de dados, onde um aplicativo ou API personalizada pode ser hospedado com seu próprio armazenamento de dados interno.

    As indústrias regulamentadas geralmente têm restrições rígidas de acesso a dados e geralmente permitem que os dados de produção sejam hospedados apenas no ambiente de produção. Por esse motivo, o ciclo de vida de desenvolvimento de produtos de dados está ocorrendo apenas na zona de aterrissagem de dados de produção, e um ambiente separado, ou grupo de recursos, é provisionado para fins de desenvolvimento, teste e implantação.

  10. Produtos de dados adicionais – Esses grupos de recursos hospedam outros produtos de dados, uma vez que uma zona de aterrissagem de dados pode hospedar um ou vários produtos de dados.

  11. Grupo de recursos de computação compartilhada – Qualquer computação compartilhada necessária para hospedar e implantar produtos de dados é provisionada dentro desse grupo de recursos. Um cluster do Serviço Kubernetes do Azure é um exemplo.

  12. Controles de infraestrutura e governança adicionais – o Microsoft Defender for Cloud e o Azure Monitor são usados como soluções básicas de segurança e monitoramento.

  13. Zona de aterrissagem de dados 002 – Esta zona de aterrissagem é um espaço reservado para assinaturas extras do Azure que seriam usadas para hospedar novas zonas de aterrissagem de dados. Eles são baseados em critérios mencionados anteriormente, como requisitos de residência de dados ou uma unidade de negócios diferente que tem sua própria equipe multifuncional e um conjunto de casos de uso a serem entregues.

Componentes

Alternativas

Nas organizações distribuídas, os grupos empresariais operam de forma independente e com elevados graus de autonomia. Como tal, eles podem considerar um design de solução alternativa, com isolamento total de casos de uso nas zonas de aterrissagem do Azure, compartilhando um conjunto mínimo de serviços comuns. Embora esse design permita um início rápido, ele requer um grande esforço das organizações de TI e ISRM, uma vez que o design de casos de uso individuais pode divergir rapidamente dos projetos de blueprint. Além disso, requer auditorias e processos ISRM independentes para cada um dos produtos de IA e Machine Learning hospedados no Azure.

Detalhes do cenário

Escalar iniciativas de IA e aprendizado de máquina em ambientes regulamentados representa desafios significativos para as organizações, independentemente de sua maturidade digital e tamanho. Neste artigo, discutimos as principais decisões de arquitetura a serem consideradas ao adotar os serviços de engenharia de dados e aprendizado de máquina do Azure em setores regulamentados. Essas decisões são baseadas no que foi aprendido com uma implementação recente em uma empresa global de ciências da vida e saúde da Fortune 500.

A arquitetura apresentada neste artigo segue o design de arquitetura de referência de IA e análise em escala empresarial e foi uma de suas primeiras implementações.

Se você configurar projetos de ciência de dados e desenvolver modelos de aprendizado de máquina em ambientes de ciências da vida e saúde, em quase todos os casos, precisará ter acesso a fontes de dados de alto impacto nos negócios (HBI). Por exemplo, essas fontes podem ser informações do protocolo de ensaios clínicos sem dados do paciente, fórmulas químicas da molécula ou segredos do processo de fabricação.

Nos setores regulamentados, os sistemas de TI são classificados com base na classificação das fontes de dados a que esses sistemas acedem. Os ambientes de IA e aprendizado de máquina executados no Azure são classificados como HBI e precisam estar em conformidade com um extenso conjunto de políticas e controles ISRM.

Estruturar princípios

Esta arquitetura baseia-se nos seguintes princípios:

  • A escala empresarial é uma abordagem arquitetônica e uma implementação de referência alinhada com o roteiro do Azure e parte do Microsoft Cloud Adoption Framework (CAF). Permite a construção e operacionalização eficazes de zonas de aterragem no Azure, em escala. O nome zona de aterrissagem é usado como um limite no qual aplicativos novos ou migrados pousam no Azure. Nesse cenário, ele também se refere a partes da plataforma de dados que são usadas para hospedar os dados e os modelos de IA e Machine Learning.
  • As arquiteturas de plataforma de dados monolíticas tradicionais têm uma limitação inerente que retarda a entrega de recursos e valores. A arquitetura descrita aqui permite que as organizações dimensionem seu patrimônio de dados e enfrentem os desafios de um data lake monolítico centralizado usando uma abordagem descentralizada com separação de propriedade (malha de dados). A abordagem permite que as organizações escalem para milhares de pipelines de ingestão e produtos de dados, mantendo a plataforma de dados segura e sustentável, separando a plataforma de dados principal e os serviços de gerenciamento de dados (implantados em uma zona de aterrissagem separada chamada zona de gerenciamento de dados) de domínios de dados e produtos de dados (implantados em uma ou mais zonas de aterrissagem de dados).
  • As assinaturas são usadas como unidades de gerenciamento e escala alinhadas com as necessidades e prioridades do negócio. O dimensionamento é obtido fornecendo novas assinaturas (zonas de aterrissagem de dados) para unidades de negócios com base em critérios como diferentes partes interessadas do negócio, diferentes objetivos e requisitos de negócios e requisitos de residência de dados (onde os dados precisam ser hospedados em uma região geográfica específica).
  • A Política do Azure é usada para fornecer guarda-corpos e garantir a conformidade contínua no cenário de TI da empresa.
  • O plano de controle e gerenciamento único (por meio do portal do Azure) fornece uma experiência consistente em todos os recursos e canais de provisionamento do Azure sujeitos a acesso baseado em função e controles orientados por políticas. Os serviços e recursos da plataforma nativa do Azure são usados sempre que possível.
  • Equipes multifuncionais se apropriam do design, desenvolvimento e operações para reduzir o tempo de comercialização e a agilidade dentro da plataforma. Princípios fundamentais como DevOps, Infraestrutura como Código (IaC) e projetos resilientes são usados para evitar erros humanos e pontos únicos de falha.
  • Os especialistas no assunto do domínio e da fonte de dados podem usar domínios de dados para extrair ativos de dados do Azure, de terceiros ou de ambientes locais. Um domínio de dados é um grupo de recursos dentro de uma zona de aterrissagem de dados que as equipes multifuncionais podem usar para ingestão de dados personalizados. Pode haver um ou vários domínios de dados dentro de uma zona de aterrissagem de dados. Os domínios de dados podem ser visualizados de forma semelhante aos domínios no Domain-Driven Design, onde fornecem um limite de contexto e são autossuficientes e isolados. Um exemplo de domínio de dados seriam os dados de ensaios clínicos ou os dados da cadeia de abastecimento.

Potenciais casos de utilização

As considerações arquitetônicas discutidas neste artigo têm sua fonte nos setores de ciências da vida e saúde. No entanto, eles também são relevantes para organizações em outros setores regulamentados, incluindo estes setores:

  • Serviços financeiros
  • Prestadores de cuidados de saúde
  • Petróleo e gás

A implementação de análises em escala empresarial e arquitetura de referência de IA em ambientes regulamentados segue padrões de design semelhantes.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser usados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Nesta seção, discutimos as lições aprendidas com a implementação da arquitetura descrita anteriormente em um ambiente regulado pelas ciências da vida e pela saúde. Também cobrimos considerações de projeto de alto nível para atender aos controles e políticas comuns de ISRM.

Segurança

A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.

Ambientes

Em ambientes regulamentados, os sistemas de TI classificados como HBI precisam ter vários ambientes segregados, como desenvolvimento, qualidade e produção, ou similares. O acesso a fontes de dados protegidas só é autorizado em ambientes certificados de produção.

Como o desenvolvimento de IA e aprendizado de máquina requer acesso a conjuntos de dados confidenciais, os diferentes estágios do processo de operações de aprendizado de máquina, como construção de modelos, treinamento e inferência (ou similar), ocorrem na produção. Os ambientes de desenvolvimento e qualidade normalmente são restritos ao tipo de trabalho de infraestrutura, operações e engenharia de dados, para garantir aprimoramentos contínuos à medida que novos serviços e recursos do Azure ficam disponíveis.

As atividades de desenvolvimento de IA e ciência de dados devem ser realizadas em ambientes de produção, exceto para sandbox ou trabalho exploratório inicial.

Encriptação

Os sistemas de TI que acessam, armazenam e processam dados corporativos confidenciais são necessários para implementar requisitos específicos no gerenciamento de chaves de criptografia, como políticas FIPS 140-2 de nível 2 ou nível 3, com integração de chaves gerenciadas pelo cliente (CMK). Os dados protegidos devem ser sempre criptografados em repouso e em trânsito, usando protocolos TLS 1.2 ou superiores.

Durante o projeto de arquitetura, é necessária uma análise cuidadosa do suporte e da integração dos serviços do Azure à infraestrutura CMK de uma organização. Quaisquer exceções à encriptação de dados devem ser documentadas. O suporte para fornecedores de módulos de segurança de hardware (HSM) está sempre sendo expandido, e informações adicionais podem ser encontradas no Módulo de Segurança de Hardware Gerenciado do Azure Key Vault.

Projeto de rede e delimitação de anel

Os ambientes de IA e aprendizado de máquina devem ter ring-fencing em vigor, com segmentação de rede e controles de acesso à rede implementados. A comunicação de rede entre os componentes da arquitetura é limitada aos fluxos de dados necessários e à infraestrutura subjacente para funcionar em uma abordagem de lista de permissões. A análise baseada em assinatura e a análise baseada no comportamento devem ser aplicadas.

Imponha controles de acesso à rede em várias camadas na arquitetura, incluindo Firewalls do Azure, inspecionando a conectividade de rede de entrada e saída, grupos de segurança de rede e acesso ao ponto de extremidade de aplicativo Web protegido com firewall de aplicativo Web (WAF).

Gestão de autorizações

Os ambientes de IA e aprendizado de máquina executados no Azure devem ser integrados ao sistema de provisionamento de conta principal de uma organização, onde as solicitações para conceder acesso a aplicativos de negócios críticos são enviadas, aprovadas e auditadas.

Espera-se que os sistemas de provisionamento de contas se conectem ao Ative Directory e ao Microsoft Entra ID de uma organização, para que as funções de autorização de negócios sejam mapeadas para os grupos de segurança correspondentes do Ative Directory e do Microsoft Entra.

Os ambientes de IA e aprendizado de máquina seguem um modelo de controle de acesso baseado em funções. As autorizações de controle de nível de acesso garantem que os usuários só possam executar as tarefas e ações para sua função de trabalho e requisitos de negócios. Espera-se que os casos de uso de aprendizado de máquina sejam altamente segregados, pois os cientistas de dados que trabalham em um caso de uso específico só têm permissão para acessar a parte de recursos desse caso de uso, seguindo um princípio de menor privilégio. Esses recursos podem incluir:

  • Contas de armazenamento
  • Áreas de trabalho do Azure Machine Learning
  • Instâncias de computação

O controle de acesso baseado em função usa grupos de segurança no Microsoft Entra ID.

Autenticação multifator

A autenticação multifator deve estar em vigor e implementada para acesso a todos os ambientes em execução no Azure e classificados como de alto impacto nos negócios. A autenticação multifator pode ser imposta usando os serviços de autenticação multifator do Microsoft Entra. Os pontos de extremidade de aplicativo – incluindo o Azure DevOps, o Portal de Gerenciamento do Azure, o Azure Machine Learning, o Azure Databricks e os Serviços Kubernetes do Azure – devem ser configurados em políticas de controle de acesso de autenticação multifator.

A autenticação multifator deve ser imposta a todos os usuários, incluindo gerentes de serviço do Azure, engenheiros de dados e cientistas de dados.

Excelência operacional

A excelência operacional abrange os processos operacionais que implantam um aplicativo e o mantêm em execução na produção. Para obter mais informações, consulte Visão geral do pilar de excelência operacional.

Registos e monitorização

Todos os serviços do Azure devem ingerir seus eventos de segurança na plataforma SOC (Security Operations Center) de uma organização, e os seguintes eventos de segurança devem ser registrados:

  • Tentativas de autenticação bem-sucedidas e falhadas
  • Acesso a dados sensíveis
  • Alterações à política de segurança
  • Alterações em grupos de usuários, usuários ou funções de administrador
  • Transferências de dados confidenciais para locais externos, se aplicável
  • Ativação e desativação de sistemas de proteção, como controles ABAC
  • Acesso atualizado aos logs e interrupção do registro

Os logs de segurança do Azure podem ser ingeridos no SOC por meio de diferentes padrões:

  • Um espaço de trabalho central do Azure Log Analytics
  • Hub de eventos conectado a sistemas de plataforma SOC, como o Splunk
  • VM do Windows e outros recursos de computação implantados com agentes SOC

DevOps

Em ambientes regulamentados, os sistemas de TI devem seguir rigorosos processos de controle de qualidade em cascata, com aprovações formais (ou portões) entre as fases do processo – como especificações de requisitos do usuário, especificações funcionais, especificações de projeto e teste, ou similares – com documentação de suporte extensa e demorada.

Os ambientes do Azure e o desenvolvimento de ciência de dados seguem processos iterativos, ancorados em uma cultura de DevOps. Um esforço significativo no dimensionamento de iniciativas de IA e aprendizado de máquina é gasto comunicando os pilares de uma organização de DevOps e criando mapeamento automatizado de rastreabilidade de ponta a ponta entre épicos, recursos, histórias de usuários, planos de teste e pipelines de CI/CD do Azure DevOps e entidades e evidências de controle de qualidade necessárias.

Eficiência de desempenho

Eficiência de desempenho é a capacidade da sua carga de trabalho para dimensionar para satisfazer as exigências que os utilizadores lhe colocam de forma eficiente. Para obter mais informações, consulte Visão geral do pilar de eficiência de desempenho.

Para dimensionar a IA e o aprendizado de máquina em ambientes regulamentados e impulsionar a rápida adoção em todas as áreas de negócios da organização, recomendamos que você projete e implemente uma estrutura de adoção para medir, monitorar e avaliar o valor criado pelos serviços do Azure. A partir do nosso exemplo do setor de ciências da vida e saúde, foram avaliadas as seguintes alavancas de valor de negócios e indicadores-chave de desempenho (KPI):

Escalabilidade – Para garantir que a arquitetura do Azure possa ser dimensionada juntamente com os requisitos de negócios, independentemente do ponto de escala, os seguintes KPIs são sugeridos:

  • Número de instâncias de computação e armazenamento total e memória usados
  • Número de experiências realizadas
  • Número de modelos implantados

Aceleração do desenvolvimento de IA – Para acelerar o desenvolvimento de soluções de IA e machine learning, são sugeridos os seguintes KPIs:

  • Número de diferentes unidades de negócios que consomem os serviços de IA e aprendizado de máquina do Azure
  • Número de utilizadores integrados, por categoria – por exemplo, engenheiros de dados, cientistas de dados, cientistas de dados cidadãos e utilizadores empresariais
  • Número de experiências realizadas
  • Tempo entre a integração de usuários e o uso ativo
  • Tempo para provisionar serviços – desde a solicitação de configuração de alteração até a conclusão do provisionamento de serviços

Conformidade – Para garantir a conformidade contínua das soluções de IA e aprendizado de máquina implantadas, os seguintes KPIs são sugeridos:

  • Conformidade geral com os controlos ISRM aplicáveis
  • Número de avisos de vulnerabilidade de segurança
  • Número de incidentes de segurança no último período

Experiência do usuário – Para garantir que experiências de usuário consistentes e de alta qualidade estejam disponíveis, os seguintes KPIs são sugeridos:

  • Número de solicitações de suporte técnico do usuário
  • Net Promoter Score (NPS)

Fundações seguras – Para garantir que as fundações seguras estejam em vigor, os seguintes KPIs são sugeridos:

  • Tempo de atividade de serviços críticos
  • Número de incidentes relatados relacionados à disponibilidade de desempenho

Otimização de custos

A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.

O gerenciamento de custos é uma parte importante do design na implementação de plataformas escaláveis de IA e aprendizado de máquina, uma vez que os custos operacionais não seguem padrões simples e previsíveis. O custo é impulsionado principalmente pelo número e tamanho dos experimentos de IA e aprendizado de máquina que estão sendo executados na plataforma e, mais especificamente, pelo número e SKUs dos recursos de computação usados no treinamento e inferência de modelos.

Aqui estão algumas práticas que recomendamos:

  • Atribua a cada caso de uso e produto de IA e aprendizado de máquina seu próprio orçamento de serviços do Azure, que é uma boa prática de gerenciamento de custos.
  • Estabeleça um modelo de custo transparente para serviços compartilhados de plataforma.
  • Use tags consistentemente para associar casos de uso e recursos de produtos a centros de custo.
  • Use o Azure Advisor e o Orçamento do Azure para entender onde os recursos não estão sendo usados da maneira mais ideal e revise as configurações regularmente.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

  • Eran Sagi - Brasil | Arquiteto de Soluções AI

Próximos passos

Saiba como treinar e implantar modelos e gerenciar o ciclo de vida do aprendizado de máquina com o Azure Machine Learning. Tutoriais, exemplos de código, referências de API e muito mais, disponíveis aqui:

Saiba como implementar uma zona de aterrissagem em escala empresarial para análise de dados e IA no Azure:

Documentação do produto:

Artigos de visão geral do Centro de Arquitetura do Azure: