Automatize a programação e o despacho para a fabricação de semicondutores

AKS (Serviço de Kubernetes do Azure)
Rede Virtual do Azure
Arquivos do Azure
Registro de Contêiner do Azure

Este artigo demonstra a automação do agendamento e despacho de fabricação para cargas de trabalho de fabricação de semicondutores no Azure. A solução usa um ambiente de computação de alto desempenho (HPC) para realizar aprendizado por reforço (RL) em escala. A arquitetura é baseada no minds.ai Maestro, um conjunto de produtos de fabricação de semicondutores.

Arquitetura

Diagrama que mostra uma arquitetura para automatizar o agendamento e o despacho de fábrica.

Baixe um arquivo do PowerPoint dessa arquitetura.

Workflow

Esse fluxo de trabalho fornece uma visão geral de alto nível da arquitetura usada para treinamento em RL.

  1. Os usuários finais interagem com o sistema de gerenciamento do Maestro por meio de uma API REST executada no Serviço de Kubernetes do Azure (AKS). Eles podem interagir com o sistema de várias maneiras:

    • API Python
    • Interface de usuário baseada na Web
    • Cliente de linha de comando
  2. O Maestro agenda os trabalhos de treinamento em um cluster do Kubernetes.

  3. O Maestro invoca o Kubernetes para atribuir pods aos pools de nós relevantes. O AKS dimensiona os pools de nós para cima ou para baixo, conforme necessário. O Maestro atribui os pods a pools de nós específicos com base em uma configuração especificada pelo usuário. O usuário pode selecionar:

    • Nós regulares ou pontuais.
    • Nós de CPU ou GPU.
  4. O Kubernetes extrai a imagem de contêiner do Registro de Contêiner do Azure, com base na configuração definida pelo Maestro, e inicializa os pods.

  5. Durante o treinamento, os resultados são armazenados nos Arquivos do Azure e no sistema de rastreamento de métricas que faz parte dos pods de gerenciamento do Maestro (e com suporte de um dispositivo de armazenamento adicional). O usuário monitora o progresso do trabalho usando o painel do Maestro.

  6. Quando o treinamento é concluído, o agente RL é enviado para o sistema de implantação, onde pode ser consultado para ações. Opcionalmente, o servidor de implantação pode relatar estatísticas de monitoramento para a plataforma Maestro para otimização adicional do agente por meio dos Arquivos do Azure.

Componentes

  • O AKS é um serviço de orquestração de contêineres gerenciado baseado no sistema Kubernetes de código aberto. Você pode usar o AKS para lidar com funcionalidades críticas, como implantação, dimensionamento e gerenciamento de contêineres do Docker e aplicativos baseados em contêiner.
  • O mecanismo Maestro (codinome DeepSim) aumenta os fluxos de trabalho de fabricação existentes e melhora os KPIs de fabricação de semicondutores com recomendações de despacho e agendamento aprimorados por IA.
  • As Máquinas Virtuais Spot do Azure provisionam a capacidade de computação do Azure não utilizada com um desconto significativo. As VMs spot oferecem os mesmos tipos de máquina, opções e desempenho que as instâncias de computação regulares.
  • As contas de armazenamento do Azure são usadas nessa arquitetura para armazenar resultados de treinamento, entrada e dados de configuração.
  • Os discos gerenciados do Azure são dispositivos de armazenamento em bloco duráveis e de alto desempenho projetados para serem usados com as Máquinas Virtuais do Azure e a Solução VMware do Azure.
  • A Rede Virtual do Azure permite que os recursos do Azure, como VMs, se comuniquem entre si, com a Internet e com as redes locais por meio de uma conexão de segurança aprimorada.
  • Os Arquivos do Azure fornecem compartilhamentos de arquivos totalmente gerenciados na nuvem que são acessíveis por meio de protocolos SMB e NFS padrão do setor.
  • O Registro de Contêiner do Azure pode ajudá-lo a criar, armazenar, verificar, replicar e gerenciar imagens e artefatos de contêiner com uma instância totalmente gerenciada replicada geograficamente da distribuição OCI.

Detalhes do cenário

A modelagem eficaz de ferramentas e métodos eficazes e eficientes de agendamento e expedição são fundamentais para os fabricantes.

Para tirar proveito das soluções de IA e aprendizado de máquina de ponta, as empresas precisam de uma infraestrutura de HPC escalável e econômica. A execução de cargas de trabalho altamente complexas pode levar dias para ser concluída com infraestruturas locais. Os sistemas locais também são normalmente menos eficientes em termos de energia do que as soluções do Azure.

A minds.ai parceira da Microsoft criou a solução de agendamento e despacho Maestro para ajudar as empresas de fabricação de semicondutores a otimizar os KPIs de fabricação de wafers.

Essa solução usa o AKS para implantar, gerenciar e dimensionar aplicativos baseados em contêiner em um ambiente de cluster. Uma API REST é usada para fornecer uma interface amigável ao AKS. Você pode usar o Registro de Contêiner para criar, armazenar e gerenciar imagens de contêiner como o DeepSim. Os contêineres têm alta portabilidade e aumentam a agilidade para fluxos de trabalho sob demanda.

A arquitetura de solução descrita neste artigo se aplica aos seguintes cenários.

RL para agendamento de fab

Essa solução pode ajudar os engenheiros de controle de linha a melhorar o tempo de ciclo do produto, a taxa de transferência e a utilização e liberar largura de banda de recursos por meio da automação e do aumento dos fluxos de trabalho atuais. A solução pode aumentar um fluxo de trabalho com agentes de IA que são treinados via RL para dar aos engenheiros de fabricação mais insights e opções para melhorar os KPIs.

A solução usa RL para treinar modelos. As soluções implantadas são treinadas, em simulações, para responder rapidamente a estados de fabricação dinâmicos. O fluxo de trabalho gera automaticamente recomendações de agendamento.

Em um cenário do mundo real, as programações resultantes economizaram dezenas de milhões de dólares por ano a uma empresa:

  • Aumento da taxa de transferência em 1-2%.
  • Redução de violações críticas de tempo de fila em 1-2%.
  • Diminuindo o tempo de ciclo de novos produtos em 2-7%.
  • Melhorar a utilização para grupos de ferramentas com gargalos.
  • Diminuição do custo por wafer.

Aprendizado supervisionado para modelagem de ferramentas de fabricação

Obter informações precisas sobre ferramentas e equipamentos é outro aspecto crítico do planejamento e da operação de uma fábrica. Os requisitos de negócios geralmente incluem modelos para medir a confiabilidade e a previsibilidade da ferramenta, incluindo o Índice de Integridade do Equipamento (EHI) e a Vida Útil Restante (RUL).

O Maestro inclui aplicações para treinamento de modelos EHI e RUL. Os dados históricos que fazem parte do sistema de registro da fábrica são usados para treinar os modelos. O hardware da GPU do Azure acelera esse processo. Os modelos resultantes são usados para programação com reconhecimento de risco para otimizar a produtividade, o rendimento e a manutenção preventiva e melhorar significativamente o EHI.

Possíveis casos de uso

Essa arquitetura também se aplica aos seguintes setores, nos quais soluções avançadas de controle e agendamento são normalmente usadas:

  • Indústria 4.0
  • Viagens e transporte (desenvolvimento de aplicativos)
  • Farmacêutica e saúde
  • Controle de energia renovável e projeto de sites multivariados

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework​, um conjunto de princípios orientadores que você pode usar para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

Confiabilidade

A confiabilidade garante que seu aplicativo possa cumprir os compromissos que você deve assumir com seus clientes. Para obter mais informações, confira Visão geral do pilar de confiabilidade.

minds.ai soluções são implantadas em alguns dos processos mais complexos e críticos do mundo para a produção de chips e energia, portanto, a confiabilidade é essencial. Na plataforma Azure, você pode manter seus ambientes em execução estáveis usando zonas de disponibilidade, conjuntos de disponibilidade, armazenamento com redundância geográfica e Azure Site Recovery. Se forem detectados problemas, o sistema reinicia automaticamente parte do ambiente de computação e reinicia o processo de treinamento. Esse recurso ajuda a garantir que você obtenha um agente treinado ou um modelo de rede neural dentro do prazo esperado.

Esse sistema aumenta suas soluções existentes, para que você sempre possa recorrer a essas soluções.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

Essa solução é implantada como uma solução de locatário único. O controle exclusivo do software, dos dados e das simulações em processo permanece com você.

O AKS fornece controle de acesso baseado em função (RBAC), que ajuda você a garantir que os engenheiros possam acessar apenas as informações necessárias para realizar seus trabalhos.

Para obter mais informações sobre opções de segurança de rede, consulte Proteger o tráfego entre pods usando diretivas de rede no AKS.

Otimização de custo

A otimização de custos consiste em reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

As corridas de treinamento do Maestro podem operar de maneira interruptível, o que permite duas opções:

  • As VMs spot reduzem os custos, mas aumentam a chance de trabalhos levarem mais tempo para serem concluídos devido a interrupções.
  • As instâncias reservadas aumentam os custos, mas usam recursos de computação dedicados que resultam em tempos de execução previsíveis.

Você pode usar as Máquinas Virtuais Spot para aproveitar a capacidade não utilizada do Azure com economias de custo significativas. Se o Azure precisar da capacidade de volta, ele removerá as máquinas virtuais spot e o software minds.ai iniciará automaticamente novas instâncias e retomará o processo de treinamento.

Não há custos associados à implantação, gerenciamento e operações do AKS do cluster Kubernetes. Você paga apenas pelas instâncias de máquina virtual, armazenamento e recursos de rede consumidos pelo cluster do Kubernetes. Os Arquivos do Azure são usados para armazenamento de dados de longo prazo. Como todos os dados permanecem na nuvem, as taxas de largura de banda de transferência de dados são reduzidas.

A seguir estão alguns detalhes sobre casos de uso de CPU e GPU.

  • Caso de uso da CPU: 10 agentes RL em execução por um mês em 20 nós, com 120 núcleos de CPU por nó, são usados com um tempo de computação de 360 horas (2.400 núcleos de CPU).

    Para economizar até 83% do custo, use as Máquinas Virtuais Spot do Azure.

    Categoria de serviço Tipo de serviço Descrição
    Computação Máquinas virtuais Uma VM Standard_HB120rs_v3 (120 núcleos, 448 GiB de RAM)
    Computação Máquinas virtuais Uma VM Standard_B8ms (8 núcleos, 32 GiB de RAM)
    Armazenamento Contas de armazenamento Armazenamento de arquivos, nível de desempenho premium
    Armazenamento Contas de armazenamento Discos gerenciados, SSD Premium, tipo de disco P4, um disco
    Contêineres Registro de Contêiner Um registro
    Computação Máquinas virtuais 20 Standard_HB120rs_v3 VMs (120 núcleos, 448 GiB de RAM)
  • Caso de uso de GPU: o aprendizado supervisionado de 10 trabalhos de treinamento de rede neural em execução por um mês em 16 nós, com uma GPU por nó, é usado com um tempo de computação de 360 horas (16 GPUs).

    Para economizar até 52% do custo, use as Máquinas Virtuais Spot do Azure.

    Categoria de serviço Tipo de serviço Descrição
    Computação Máquinas virtuais Uma VM v3 Standard_HB120_rs (120 núcleos, 448 GiB de RAM)
    Computação Máquinas virtuais Uma VM Standard_B8ms (8 núcleos, 32 GiB de RAM)
    Armazenamento Contas de armazenamento Armazenamento de arquivos, nível de desempenho premium
    Armazenamento Contas de armazenamento Discos gerenciados, SSD Premium, tipo de disco P4, um disco
    Contêineres Registro de Contêiner Um registro
    Computação Máquinas virtuais 16 VMs Standard_NC6s_v3 (6 vCPUs, 112 GiB de RAM)

Para estimar custos para sua organização, use a calculadora de preços do Azure.

Eficiência de desempenho

A eficiência do desempenho é a capacidade de escalar a carga de trabalho para atender às demandas exigidas de maneira eficiente. Para saber mais, confira Visão geral do pilar de eficiência de desempenho.

Essa arquitetura usa VMs da série HBv3 com CPUs AMD para aprendizado por reforço e VMs da série NCv3 com GPUs NVIDIA para aprendizado supervisionado.

As VMs da série HBv3 têm processadores de computação intensiva e memória de alta largura de banda que são adequados para aprendizado por reforço. Você pode usá-los em configurações de cluster de vários nós para obter desempenho escalonável.

As VMs da série NCv3 têm processadores acelerados por GPU com uso intensivo de computação que são adequados para as demandas de aprendizado supervisionado. Eles podem usar recursos de várias GPUs para alcançar um desempenho escalável.

Para obter mais informações, consulte Opções de dimensionamento para aplicativos no AKS.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Principais autores:

Outros colaboradores:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas