Automatisieren von Zeitplanung und Lieferung für die Halbleiterfertigung

Azure Kubernetes Service (AKS)

Azure Virtual Network

Azure Files

Azure Container Registry

In diesem Artikel wird die Automatisierung der Fabrikationszeitplanung und -lieferung von Workloads zur Halbleiterherstellung in Azure demonstriert. Die Lösung verwendet eine HPC-Umgebung (High Performance Computing), um vertiefendes Lernen (Reinforcement Learning, RL) im großen Stil durchzuführen. Die Architektur basiert auf „minds.ai Maestro“, einer Produktsuite für die Halbleiterfertigung.

Aufbau

Laden Sie eine PowerPoint-Datei zu dieser Architektur herunter.

Workflow

Dieser Workflow bietet einen allgemeinen Überblick über die Architektur, die für das RL-Training verwendet wird.

Endbenutzer interagieren mit dem Maestro-Managementsystem über eine REST-API, die auf Azure Kubernetes Service (AKS) ausgeführt wird. Sie können auf unterschiedliche Weise mit dem System interagieren:
- Python-API
- Webbasierte Benutzeroberfläche
- Befehlszeilenclient
Maestro plant die Trainingsaufträge in einem Kubernetes-Cluster.
Maestro ruft Kubernetes auf, um den relevanten Knotenpools Pods zuzuweisen. AKS skaliert die Knotenpools nach Bedarf hoch oder herunter. Maestro weist die Pods bestimmten Knotenpools auf Grundlage einer vom Benutzer angegebenen Konfiguration zu. Der Benutzer kann Folgendes auswählen:
- Reguläre oder Spotknoten.
- CPU- oder GPU-Knoten.
Kubernetes pullt das Containerimage auf Grundlage der von Maestro definierten Konfiguration aus Azure Container Registry und initialisiert die Pods.
Während des Trainings werden die Ergebnisse in Azure Files und dem Metriknachverfolgungssystem gespeichert, das Teil der Maestro-Verwaltungspods ist (und durch ein zusätzliches Speichergerät unterstützt wird). Der Benutzer überwacht den Auftragsfortschritt mithilfe des Maestro-Dashboards.
Nach Abschluss des Trainings wird der RL-Agent auf das Bereitstellungssystem gepusht, wo bei ihm Aktionen abgefragt werden können. Optional kann der Bereitstellungsserver Überwachungsstatistiken zur weiteren Optimierung des Agents über Azure Files an die Maestro-Plattform melden.

Komponenten

AKS ist ein verwalteter Containerorchestrierungsdienst, der auf dem Open-Source-System Kubernetes basiert. Sie können AKS verwenden, um kritische Funktionen wie das Bereitstellen, Skalieren und Verwalten von Docker-Containern und containerbasierten Anwendungen zu verarbeiten.
Die Maestro-Engine (Codename DeepSim) erweitert vorhandene Fabrikationsworkflows und verbessert KPIs der Halbleiterfabrikation mit KI-erweiterten Lieferungs- und Zeitplanungsempfehlungen.
Azure Spot Virtual Machines stellt nicht verwendete Azure-Computekapazität mit einem erheblichen Rabatt zur Verfügung. Spot-VMs bieten dieselben Computertypen, Optionen und Leistungswerte wie reguläre Compute-Instanzen.
Azure-Speicherkonten werden in dieser Architektur zum Speichern von Trainingsergebnissen, Eingaben und Konfigurationsdaten verwendet.
Verwaltete Azure-Datenträger sind langlebige Hochleistungs-Blockspeichergeräte, die für die Verwendung mit Azure Virtual Machines und Azure VMware Solution entwickelt wurden.
Über Azure Virtual Network können Azure-Ressourcen wie virtuelle Computer über eine erweiterte Sicherheitsverbindung miteinander sowie mit dem Internet und lokalen Netzwerken kommunizieren.
Azure Files bietet vollständig verwaltete Dateifreigaben in der Cloud, auf die über die Branchenstandardprotokolle SMB und NFS zugegriffen werden kann.
Azure Container Registry kann Sie beim Erstellen, Speichern, Scannen, Replizieren und Verwalten von Containerimages und Artefakten mit einer vollständig verwalteten, georeplizierten Instanz der OCI-Distribution unterstützen.

Szenariodetails

Eine effektive Werkzeugmodellierung sowie effektive und effiziente Zeitplanungs- und Lieferungsmethoden sind für Hersteller von entscheidender Bedeutung.

Um modernste KI- und Machine Learning-Lösungen nutzen zu können, benötigen Unternehmen eine skalierbare und kostengünstige HPC-Infrastruktur. Die Ausführung hochkomplexer Workloads kann mit lokalen Infrastrukturen Tage dauern. Lokale Systeme sind in der Regel auch weniger energieeffizient als Azure-Lösungen.

Microsofts Partner minds.ai hat die Maestro-Zeitplanungs- und -Lieferungslösung entwickelt, um Halbleiterhersteller dabei zu unterstützen, KPIs der Wafer-Herstellung zu optimieren.

Diese Lösung verwendet AKS zum Bereitstellen, Verwalten und Skalieren containerbasierter Anwendungen in einer Clusterumgebung. Eine REST-API wird verwendet, um eine benutzerfreundliche Schnittstelle für AKS bereitzustellen. Sie können Container Registry verwenden, um Containerimages wie DeepSim zu erstellen, zu speichern und zu verwalten. Die Container verfügen über eine hohe Portierbarkeit und erhöhen die Agilität für Bedarfsworkflows.

Die in diesem Artikel beschriebene Lösungsarchitektur gilt für die folgenden Szenarien.

RL für die Fabrikationszeitplanung

Diese Lösung kann Fachleuten für die Fertigungsstraßensteuerung helfen, die Produktzykluszeit, den Durchsatz und die Auslastung zu verbessern sowie die Ressourcenbandbreite durch Automatisierung und Erweiterung aktueller Workflows freizugeben. Die Lösung kann einen Workflow mit KI-Agents erweitern, die mittels RL trainiert werden, um Fabrikationstechnikern mehr Erkenntnisse und Optionen zur Verbesserung von KPIs zu liefern.

Die Lösung verwendet RL zum Trainieren von Modellen. Die bereitgestellten Lösungen werden in Simulationen trainiert, um schnell auf dynamische Fabrikationszustände zu reagieren. Der Workflow generiert automatisch Zeitplanungsempfehlungen.

In einem realen Szenario haben die sich ergebenden Zeitpläne einem Unternehmen mehrere Zehn Millionen Dollar pro Jahr eingespart durch:

Erhöhung des Durchsatzes um 1–2 %.
Verringerung kritischer Warteschlangenzeitverstöße um 1–2 %.
Verringerung der Zykluszeit neuer Produkte um 2–7 %.
Verbessern der Nutzung von Werkzeuggruppen mit Engpässen.
Senken der Stückkosten der Wafer.

Überwachtes Lernen für die Modellierung von Fabrikationswerkzeugen

Genaue Informationen zu Werkzeugen und Geräten zu erhalten, ist ein weiterer kritischer Aspekt der Planung und des Betriebs einer Fabrik. Geschäftsanforderungen umfassen häufig Modelle zur Messung der Zuverlässigkeit und Vorhersagbarkeit von Werkzeugen, einschließlich Equipment Health Index (EHI, Index der Ausrüstungsintegrität) und Restnutzungsdauer (Remaining Useful Life, RUL).

Maestro umfasst Anwendungen zum Trainieren von EHI- und RUL-Modellen. Historische Daten, die Teil des Protokollierungssystems der Fabrik sind, werden verwendet, um die Modelle zu trainieren. GPU-Hardware von Azure beschleunigt diesen Prozess. Die resultierenden Modelle werden für eine risikobewusste Zeitplanung verwendet, um Produktivität, Ertrag und vorbeugende Wartung zu optimieren und den EHI erheblich zu verbessern.

Mögliche Anwendungsfälle

Diese Architektur gilt auch für die folgenden Branchen, in denen in der Regel komplexere Steuerungs- und Zeitplanungslösungen verwendet werden:

Industrie 4.0
Reisen und Transport (Anwendungsentwicklung)
Pharma und Gesundheitswesen
Steuerung von erneuerbaren Energien und multivariate Standortgestaltung

Überlegungen

Diese Überlegungen bilden die Säulen des Azure Well-Architected Framework, einer Reihe von Leitprinzipien, die Sie zur Verbesserung der Qualität eines Workloads verwenden können. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Zuverlässigkeit

Zuverlässigkeit stellt sicher, dass die Anwendung Ihre Verpflichtungen gegenüber den Kunden erfüllen kann. Weitere Informationen finden Sie in der Überblick über die Säule „Zuverlässigkeit“.

minds.ai-Lösungen werden in einigen der komplexesten und kritischsten Prozesse der Welt für die Chipherstellung und Energieerzeugung eingesetzt, weshalb Zuverlässigkeit unerlässlich ist. Auf der Azure-Plattform können Sie die Stabilität Ihrer laufenden Umgebungen gewährleisten, indem Sie Verfügbarkeitszonen, Verfügbarkeitsgruppen, georedundanten Speicher und Azure Site Recovery verwenden. Wenn Probleme erkannt werden, startet das System sowohl einen Teil der Computeumgebung als auch den Trainingsprozess automatisch neu. Diese Funktion trägt dazu bei, dass sichergestellt ist, dass Ihnen innerhalb des erwarteten Zeitrahmens ein trainierter Agent oder ein trainiertes neuronales Netzwerkmodell zur Verfügung steht.

Dieses System erweitert Ihre vorhandenen Lösungen, sodass Sie immer auf diese bestehenden Lösungen zurückgreifen können.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.

Diese Lösung wird als Einzelmandantenlösung bereitgestellt. Die alleinige Kontrolle über die Software-, Daten- und prozessinternen Simulationen verbleibt bei Ihnen.

AKS bietet rollenbasierte Zugriffssteuerung (RBAC), mit der Sie sicherstellen können, dass Techniker nur auf Informationen zugreifen können, die sie für ihre Arbeit benötigen.

Weitere Informationen zu Netzwerksicherheitsoptionen finden Sie unter Schützen des Datenverkehrs zwischen Pods durch Netzwerkrichtlinien in AKS.

Kostenoptimierung

Bei der Kostenoptimierung geht es darum, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Maestro-Trainingsläufe können unterbrechungsfrei ausgeführt werden, was zwei Optionen ermöglicht:

Spot-VMs senken die Kosten, erhöhen aber die Wahrscheinlichkeit, dass Aufträge aufgrund von Unterbrechungen mehr Zeit in Anspruch nehmen.
Reservierte Instanzen erhöhen die Kosten, verwenden aber dedizierte Computeressourcen, die zu vorhersagbaren Laufzeiten führen.

Mit Spot-VMs können Sie von unserer ungenutzten Azure-Kapazität profitieren und erhebliche Kosteneinsparungen erzielen. Wenn Azure die Kapazität wieder benötigt, entfernt es die Spot-VMs, und die minds.ai-Software startet automatisch neue Instanzen und setzt den Trainingsprozess fort.

Bei der Bereitstellung, Verwaltung und dem Betrieb des Kubernetes-Clusters mit AKS fallen keine Kosten an. Sie zahlen nur für die VM-Instanzen sowie für die Speicher- und Netzwerkressourcen, die von Ihrem Kubernetes-Cluster verbraucht werden. Azure Files wird für die langfristige Datenspeicherung verwendet. Da alle Daten in der Cloud verbleiben, verringern sich die Gebühren für die Datenübertragungsbandbreite.

Im Folgenden finden Sie einige Details zu CPU- und GPU-Anwendungsfällen.

CPU-Anwendungsfall: 10 RL-Agents, die einen Monat lang auf 20 Knoten mit 120 CPU-Kernen pro Knoten ausgeführt werden, werden mit einer Computezeit von 360 Stunden (2.400 CPU-Kerne) verwendet.

Um bis zu 83 % der Kosten zu sparen, verwenden Sie Azure Spot Virtual Machines.

Dienstkategorie	Dienstart	BESCHREIBUNG
Compute	Virtuelle Computer	Eine Standard_HB120rs_v3-VM (120 Kerne, 448 GiB RAM)
Compute	Virtuelle Computer	Eine Standard_B8ms-VM (8 Kerne, 32 GiB RAM)
Storage	Speicherkonten	Dateispeicher, Leistungsstufe „Premium“
Storage	Speicherkonten	Verwaltete Datenträger, SSD Premium, P4-Datenträgertyp, ein Datenträger
Container	Container Registry	Eine Registrierung
Compute	Virtuelle Computer	20 Standard_HB120rs_v3-VMs (120 Kerne, 448 GiB RAM)

GPU-Anwendungsfall: Überwachtes Lernen von 10 Trainingsaufträgen für neuronale Netzwerke, die einen Monat lang auf 16 Knoten mit einer GPU pro Knoten ausgeführt werden, werden mit einer Computezeit von 360 Stunden (16 GPUs) verwendet.

Um bis zu 52 % der Kosten zu sparen, verwenden Sie Azure Spot Virtual Machines.

Dienstkategorie	Dienstart	BESCHREIBUNG
Compute	Virtuelle Computer	Eine Standard_HB120_rs v3-VM (120 Kerne, 448 GiB RAM)
Compute	Virtuelle Computer	Eine Standard_B8ms-VM (8 Kerne, 32 GiB RAM)
Storage	Speicherkonten	Dateispeicher, Leistungsstufe „Premium“
Storage	Speicherkonten	Verwaltete Datenträger, SSD Premium, P4-Datenträgertyp, ein Datenträger
Container	Container Registry	Eine Registrierung
Compute	Virtuelle Computer	16 Standard_NC6s_v3 VMs (6 vCPUs, 112 GiB RAM)

Um die Kosten für Ihre Organisation abzuschätzen, verwenden Sie den Azure-Preisrechner.

Effiziente Leistung

Leistungseffizienz ist die Fähigkeit Ihrer Workload, eine effiziente Skalierung entsprechend den Anforderungen auszuführen. Weitere Informationen finden Sie unter Übersicht über die Säule „Leistungseffizienz“.

Diese Architektur verwendet VMs der HBv3-Serie mit AMD-CPUs für das vertiefende Lernen und VMs der NCv3-Serie mit NVIDIA-GPUs für überwachtes Lernen.

VMs der HBv3-Serie verfügen über rechenintensive Prozessoren und Arbeitsspeicher mit hoher Bandbreite, die sich gut für das vertiefende Lernen eignen. Sie können sie in Clusterkonfigurationen mit mehreren Knoten verwenden, um eine skalierbare Leistung zu erzielen.

VMs der NCv3-Serie verfügen über rechenintensive GPU-beschleunigte Prozessoren, die sich gut für die Anforderungen des überwachten Lernens eignen. Sie können Multi-GPU-Funktionen verwenden, um eine skalierbare Leistung zu erzielen.

Weitere Informationen finden Sie unter Skalierungsoptionen für Anwendungen in AKS.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautoren:

Kalaiselvan Balaraman | Cloud Solution Architect
Mahaboob Basha R | Cloud Solution Architect
Jeroen Bédorf | Chief Architect
Thomas Soule | Business Development Manager

Andere Mitwirkende:

Mick Alberts | Technical Writer
Hari Bagudu | Senior Manager
Gauhar Junnarkar | Principal Program Manager
Sachin Rastogi | Program Lead

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Share via

Automatisieren von Zeitplanung und Lieferung für die Halbleiterfertigung

Aufbau

Workflow

Komponenten

Szenariodetails

RL für die Fabrikationszeitplanung

Überwachtes Lernen für die Modellierung von Fabrikationswerkzeugen

Mögliche Anwendungsfälle

Überlegungen

Zuverlässigkeit

Sicherheit

Kostenoptimierung

Effiziente Leistung

Beitragende

Nächste Schritte

Feedback

Feedback

Zusätzliche Ressourcen

Share via

Automatisieren von Zeitplanung und Lieferung für die Halbleiterfertigung

Aufbau

Workflow

Komponenten

Szenariodetails

RL für die Fabrikationszeitplanung

Überwachtes Lernen für die Modellierung von Fabrikationswerkzeugen

Mögliche Anwendungsfälle

Überlegungen

Zuverlässigkeit

Sicherheit

Kostenoptimierung

Effiziente Leistung

Beitragende

Nächste Schritte

Zugehörige Ressourcen

Feedback

Feedback

Zusätzliche Ressourcen