Den här artikeln innehåller en grundläggande arkitektur som är avsedd för att lära dig hur du kör chattprogram som använder språkmodeller för Azure OpenAI-tjänsten. Arkitekturen innehåller ett klientanvändargränssnitt som körs i Azure App Service och använder promptflöde för att samordna arbetsflödet från inkommande uppmaningar till datalager för att hämta grunddata för språkmodellen. Det körbara flödet distribueras till en hanterad onlineslutpunkt med hanterad beräkning. Arkitekturen är utformad för att fungera från en enda region.
Viktigt!
Den här arkitekturen är inte avsedd att användas för produktionsprogram. Det är avsett att vara en introduktionsarkitektur som du kan använda för inlärning och konceptbevis (POC). När du utformar dina företagschattprogram för produktion läser du referensarkitekturen för OpenAI från slutpunkt till slutpunkt, som utökar den här grundläggande arkitekturen med ytterligare beslut om produktionsdesign.
Viktigt!
Vägledningen stöds av en exempelimplementering som innehåller distributionssteg för den här grundläggande implementeringen av chatt från slutpunkt till slutpunkt. Den här implementeringen kan användas som grund för din POC för att få erfarenhet av att arbeta med chattprogram som använder Azure OpenAI.
Arkitektur
Bild 1: Grundläggande chattarkitektur från slutpunkt till slutpunkt med Azure OpenAI
Ladda ned en Visio-fil med den här arkitekturen.
Arbetsflöde
- En användare utfärdar en HTTPS-begäran till apptjänstens standarddomän på azurewebsites.net. Den här domänen pekar automatiskt på den inbyggda offentliga IP-adressen för App Service. TLS-anslutningen (Transport Layer Security) upprättas från klienten direkt till App Service. Certifikatet hanteras helt av Azure.
- Easy Auth, en funktion i Azure App Service, ser till att användaren som kommer åt webbplatsen autentiseras med Microsoft Entra-ID.
- Klientprogramkoden som distribueras till App Service hanterar begäran och visar användaren ett chattgränssnitt. Chattgränssnittskoden ansluter till API:er som också finns i samma App Service-instans. API-koden ansluter till en Azure Machine Learning-hanterad onlineslutpunkt för att hantera användarinteraktioner.
- Den hanterade onlineslutpunkten dirigerar begäran till azure machine learning-hanterad beräkning där logiken för orkestrering av promptflöde distribueras.
- Orkestreringskoden för kommandotolken börjar köras. Logiken extraherar bland annat användarens fråga från begäran.
- Orkestreringslogik ansluter till Azure AI Search för att hämta grunddata för frågan. Grunddata läggs till i uppmaningen som skickas till Azure OpenAI i nästa steg.
- Orkestreringslogiken ansluter till Azure OpenAI och skickar uppmaningen som innehåller relevanta grunddata.
- Informationen om den ursprungliga begäran till App Service och anropet till den hanterade onlineslutpunkten loggas i Application Insights med samma Log Analytics-arbetsyta som Azure OpenAI-telemetriflöden till.
Promptflöde
Arbetsflödet innehåller flödet för chattprogrammet, men i följande lista beskrivs ett typiskt promptflöde i detalj.
Kommentar
Talen i det här flödet motsvarar inte talen i arkitekturdiagrammet.
- Användaren anger en uppmaning i ett anpassat chattanvändargränssnitt (UI).
- Gränssnittets API-kod skickar den texten till kommandotolken.
- Prompt flow extraherar användar avsikten, antingen en fråga eller ett direktiv, från prompten.
- Om du vill kan du välja att ange vilka datalager som innehåller data som är relevanta för användarprompten.
- Fråga flöde frågar relevanta datalager.
- Prompt flow skickar avsikten, relevanta grunddata och all historik som anges i uppmaningen till språkmodellen.
- Prompt-flödet returnerar resultatet så att det kan visas i användargränssnittet.
Flödesdirigeraren kan implementeras på valfritt antal språk och distribueras till olika Azure-tjänster. Den här arkitekturen använder promptflöde eftersom det ger en smidig upplevelse för att skapa, testa och distribuera flöden som samordnar mellan prompter, serverdelsdatalager och språkmodeller.
Komponenter
Många av komponenterna i den här arkitekturen är desamma som resurserna i den grundläggande App Service-webbprogramarkitekturen eftersom chattgränssnittet baseras på den arkitekturen. Komponenterna som är markerade i det här avsnittet fokuserar på de komponenter som används för att skapa och samordna chattflöden, datatjänster och de tjänster som exponerar språkmodellerna.
Azure AI Studio är en plattform som du kan använda för att skapa, testa och distribuera AI-lösningar. AI Studio används i den här arkitekturen för att skapa, testa och distribuera logiken för orkestrering av promptflöde för chattprogrammet.
AI Studio Hub är den främsta resursen för AI Studio. Det är den centrala resursen där du kan styra säkerhets-, anslutnings- och beräkningsresurser för användning i dina AI Studio-projekt. Du definierar anslutningar till resurser som Azure OpenAI i AI Studio Hub. AI Studio Projects ärver dessa anslutningar.
AI Studio Projects är de miljöer som används för att samarbeta när du utvecklar, distribuerar och utvärderar AI-modeller och lösningar.
Prompt flow är ett utvecklingsverktyg som du kan använda för att skapa, utvärdera och distribuera flöden som länkar användarfrågor, åtgärder via Python-kod och anrop till språkinlärningsmodeller. Promptflöde används i den här arkitekturen som det lager som orkestrerar flöden mellan prompten, olika datalager och språkmodellen. För utveckling kan du vara värd för dina promptflöden i två typer av körningar.
Automatisk körning: Ett serverlöst beräkningsalternativ som hanterar livscykeln och prestandaegenskaperna för beräkningen och tillåter flödesdriven anpassning av miljön. Den här arkitekturen använder automatisk körning för enkelhetens skull.
Körning av beräkningsinstanser: Ett alltid på-beräkningsalternativ där arbetsbelastningsteamet måste välja prestandaegenskaperna. Den här körningen ger mer anpassning och kontroll över miljön.
Machine Learning är en hanterad molntjänst som du kan använda för att träna, distribuera och hantera maskininlärningsmodeller. Den här arkitekturen använder en funktion i Machine Learning som används för att distribuera och vara värd för körbara flöden för AI-program som drivs av språkmodeller. Den här funktionen är Hanterade onlineslutpunkter som gör att du kan distribuera ett flöde för inferens i realtid. I den här arkitekturen används de som en PaaS-slutpunkt för chattgränssnittet för att anropa de promptflöden som hanteras av Den automatiska körningen i Machine Learning.
Lagring används för att spara källfilerna för promptflöde för utveckling av promptflöden.
Med Container Registry kan du skapa, lagra och hantera containeravbildningar och artefakter i ett privat register för alla typer av containerdistributioner. I den här arkitekturen paketeras flöden som containeravbildningar och lagras i Container Registry.
Azure OpenAI är en fullständigt hanterad tjänst som ger REST API-åtkomst till Azure OpenAI:s språkmodeller, inklusive GPT-4, GPT-3.5-Turbo och inbäddning av modeller. I den här arkitekturen används den förutom modellåtkomst för att lägga till vanliga företagsfunktioner som stöd för hanterad identitet och innehållsfiltrering.
Azure AI Search är en molnsökningstjänst som stöder fulltextsökning, semantisk sökning, vektorsökning och hybridsökning. AI Search ingår i arkitekturen eftersom det är en vanlig tjänst som används i flödena bakom chattprogram. AI Search kan användas för att hämta och indexeras data som är relevanta för användarfrågor. Promptflödet implementerar mönstret RAG Retrieval Augmented Generation för att extrahera lämplig fråga från prompten, fråga AI Search och använda resultaten som grunddata för Azure OpenAI-modellen.
Rekommendationer och överväganden
Komponenterna som anges i den här arkitekturen länkar till Azure Well-Architected-tjänstguider där de finns. Serviceguider beskriver rekommendationer och överväganden för specifika tjänster. Det här avsnittet utökar den vägledningen genom att lyfta fram viktiga rekommendationer och överväganden för Azure Well-Architected Framework som gäller för den här arkitekturen. Mer information finns i Microsoft Azure Well-Architected Framework.
Den här grundläggande arkitekturen är inte avsedd för produktionsdistributioner. Arkitekturen gynnar enkelhet och kostnadseffektivitet framför funktioner så att du kan utvärdera och lära dig hur du skapar chattprogram från slutpunkt till slutpunkt med Azure OpenAI. I följande avsnitt beskrivs några brister i den här grundläggande arkitekturen, tillsammans med rekommendationer och överväganden.
Tillförlitlighet
Tillförlitlighet säkerställer att ditt program kan uppfylla de åtaganden du gör gentemot dina kunder. Mer information finns i Checklista för designgranskning för tillförlitlighet.
Eftersom den här arkitekturen inte är utformad för produktionsdistributioner beskriver följande några av de kritiska tillförlitlighetsfunktioner som utelämnas i den här arkitekturen:
- App Service-planen har konfigurerats för nivån, som inte har stöd för
Basic
Azure-tillgänglighetszoner. Apptjänsten blir otillgänglig i händelse av problem med instansen, racket eller det datacenter som är värd för instansen. När du går mot produktion följer du vägledningen i avsnittet om tillförlitlighet i baslinjen med hög tillgänglighet zonredundant webbapp. - Autoskalning för klientanvändargränssnittet är inte aktiverat i den här grundläggande arkitekturen. För att förhindra tillförlitlighetsproblem på grund av brist på tillgängliga beräkningsresurser måste du överetablera för att alltid köras med tillräckligt med beräkning för att hantera maximal samtidig kapacitet.
- Azure Machine Learning-beräkning erbjuder inte stöd för tillgänglighetszoner. Orkestratorn blir otillgänglig i händelse av problem med instansen, racket eller datacentret som är värd för instansen. Se zonredundans för flödesdistributioner i baslinjearkitekturen för att lära dig hur du distribuerar orkestreringslogik till infrastruktur som stöder tillgänglighetszoner.
- Azure OpenAI implementeras inte i en konfiguration med hög tillgänglighet. Information om hur du implementerar Azure OpenAI på ett tillförlitligt sätt finns i Azure OpenAI – tillförlitlighet i baslinjearkitekturen.
- Azure AI Search har konfigurerats för nivån, som inte har stöd för
Basic
Azure-tillgänglighetszoner. För att uppnå zonredundans distribuerar du AI Search med prisnivån Standard eller högre i en region som stöder tillgänglighetszoner och distribuerar tre eller flera repliker. - Autoskalning implementeras inte för Machine Learning-beräkningen. Mer information finns i Vägledning för maskininlärningstillförlitlighet i baslinjearkitekturen.
Dessa tillförlitlighetsproblem åtgärdas i designen av referensarkitekturen för referensarkitekturen för Azure OpenAI från slutpunkt till slutpunkt.
Säkerhet
Säkerhet ger garantier mot avsiktliga attacker och missbruk av dina värdefulla data och system. Mer information finns i Checklista för designgranskning för säkerhet.
Det här avsnittet beskriver några av de viktigaste rekommendationerna som implementeras i den här arkitekturen. Dessa rekommendationer omfattar innehållsfiltrering och övervakning av missbruk, identitets- och åtkomsthantering samt rollbaserade åtkomstkontroller. Eftersom den här arkitekturen inte är utformad för produktionsdistributioner beskrivs i det här avsnittet en viktig säkerhetsfunktion som inte implementerades i den här arkitekturen, nätverkssäkerhet.
Övervakning av innehållsfiltrering och missbruk
Azure OpenAI innehåller ett system för innehållsfiltrering som använder en uppsättning klassificeringsmodeller för att identifiera och förhindra specifika kategorier av potentiellt skadligt innehåll i både indataprompter och slutföranden av utdata. Kategorier för detta potentiellt skadliga innehåll omfattar hat, sexuell, självskada, våld, svordomar och jailbreak (innehåll som är utformat för att kringgå begränsningarna i en språkmodell). Du kan konfigurera striktheten för det du vill filtrera från innehållet för varje kategori, med alternativ som låg, medel eller hög. Den här referensarkitekturen använder en strikt metod. Justera inställningarna enligt dina krav.
Utöver innehållsfiltrering implementerar Azure OpenAI funktioner för övervakning av missbruk. Övervakning av missbruk är en asynkron åtgärd som identifierar och minimerar instanser av återkommande innehåll eller beteenden som tyder på användning av tjänsten på ett sätt som kan bryta mot Azure OpenAI-uppförandekoden. Du kan begära undantag från övervakning av missbruk och mänsklig granskning om dina data är mycket känsliga eller om det finns interna principer eller tillämpliga juridiska föreskrifter som förhindrar bearbetning av data för identifiering av missbruk.
Identitets- och åtkomsthantering
Följande vägledning utökar vägledningen för identitets- och åtkomsthantering i App Service-baslinjen. Den här arkitekturen använder systemtilldelade hanterade identiteter. Separata identiteter skapas för följande resurser:
- AI Studio Hub
- AI Studio-projekt för flödesredigering och hantering
- Onlineslutpunkter i det distribuerade flödet om flödet distribueras till en hanterad onlineslutpunkt
Om du väljer att använda användartilldelade hanterade identiteter bör du skapa separata identiteter för var och en av ovanstående resurser.
Azure AI Studio-projekt är avsedda att isoleras från varandra. För att tillåta att flera projekt skriver till samma Azure Storage-konto, men håller projekten isolerade, tillämpas villkor på deras rolltilldelningar för bloblagring. Dessa villkor ger endast åtkomst till vissa containrar i lagringskontot. Om du använder användartilldelade hanterade identiteter måste du följa en liknande metod för att behålla minsta möjliga behörighet.
För närvarande använder chattgränssnittet nycklar för att ansluta till den distribuerade hanterade onlineslutpunkten. Nycklarna lagras i Azure Key Vault. När du flyttar till produktion bör du använda Hanterad identitet för att autentisera chattgränssnittet till den hanterade onlineslutpunkten.
Rollbaserade åtkomstroller
Systemet skapar automatiskt rolltilldelningar för de systemtilldelade hanterade identiteterna. Eftersom systemet inte vet vilka funktioner i hubben och projekten du kan använda skapar det rolltilldelningar som stöder alla potentiella funktioner. Systemet skapar till exempel rolltilldelningen "Storage File Data Privileged Contributor" till lagringskontot för Azure AI Studio. Om du inte använder promptflöde kanske din arbetsbelastning inte kräver den här tilldelningen.
En sammanfattning av de behörigheter som beviljas automatiskt för systemtilldelade identiteter är följande:
Identitet | Privilege | Resurs |
---|---|---|
AI Studio Hub | läsa/skriva | Key Vault |
AI Studio Hub | läsa/skriva | Azure Storage |
AI Studio Hub | läsa/skriva | Azure Container Registry |
AI Studio-projekt | läsa/skriva | Key Vault |
AI Studio-projekt | läsa/skriva | Azure Storage |
AI Studio-projekt | läsa/skriva | Azure Container Registry |
AI Studio-projekt | skriva | Programinsikter |
Hanterad onlineslutpunkt | läs | Azure Container Registry |
Hanterad onlineslutpunkt | läsa/skriva | Azure Storage |
Hanterad onlineslutpunkt | läs | AI Studio Hub (konfigurationer) |
Hanterad onlineslutpunkt | skriva | AI Studio-projekt (mått) |
De skapade rolltilldelningarna kan vara bra för dina säkerhetskrav, eller så kanske du vill begränsa dem. Om du bara vill följa principen om minsta behörighet och begränsa dina rolltilldelningar till vad som krävs måste du skapa användartilldelade hanterade identiteter och skapa dina begränsade rolltilldelningar.
Nätverkssäkerhet
För att göra det enkelt för dig att lära dig hur du skapar en chattlösning från slutpunkt till slutpunkt implementerar inte den här arkitekturen nätverkssäkerhet. Den här arkitekturen använder identitet som perimeter och använder offentliga molnkonstruktioner. Tjänster som Azure AI Search, Azure Key Vault, Azure OpenAI, den distribuerade hanterade onlineslutpunkten och Azure App Service kan alla nås från Internet. Azure Key Vault-brandväggen är konfigurerad för att tillåta åtkomst från alla nätverk. Dessa konfigurationer lägger till ytan i arkitekturens attackvektor.
Mer information om hur du inkluderar nätverk som ytterligare en perimeter i din arkitektur finns i nätverksavsnittet i baslinjearkitekturen.
Kostnadsoptimering
Kostnadsoptimering handlar om att titta på sätt att minska onödiga utgifter och förbättra drifteffektiviteten. Mer information finns i Checklista för designgranskning för kostnadsoptimering.
Den här grundläggande arkitekturen är utformad för att du ska kunna utvärdera och lära dig hur du skapar chattprogram från slutpunkt till slutpunkt med Azure OpenAI. Arkitekturen representerar inte kostnaderna för en produktionsklar lösning. Dessutom har arkitekturen inte kontroller på plats för att skydda mot kostnadsöverskridanden. Följande beskriver några av de kritiska funktioner som utelämnas i den här arkitekturen som påverkar kostnaden:
Den här arkitekturen förutsätter att det finns begränsade anrop till Azure OpenAI. Därför föreslår vi att du använder betala per användning-priser och inte etablerat dataflöde. När du går mot en produktionslösning följer du riktlinjerna för kostnadsoptimering i Azure OpenAI i baslinjearkitekturen.
App Service-planen har konfigurerats för prisnivån Basic på en enda instans, vilket inte ger skydd mot avbrott i tillgänglighetszonen. App Service-baslinjearkitekturen rekommenderar att du använder Premium-planer med tre eller flera arbetsinstanser för hög tillgänglighet, vilket påverkar din kostnad.
Skalning har inte konfigurerats för hanterad onlineslutpunktshanterad beräkning. För produktionsdistributioner bör du konfigurera automatisk skalning. Dessutom rekommenderar baslinjens chattarkitektur från slutpunkt till slutpunkt att du distribuerar till Azure App Service i en zonredundant konfiguration. Båda dessa arkitektoniska ändringar påverkar din kostnad när du flyttar till produktion.
Azure AI Search har konfigurerats för prisnivån Basic utan några tillagda repliker. Den här topologin kunde inte motstå ett fel i Azure-tillgänglighetszonen. Baslinjens chattarkitektur från slutpunkt till slutpunkt rekommenderar att du distribuerar med prisnivån Standard eller högre och distribuerar tre eller fler repliker, vilket påverkar din kostnad när du går mot produktion.
Det finns inga kostnadsstyrnings- eller inneslutningskontroller i den här arkitekturen. Se till att du skyddar dig mot okontrollerade processer eller användning som kan medföra höga kostnader för betala per användning-tjänster som Azure OpenAI.
Driftsäkerhet
Driftskvalitet omfattar de driftsprocesser som distribuerar ett program och håller det igång i produktion. Mer information finns i Checklista för designgranskning för Operational Excellence.
Systemtilldelade hanterade identiteter
Den här arkitekturen använder systemtilldelade hanterade identiteter för Azure AI Studio (Hub), Azure AI Studio-projekt och för den hanterade onlineslutpunkten. Dessa identiteter skapas och tilldelas automatiskt till resurserna. Systemet skapar automatiskt de rolltilldelningar som krävs för att systemet ska kunna köras. Du behöver inte hantera dessa tilldelningar.
Inbyggda promptflödeskörningar
För att minimera driftbelastningar använder den här arkitekturen automatisk körning, ett serverlöst beräkningsalternativ i Machine Learning som förenklar beräkningshanteringen och delegerar större delen av konfigurationen av promptflöde till det program som kör programmets requirements.txt
fil och flow.dag.yaml
konfiguration. Den automatiska körningen är låg underhåll, tillfälliga och programdrivna.
Övervakning
Diagnostik konfigureras för alla tjänster. Alla tjänster utom App Service är konfigurerade för att samla in alla loggar. App Service har konfigurerats för att samla in AppServiceHTTPLogs, AppServiceConsoleLogs, AppServiceAppLogs och AppServicePlatformLogs. Under konceptbevisfasen är det viktigt att få en förståelse för vilka loggar och mått som är tillgängliga för insamling. När du flyttar till produktion bör du eliminera loggkällor som inte lägger till värde och lägger till brus och kostnad i arbetsbelastningens loggmottagare.
Vi rekommenderar vidare att du samlar in data från distribuerade hanterade onlineslutpunkter för att tillhandahålla observerbarhet för dina distribuerade flöden. När du väljer att samla in dessa data loggas slutsatsdragningsdata till Azure Blob Storage. Både HTTP-begärande- och svarsnyttolaster loggas. Du kan också välja att logga anpassade data.
Se till att du aktiverar integreringen med Application Insights-diagnostik för den hanterade onlineslutpunkten. De inbyggda måtten och loggarna skickas till Application Insights och du kan använda funktionerna i Application Insights för att analysera prestandan för dina slutsatsdragningsslutpunkter.
Språkmodellåtgärder
Eftersom den här arkitekturen är optimerad för inlärning och inte är avsedd för produktionsanvändning är driftvägledning som GenAIOps utanför omfånget. När du går mot produktion följer du riktlinjerna för språkmodellåtgärder i baslinjearkitekturen.
Utveckling
Prompt flow erbjuder både en webbläsarbaserad redigeringsupplevelse i Azure AI Studio eller via ett Visual Studio Code-tillägg. Båda alternativen lagrar flödeskoden som filer. När du använder Azure AI Studio lagras filerna i filer på ett lagringskonto. När du arbetar i Microsoft Visual Studio Code lagras filerna i ditt lokala filsystem.
Eftersom den här arkitekturen är avsedd för inlärning är det bra att använda den webbläsarbaserade redigeringsupplevelsen. När du börjar gå mot produktion följer du riktlinjerna i baslinjearkitekturen kring metodtips för utveckling och källkontroll.
Vi rekommenderar att du använder det serverlösa beräkningsalternativet när du utvecklar och testar dina promptflöden i Azure AI Studio. Detta gör att du inte behöver distribuera och hantera en beräkningsinstans för utveckling och testning. Om du behöver en anpassad miljö kan du distribuera en beräkningsinstans.
Utvärdering
Utvärdering av hur din Azure OpenAI-modelldistribution kan utföras via en användarupplevelse i Azure AI Studio. Microsoft föreslår att du bekantar dig med hur du utvärderar generativa AI-program för att säkerställa att ditt modellval uppfyller kraven på användar- och arbetsbelastningsdesign.
Ett viktigt utvärderingsverktyg för att bekanta dig med i arbetsbelastningsutvecklingsfaserna är instrumentpanelerna ansvarsfull AI i Azure Machine Learning. Det här verktyget hjälper dig att utvärdera rättvisa, modelltolkning och andra viktiga utvärderingar av dina distributioner och är användbart för att upprätta en tidig baslinje för att förhindra framtida regressioner.
Distribution
Den här grundläggande arkitekturen implementerar en enda instans för den distribuerade orkestratorn. När du distribuerar ändringar ersätter den nya distributionen den befintliga distributionen. När du börjar gå mot produktion läser du distributionsflödet och distributionsvägledningen i baslinjearkitekturen för vägledning om hur du förstår och implementerar mer avancerade distributionsmetoder som blå/gröna distributioner.
Prestandaeffektivitet
Prestandaeffektivitet handlar om att effektivt skala arbetsbelastningen baserat på användarnas behov. Mer information finns i Checklista för designgranskning för prestandaeffektivitet.
Eftersom den här arkitekturen inte är utformad för produktionsdistributioner beskriver följande några av de kritiska prestandaeffektivitetsfunktioner som utelämnades i den här arkitekturen, tillsammans med andra rekommendationer och överväganden.
Ett resultat av ditt konceptbevis bör vara SKU-val som du uppskattar är lämpligt för din arbetsbelastning för både apptjänsten och Azure Machine Learning-beräkningen. Du bör utforma din arbetsbelastning för att effektivt möta efterfrågan genom horisontell skalning. Med horisontell skalning kan du justera antalet beräkningsinstanser som distribueras i apptjänstplanen och instanser som distribueras bakom onlineslutpunkten. Utforma inte systemet så att det är beroende av att ändra beräknings-SKU:n så att den överensstämmer med efterfrågan.
Den här arkitekturen använder förbruknings- eller betala per användning-modellen för de flesta komponenter. Förbrukningsmodellen är bäst och kan utsättas för bullriga grannar eller andra stressfaktorer på plattformen. När du går mot produktion bör du avgöra om ditt program kräver etablerat dataflöde som säkerställer reserverad bearbetningskapacitet för dina Azure OpenAI-modelldistributioner. Reserverad kapacitet ger förutsägbar prestanda och dataflöde för dina modeller.
Azure Machine Learning-slutpunkten online har inte automatisk skalning implementerad, så du måste etablera en SKU och instanskvantitet som kan hantera hög belastning. Tjänsten, som den är konfigurerad, skalas inte in dynamiskt för att effektivt hålla tillgången i linje med efterfrågan. När du går mot produktion följer du vägledningen om hur du autoskalar en onlineslutpunkt.
Distribuera det här scenariot
Om du vill distribuera och köra referensimplementeringen följer du stegen i den grundläggande referensimplementeringen för Azure OpenAI från slutpunkt till slutpunkt.