Creazione dell'agente in Azure

Una volta che una startup decide di andare oltre i prototipi e creare agenti di intelligenza artificiale di livello produttivo, l'attenzione passa dalla sperimentazione all'architettura. La creazione di un agente per i clienti aziendali richiede sicurezza, affidabilità e adattabilità tra più clienti. Le startup devono anche cercare di bilanciare la progettazione ponderata con velocità e semplicità.

Quando si creano agenti in Azure, ogni startup deve affrontare quattro aree di progettazione principali:

  1. Multi-tenancy: come gestire in modo sicuro ed efficiente più clienti isolando dati, contesto e calcolo.
  2. Livello applicazione: come gli utenti interagiscono con l'agente tramite API, app Teams o esperienze Web e come queste interfacce eseguono il mapping a logica e sicurezza specifiche del tenant.
  3. Livello di orchestrazione: come il ragionamento, l'uso degli strumenti e il coordinamento delle azioni vengono gestiti per produrre risultati affidabili e controllabili in diverse attività e modelli.
  4. Livello di contesto: come l'agente recupera, strutture e motivi sulle conoscenze pertinenti usando la ricerca vettoriale, gli archivi di memoria e l'integrazione dei dati in tempo reale.

Queste quattro aree costituiscono la spina dorsale di un'architettura agentico scalabile. Determinano non solo le prestazioni dell'agente, ma il modo in cui si evolve, supportando il miglioramento continuo, la personalizzazione per tenant e un'integrazione più approfondita negli ecosistemi dei clienti.

Multi-tenancy

Per le startup, la multi-tenancy è la pietra angolare della creazione di una piattaforma agente sostenibile e scalabile. Definisce il modo in cui il sistema serve più clienti, ognuno con i propri dati, modelli e contesto mantenendo al tempo stesso sicurezza, prestazioni ed efficienza dei costi. Nel mondo degli agenti di intelligenza artificiale, in cui il contesto e la personalizzazione sono fondamentali per la creazione di valori, la multi-tenancy regola anche il modo in cui l'intelligenza viene partizionata, condivisa e evoluta tra i tenant.

Azure offre diversi modelli e servizi nativi che rendono flessibile e sicuro il multi-tenancy. L'approccio corretto dipende dal modello di prodotto, dalla riservatezza dei dati e dai requisiti di scalabilità.

Multitenancy logico e fisico

  • Multitenancylogica viene ottenuta isolando i dati e le configurazioni dei clienti all'interno di risorse condivise (ad esempio, una singola istanza di Cosmos DB con partizioni o raccolte specifiche del tenant o un singolo servizio Azure AI Search con indici per tenant). Questo modello offre un'efficienza elevata e operazioni più semplici, rendendolo ideale per le startup in fase iniziale.
  • Multitenancy fisico fornisce un isolamento più solido assegnando risorse dedicate a ciascun tenant, come database separati, account di archiviazione o intere distribuzioni tramite offerte di applicazione Azure. Questo approccio è comune per i settori regolamentati o i clienti aziendali che richiedono garanzie di residenza dei dati.

La maggior parte delle startup adotta un modello ibrido: isolamento logico per la maggior parte dei tenant e isolamento fisico per i clienti con valori elevati o basati sulla conformità. Questa operazione viene spesso definita distribuzione partizionata orizzontalmente. Le distribuzioni partizionate orizzontali sono ottimali per le startup in fase iniziale, perché consentono un'infrastruttura di applicazioni minima fornendo al tempo stesso l'isolamento dei dati del tenant per i client B2B. Ciò riduce la necessità di partizionamento dei dati complessi e riduce i costi per l'infrastruttura ridondante.

Multitenancy degli agenti di intelligenza artificiale

Identità e Controllo degli Accessi

Il cuore della multitenancy è l'identità. Microsoft Entra ID (Azure AD) fornisce le basi per il controllo di accesso sicuro e compatibile con il tenant.

Molte soluzioni multi-tenant funzionano come SaaS. Tuttavia, la scelta di usare Microsoft Entra ID o ID esterni dipende in parte da come definisci i tuoi tenant o la base clienti.

Seguire questa guida (Convertire un'app a tenant singolo in un'app multi-tenant in Microsoft Entra ID: Microsoft Identity Platform | Microsoft Learn) per usare Entra ID per abilitare l'applicazione multi-tenant.

Isolamento dei dati e del contesto

Poiché gli agenti si basano principalmente sulle conoscenze contestuali, l'isolamento del recupero dei dati e degli embedding per ciascun tenant è fondamentale. cache di Azure per Redis, Cosmos DB, e Archiviazione di Azure supportano spazi dei nomi e indici specifici del tenant, mentre i servizi come Azure Confidential Computing o Private Endpoint proteggono le interazioni sensibili.

Quando si usano database vettoriali per la generazione con aumento del recupero ( RAG), le startup devono implementare spazi dei nomi vettoriali per tenant o raccolte separate per evitare perdite di dati tra i clienti. Ciò semplifica anche il ridimensionamento e la fatturazione per tenant.

Osservabilità, costi e scalabilità

La visibilità operativa è fondamentale in una piattaforma agente multi-tenant.

  • Monitoraggio di Azure e Application Insights possono essere estesi all'utilizzo del log per tenant, consentendo la risoluzione dei problemi, l'ottimizzazione delle prestazioni e la fatturazione basata sull'utilizzo.
  • App contenitore di Azure e AKS consentono la scalabilità automatica in base al carico del tenant, mantenendo l'efficienza dei costi.
  • Quando si monetizza tramite il Marketplace commerciale Microsoft, i dati di utilizzo del tenant possono essere inseriti direttamente nelle API di misurazione per la fatturazione e la creazione di report automatizzati.

Perché è importante

Implementare correttamente la multitenancy fin dall'inizio consente alle startup di:

  • Gestire molti clienti senza duplicare l'infrastruttura.
  • Applicare limiti avanzati dei dati e controlli di conformità.
  • Supportare tenant di piccole e grandi dimensioni con isolamento personalizzato.
  • Semplificare la futura monetizzazione del marketplace e la preparazione al co-selling.

In breve, la multi-tenancy trasforma un agente da un prototipo autonomo in un business platform, in grado di servire centinaia di organizzazioni attraverso un unico backbone Azure elastico e sicuro.

Livello applicazione

Il livello application è la posizione in cui gli utenti interagiscono con l'agente tramite interfacce di chat, API o copiloti incorporati in strumenti come Microsoft Teams. Per le startup, questo livello è il punto in cui il valore del cliente diventa tangibile. Converte la logica di orchestrazione e l'intelligenza contestuale in un'esperienza utente che appare reattiva, personalizzata e sicura tra gli utenti.

In Azure, il livello applicazione svolge due ruoli critici:

  1. Funge da gateway per le richieste specifiche del tenant e la convalida dell'identità.
  2. Definisce il livello di esperienza con cui interagiscono utenti, sviluppatori e sistemi esterni.

limiti dell'applicazione Tenant-Aware

Il livello dell'applicazione deve essere completamente a conoscenza del tenant che effettua la richiesta e dei dati o delle funzionalità a cui hanno diritto di accedere. Azure offre diversi servizi per abilitare:

  • Frontdoor di Azure o API Management (APIM) può fungere da punto di ingresso globale, indirizzando le richieste a ambienti o funzioni specifici del tenant.
  • Entra ID gestisce l'autenticazione e l'autorizzazione, assicurando che i token utente e di servizio eseguano il mapping al contesto del tenant corretto.
  • Configurazione app di Azure e Key Vault gestire configurazioni specifiche del tenant, chiavi API e segreti dell'ambiente.

Questi limiti assicurano che ogni tenant si presenti nella stessa piattaforma agente, ma all'interno della propria sandbox logica sicura, un passaggio fondamentale per impedire il crossover dei dati e mantenere la conformità di livello aziendale.

Distribuzione multicanale

L'esperienza moderna dell'agente si estende oltre una singola interfaccia utente di chat. Le startup possono esporre l'agente tramite più canali di recapito:

Il livello di identità di Azure garantisce che tutte queste interfacce condivida un modello unificato di autenticazione e autorizzazione, anche se si connetta a servizi back-end diversi. Questa coerenza consente alle startup di mantenere un core agente durante la distribuzione di front-end personalizzati per cliente o caso d'uso.

Gestione dello stato e contesto della sessione

Nelle applicazioni agentiche, le sessioni spesso consentono di collegare più interazioni e modalità. Ad esempio, un utente può avviare una conversazione in Teams, continuare tramite l'API ed esaminare le informazioni dettagliate in un dashboard Web.

Per mantenere la coerenza:

  • Azure Cosmos DB o cache di Azure per Redis può rendere persistente lo stato della sessione e il contesto della conversazione per ogni tenant.
  • Durable Functions abilitare flussi di lavoro a esecuzione prolungata che tengono traccia dei passaggi di ragionamento dell'agente, anche tra i componenti distribuiti.
  • Event Grid o bus di servizio possono propagare il contesto e i segnali tra i moduli quando gli utenti o i sistemi attivano gli aggiornamenti.

Questa progettazione consapevole delle sessioni consente agli agenti di apparire continui e contestualmente intelligenti, senza programmazione rigida dei flussi di lavoro per ogni modalità di interazione.

Dati di telemetria e informazioni dettagliate sull'esperienza

Il livello dell'applicazione è anche il punto in cui le startup ottengono informazioni dettagliate sul modo in cui i clienti interagiscono con i propri agenti:

  • Application Insights acquisisce metriche di interazione, latenza e segnali di soddisfazione degli utenti.
  • La registrazione personalizzata può tenere traccia delle percentuali di successo delle finalità, tempi di completamento o cicli di feedback per migliorare continuamente la qualità dell'orchestrazione.
  • Le startup possono aggregare i dati di telemetria in base al tenant per determinare i prezzi basati sull'utilizzo o la creazione di report del contratto di servizio. Questi dati alimentano anche la misurazione del marketplace per la monetizzazione.

Perché è importante

Il livello dell'applicazione definisce la superficie dell'esperienza del cliente della piattaforma agente. Progettare una soluzione che sia consapevole dei tenant, flessibile nei canali e sicura sui dati sin dall'inizio consente alle startup di:

  • Offrire interazioni coerenti e attendibili tra Teams, web e API.
  • Supportare i requisiti di identità, controllo e conformità di livello aziendale.
  • Raccogliere informazioni dettagliate preziose che migliorano il ragionamento e le prestazioni dell'agente.
  • Abilitare la monetizzazione futura del marketplace tramite i dati di telemetria e la misurazione dell'utilizzo.

In sostanza, il livello dell'applicazione è la porta principale dell'intelligence dell'agente, in cui converge la progettazione, la sicurezza e l'esperienza utente del prodotto.

Integrazione di interfacce utente per flussi di lavoro agenti

Mentre il livello dell'applicazione definisce il modo in cui l'agente espone le API e gestisce l'accesso, l'integrazione dell'interfaccia utente definisce il modo in cui gli utenti finali sperimentano l'agente. Per le startup, si tratta di una leva potente. L'incorporamento di agenti in aree di collaborazione e flusso di lavoro esistenti come Microsoft Teams, Outlook e Microsoft 365 app può abbreviare i cicli di adozione e aumentare la permanentità.

Costruire in Microsoft Teams

Teams è un'interfaccia naturale per gli agenti di livello aziendale. Tramite Le app di Teams, le startup possono incorporare i propri agenti direttamente in chat, riunioni e canali, consentendo agli utenti di interagire con l'agente in cui lavorano già.

Teams agisce sia come canale di consegna che come livello di fiducia, collegando il tuo sistema di intelligenza artificiale ai flussi di lavoro aziendali nel modello di sicurezza di Microsoft. M365 Agents Toolkit è disponibile per semplificare la creazione di agenti pronti per l'organizzazione per l'integrazione con Teams e altri prodotti della suite M365. Toolkit è un'estensione Visual Studio Code e l'interfaccia della riga di comando che semplifica la compilazione, il debug e la distribuzione di agenti personalizzati per piattaforme Microsoft 365 come Copilot e Teams. Automatizza attività come la gestione del manifesto, il sideloading e il provisioning delle risorse Azure, permettendo agli sviluppatori di creare agenti dichiarativi o agenti programmabili con accesso ai dati e identità integrata.

Incorporamento in esperienze Microsoft 365

Oltre a Teams, le startup possono estendere i propri agenti nell'ecosistema M365 più ampio:

  • Componenti aggiuntivi di Outlook forniscono assistenza proattiva o reattiva nelle email (ad esempio, riepilogando i thread o generando azioni successive).
  • Graph Connectors può inserire dati strutturati in esperienze di ricerca e Copilot M365, estendendo la conoscenza aziendale dell'agente.

Grazie all'integrazione con le superfici M365, le startup possono sfruttare il Microsoft API Graph per unificare il contesto, riunire messaggi, eventi del calendario, documenti e attività e rendere l'agente contestualmente consapevole dell'ambiente di lavoro di un utente.

Altre opzioni dell'interfaccia

Per scenari esterni o ibridi, le startup possono anche integrarsi:

  • App Web o portali compilati con Servizio app di Azure o App Web statiche, spesso usati come console di gestione o dashboard.
  • App per dispositivi mobili basate su React Native o .NET MAUI, autenticate tramite Entra ID e connesse tramite Gestione API.
  • Integrazioni di terze parti usando REST o Microsoft Graph API per Slack, Salesforce o ServiceNow, assicurando che l'agente possa interagire tra gli ecosistemi.

Progettazione per esperienza e sicurezza

Indipendentemente dall'interfaccia, le startup devono progettare per:

  • Contextual grounding che consente all'agente di estrarre i dati del tenant o dell'utente rilevanti da Microsoft Graph o API interne.
  • Autenticazione a basso impatto utilizzando l'accesso Single Sign-On di Entra o i token delegati per un'esperienza utente fluida.
  • Esperienza utente e personalizzazione coerenti per garantire che le interazioni dell'agente siano naturali all'interno di ogni ambiente host.

L'integrazione degli agenti nell'ecosistema di Microsoft 365 non è solo di praticità. Si tratta di raggiungere gli utenti dove lavorano e rendere la soluzione di intelligenza artificiale un'estensione naturale degli strumenti di produttività anziché un'altra app isolata.

Livello di orchestrazione

Se il livello dell'applicazione è la porta principale per la piattaforma agente, il livello di orchestrazione è il cervello, coordina ragionamento, strumenti e flussi di lavoro per offrire risultati coerenti e contestualmente consapevoli. Questa è la posizione in cui l'intelligenza incontra l'azione.

Il livello di orchestrazione connette la finalità dell'utente (dal livello app) alla logica di dominio, ai dati e ai sistemi esterni. Per le startup agentiche, è la parte più strategica dell'architettura, bilanciando flessibilità, scalabilità e osservabilità astraendo la complessità dal front-end.

Funzioni principali del livello di orchestrazione

Il livello di orchestrazione esegue in genere cinque responsabilità chiave:

  1. Interpretazione delle finalità: conversione di richieste utente o chiamate API in azioni o obiettivi strutturati.
  2. Assembly di contesto: acquisizione di dati, memoria o strumenti pertinenti prima di richiamare i modelli di ragionamento.
  3. Chiamata allo strumento: esecuzione di chiamate API, flussi di lavoro o integrazioni per conto dell'agente.
  4. Sintesi della risposta: combinazione dell'output di ragionamento con logica di dominio per generare risposte significative.
  5. Osservazione e apprendimento: registrazione di risultati, errori e metriche per un miglioramento continuo.

Per le aziende, queste funzioni possono essere modellate come pipeline di micro orchestrazioni anziché come un singolo monolitico. Le startup, tuttavia, tendono a sfruttare modelli di progettazione più monolitici nelle fasi precedenti per ottimizzare la velocità e la semplicità.

Implementazione in Azure

Azure fornisce una base nativa per la creazione e la scalabilità della logica di orchestrazione:

  • Funzioni di Azure funge da nodi di calcolo senza stato che eseguono flussi di ragionamento o attività specifici. Ogni funzione può essere associata a un particolare tenant, argomento o tipo di evento.
  • Durable Functions abilitano modelli di orchestrazione a esecuzione prolungata o in più passaggi, adatti ai loop di ragionamento, alla collaborazione tra agenti o ai flussi di lavoro a più turni.
  • bus di servizio di Azure offre un recapito dei messaggi affidabile e ordinato tra i componenti di orchestrazione, essenziale per l'esecuzione deterministica tra i servizi distribuiti.

Queste primitive serverless consentono alle startup di evolversi da semplici agenti di richiesta-risposta a sistemi di intelligenza artificiale reattivi e basati su eventi che si adattano dinamicamente al contesto utente e di sistema.

Uso di strumenti e ragionamenti per intelligenza artificiale

Al centro del livello di orchestrazione c'è il ragionamento, basato su modelli OpenAI Azure come GPT-5 o altre offerte Azure-Direct Model.

Questi modelli sono usati meglio non come cervelli monolitici, ma come ragionamento di nodi all'interno di una pipeline strutturata:

  • Usare le richieste di sistema e la chiamata di funzione per guidare i modelli di ragionamento in modo controllato.
  • Archiviare le definizioni degli strumenti e i metadati degli endpoint in un registro degli strumenti central (ad esempio, Cosmos DB o Configurazione app di Azure) su cui ogni istanza dell'agente può eseguire query in modo dinamico.
  • Eseguire azioni con privilegi elevati tramite Managed Identities, in modo che gli agenti richiamino Azure o API esterne in modo sicuro senza incorporare le credenziali.

Separando ciò che il modello decide dalla modalità di esecuzione, si ottiene sia l'isolamento della sicurezza che l'osservabilità nel processo di ragionamento.

Coordinamento dell'assemblaggio del contesto e della memoria

Il ragionamento è valido solo quanto il contesto fornito. Il livello di orchestrazione è responsabile dell'assemblaggio di questo contesto da più origini prima della chiamata del modello:

Questo approccio consente di ragionare con riconoscimento del contesto. È un segno distintivo di sistemi agenti avanzati.

Cicli di osservabilità e feedback

Per garantire che gli agenti rimangano affidabili e di cui è possibile eseguire il debug su larga scala, il livello di orchestrazione deve generare dati di telemetria avanzati:

  • applicazione Azure Insights può tracciare ogni passaggio di ragionamento, chiamata di modello ed esecuzione api.
  • Monitoraggio di Azure Logs può tenere traccia delle prestazioni dell'agente in base all'utilizzo di tenant, finalità o strumenti.
  • I segnali di feedback (ad esempio, correzioni utente o tassi di successo) possono essere inseriti in pipeline di affinamento o di ottimizzazione dei prompt nel livello di intelligenza artificiale.

Perché è importante

Il livello di orchestrazione è ciò che rende un agente agente in grado di pianificare, decidere e agire in modo autonomo.
Implementando questo livello usando l'infrastruttura basata su eventi e serverless di Azure, le startup possono:

  • Scalare l'orchestrazione dinamicamente per ogni cliente o carico di lavoro.
  • Abilitare un controllo granulare sull'accesso agli strumenti e sul contesto di ragionamento.
  • Mantenere una catena tracciabile di pensiero per la conformità e il debug.
  • Estendere rapidamente l'agente con nuovi strumenti, canali o comportamenti.

In breve, il livello di orchestrazione trasforma Azure da una piattaforma cloud in un'infrastruttura di execution per agenti intelligenti, in cui il ragionamento, gli strumenti e il contesto convergeno senza problemi.

Livello di contesto

Il livello di contesto è il punto in cui l'agente acquisisce informazioni. Connette il ragionamento con le conoscenze reali, assicurando che le risposte siano accurate, pertinenti e specifiche del tenant. Senza un livello di contesto ben progettato, anche i modelli di ragionamento più avanzati rischiano di diventare inaffidabili o generici.

Per le startup, questo livello è un differenziatore competitivo. È la posizione in cui i dati proprietari, le informazioni dettagliate dei clienti e le integrazioni di sistema convergeno per rendere un agente veramente utile. La sfida consiste nel progettarlo per essere sicuro, multi-tenant e componibile in modo dinamico tra casi d'uso e clienti.

Ruolo del contesto nei sistemi agenti

L'intelligenza di un agente di intelligenza artificiale dipende non solo dal modello, ma da ciò che sa al momento del ragionamento. Il contesto svolge tre scopi essenziali:

  1. Nozioni di base: arricchimento delle risposte del modello con fatti, dati e logica di business strutturata.
  2. Memoria: mantenimento della continuità tra conversazioni, flussi di lavoro o sessioni.
  3. Recupero e sintesi: recupero, filtro e riepilogo dei dati pertinenti in tempo reale.

Insieme, queste funzioni trasformano un modello senza stato in un sistema di ragionamento con stato che apprende e si adatta a ogni interazione.

Composizione del contesto in Azure

Azure offre più servizi che possono essere composti in uno stack di contesto multi-layer affidabile:

  • Azure AI Search: la base per la generazione aumentata di recupero (RAG). Indicizza i dati strutturati e non strutturati, consentendo agli agenti di eseguire il pull delle informazioni specifiche del tenant in fase di query.
  • Cosmos DB: ideale per l'archiviazione di informazioni sul dominio semistrutturate, metadati degli strumenti e configurazione per ogni tenant.
  • Archiviazione di Azure o Data Lake: usato per l'archiviazione di documenti a lungo termine e le pipeline di indicizzazione batch.
  • Cache Redis o PostgreSQL: supportano memoria a breve termine e sessione, consentendo la continuità del contesto tra le conversazioni.
  • Azure OpenAI Embeddings: consentono la vettorizzazione semantica dei dati del tenant, migliorando la ricerca di somiglianza per il recupero del contesto.

Quando vengono orchestrati insieme, questi servizi formano un sistema di memoria gerarchico, combinando cache ad accesso rapido con livelli di recupero più profondi per il grounding a lungo termine.

Isolamento dati multi-tenant

Le startup devono progettare sistemi di contesto che separano i limiti delle conoscenze in modo pulito:

Questa architettura garantisce la conformità e consente di evitare perdite di dati tra tenant. È fondamentale per l'attendibilità aziendale.

Retrieval-Augmented Ragionamento

In fase di esecuzione, il livello di contesto arricchisce le richieste con conoscenze dinamiche usando le pipeline RAG. Un flusso tipico potrebbe essere simile al seguente:

  1. Ricevere una query utente o una finalità dal livello di orchestrazione.
  2. Eseguire la ricerca semantica in Azure AI Search per i documenti pertinenti.
  3. Recuperare i fatti di supporto o le definizioni degli strumenti.
  4. Creare un prompt composito con il contesto recuperato.
  5. Inviare il prompt arricchito al modello di ragionamento ( ad esempio GPT-4 Turbo).

Esternalizzando il recupero delle informazioni, le startup possono mantenere i prompt dei modelli leggeri, garantendo al tempo stesso una base aggiornata e un contesto specifico del tenant.

Sistemi di memoria per il comportamento adattivo

Oltre al recupero, il contesto include memoria a breve termine e a lungo termine, ovvero i meccanismi che consentono a un agente di evolversi:

  • Conoscenza: dati statici che determinano il comportamento dell'agente (pensa a RAG).
  • Memoria a lungo termine: memoria semantica accumulata dagli agenti tramite esperienza e interazione. Ciò supporta la personalizzazione e un'esperienza utente migliorata nel tempo.
  • Memoria a breve termine: memoria di lavoro per la gestione del contesto all'interno di una sessione. Questo aspetto è fondamentale per la persistenza delle sessioni e per le soluzioni multi-agente.

Questo approccio alla memoria a più livelli consente agli agenti di adattare il comportamento nel tempo senza ripetere il training del modello.

Osservabilità e gestione costi

Il recupero del contesto e la ricerca vettoriale possono diventare costosi su larga scala, soprattutto con set di dati tenant di grandi dimensioni. Azure consente di gestirlo tramite:

Le startup possono ottimizzare ulteriormente i costi memorizzando nella cache i recuperi ad alta frequenza, comprimendo gli embedding o raggruppando l'ingestione di documenti.

Perché il livello di contesto è importante

Il livello di contesto è la base dell'intelligenza affidabile. Garantisce che l'agente non allucini, rimanga ancorato ai dati dei clienti e si evolva con l'uso nel mondo reale. Implementandola con servizi nativi di Azure, le startup ottengono:

  • Accesso sicuro e isolato al sapere per tenant.
  • Gestione scalabile del recupero e della memoria.
  • Ragionamento coerente e corretto attraverso utenti e contesti. Se progettato correttamente, questo livello trasforma l'agente da un sistema di conversazione in un assistente esperto, in grado di comprendere l'attività di ogni tenant come se fosse proprio.