Che cos'è la generazione aumentata tramite Edge Retrieval (RAG)?

2025-05-20

Edge RAG Preview è un'estensione Kubernetes abilitata per Azure Arc che consente di eseguire ricerche nei dati locali con intelligenza artificiale generativa, usando La generazione aumentata di recupero (RAG). RAG è un'architettura standard del settore che aumenta le funzionalità di un modello linguistico con dati privati.

Edge RAG Preview, abilitato da Azure Arc è una soluzione chiavi in mano che consente ai clienti di creare assistenti chat personalizzati e di ricavare informazioni dettagliate dai dati privati, tra cui:

Una scelta di modelli linguistici generativi di intelligenza artificiale (GenAI) in esecuzione in locale con supporto sia per l'hardware DELLA CPU che per l'hardware GPU.
Una pipeline di ingestione dati e RAG chiavi in mano che mantiene tutti i dati localmente, con controlli di accesso basati sui ruoli di Azure per impedire l'accesso non autorizzato.
Uno strumento pronto all'uso per l'ingegneria e la valutazione dei prompt, utile per creare, valutare e distribuire soluzioni di chat personalizzate.
API equivalenti ad Azure da integrare in applicazioni aziendali e un'interfaccia utente preconfezionata per iniziare rapidamente.

Anche se Edge RAG è in grado di inserire e recuperare immagini pertinenti da usare come riferimenti contestuali insieme al testo, è importante notare che non è un modello di linguaggio visivo (VLM).

Edge RAG è supportato su Kubernetes abilitato per Azure Arc su infrastruttura Azure Local (in precedenza Azure Stack HCI).

Per altre informazioni, vedere Azure Arc, Kubernetes abilitato per Azure Arc e le estensioni di Azure Arc.

Importante

Edge RAG Preview, abilitato da Azure Arc è attualmente in ANTEPRIMA. Vedere le condizioni per l'utilizzo supplementari per le anteprime di Microsoft Azure per termini legali aggiuntivi che si applicano a funzionalità di Azure in versione beta, in anteprima o in altro modo non ancora disponibili a livello generale.

Scenari dei clienti e casi d'uso

Per i clienti in diversi settori, ad esempio produzione, servizi finanziari, sanità, enti pubblici e difesa, vengono generati e archiviati dati preziosi in locale. Ciò si verifica all'esterno del cloud iperscalabile a causa di normative, latenza, continuità aziendale o del volume significativo di dati generati in tempo reale. I clienti vogliono usare applicazioni di intelligenza artificiale generative per ottenere informazioni dettagliate da questi dati locali.

Edge RAG supporta funzionalità di domande e risposte che consentono ai clienti di eseguire query sui dati locali tramite un chatbot personalizzato per scenari come:

Un cliente governativo vuole ricavare informazioni dettagliate dai dati locali sensibili per consentire un processo decisionale più rapido, riepilogare set di dati di grandi dimensioni, creare materiali di training e altro ancora.
Una banca regionale vuole usare i dati che devono rimanere in locale a causa di vincoli normativi per casi d'uso come controlli di conformità, assistenza clienti e generazione personalizzata delle vendite.
Un produttore globale vuole creare assistenti di fabbrica per ridurre il tempo necessario per la risoluzione dei problemi e facilitare la risoluzione dei problemi, usando i dati che devono rimanere locali per rispettare i criteri dell'organizzazione.

Perché Edge RAG?

Usare Edge RAG per:

Ridurre il time-to-market con un'esperienza chiavi in mano che accelera lo sviluppo e la distribuzione di applicazioni di intelligenza artificiale sui dati locali.
Semplificare le operazioni e la gestione end-to-end con una soluzione di qualità aziendale che offre lo stesso standard di sicurezza, conformità e gestibilità previsti da Microsoft, tra cui la gestione del ciclo di vita e della versione di tutti i componenti e l'integrazione di Microsoft Entra per il controllo degli accessi in base al ruolo di Azure.
Rimuovere la necessità di set di competenze per sviluppatori separati con esperienze di sviluppo coerenti con il cloud
Rimanere al centro di questo spazio in rapida evoluzione con l'innovazione continua di Microsoft, leader nelle tecnologie di IA e continuare a concentrarsi sulla fornitura di valore aziendale.

Concetti chiave

Esaminare i concetti chiave seguenti per Edge RAG:

Il chunking suddivide i documenti di grandi dimensioni in blocchi di testo più piccoli e gestibili (blocchi).
- Dimensioni blocchi: la suddivisione in blocchi divide i documenti di grandi dimensioni in unità più piccole, con impostazioni come le dimensioni dei blocchi (ad esempio, 1000-2000 caratteri) e la sovrapposizione dei blocchi (ad esempio, 100-500 caratteri) controllando la granularità e la continuità. I blocchi più piccoli migliorano la precisione del recupero, ma potrebbero perdere contesto, mentre i blocchi più grandi garantiscono un contesto completo al costo della precisione.
- Sovrapposizione blocchi: i blocchi sovrapposti mantengono il contesto tra i limiti, ma aumentano i requisiti di archiviazione e calcolo.
Le impostazioni ottimali dei blocchi dipendono dal caso d'uso, dall'accuratezza del bilanciamento, dall'efficienza e dalle prestazioni.
L'inserimento dati è un processo di importazione e preparazione di contenuto esterno, ad esempio documenti o immagini, da usare per il recupero. Sono inclusi i passaggi di pre-elaborazione, ad esempio la pulizia, la formattazione e l'organizzazione dei dati.
L'incorporamento di modelli trasforma testo, immagini o altri dati in vettori numerici densi (incorporamenti) che acquisiscano il significato semantico. Questi vettori rappresentano relazioni tra gli input, consentendo confronti di somiglianza e clustering.
Inferenza si riferisce al processo di utilizzo di un modello addestrato per generare predizioni o risultati in base ai nuovi dati di input. Nei modelli linguistici, l'inferenza comporta attività come il completamento di testo, la risposta alle domande o la generazione di riepiloghi.
I modelli linguistici sono sistemi di intelligenza artificiale sottoposti a training per comprendere, generare e modificare il linguaggio umano. Stimano il testo in base all'input, abilitando attività come generazione di testo, traduzione, riepilogo e risposte alle domande. Gli esempi includono GPT, Phi e Mistral.
I parametri del modello nei modelli linguistici definiscono il comportamento del modello durante la generazione del testo. Top-p, top-N e temperature sono parametri di inferenza chiave che influenzano la casualità, la diversità e la coerenza del testo generato.
- Top-p: Top-p controlla la diversità del testo generato considerando la probabilità cumulativa delle scelte dei token. Una "p" più piccola limita l'output a token ad alta probabilità, causando risultati più sicuri ma meno diversificati. L'aumento del valore top-p consente una maggiore creatività e casualità.
- Top-N: Top-N, nel contesto di Edge RAG, viene usato durante il recupero. Quando viene eseguita una ricerca vettoriale con la query di un utente, vengono usati blocchi di documento "N" forniti come contesto per il modello linguistico.
- Temperatura: la temperatura regola la casualità nella selezione del token ridimensionando le probabilità del token. Temperature più elevate aumentano la casualità, rendendo l'output più diversificato ma potenzialmente incoerente.
Esistono alcuni parametri aggiuntivi del modello, ad esempio i messaggi passati inclusi, la rigidità del testo e la rigidità delle immagini descritte in Scelta dei parametri corretti per il prompt e il modello.
La query è l'input fornito a un modello linguistico per ottenere una risposta o eseguire un'attività specifica. Può trattarsi di una domanda, di un prompt o di un set di istruzioni, a seconda del caso d'uso.
La generazione aumentata di recupero combina un sistema di recupero con un modello linguistico generativo per produrre risposte arricchite da conoscenze esterne. Recupera il contesto pertinente da un database o da un archivio documenti per aumentare le funzionalità di generazione del modello, assicurando informazioni accurate e up-to-date.
Modelli di ricerca:
- La ricerca full-text è un metodo di ricerca che analizza e corrisponde all'intero corpo del testo nei documenti, usando parole chiave, frasi o query booleane per trovare blocchi pertinenti nei documenti forniti.
- La ricerca ibrida combina sia la ricerca full-text (basata su parole chiave) che la ricerca vettoriale (somiglianza semantica) per recuperare i documenti più rilevanti. Usa la precisione della corrispondenza delle parole chiave e la profondità della comprensione semantica per migliorare l'accuratezza del recupero.
- La ricerca vettoriale è un metodo di ricerca che trova documenti pertinenti confrontando la somiglianza semantica tra incorporamenti vettoriali della query dell'utente e incorporamenti precompilate di documenti, in genere usando la somiglianza coseno o altre metriche di distanza in uno spazio vettoriale.
La richiesta di sistema è costituita da istruzioni o messaggi predefiniti forniti a un modello linguistico all'inizio di una conversazione o di un'attività per influenzarne il comportamento. Queste richieste definiscono il ruolo, il tono o il contesto specifico dell'attività del modello. Ad esempio, "Si è un assistente utile" o "Fornire spiegazioni tecniche concise". Formando il contesto iniziale, i prompt di sistema assicurano che il modello generi risposte allineate all'obiettivo o all'utente desiderato.
Il database vettoriale è un database specializzato per archiviare incorporamenti vettoriali. È progettato per gestire vettori altamente dimensionali e consente ricerche di somiglianza veloci e scalabili.
La vettorializzazione significa trasformare il testo in rappresentazioni numeriche o incorporamenti, usando un modello di incorporamento, ad esempio Sentence Transformers. Questi incorporamenti acquisiscono il significato semantico del testo, consentendo confronti efficienti e accurati.

Confronto con i servizi di intelligenza artificiale di Azure

Edge RAG viene eseguito nell'infrastruttura dei clienti al di fuori del cloud pubblico, consentendo ai clienti di cercare i dati in loco usando il Recupero Autonomo Generato (RAG). Il piano dati, inclusi tutti i dati dei clienti e il modello linguistico, è ospitato localmente.

Al contrario, i servizi di intelligenza artificiale di Azure come Ricerca di intelligenza artificiale di Azure e Azure AI Foundry forniscono anche funzionalità RAG, ma sono ospitati in aree cloud iperscalabili, richiedendo ai clienti di trasferire i dati e le applicazioni nell'infrastruttura di Azure.

Edge RAG offre esperienze dell'interfaccia utente per sviluppatori locali allineate alle esperienze di Azure AI Foundry.

Dati locali e cloud

Edge RAG invia solo i metadati di sistema e le informazioni identificabili dell'organizzazione, ad esempio l'ID sottoscrizione e i nomi dei cluster a Microsoft. Tutti i contenuti dei clienti rimangono sempre nell'infrastruttura locale entro i limiti di rete definiti dai clienti.

Ruoli utente

La soluzione Edge RAG ha tre ruoli utente distinti:

Gestione del ciclo di vita dell'estensione: gli utenti sono responsabili della gestione del ciclo di vita dell'estensione EDGE RAG Arc. Sono incluse attività come la configurazione dell'infrastruttura necessaria, la distribuzione dell'estensione, l'esecuzione di aggiornamenti, il monitoraggio delle prestazioni e la gestione dell'eliminazione finale. In genere, queste responsabilità rientrano in un amministratore IT con accesso all'infrastruttura locale di Azure e alla sottostante Azure Kubernetes Service (AKS) nell'infrastruttura locale di Azure.
Sviluppo e valutazione dell'endpoint di chat: le responsabilità dell'utente in questo flusso di lavoro includono la fornitura dell'origine dati, la personalizzazione delle impostazioni della pipeline RAG, la fornitura di richieste di sistema personalizzate, la valutazione, il monitoraggio e l'aggiornamento della soluzione di chat. Questo ruolo viene in genere eseguito da un tecnico di richiesta o da uno sviluppatore di applicazioni di intelligenza artificiale.
Utilizzo dell'endpoint per eseguire query sui dati locali: le responsabilità dell'utente in questo flusso di lavoro possono includere l'integrazione dell'endpoint della chat in applicazioni line-of-business e l'uso di un'interfaccia di chat, personalizzata o predefinita per eseguire query sui dati locali.

Condividi tramite