Wat is Randinformatie-opzoeking Verbeterde Generatie (RAG)?

2025-05-20

Edge RAG Preview is een Kubernetes-extensie met Azure Arc waarmee u on-premises gegevens kunt doorzoeken met generatieve AI, met behulp van Rag (Retrieval Augmented Generation). RAG is een industriestandaardarchitectuur die de mogelijkheden van een taalmodel verbetert met persoonlijke gegevens.

Edge RAG Preview, ingeschakeld door Azure Arc, is een kant-en-klare oplossing die alles verpakt wat nodig is om klanten toe te staan aangepaste chatassistenten te bouwen en inzichten af te leiden van hun persoonlijke gegevens, waaronder:

Een keuze uit genAI-taalmodellen (Ative AI) die lokaal worden uitgevoerd met ondersteuning voor zowel CPU- als GPU-hardware.
Een kant-en-klare gegevensopname en RAG-pijplijn die alle gegevens lokaal bewaart, met op rollen gebaseerd toegangsbeheer van Azure (RBAC) om onbevoegde toegang te voorkomen.
Een out-of-the-box prompt engineering- en evaluatieprogramma om aangepaste chatoplossingen te vinden, te evalueren en te implementeren.
Azure-equivalente API's om te integreren in zakelijke toepassingen en een vooraf verpakte gebruikersinterface om snel aan de slag te gaan.

Hoewel Edge RAG in staat is om relevante afbeeldingen op te nemen en op te halen om te worden gebruikt als contextuele verwijzingen naast tekst, is het belangrijk om te weten dat het geen VLM (Visual Language Model) is.

Edge RAG wordt ondersteund in Kubernetes met Azure Arc in azure Local (voorheen Azure Stack HCI)-infrastructuur.

Zie Azure Arc, Kubernetes met Azure Arc en Azure Arc-extensies voor meer informatie.

Belangrijk

Edge RAG Preview, ingeschakeld door Azure Arc, is momenteel in PREVIEW. Zie de Aanvullende Gebruiksvoorwaarden voor Microsoft Azure Previews voor juridische voorwaarden die van toepassing zijn op Azure-functies die in bèta, preview, of anderszins nog niet algemeen beschikbaar zijn.

Klantscenario's en gebruiksscenario's

Voor klanten in verticale bladen, zoals productie, financiële dienstverlening, gezondheidszorg, overheid en defensie, worden waardevolle gegevens gegenereerd en lokaal opgeslagen. Dit gebeurt buiten de hyperscalecloud vanwege regelgeving, latentie, bedrijfscontinuïteit of het enorme aantal gegevens dat in realtime wordt gegenereerd. Klanten willen generatieve AI-toepassingen gebruiken om inzichten te verkrijgen uit deze on-premises gegevens.

Edge RAG biedt ondersteuning voor Q&A-mogelijkheden waarmee klanten on-premises gegevens kunnen opvragen via een aangepaste chatbot voor scenario's zoals:

Een overheidsklant wil inzichten afleiden uit gevoelige on-premises gegevens om snellere besluitvorming mogelijk te maken, grote gegevenssets samen te vatten, trainingsmateriaal te maken en meer.
Een regionale bank wil gegevens gebruiken die on-premises moeten blijven vanwege wettelijke beperkingen voor gebruiksvoorbeelden, zoals nalevingscontroles, klantondersteuning en het genereren van gepersonaliseerde verkoop pitchs.
Een wereldwijde fabrikant wil assistenten op de fabrieksvloer creëren om de tijd voor het oplossen van problemen en het vereenvoudigen van probleemoplossing te verminderen, waarbij gegevens worden gebruikt die lokaal moeten blijven om te voldoen aan het beleid van de organisatie.

Waarom Edge RAG?

Edge RAG gebruiken om het volgende te doen:

Verminder de markttijd met een kant-en-klare ervaring waarmee de ontwikkeling en implementatie van AI-toepassingen op lokale gegevens wordt versneld.
Vereenvoudig bewerkingen en end-to-end-beheer met een bedrijfskwaliteitsoplossing die dezelfde standaard van beveiliging, naleving en beheerbaarheid biedt die u van Microsoft kunt verwachten, inclusief levenscyclus- en versiebeheer van alle onderdelen en Microsoft Entra-integratie voor Azure RBAC.
Verwijder de behoefte aan afzonderlijke vaardighedensets voor ontwikkelaars met cloudconsistente ontwikkelaarservaringen
Blijf op de hoogte van deze snel veranderende ruimte met continue innovatie van Microsoft, de leider in AI-technologieën en blijf zich richten op het leveren van bedrijfswaarde.

Belangrijke concepten

Bekijk de volgende belangrijke concepten voor Edge RAG:

Met segmenteren worden grote documenten gesplitst in kleinere, beheerbare tekstblokken (segmenten).
- Segmentgrootte: Met segmenten worden grote documenten verdeeld in kleinere eenheden, met instellingen zoals segmentgrootte (bijvoorbeeld 1000-2000 tekens) en segmentover overlap (bijvoorbeeld 100-500 tekens) waarmee de granulariteit en continuïteit worden bepaald. Kleinere segmenten verbeteren de nauwkeurigheid van het ophalen, maar kunnen context verliezen, terwijl grotere segmenten zorgen voor uitgebreide context ten koste van precisie.
- Overlapping van segmenten behouden de context over de grenzen heen, maar verhogen de opslag- en rekenkrachtvereisten.
Optimale segmentinstellingen zijn afhankelijk van het gebruiksscenario en moeten een balans vinden tussen nauwkeurigheid, efficiëntie en prestaties.
Gegevensopname is het importeren en voorbereiden van externe inhoud, zoals documenten of afbeeldingen, die moeten worden gebruikt voor het ophalen. Dit omvat voorverwerkingsstappen, zoals het opschonen, opmaken en ordenen van gegevens.
Het insluiten van modellen transformeert tekst, afbeeldingen of andere gegevens in compacte numerieke vectoren (insluitingen) die semantische betekenis vastleggen. Deze vectoren vertegenwoordigen relaties tussen invoer, waardoor overeenkomsten en clustering mogelijk zijn.
Deductie verwijst naar het proces van het gebruik van een getraind model om voorspellingen of uitvoer te genereren op basis van nieuwe invoergegevens. In taalmodellen omvat deductie taken zoals het voltooien van tekst, het beantwoorden van vragen of het genereren van samenvattingen.
Taalmodellen zijn AI-systemen die zijn getraind om menselijke taal te begrijpen, te genereren en te bewerken. Ze voorspellen tekst op basis van invoer, waardoor taken zoals tekstgeneratie, vertaling, samenvatting en antwoord op vragen mogelijk zijn. Voorbeelden zijn GPT, Phi en Mistral.
Modelparameters in taalmodellen bepalen hoe het model zich gedraagt tijdens het genereren van tekst. Top-p, top-N en temperatuur zijn belangrijke deductieparameters die invloed hebben op de willekeurigheid, diversiteit en samenhang van gegenereerde tekst.
- Top-p: Top-p bepaalt de diversiteit van gegenereerde tekst door rekening te houden met de cumulatieve waarschijnlijkheid van tokenkeuzen. Een kleinere 'p' beperkt de uitvoer tot tokens met een hoge waarschijnlijkheid, wat leidt tot veiligere maar minder uiteenlopende resultaten. Door de top-p-waarde te verhogen, is meer creativiteit en willekeurigheid mogelijk.
- Top-N: Top-N, in de context van Edge RAG, wordt gebruikt tijdens het ophalen van gegevens. Wanneer een vectorzoekopdracht wordt uitgevoerd met de query van een gebruiker, gebruiken we 'N'-documentsegmenten die als context voor het taalmodel worden geleverd.
- Temperatuur: Temperatuur past de willekeurigheid in tokenselectie aan door tokenkansen te schalen. Hogere temperaturen verhogen willekeurigheid, waardoor de uitvoer diverser maar mogelijk incoherent is.
Er zijn enkele aanvullende modelparameters, zoals het opnemen van eerdere berichten, tekststriktheid en afbeeldingstrictheid, beschreven in Het kiezen van de juiste prompt en modelparameters.
Query is de invoer die wordt geleverd aan een taalmodel om een antwoord te genereren of een specifieke taak uit te voeren. Dit kan een vraag, een prompt of een set instructies zijn, afhankelijk van de use-case.
Rag (Retrieval Augmented Generation) combineert een ophaalsysteem met een generatief taalmodel om reacties te produceren die zijn verrijkt met externe kennis. Het haalt relevante context op uit een database of documentarchief om de generatiemogelijkheden van het model te verbeteren, zodat nauwkeurige en up-to-datumgegevens worden gegarandeerd.
Zoekmodellen:
- Zoeken in volledige tekst is een zoekmethode waarmee de volledige hoofdtekst in documenten wordt gescand en overeenkomt met trefwoorden, woordgroepen of booleaanse query's om relevante segmenten in de opgegeven documenten te vinden.
- Hybride zoeken combineert zowel zoeken in volledige tekst (op basis van trefwoorden) als vectorzoekopdrachten (semantische overeenkomsten) om de meest relevante documenten op te halen. Het maakt gebruik van de precisie van trefwoordvergelijking en de diepte van semantisch begrip voor verbeterde nauwkeurigheid van het ophalen.
- Vectorzoekopdrachten is een zoekmethode waarmee relevante documenten worden gevonden door de semantische gelijkenis tussen vectorinsluitingen van de query van de gebruiker en vooraf berekende insluitingen van documenten te vergelijken, meestal met cosinus-overeenkomsten of andere metrische gegevens over afstand in een vectorruimte.
Systeemprompt zijn vooraf gedefinieerde instructies of berichten die aan een taalmodel worden verstrekt aan het begin van een gesprek of taak om het gedrag ervan te beïnvloeden. Met deze prompts wordt de rol, toon of taakspecifieke context van het model gedefinieerd. Bijvoorbeeld 'U bent een nuttige assistent' of 'Geef beknopte technische uitleg'. Door de eerste context vorm te geven, zorgen systeemprompts ervoor dat het model antwoorden genereert die zijn afgestemd op het gewenste doel of de gewenste persona.
Vectordatabase is een gespecialiseerde database voor het opslaan van vector-insluitingen. Het is ontworpen om high-dimensionale vectoren te verwerken en maakt snelle en schaalbare gelijkeniszoeken mogelijk.
Vectorisatie betekent het transformeren van tekst in numerieke representaties of insluitingen, met behulp van een insluitmodel zoals zintransformatoren. Deze insluitingen leggen de semantische betekenis van tekst vast, waardoor efficiënte en nauwkeurige vergelijkingen mogelijk zijn.

Vergelijken met Azure AI-services

Edge RAG wordt uitgevoerd op de klantinfrastructuur buiten de openbare cloud, zodat klanten hun on-premises gegevens kunnen doorzoeken met behulp van Rag (Retrieval Augmented Generation). Het gegevensvlak, inclusief alle klantgegevens en het taalmodel, wordt lokaal gehost.

Azure AI-services zoals Azure AI Search en Azure AI Foundry bieden daarentegen ook RAG-mogelijkheden, maar worden gehost in cloudregio's met hyperscale, waardoor klanten hun gegevens en toepassingen naar de Azure-infrastructuur moeten brengen.

Edge RAG biedt lokale gebruikersinterface-ervaringen voor ontwikkelaars die zijn afgestemd op Azure AI Foundry-ervaringen.

De gegevens on-premises versus in de cloud

Edge RAG verzendt alleen systeemmetagegevens en organisatorische identificeerbare informatie, zoals abonnements-id en clusternamen naar Microsoft. Alle klantinhoud blijft altijd binnen de on-premises infrastructuur binnen de netwerkgrenzen die door klanten zijn gedefinieerd.

Gebruikersrollen

De Edge RAG-oplossing heeft drie verschillende gebruikersrollen:

Levenscyclusbeheer van de extensie: Gebruikers zijn verantwoordelijk voor het beheren van de levenscyclus van de Edge RAG Arc-extensie. Dit omvat taken zoals het instellen van de benodigde infrastructuur, het implementeren van de extensie, het uitvoeren van updates, het bewaken van de prestaties en het afhandelen van de uiteindelijke verwijdering. Deze verantwoordelijkheden vallen doorgaans onder een IT-beheerder met toegang tot de onderliggende Azure Local en Azure Kubernetes (AKS) in de lokale Azure-infrastructuur.
Ontwikkeling en evaluatie van chat-eindpunt: de gebruikersverantwoordelijkheden in deze werkstroom omvatten het leveren van de gegevensbron, het aanpassen van de RAG-pijplijninstellingen, het leveren van aangepaste systeemprompts, evalueren, bewaken en bijwerken van de chatoplossing. Deze rol wordt doorgaans uitgevoerd door een prompt-engineer of een AI-toepassingsontwikkelaar.
Het eindpunt gebruiken om een query uit te voeren op de on-premises gegevens: de gebruikersverantwoordelijkheden in deze werkstroom kunnen integratie van het chat-eindpunt omvatten in line-of-business-toepassingen en het gebruik van een chatinterface, aangepast of de kant-en-klare, om on-premises gegevens op te vragen.

Delen via