Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Retrieval-augmented generation (RAG) je vzor, který rozšiřuje možnosti LLM tím, že zakládá odpovědi ve vašem vlastním obsahu. Ačkoli jsou implementace RAG koncepčně jednoduché, čelí významným výzvám.
Výzvy RAG
| Výzva | Description |
|---|---|
| Pochopení dotazů | Moderní uživatelé se ptají složitých, konverzačních nebo vágních otázek s předpokládaným kontextem. Tradiční vyhledávání klíčových slov selže, pokud dotazy neodpovídají terminologii dokumentu. V případě RAG musí systém načítání informací rozumět záměru, nikoli jenom shodovat slova. |
| Přístup k datům s více zdroji | Podnikový obsah zahrnuje SharePoint, databáze, úložiště objektů blob a další platformy. Vytvoření jednotného vyhledávacího korpusu bez narušení operací s daty je nezbytné. |
| Omezení tokenů | LLM přijímají omezené vstupy tokenů. Systém načítání musí vracet vysoce relevantní a stručné výsledky – ne vyčerpávající výpisy dokumentů. |
| Očekávání doby odezvy | Uživatelé očekávají odpovědi založené na umělé inteligenci v sekundách, ne minuty. Systém načítání musí vyvážit důkladnost s rychlostí. |
| zabezpečení a řízení | Otevření privátního obsahu pro LLM vyžaduje podrobné řízení přístupu. Uživatelé a agenti musí načítat pouze autorizovaný obsah. |
Jak Azure AI Search splňuje výzvy RAG
Azure AI Search nabízí dva přístupy navržené speciálně pro tyto výzvy RAG:
Agentní načítání (Preview):: Kompletní potrubí RAG s plánováním dotazů asistovaným LLM, přístupem více zdrojů a strukturovanými odpověďmi optimalizovanými pro zpracování agenty.
Klasický model RAG: Osvědčený přístup s využitím hybridního vyhledávání a sémantického řazení, ideální pro jednodušší požadavky nebo v případě, že jsou požadovány obecně dostupné funkce (GA).
Následující části popisují, jak jednotlivé přístupy řeší konkrétní výzvy RAG.
Řešení problémů s porozuměním dotazům
Problém: Uživatelé se ptají "Jaké jsou naše zásady ohledně placeného volna pro vzdálené pracovníky najaté po roce 2023?" ale dokumenty říkají "volno", "práce na dálku" a "noví zaměstnanci".
Řešení získávání agensů:
- LLM analyzuje otázku a vygeneruje několik cílových poddotazů.
- Rozloží složité otázky do zaměřeného vyhledávání.
- Používá historii konverzací k pochopení kontextu.
- Paralelní spouštění napříč zdroji znalostí.
Klasické řešení RAG:
- Hybridní dotazy kombinují klíčová slova a vektorové vyhledávání pro lepší získání.
- Sémantické hodnocení přehodnocuje výsledky na základě významu, nikoliv pouze klíčových slov.
- Hledání vektorové podobnosti odpovídá konceptům, nikoli přesným termínům.
Přečtěte si další informace o plánování dotazů.
Řešení problémů s více zdroji dat
Problém: Zásady lidských zdrojů v SharePointu, výhody v databázích, novinky společnosti na webových stránkách – vytváření kopií narušuje zásady správného řízení a rutinní operace s daty.
Řešení získávání agensů:
- Znalostní báze sjednocují více zdrojů znalostí.
- Přímý dotaz na vzdálený SharePoint a Bing (není potřeba indexování) k doplnění obsahu indexu.
- Pokyny pro načítání vedou LLM k příslušným zdrojům dat.
- Automatické generování kanálu indexování pro Azure Blob, OneLake, ingestovaný obsah SharePointu a ingestovaný další externí obsah.
- Jedno dotazovací rozhraní a plán dotazů ve všech zdrojích
Klasické řešení RAG:
- Indexery získávají z více než 10 zdrojů dat Azure.
- Systém dovedností pro segmentaci, vektorizaci, slovní popis obrázků a analýzu.
- Přírůstkové indexování udržuje obsah aktuální.
- Řídíte, co je indexováno a jak.
Přečtěte si další informace o zdroji znalostí.
Řešení výzev s omezeními tokenů
Problém: GPT-4 přijímá přibližně 128 tisíc tokenů, ale máte 10 000 stránek dokumentace. Posílání všeho plýtvá zdroji a snižuje kvalitu.
Řešení získávání agensů:
- Vrátí strukturovanou odpověď pouze s nejrelevavantnějšími bloky dat.
- Vestavěné sledování citací ukazuje původ
- Protokol aktivit dotazů vysvětluje, co bylo prohledáno.
- Nepovinná syntéza odpovědí snižuje využití tokenů ještě více.
Klasické řešení RAG:
- Sémantické hodnocení identifikuje 50 nejrelevavantnějších výsledků.
- Konfigurovatelné limity výsledků (top-k pro vektory, horní n pro text) a minimální prahové hodnoty
- Bodovací profily zvyšují kritický obsah.
- Příkaz SELECT určuje, jaká pole jsou vrácena
Přečtěte si další informace o ladění relevance.
Řešení problémů s dobou odezvy
Problém: Uživatelé očekávají odpovědi za 3 až 5 sekund, ale dotazujete se na více zdrojů se složitým zpracováním.
Řešení získávání agensů:
- Paralelní provádění poddotazů (ne sekvenční)
- Nastavitelné úsilí o odůvodnění (minimální/nízká/střední)
- Předdefinované sémantické řazení (bez další orchestrace)
Klasické řešení RAG:
- Doby odezvy dotazů v milisekundách
- Jednoduché dotazy snižují složitost
- Řídíte časový limit a logiku opakovaných pokusů.
- Jednodušší architektura s menším počtem bodů selhání
Řešení problémů se zabezpečením
Problém: Finanční data by měla být přístupná jenom finančnímu týmu, i když vedoucí pracovník požádá chatovacího robota.
Řešení získávání agensů:
- Řízení přístupu na úrovni zdroje znalostí
- Dědí oprávnění SharePointu pro dotazy na vzdálený SharePoint.
- Dědí metadata oprávnění Microsoft Entra ID pro indexovaný obsah ze služby Azure Storage.
- Zabezpečení založené na filtrech v době dotazu pro jiné zdroje dat
- Izolace sítě prostřednictvím privátních koncových bodů
Klasické řešení RAG:
- Omezování zabezpečení na úrovni dokumentu
- Dědí metadata oprávnění Microsoft Entra ID pro indexovaný obsah ze služby Azure Storage.
- Zabezpečení založené na filtrech v době dotazu pro jiné zdroje dat
- Izolace sítě prostřednictvím privátních koncových bodů
Přečtěte si další informace o zabezpečení.
Moderní RAG s agentickým načítáním
Azure AI Search je osvědčené řešení pro úlohy RAG. Nyní poskytuje agentické načítání, specializovaný proces navržený speciálně pro vzory RAG. Tento přístup používá LLM k inteligentnímu rozdělení složitých uživatelských dotazů do zaměřených poddotazů, jejich provádění paralelně a vrací strukturované odpovědi optimalizované pro modely dokončování chatu.
Načítání založené na agentu představuje přechod od tradičních vzorů RAG s jediným dotazem ke inteligentnímu načítání s vícenásobnými dotazy, které poskytují:
- Plánování dotazů pracujících s kontextem s využitím historie konverzací
- Paralelní spouštění více zaměřených poddotazů
- Strukturované odpovědi s podkladovými daty, citacemi a metadaty spouštění
- Integrované sémantické řazení pro optimální relevanci
- Nepovinná syntéza odpovědí, která ve výsledku dotazu používá odpověď vytvořenou LLM.
Potřebujete nové objekty pro tento zpracovatelský tok: jeden nebo více zdrojů znalostí, databázi znalostí a akci načtení, kterou voláte z kódu aplikace, například nástroj, který funguje s vaším agentem AI.
Pro nové implementace RAG začněte s agentyckým načítáním. U stávajících řešení zvažte migraci, abyste využili lepší přesnost a porozumění kontextu.
Klasický model RAG pro Azure AI Search
Classic RAG používá původní architekturu provádění dotazů , ve které vaše aplikace odesílá jeden dotaz do služby Azure AI Search a orchestruje předání do LLM samostatně. Nasazený model LLM formuluje odpověď pomocí zploštěné výsledkové množiny dotazu. Tento přístup je jednodušší s menším počtem komponent a rychlejší, protože plánování dotazů není nijak zapojeno do LLM.
Podrobné informace o implementaci klasického RAG najdete v úložišti azure-search-classic-rag.
Příprava obsahu pro RAG
Kvalita RAG závisí na způsobu přípravy obsahu na načtení. Azure AI Search podporuje:
| Výzva k obsahu | Jak Azure AI Search pomáhá |
|---|---|
| Velké dokumenty | Automatické rozdělování (integrované nebo prostřednictvím schopností) |
| Více jazyků | Více než 50 analyzátorů jazyka pro text, vícejazyčné vektory |
| Obrázky a soubory PDF | OCR, analýza obrázků, verbalizace obrázků, dovednosti extrakce dokumentů |
| Potřebuji hledání podobnosti | Integrovaná vektorizace (Azure OpenAI, Azure Vision in Foundry Tools, vlastní) |
| Neshody v terminologii | Mapy synonym, sémantické řazení |
Pro agentní načítání: Používejte zdroje znalostí, které automaticky generují procesy dělení a vektorizace.
Pro klasický RAG: Pomocí indexerů a sad dovedností můžete vytvářet vlastní pipelines nebo odesílat předem zpracovaný obsah prostřednictvím push API.
Maximalizace relevance a úplnosti
Jak poskytnete nejlepší podkladová data pro formulaci odpovědí LLM? Je to kombinace vhodného obsahu, inteligentních dotazů a logiky dotazů, která dokáže identifikovat nejlepší bloky dat pro zodpovězení otázky.
Během indexování používejte bloky dat k rozdělení velkých dokumentů, aby se části mohly shodovat nezávisle na sobě. Zahrňte krok vektorizace pro vytvoření vložených objektů používaných pro vektorové dotazy.
Na straně dotazového systému zajistěte co nejrelevantnější výsledky pro implementaci RAG:
Použijte hybridní dotazy, které kombinují klíčová slova (nevektorové) a vektorové vyhledávání pro maximální zachycení. Pokud se v hybridním dotazu dvakrát vrátíte na stejný vstup, textový řetězec a jeho vektorový ekvivalent generují paralelní dotazy pro klíčová slova a vyhledávání podobnosti a vrátí nejrelevantnější shody z každého typu dotazu ve sjednocené sadě výsledků.
Použijte sémantické řazení, integrované do agentického výběru, volitelné pro tradiční RAG.
Použití hodnoticího profilu pro zvýšení konkrétních polí nebo kritérií
Jemně vylaďte parametry vektorového dotazu pro vážení vektorů a minimální prahové hodnoty.
Další informace najdete v tématu hybridní vyhledávání a sémantické řazení.
Výběr mezi agentickým načítáním a klasickým RAG
Použijte agentní načítání, když:
- Váš klient je agent nebo chatovací robot.
- Potřebujete nejvyšší možnou relevanci a přesnost.
- Vaše dotazy jsou složité nebo konverzační.
- Chcete strukturované odpovědi s citacemi a podrobnostmi dotazu.
- Vytváříte nové implementace RAG.
Použijte klasický RAG v těchto případech:
- Potřebujete jenom obecně dostupné funkce (GA).
- Jednoduchost a rychlost jsou priority nad pokročilou relevanci.
- Máte existující kód orchestrace, který chcete zachovat.
- Potřebujete jemně odstupňovanou kontrolu nad kanálem dotazu.
Řešení RAG, které zahrnuje agenty a službu Azure AI Search, může těžit z Foundry IQ jakožto jediného koncového bodu agenta ke znalostní vrstvě poskytující základní data. Foundry IQ používá agentické načítání.
Přečtěte si další informace o klasickém vyhledávání, agentním načítání a jak se porovnávají.
Jak začít
Existuje mnoho způsobů, jak začít, včetně řešení založených na kódu a ukázek.