Azure OpenAI na vašich datech

2025-02-13

V tomto článku se dozvíte o Službě Azure OpenAI ve vašich datech, což vývojářům usnadňuje rychlé připojení, ingestování a uzemnění podnikových dat, aby mohli rychle vytvářet přizpůsobené kopírky (Preview). Zlepšuje porozumění uživatelům, urychluje dokončování úkolů, zlepšuje provozní efektivitu a pomáhá při rozhodování.

Co je Azure OpenAI ve vašich datech

Azure OpenAI On Your Data umožňuje spouštět pokročilé modely AI, jako je GPT-35-Turbo a GPT-4, na vlastních podnikových datech bez nutnosti trénování nebo vyladění modelů. Můžete chatovat o datech a analyzovat je s větší přesností. Můžete určit zdroje pro podporu odpovědí na základě nejnovějších informací dostupných ve vašich určených zdrojích dat. K Azure OpenAI Na vašich datech můžete přistupovat pomocí rozhraní REST API, a to prostřednictvím sady SDK nebo webového rozhraní na portálu Azure AI Foundry. Můžete také vytvořit webovou aplikaci, která se připojí k vašim datům, a povolit tak vylepšené řešení chatu nebo ho nasadit přímo jako kopírovací objekt v sadě Copilot Studio (Preview).

Vývoj s využitím Azure OpenAI na vašich datech

Diagram znázorňující ukázkový pracovní postup

Proces vývoje, který byste použili s Azure OpenAI na vašich datech, je obvykle následující:

Ingestace: Nahrajte soubory pomocí portálu Azure AI Foundry nebo rozhraní API pro příjem dat. To umožňuje, aby vaše data byla prolomené, blokované a vložené do instance služby Azure AI Search, kterou můžou používat modely Azure OpenAI. Pokud máte existující podporovaný zdroj dat, můžete ho připojit také přímo.
Vývoj: Po vyzkoušení Azure OpenAI na vašich datech začněte vyvíjet aplikaci pomocí dostupných rozhraní REST API a sad SDK, které jsou dostupné v několika jazycích. Vytvoří výzvy a záměry hledání, které se mají předat službě Azure OpenAI.
Odvozování: Po nasazení aplikace ve vašem upřednostňovaném prostředí se do Azure OpenAI odešlou výzvy, které před vrácením odpovědi provede několik kroků:
1. Generování záměru: Služba určí záměr výzvy uživatele k určení správné odpovědi.
2. Načtení: Služba načte relevantní bloky dostupných dat z připojeného zdroje dat dotazováním. Například pomocí sémantického nebo vektorového vyhledávání. Parametry jako striktnost a počet dokumentů, které mají být načteny, jsou využívány k ovlivnění načítání.
3. Filtrace a změna pořadí: Výsledky hledání z kroku načítání jsou vylepšeny řazením a filtrováním dat pro upřesnění relevance.
4. Generování odpovědí: Výsledná data se odesílají spolu s dalšími informacemi, jako je systémová zpráva do modelu LLM (Large Language Model) a odpověď se odešle zpět do aplikace.

Začněte tím, že připojíte zdroj dat pomocí portálu Azure AI Foundry a začnete klást otázky a chatovat s daty.

Řízení přístupu na základě role v Azure (Azure RBAC) pro přidávání zdrojů dat

Pokud chcete plně používat Azure OpenAI ve vašich datech, musíte nastavit jednu nebo více rolí Azure RBAC. Další informace najdete v tématu Konfigurace Azure OpenAI pro vaše data.

Formáty dat a typy souborů

Azure OpenAI s vašimi daty podporuje následující typy souborů:

.txt
.md
.html
.docx
.pptx
.pdf

Existuje limit nahrávání a existuje několik upozornění na strukturu dokumentů a na to, jak může ovlivnit kvalitu odpovědí z modelu:

Pokud převádíte data z nepodporovaného formátu do podporovaného, zlepšete kvalitu odezvy modelu tím, že zajistíte, že převod:
- Nevedl k významné ztrátě dat.
- Nepřidával do vašich dat neočekávaný šum.
Pokud mají vaše soubory speciální formátování, jako jsou tabulky a sloupce nebo odrážky, připravte data pomocí skriptu pro přípravu dat, který je k dispozici na GitHubu.
U dokumentů a datových sad s dlouhým textem byste měli použít dostupný skript pro přípravu dat. Skript rozděluje data takovým způsobem, aby odpovědi modelu byly přesnější. Tento skript také podporuje naskenované soubory a obrázky PDF.

Podporované zdroje dat

Abyste mohli nahrát data, musíte se připojit ke zdroji dat. Když chcete použít svá data k chatování s modelem Azure OpenAI, data se rozdělí do hledacího indexu, aby bylo možné nalézt relevantní data na základě uživatelských dotazů.

Poznámka:

Data by měla být nestrukturovaný text, aby byly nejlepší výsledky. Pokud máte netextová částečně strukturovaná nebo strukturovaná data, zvažte jejich převod na text. Pokud mají vaše soubory speciální formátování, jako jsou tabulky a sloupce nebo odrážky, připravte data pomocí skriptu pro přípravu dat, který je k dispozici na GitHubu.

Integrovaná vektorová databáze v Azure Cosmos DB pro MongoDB založená na virtuálních jádrech nativně podporuje integraci s Azure OpenAI ve vašich datech.

U některých zdrojů dat, jako je nahrávání souborů z místního počítače (Preview) nebo dat obsažených v účtu úložiště objektů blob (Preview), se používá Azure AI Search. Když zvolíte následující zdroje dat, data se ingestují do indexu Azure AI Search.

Ingestování dat prostřednictvím služby Azure AI Search	Popis
Azure AI Search	Použijte existující index Azure AI Search s Azure OpenAI ve vašich datech.
Nahrání souborů (náhled)	Nahrajte soubory z místního počítače, které se mají uložit do databáze Azure Blob Storage, a ingestované do služby Azure AI Search.
Adresa URL/webová adresa (Preview)	Webový obsah z adres URL je uložený ve službě Azure Blob Storage.
Azure Blob Storage (náhled)	Nahrajte soubory ze služby Azure Blob Storage, které se mají ingestovat do indexu služby Azure AI Search.

Pokud chcete, můžete zvážit použití indexu Azure AI Search:

Přizpůsobte proces vytváření indexu.
Znovu použijte index vytvořený dříve importováním dat z jiných zdrojů dat.

Poznámka:

Pokud chcete použít existující index, musí mít alespoň jedno prohledávatelné pole.
Nastavte možnost CORS Typ povoleného původu na all a možnost Povolené původy na hodnotu *.
Ve vyhledávacím indexu nemůžete mít složitá pole.

Typy hledání

Azure OpenAI On Your Data poskytuje následující typy hledání, které můžete použít při přidávání zdroje dat.

Hledání klíčových slov
Sémantické vyhledávání
Vektorové vyhledávání pomocí modelů vkládání Ada, které jsou k dispozici ve vybraných oblastech

Pokud chcete povolit vektorové vyhledávání, potřebujete existující model vkládání nasazený ve vašem prostředku Azure OpenAI. Vyberte nasazení vkládání při připojování dat a pak v části Správa dat vyberte jeden z typů vektorového vyhledávání. Pokud jako zdroj dat používáte Azure AI Search, ujistěte se, že máte v indexu vektorový sloupec.

Pokud používáte vlastní index, můžete při přidávání zdroje dat přizpůsobit mapování polí a definovat pole, která se mapují při odpovídání na otázky. Pokud chcete přizpůsobit mapování polí, vyberte Při přidávání zdroje dat možnost Použít vlastní mapování polí na stránce Zdroj dat.

Důležité

Sémantické vyhledávání podléhá dodatečným cenům. Pokud chcete povolit sémantické vyhledávání nebo vektorové vyhledávání, musíte zvolit skladovou položku Basic nebo vyšší. Pro více informací se podívejte na rozdíly v cenových úrovních a limity služeb.
Pokud chcete zlepšit kvalitu načítání informací a odpovědí modelu, doporučujeme povolit sémantické vyhledávání pro následující jazyky zdrojů dat: angličtina, francouzština, španělština, portugalština, italština, Německo, čínština (Zh), japonština, korejština, ruština a arabština.

Možnost hledání	Typ vyhledávání	Další ceny?	Zaměstnanecké výhody
klíčové slovo	Vyhledávání klíčových slov	Žádné další ceny.	Provádí rychlé a flexibilní parsování a porovnávání dotazů v prohledávatelných polích pomocí výrazů nebo frází v libovolném podporovaném jazyce s operátory nebo bez operátorů.
sémantický	Sémantické vyhledávání	Další ceny pro sémantické využití vyhledávání	Zlepšuje přesnost a relevanci výsledků hledání pomocí nástroje pro přeřazení (s modely AI) k pochopení sémantického významu termínů dotazu a dokumentů vrácených počátečním rankerem vyhledávání.
vektor	Vektorové vyhledávání	Doplňkové ceny na vašem účtu Azure OpenAI z volání modelu embeddedingu.	Umožňuje najít dokumenty, které se podobají zadanému vstupu dotazu na základě vektorových vkládání obsahu.
hybrid (vektor + klíčové slovo)	Hybridní vyhledávání vektorů a hledání klíčových slov	Doplňkové ceny na vašem účtu Azure OpenAI z volání modelu embeddedingu.	Provádí vyhledávání podobnosti u vektorových polí pomocí vektorových embeddingů a podporuje také flexibilní parsing dotazů a fulltextové vyhledávání v alfanumerických polích pomocí termínových dotazů.
hybrid (vector + klíčové slovo) + sémantika	Hybridní vyhledávání vektorů, sémantické vyhledávání a hledání klíčových slov.	Další náklady na vašem účtu Azure OpenAI za použití vkládacího modelu a další náklady na využití sémantického vyhledávání.	Používá vektorové vkládání, porozumění jazyku a flexibilní analýzu dotazů k vytváření bohatých vyhledávacích prostředí a generování aplikací umělé inteligence, které dokážou zpracovávat složité a různorodé scénáře načítání informací.

Inteligentní vyhledávání

Služba Azure OpenAI On Your Data má pro vaše data povolené inteligentní vyhledávání. Sémantické vyhledávání je ve výchozím nastavení povolené, pokud máte sémantické vyhledávání i hledání klíčových slov. Pokud máte vložené modely, inteligentní vyhledávání ve výchozím nastavení používá hybridní a sémantické vyhledávání.

Řízení přístupu na úrovni dokumentu

Poznámka:

Řízení přístupu na úrovni dokumentu se podporuje, když jako zdroj dat vyberete Azure AI Search.

Azure OpenAI On Your Data umožňuje omezit dokumenty, které se dají použít v odpovědích pro různé uživatele pomocí filtrů zabezpečení služby Azure AI Search. Když povolíte přístup na úrovni dokumentu, výsledky hledání vrácené službou Azure AI Search a použité k vygenerování odpovědi jsou upravené na základě členství uživatele ve skupině Microsoft Entra. Přístup na úrovni dokumentu můžete povolit pouze u existujících indexů Azure AI Search. Další informace najdete v tématu Azure OpenAI ve vaší datové síti a konfiguraci přístupu.

Mapování polí indexu

Pokud používáte vlastní index, zobrazí se na portálu Azure AI Foundry výzva k definování polí, která chcete mapovat pro odpovědi na otázky při přidávání zdroje dat. Pro data obsahu můžete zadat více polí a měli byste zahrnout všechna pole, která obsahují text související s vaším případem použití.

V tomto příkladu pole mapovaná na data obsahu a název poskytují modelu informace, které odpovídají na otázky. Název se také používá k názvu textu citace. Pole namapované na název souboru vygeneruje v odpovědi názvy citací.

Správné mapování těchto polí pomáhá zajistit, aby model měl lepší kvalitu odezvy a citace. Můžete ho také nakonfigurovat v rozhraní API pomocí parametru fieldsMapping .

Pokud chcete implementovat další kritéria založená na hodnotách pro spuštění dotazu, můžete nastavit vyhledávací filtr pomocí parametru filter.

Jak se data ingestují do služby Azure AI Search

Od září 2024 se rozhraní API pro příjem dat přepnula na integrovanou vektorizaci. Tato aktualizace nemění stávající kontrakty rozhraní API. Integrovaná vektorizace, nová nabídka služby Azure AI Search, využívá předem připravené dovednosti pro vytváření bloků dat a vkládání vstupních dat. Služba příjmu dat Azure OpenAI On Your Data už nepoužívá vlastní dovednosti. Po migraci na integrovanou vektorizaci prošel proces příjmu některými úpravami a v důsledku toho se vytvoří pouze následující aktiva:

{job-id}-index
{job-id}-indexer, pokud je zadán hodinový nebo denní plán, jinak se indexer vyčistí na konci procesu příjmu dat.
{job-id}-datasource

Kontejner bloků dat už není dostupný, protože tato funkce je teď ze své podstaty spravovaná službou Azure AI Search.

Datové připojení

Musíte vybrat způsob ověřování připojení z Azure OpenAI, Azure AI Search a Azure Blob Storage. Můžete zvolit spravovanou identitu přiřazenou systémem nebo klíč rozhraní API. Když jako typ ověřování vyberete klíč rozhraní API, systém automaticky naplní klíč rozhraní API pro připojení k prostředkům Azure AI Search, Azure OpenAI a Azure Blob Storage. Výběrem spravované identity přiřazené systémem bude ověřování založeno na přiřazení role, kterou máte. Spravovaná identita přiřazená systémem je ve výchozím nastavení vybrána pro zabezpečení.

Jakmile vyberete další tlačítko, automaticky ověří nastavení tak, aby používalo vybranou metodu ověřování. Pokud dojde k chybě, přečtěte si článek o přiřazení rolí a aktualizujte instalaci.

Jakmile provedete opravu nastavení, znovu vyberte další, abyste ověřili a pokračovali. Uživatelé rozhraní API můžou také nakonfigurovat ověřování s přiřazenou spravovanou identitou a klíči rozhraní API.

Pokud se chcete připojit k existující službě Azure Blob Storage a použít soubory uložené v kontejnerech, můžete použít službu Azure Blob Storage jako zdroj dat.

Naplánování automatických aktualizací indexu

Poznámka:

Automatická aktualizace indexu je podporovaná jenom pro Azure Blob Storage.

Pokud chcete udržovat index Azure AI Search aktuální s nejnovějšími daty, můžete naplánovat automatickou aktualizaci indexu místo ruční aktualizace při každé aktualizaci dat. Automatická aktualizace indexu je dostupná jenom v případech, kdy jako zdroj dat zvolíte Azure Blob Storage . Povolení automatické aktualizace indexu:

Přidejte zdroj dat pomocí portálu Azure AI Foundry.
V části Vybrat nebo přidat zdroj dat vyberte Plán indexeru a zvolte frekvenci aktualizace, kterou chcete použít.

Po nastavení příjmu dat na jinou frekvenci než jednorázově se vytvoří indexery Azure AI Search s plánem, který odpovídá 0.5 * the cadence specified. To znamená, že indexery budou v zadaném tempu stahovat, znovu zpracovávat a indexovat dokumenty, které byly přidány nebo změněny z kontejneru úložiště. Tento proces zajistí, že se aktualizovaná data automaticky předzpracují a indexují v konečném indexu v požadovaném tempu. Pokud chcete aktualizovat data, stačí nahrát další dokumenty jenom z webu Azure Portal. Na portálu vyberte Účet úložiště>Kontejnery. Vyberte název původního kontejneru a pak nahrajte. Index automaticky vyzvedne soubory po plánovaném období aktualizace. Zprostředkující prostředky vytvořené v prostředku Azure AI Search nebudou po příjmu dat vyčištěny, aby umožnily budoucí spuštění. Mezi tyto prostředky patří:

{Index Name}-index
{Index Name}-indexer
{Index Name}-datasource
{Index Name}-skillset

Pokud chcete plán upravit, můžete použít Azure Portal.

Otevření stránky vyhledávacího prostředku na webu Azure Portal
Výběr indexerů v levém podokně
U dvou indexerů, které mají název indexu jako předponu, proveďte následující kroky.
1. Výběrem indexeru ho otevřete. Pak vyberte kartu nastavení .
2. Aktualizujte plán na požadovanou četnost z plánu nebo zadejte vlastní četnost z intervalu (minuty).
3. Zvolte Uložit.

Jak se data ingestují do služby Azure AI Search

{job-id}-index
{job-id}-indexer, pokud je zadán hodinový nebo denní plán, jinak se indexer vyčistí na konci procesu příjmu dat.
{job-id}-datasource

Kontejner bloků dat už není dostupný, protože tato funkce je teď ze své podstaty spravovaná službou Azure AI Search.

Datové připojení

Pomocí portálu Azure AI Foundry můžete nahrát soubory ze svého počítače a vyzkoušet Azure OpenAI ve vašich datech. Máte také možnost vytvořit nový účet Azure Blob Storage a prostředek služby Azure AI Search. Služba pak uloží soubory do kontejneru úložiště Azure a provede příjem dat z kontejneru. Pomocí článku quickstart se můžete naučit, jak tuto možnost zdroje dat použít.

Jak se data ingestují do služby Azure AI Search

{job-id}-index
{job-id}-indexer, pokud je zadán hodinový nebo denní plán, jinak se indexer vyčistí na konci procesu příjmu dat.
{job-id}-datasource

Kontejner bloků dat už není dostupný, protože tato funkce je teď ze své podstaty spravovaná službou Azure AI Search.

Datové připojení

Můžete vložit adresy URL a služba bude ukládat obsah webové stránky a používat ho při generování odpovědí z modelu. Pro správné zpracování musí obsah adres URL nebo webových adres, které používáte, splňovat následující vlastnosti:

Veřejná webová stránka, například Using your data with Azure OpenAI in Azure AI Foundry Models - Azure OpenAI | Microsoft Learn. Nemůžete přidat adresu URL nebo webovou adresu s řízením přístupu, například adresy s heslem.
Webové stránky HTTPS.
Velikost obsahu v každé adrese URL je menší než 5 MB.
Web lze stáhnout jako jeden z podporovaných typů souborů.
Podporuje se pouze jedna vrstva vnořených odkazů. Na webové stránce bude načteno maximálně 20 odkazů.

Po přidání adresy URL/webové adresy pro příjem dat se webové stránky z vaší adresy URL načtou a uloží do služby Azure Blob Storage s názvem kontejneru: webpage-<index name> Každá adresa URL se uloží do jiného kontejneru v rámci účtu. Soubory se pak indexují do indexu Azure AI Search, který se používá k načítání při chatování s modelem.

Jak se data ingestují do služby Azure AI Search

{job-id}-index
{job-id}-indexer, pokud je zadán hodinový nebo denní plán, jinak se indexer vyčistí na konci procesu příjmu dat.
{job-id}-datasource

Kontejner bloků dat už není dostupný, protože tato funkce je teď ze své podstaty spravovaná službou Azure AI Search.

Datové připojení

Ke své vektorové databázi Elasticsearch se můžete připojit a chatovat s daty.

Požadavky

Databáze Elasticsearch
Model pro vkládání. Můžeš:
- Použití existujícího modelu vkládání Azure OpenAI text-embedding-ada-002 nebo
- Přineste si vlastní model vkládání hostovaný v Elasticsearch.
Připravte data pomocí poznámkového bloku Pythonu, který je k dispozici na GitHubu.

Vyžádat si přístup

Použití zdroje dat Elasticsearch je funkce preview, která podléhá podmínkám služby Omezený přístup v podmínkách specifických pro službu. Musíte vyplnit a odeslat formulář žádosti o přístup ke zdroji dat Elasticsearch. Formulář požaduje informace o vaší společnosti a scénáři, pro který plánujete použít zdroj dat Elasticsearch. Jakmile formulář odešlete, tým Azure OpenAI ho zkontroluje a pošle vám e-mail s rozhodnutím do 10 pracovních dnů.