Azure OpenAI op uw gegevens

2025-07-02

Gebruik dit artikel voor meer informatie over Azure OpenAI On Your Data, waardoor ontwikkelaars gemakkelijker hun bedrijfsgegevens kunnen verbinden, opnemen en grondgewijze gegevens kunnen maken om snel gepersonaliseerde copilots (preview) te maken. Het verbetert het begrip van de gebruiker, versnelt de voltooiing van taken, verbetert de operationele efficiëntie en helpt besluitvorming.

Wat is Azure OpenAI op uw gegevens?

Met Azure OpenAI op uw gegevens kunt u geavanceerde AI-modellen uitvoeren, zoals GPT-35-Turbo en GPT-4 op uw eigen bedrijfsgegevens zonder dat u modellen hoeft te trainen of af te stemmen. U kunt met een grotere nauwkeurigheid chatten en uw gegevens analyseren. U kunt bronnen opgeven ter ondersteuning van de antwoorden op basis van de meest recente informatie die beschikbaar is in uw aangewezen gegevensbronnen. U hebt toegang tot Azure OpenAI op uw gegevens met behulp van een REST API, via de SDK of de webinterface in de Azure AI Foundry-portal. U kunt ook een web-app maken die verbinding maakt met uw gegevens om een verbeterde chatoplossing in te schakelen of deze rechtstreeks als copilot te implementeren in Copilot Studio (preview).

Ontwikkelen met Azure OpenAI op uw gegevens

Een diagram met een voorbeeldwerkstroom.

Normaal gesproken is het ontwikkelingsproces dat u met Azure OpenAI op uw gegevens zou gebruiken:

Opnemen: bestanden uploaden met behulp van de Azure AI Foundry-portal of de opname-API. Hierdoor kunnen uw gegevens worden gekraakt, gesegmenteerd en ingesloten in een Azure AI Search-exemplaar dat kan worden gebruikt door Azure OpenAI-modellen. Als u een bestaande ondersteunde gegevensbron hebt, kunt u deze ook rechtstreeks verbinden.
Ontwikkelen: Nadat u Azure OpenAI op uw gegevens hebt geprobeerd, begint u met het ontwikkelen van uw toepassing met behulp van de beschikbare REST API en SDK's, die beschikbaar zijn in verschillende talen. Er worden prompts en zoekintenties gemaakt die moeten worden doorgegeven aan de Azure OpenAI-service.
Deductie: Nadat uw toepassing is geïmplementeerd in uw voorkeursomgeving, worden er prompts naar Azure OpenAI verzonden. Hiermee worden verschillende stappen uitgevoerd voordat er een antwoord wordt geretourneerd:
1. Genereren van intentie: De service bepaalt de intentie van de prompt van de gebruiker om een correct antwoord te bepalen.
2. Ophalen: De service haalt relevante segmenten van beschikbare gegevens op uit de verbonden gegevensbron door er een query op uit te voeren. Bijvoorbeeld door een semantische of vectorzoekopdracht te gebruiken. Parameters zoals striktheid en het aantal documenten dat moet worden opgehaald, worden gebruikt om het ophalen te beïnvloeden.
3. Filtratie en rerankering: Zoekresultaten uit de ophaalstap worden verbeterd door gegevens te rangschikken en te filteren om relevantie te verfijnen.
4. Antwoordgeneratie: de resulterende gegevens worden samen met andere informatie, zoals het systeembericht, verzonden naar het LLM (Large Language Model) en het antwoord wordt teruggestuurd naar de toepassing.

Om aan de slag te gaan, verbindt u uw gegevensbron met behulp van de Azure AI Foundry-portal en begint u vragen te stellen en te chatten over uw gegevens.

Op rollen gebaseerd toegangsbeheer van Azure (Azure RBAC) voor het toevoegen van gegevensbronnen

Als u Azure OpenAI volledig wilt gebruiken voor uw gegevens, moet u een of meer Azure RBAC-rollen instellen. Zie Azure OpenAI op uw gegevensconfiguratie voor meer informatie.

Gegevensindelingen en bestandstypen

On Your Data van Azure OpenAI ondersteunt de volgende bestandstypen:

.txt
.md
.html
.docx
.pptx
.pdf

Er is een uploadlimiet en er zijn enkele opmerkingen over documentstructuur en hoe dit van invloed kan zijn op de kwaliteit van reacties van het model:

Als u gegevens converteert van een niet-ondersteunde indeling naar een ondersteunde indeling, optimaliseert u daarmee de kwaliteit van de antwoorden van het model door de conversie te waarborgen:
- Leidt niet tot aanzienlijk gegevensverlies.
- Voegt geen onverwachte ruis toe aan uw gegevens.
Als uw bestanden speciale opmaak hebben, zoals tabellen en kolommen of opsommingstekens, bereidt u uw gegevens voor met het script voor gegevensvoorbereiding dat beschikbaar is op GitHub.
Voor documenten en gegevenssets met lange tekst moet u het beschikbare script voor gegevensvoorbereiding gebruiken. Het script segmenteert gegevens zodat de antwoorden van het model nauwkeuriger zijn. Dit script ondersteunt ook gescande PDF-bestanden en -afbeeldingen.

Ondersteunde gegevensbronnen

U moet verbinding maken met een gegevensbron om uw gegevens te uploaden. Wanneer u uw gegevens wilt gebruiken om te chatten met een Azure OpenAI-model, worden uw gegevens gesegmenteerd in een zoekindex, zodat relevante gegevens kunnen worden gevonden op basis van gebruikersquery's.

Opmerking

Uw gegevens moeten ongestructureerde tekst zijn voor de beste resultaten. Als u niet-tekstuele semi-gestructureerde of gestructureerde gegevens hebt, kunt u deze converteren naar tekst. Als uw bestanden speciale opmaak hebben, zoals tabellen en kolommen of opsommingstekens, bereidt u uw gegevens voor met het script voor gegevensvoorbereiding dat beschikbaar is op GitHub.

De Integrated Vector Database in azure Cosmos DB voor MongoDB op basis van vCore biedt systeemeigen ondersteuning voor integratie met Azure OpenAI On Your Data.

Voor sommige gegevensbronnen, zoals het uploaden van bestanden vanaf uw lokale computer (preview) of gegevens in een Blob Storage-account (preview), wordt Azure AI Search gebruikt. Wanneer u de volgende gegevensbronnen kiest, worden uw gegevens opgenomen in een Azure AI Search-index.

Gegevens die zijn opgenomen via Azure AI Search	Beschrijving
Azure AI Search	Gebruik een bestaande Azure AI Search-index met Azure OpenAI op uw gegevens.
Bestanden uploaden (preview)	Upload bestanden vanaf uw lokale computer die moeten worden opgeslagen in een Azure Blob Storage-database en opgenomen in Azure AI Search.
URL/webadres (preview)	Webinhoud van de URL's wordt opgeslagen in Azure Blob Storage.
Azure Blob Storage (voorbeeld)	Upload bestanden uit Azure Blob Storage die moeten worden opgenomen in een Azure AI Search-index.

U kunt overwegen om een Azure AI Search-index te gebruiken wanneer u het volgende wilt doen:

Pas het proces voor het maken van de index aan.
Gebruik een index die eerder is gemaakt, opnieuw door gegevens uit andere gegevensbronnen op te nemen.

Opmerking

Als u een bestaande index wilt gebruiken, moet deze ten minste één doorzoekbaar veld hebben.
Stel de optie CORS Origin-type toestaan in op en de all op .*
U kunt geen complexe velden in uw zoekindex hebben.

Zoektypen

Azure OpenAI On Your Data biedt de volgende zoektypen die u kunt gebruiken wanneer u uw gegevensbron toevoegt.

Trefwoorden zoeken
Semantische zoekopdracht
Vectorzoekopdrachten met behulp van insluitmodellen van Ada, beschikbaar in geselecteerde regio's

Als u vectorzoekopdrachten wilt inschakelen, hebt u een bestaand insluitmodel nodig dat is geïmplementeerd in uw Azure OpenAI-resource. Selecteer de insluitimplementatie bij het verbinden van uw gegevens en selecteer vervolgens een van de vectorzoektypen onder Gegevensbeheer. Als u Azure AI Search als gegevensbron gebruikt, moet u ervoor zorgen dat u een vectorkolom in de index hebt.

Als u uw eigen index gebruikt, kunt u de veldtoewijzing aanpassen wanneer u uw gegevensbron toevoegt om de velden te definiëren die worden toegewezen bij het beantwoorden van vragen. Als u veldtoewijzing wilt aanpassen, selecteert u Aangepaste veldtoewijzing gebruiken op de pagina Gegevensbron wanneer u uw gegevensbron toevoegt.

Belangrijk

Semantische zoekopdrachten zijn onderhevig aan aanvullende prijzen. Je moet Basic of een hoger SKU kiezen om semantisch zoeken of vectorzoeken in te schakelen. Zie het verschil in prijscategorieën en servicelimieten voor meer informatie.
Om de kwaliteit van het ophalen van gegevens en modelreacties te verbeteren, raden we u aan semantische zoekopdrachten in te schakelen voor de volgende gegevensbrontalen: Engels, Frans, Spaans, Portugees, Italiaans, Duitsland, Chinees (Zh), Japans, Koreaans, Russisch en Arabisch.

Zoekoptie	Type ophalen	Aanvullende prijzen?	Voordelen
trefwoord	Trefwoorden zoeken	Geen extra prijzen.	Voert snelle en flexibele queryparsering en overeenkomende query's uit op doorzoekbare velden, met behulp van termen of woordgroepen in elke ondersteunde taal, met of zonder operators.
semantisch	Semantische zoekopdracht	Aanvullende prijzen voor semantisch zoekgebruik .	Verbetert de precisie en relevantie van zoekresultaten met behulp van een reranker (met AI-modellen) om inzicht te krijgen in de semantische betekenis van querytermen en documenten die worden geretourneerd door de initiële zoekrangschikking
vector	Zoeken met vectoren	Aanvullende prijzen voor uw Azure OpenAI-account van het aanroepen van het insluitmodel.	Hiermee kunt u documenten vinden die vergelijkbaar zijn met een bepaalde queryinvoer op basis van de vector-insluitingen van de inhoud.
hybride (vector + trefwoord)	Een hybride van vectorzoekopdrachten en trefwoorden zoeken	Aanvullende prijzen voor uw Azure OpenAI-account van het aanroepen van het insluitmodel.	Hiermee kunt u overeenkomsten zoeken op vectorvelden met behulp van vector-insluitingen, terwijl ook flexibele queryparsering en zoekopdrachten in volledige tekst worden ondersteund voor alfanumerieke velden met behulp van termenquery's.
hybride (vector + trefwoord) + semantisch	Een hybride van vectorzoekopdrachten, semantische zoekopdrachten en trefwoordzoekopdrachten.	Aanvullende prijzen voor uw Azure OpenAI-account van het aanroepen van het insluitmodel en aanvullende prijzen voor semantisch zoekgebruik .	Maakt gebruik van vector-insluitingen, taalbegrip en flexibele queryparsering om rijke zoekervaringen en generatieve AI-apps te maken die complexe en diverse scenario's voor het ophalen van gegevens kunnen verwerken.

Intelligente zoekopdracht

Azure OpenAI On Your Data heeft intelligente zoekopdrachten ingeschakeld voor uw gegevens. Semantisch zoeken is standaard ingeschakeld als u zowel semantische zoekopdrachten als trefwoordzoekopdrachten hebt. Als u modellen hebt ingesloten, wordt intelligent zoeken standaard ingesteld op hybride en semantische zoekopdrachten.

Toegangsbeheer op documentniveau

Opmerking

Toegangsbeheer op documentniveau wordt ondersteund wanneer u Azure AI Search als uw gegevensbron selecteert.

Met Azure OpenAI op uw gegevens kunt u de documenten beperken die kunnen worden gebruikt in antwoorden voor verschillende gebruikers met Azure AI Search-beveiligingsfilters. Wanneer u toegang op documentniveau inschakelt, worden de zoekresultaten die worden geretourneerd door Azure AI Search en gebruikt om een antwoord te genereren, ingekort op basis van het microsoft Entra-groepslidmaatschap van de gebruiker. U kunt alleen toegang op documentniveau inschakelen voor bestaande Azure AI Search-indexen. Zie Azure OpenAI op uw gegevensnetwerk en toegangsconfiguratie voor meer informatie.

Indexveldtoewijzing

Als u uw eigen index gebruikt, wordt u gevraagd in de Azure AI Foundry-portal om te definiëren welke velden u wilt toewijzen voor het beantwoorden van vragen wanneer u uw gegevensbron toevoegt. U kunt meerdere velden opgeven voor inhoudsgegevens en alle velden bevatten met tekst die betrekking heeft op uw use-case.

In dit voorbeeld geven de velden die zijn toegewezen aan inhoudsgegevens en titel informatie aan het model om vragen te beantwoorden. Titel wordt ook gebruikt om bronvermeldingstekst te titel. Het veld dat is toegewezen aan bestandsnaam genereert de bronvermeldingsnamen in het antwoord.

Door deze velden correct toe te wijzen, zorgt u ervoor dat het model een betere reactie- en bronvermeldingskwaliteit heeft. U kunt deze ook configureren in de API met behulp van de fieldsMapping parameter.

Als u aanvullende op waarden gebaseerde criteria wilt implementeren voor het uitvoeren van query's, kunt u een zoekfilter instellen met behulp van de filter parameter in de REST API.

Hoe gegevens worden opgenomen in Azure AI Search

Vanaf september 2024 zijn de opname-API's overgeschakeld naar geïntegreerde vectorisatie. Met deze update worden de bestaande API-contracten niet gewijzigd. Geïntegreerde vectorisatie, een nieuw aanbod van Azure AI Search, maakt gebruik van vooraf gedefinieerde vaardigheden voor het segmenteren en insluiten van de invoergegevens. De Azure OpenAI On Your Data-opnameservice maakt niet langer gebruik van aangepaste vaardigheden. Na de migratie naar geïntegreerde vectorisatie heeft het opnameproces enkele wijzigingen ondergaan en worden alleen de volgende assets gemaakt:

{job-id}-index
{job-id}-indexer, als er een uur- of dagelijks schema is opgegeven, anders wordt de indexeerfunctie opgeschoond aan het einde van het opnameproces.
{job-id}-datasource

De segmentcontainer is niet meer beschikbaar, omdat deze functionaliteit nu inherent wordt beheerd door Azure AI Search.

Gegevensverbinding

U moet selecteren hoe u de verbinding wilt verifiëren vanuit Azure OpenAI, Azure AI Search en Azure Blob Storage. U kunt een door het systeem toegewezen beheerde identiteit of een API-sleutel kiezen. Door DE API-sleutel te selecteren als verificatietype, wordt de API-sleutel automatisch ingevuld zodat u verbinding kunt maken met uw Azure AI Search-, Azure OpenAI- en Azure Blob Storage-resources. Door door het systeem toegewezen beheerde identiteit te selecteren, wordt de verificatie gebaseerd op de roltoewijzing die u hebt. Door het systeem toegewezen beheerde identiteit is standaard geselecteerd voor beveiliging.

Zodra u de volgende knop selecteert, wordt uw installatie automatisch gevalideerd om de geselecteerde verificatiemethode te gebruiken. Als er een fout optreedt, raadpleegt u het artikel over roltoewijzingen om uw installatie bij te werken.

Nadat u de installatie hebt opgelost, selecteert u de volgende optie opnieuw om te valideren en door te gaan. API-gebruikers kunnen ook verificatie configureren met toegewezen beheerde identiteit en API-sleutels.

Mogelijk wilt u Azure Blob Storage gebruiken als gegevensbron als u verbinding wilt maken met bestaande Azure Blob Storage en bestanden wilt gebruiken die zijn opgeslagen in uw containers.

Automatische indexvernieuwing plannen

Opmerking

Automatisch vernieuwen van indexen wordt alleen ondersteund voor Azure Blob Storage.

Als u uw Azure AI Search-index up-to-date wilt houden met uw meest recente gegevens, kunt u een automatische indexvernieuwing plannen in plaats van deze handmatig bij te werken telkens wanneer uw gegevens worden bijgewerkt. Automatisch vernieuwen van indexen is alleen beschikbaar wanneer u Azure Blob Storage als gegevensbron kiest. Een automatische indexvernieuwing inschakelen:

Voeg een gegevensbron toe met behulp van de Azure AI Foundry-portal.
Selecteer onder Indexeerschema selecteren of gegevensbrontoevoegen en kies het vernieuwingsritme dat u wilt toepassen.

Nadat de gegevensopname is ingesteld op een andere frequentie dan één keer, worden Azure AI Search-indexeerfuncties gemaakt met een schema dat gelijk is aan 0.5 * the cadence specified. Dit betekent dat de indexeerfuncties bij de opgegeven frequentie de documenten ophalen, verwerken en indexeren die zijn toegevoegd aan of gewijzigd uit de opslagcontainer. Dit proces zorgt ervoor dat de bijgewerkte gegevens automatisch worden verwerkt en geïndexeerd in de uiteindelijke index met de gewenste frequentie. Als u uw gegevens wilt bijwerken, hoeft u alleen de aanvullende documenten vanuit Azure Portal te uploaden. Selecteer in de portal opslagaccountcontainers>. Selecteer de naam van de oorspronkelijke container en uploaden. De index haalt de bestanden automatisch op na de geplande vernieuwingsperiode. De tussenliggende assets die in de Azure AI Search-resource zijn gemaakt, worden niet opgeschoond na opname om toekomstige uitvoeringen mogelijk te maken. Deze assets zijn:

{Index Name}-index
{Index Name}-indexer
{Index Name}-datasource
{Index Name}-skillset

Als u de planning wilt wijzigen, kunt u Azure Portal gebruiken.

De pagina met zoekresources openen in Azure Portal
Indexeerfuncties selecteren in het linkerdeelvenster
Voer de volgende stappen uit op de twee indexeerfuncties met uw indexnaam als voorvoegsel.
1. Selecteer de indexeerfunctie om deze te openen. Selecteer vervolgens het tabblad Instellingen .
2. Werk de planning bij naar de gewenste frequentie vanuit 'Planning' of geef een aangepaste frequentie op van Interval (minuten)'
3. Selecteer Opslaan.

Hoe gegevens worden opgenomen in Azure AI Search

{job-id}-index
{job-id}-indexer, als er een uur- of dagelijks schema is opgegeven, anders wordt de indexeerfunctie opgeschoond aan het einde van het opnameproces.
{job-id}-datasource

De segmentcontainer is niet meer beschikbaar, omdat deze functionaliteit nu inherent wordt beheerd door Azure AI Search.

Gegevensverbinding

Met behulp van de Azure AI Foundry-portal kunt u bestanden uploaden vanaf uw computer om Azure OpenAI op uw gegevens uit te proberen. U hebt ook de mogelijkheid om een nieuw Azure Blob Storage-account en Een Azure AI Search-resource te maken. De service slaat de bestanden vervolgens op in een Azure Storage-container en voert opname uit van de container. U kunt het quickstart-artikel gebruiken om te leren hoe u deze gegevensbronoptie gebruikt.

Hoe gegevens worden opgenomen in Azure AI Search

{job-id}-index
{job-id}-indexer, als er een uur- of dagelijks schema is opgegeven, anders wordt de indexeerfunctie opgeschoond aan het einde van het opnameproces.
{job-id}-datasource

De segmentcontainer is niet meer beschikbaar, omdat deze functionaliteit nu inherent wordt beheerd door Azure AI Search.

Gegevensverbinding

U kunt URL's plakken en de service slaat de inhoud van de webpagina op, waarbij deze wordt gebruikt bij het genereren van antwoorden van het model. De inhoud in URL's/webadressen die u gebruikt, moet de volgende kenmerken hebben die correct moeten worden opgenomen:

Een openbare website, zoals het gebruik van uw gegevens met Azure OpenAI in Azure AI Foundry-modellen - Azure OpenAI | Microsoft Learn. U kunt geen URL/webadres toevoegen met toegangsbeheer, zoals adressen met een wachtwoord.
Een HTTPS-website.
De grootte van inhoud in elke URL is kleiner dan 5 MB.
De website kan worden gedownload als een van de ondersteunde bestandstypen.
Er wordt slechts één laag geneste koppelingen ondersteund. Op de webpagina worden slechts 20 koppelingen opgehaald.

Nadat u de URL/het webadres voor gegevensopname hebt toegevoegd, worden de webpagina's van uw URL opgehaald en opgeslagen in Azure Blob Storage met een containernaam: webpage-<index name> Elke URL wordt opgeslagen in een andere container binnen het account. Vervolgens worden de bestanden geïndexeerd in een Azure AI Search-index, die wordt gebruikt voor het ophalen wanneer u met het model aan het chatten bent.

Hoe gegevens worden opgenomen in Azure AI Search

{job-id}-index
{job-id}-indexer, als er een uur- of dagelijks schema is opgegeven, anders wordt de indexeerfunctie opgeschoond aan het einde van het opnameproces.
{job-id}-datasource

De segmentcontainer is niet meer beschikbaar, omdat deze functionaliteit nu inherent wordt beheerd door Azure AI Search.

Gegevensverbinding

U kunt verbinding maken met uw Elasticsearch Vector-database en chatten met uw gegevens.

Vereiste voorwaarden

Een Elasticsearch-database
Een insluitmodel. U kunt:
- Een bestaand Azure OpenAI-insluitmodel text-embedding-ada-002 gebruiken of
- Breng je eigen embedding model gehost op Elasticsearch.
Bereid uw gegevens voor met behulp van het python-notebook dat beschikbaar is op GitHub.

Toegang aanvragen

Het gebruik van de Elasticsearch-gegevensbron is een preview-functie die onderhevig is aan de servicevoorwaarden voor beperkte toegang in de servicespecifieke voorwaarden. U moet een aanvraagformulier invullen en indienen om toegang te vragen tot de Elasticsearch-gegevensbron. Het formulier vraagt informatie op over uw bedrijf en het scenario waarvoor u de Elasticsearch-gegevensbron wilt gebruiken. Nadat u het formulier hebt ingediend, controleert het Azure OpenAI-team het en stuurt het u een e-mail met een beslissing binnen 10 werkdagen.