Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Microsoft 365 Copilot Tuning stelt organisaties in staat om AI-modellen aan te passen aan hun unieke terminologie, communicatiestijl en bedrijfsprocessen. Door grote taalmodellen (LLM's) af te stemmen met uw eigen gegevens, kunt u de nauwkeurigheid, toon en relevantie van Copilot-antwoorden in uw tenant verbeteren.
Copilot Tuning gaat verder dan retentie en ophalen om tenantspecifieke LLMs te trainen op de gegevens van uw organisatie, met behoud van robuuste bedrijfsbeveiliging, naleving, governance en beheercontroles. De LLMs zijn afgestemd op specifieke taken, zoals samenvatting, documentgeneratie en deskundige Q&A.
In dit artikel wordt het proces beschreven voor het trainen en afstemmen van modellen om Microsoft 365 Copilot voor uw organisatie aan te passen.
Opmerking
Copilot Tuning is momenteel beschikbaar voor Early Access-voorbeeld (EAP). Zie de beheerdershandleiding voor meer informatie over vereisten en hoe u zich kunt inschrijven.
Overzicht van afstemmingsproces
Het gebruik van Copilot Tuning om nauwkeurig afgestemde AI-modellen voor uw organisatie te maken, omvat de volgende trainings- en afstemmingsstappen:
- Domeinspecifieke aanpassing traint uw LLM door de organisatiegegevens te verwerken die u in Copilot opneemt.
- Bij het afstemmen onder supervisie past u uw model aan specifieke taken aan door het te trainen op invoer-uitvoerparen.
- Versterkend leren helpt uw model om de stijl, toon en voorkeuren van uw organisatie te gebruiken om Copilot-reacties verder te optimaliseren.
Opmerking
De modellen die u afstemt, zijn privé. Uw gegevens worden niet gebruikt voor het trainen van algemene modellen voor andere tenants. Alle verwerking van uw gegevens vindt plaats in een tenant waartoe alleen geautoriseerde gebruikers toegang hebben en specifieke personen, meestal beheerders, hebben controle over het trainingsproces.
Domeinspecifieke aanpassing
Domeinspecifieke aanpassing vindt plaats nadat uw corpora is opgenomen. Deze aanpassing omvat het verwerken van de inhoud van de organisatie van de oorspronkelijke indeling in een tekstindeling zonder opmaak met één instructie per regel. Deze indeling zorgt ervoor dat het AI-model geen verwijzingen naar de oorspronkelijke gegevens bevat.
Tijdens domeinspecifieke aanpassing worden modellen vooraf getraind met een groot aantal niet-gelabelde gegevens van uw organisatie om domeinkennis te bieden aan de LLM van uw tenant. In tegenstelling tot onder supervisie verfijnen, waarbij het model wordt aangestuurd om nauwkeurige en nauwkeurige antwoorden te geven, traint domeinspecifieke aanpassing het model om op de hoogte te zijn van de typen gegevens binnen uw organisatie en om op de juiste manier te reageren.
Domeinaanpassing verrijkt het inzicht van het model in uw bedrijfsdomein, zodat Copilot inzicht krijgt in het type werk dat u doet. Dit stelt Copilot in staat om snel relevante kennis op te halen, in plaats van te leren of meerdere stappen te nemen om een model op te halen tijdens prompt engineering.
Prompt-engineering aan de clientzijde kan de resultaten verder verbeteren. Door intelligent vragen te combineren met domeinspecifieke aanpassing, kunt u enterpriseretentie en ophalen uit bronnen zoals Microsoft Search, SharePoint en meer inschakelen.
Afstemming onder supervisie
Onder supervisie verfijnen is een techniek die wordt gebruikt om een vooraf getraind model aan te passen aan specifieke taken of organisatorische vereisten door het te trainen op gelabelde invoer-uitvoerparen. Met dit proces leert het model antwoorden te produceren die aansluiten bij de voorkeursindelingen, toon en nalevingsbehoeften van uw organisatie. Afstemming onder supervisie:
- Leert structuur en toon: modellen leren hoe u kunt reageren op manieren die de stem van uw organisatie weerspiegelen.
- Verbetert de nauwkeurigheid van taken: door te trainen op voorbeelden van hoge kwaliteit, wordt het model betrouwbaarder voor zakelijke use cases.
- Ondersteunt naleving: u kunt modellen trainen om taaltaal en interne classificaties te herkennen en erop te reageren.
Afstemming onder supervisie is handig wanneer u het model nodig hebt om het volgende te doen:
- Volg een specifieke Q&A-indeling.
- Weerspiegel de juridische of HR-communicatiestijl van uw bedrijf.
- Domeinspecifieke terminologie (zoals AVG of beveiligingsclassificaties) herkennen en erop reageren.
Een juridisch team kan bijvoorbeeld een model verfijnen met behulp van gecureerde antwoorden die verwijzingen bevatten naar termen voor gegevensjurisdictie, zoals AVG en interne classificaties.
ACL: This document is important to the DSR database and should be given utmost priority.
ACL: Access and Confidentiality Level - High
ACL: Data Classification Level - Medium
Dit zorgt ervoor dat het model antwoorden kan genereren die niet alleen de juridische nauwkeurigheid weerspiegelen, maar ook voldoen aan de interne documentatiestandaarden.
Het afstemmen onder supervisie kan een model helpen om gestructureerde uitvoer te produceren die overeenkomt met de sjablonen van uw organisatie en juridische en interne governanceprotocollen toepast, zoals wordt weergegeven in het volgende voorbeeld.
Prompt: Welke beveiligingsbeschermingen moeten worden toegepast op dit document?
Antwoord: Dit document bevat gevoelige en bevoorrechte informatie met betrekking tot juridische en nalevingskwesties. Hiervoor zijn versleuteling, toegangsbeheer en regelmatige controles vereist om onbevoegde toegang te voorkomen. Wijzigingen in toegangsbeheer moeten worden goedgekeurd door het senior management.
Het afstemmen onder supervisie kan er ook voor zorgen dat antwoorden nauwkeurig zijn en aansluiten bij de toon van de organisatie, zoals wordt weergegeven in het volgende voorbeeld.
Prompt: Hoeveel vakantieuren kan een werknemer opbouwen voordat het totaal is beperkt?
Antwoord: Het maximale vakantiesaldo is beperkt tot 200 uur. Zodra deze limiet is bereikt, krijgen werknemers geen extra uren meer. We raden aan om regelmatig verlof te nemen om een gezonde balans tussen werk en privé te behouden. Neem contact op met uw leidinggevende of HR voor meer informatie.
Versterkingsleer
Versterkend leren is een techniek na training waarmee LLMs kunnen worden aangepast aan de unieke communicatiestijl, toon en voorkeuren voor het gebruik van hulpprogramma's van uw organisatie. In tegenstelling tot onder supervisie nauwkeurig afstemmen, waarmee het model de juiste uitvoer van gelabelde voorbeelden leert produceren, optimaliseert versterkend leren voor subjectieve kwaliteiten door te leren van feedbacksignalen.
Versterkend leren is handig wanneer u wilt dat uw model het volgende doet:
- Weerspiegel een specifieke toon (empathisch, formeel, beknopt).
- Geef de voorkeur aan bepaalde hulpprogramma's (zoals Microsoft Graph API's boven ophalen op basis van RAG).
- Vermijd het ophalen van inhoud uit gevoelige bronnen (zoals ACL-gelabelde documenten).
- Leer van feedback van gebruikers om continu te verbeteren.
Versterkend leren verfijnt het model door uitvoer te scoren op basis van organisatievoorkeuren, waarbij zowel menselijke als geautomatiseerde feedback wordt gebruikt om het leren te begeleiden. Als Copilot bijvoorbeeld positieve feedback ontvangt over een antwoord op een vraag over een vakantiebeleid, wordt dat antwoord versterkt en opnieuw gebruikt in vergelijkbare contexten. Als een antwoord daarentegen wordt gemarkeerd voor toon of inhoud, leert het model om dat patroon te vermijden.
Geavanceerde aanpassing en onderhoud
Door het combineren van het verfijnen van leren onder supervisie en versterking, kunt u modellen maken die de toon, taakafvullingspatronen en gegevensgovernancevereisten van uw organisatie weerspiegelen. Deze modellen passen de unieke spraak- en operationele kennis van uw organisatie toe op:
- Behoud een consistente toon en opmaak voor alle taken.
- Domeinspecifieke kennis insluiten voor het genereren, samenvatten van documenten en deskundige Q&A.
- Respecteer toegangsbeheer en beleid voor gegevensclassificatie tijdens training en deductie.
- Genereer nauwkeurige antwoorden die zijn afgestemd op uw interne standaarden en verwachtingen van gebruikers.
U kunt enkele uitdagingen tegenkomen bij het afstemmen van uw model. Het vinden van voldoende, hoogwaardige gelabelde gegevens voor training kan bijvoorbeeld een uitdaging vormen. U kunt gesimuleerde gegevens maken met behulp van modellen zoals ChatGPT om referentie-uitvoer te genereren. U wilt er ook voor zorgen dat uw trainingsgegevens voldoende divers zijn. Uw trainingsgegevens moeten een breed scala aan gebruiksvoorbeelden omvatten om praktijkscenario's te behandelen en mogelijke vooroordelen te beperken.
Ga als volgende te werk om de kwaliteit en naleving van het model zo goed mogelijk te garanderen:
- Voer evaluaties uit met behulp van handmatige beoordeling of geautomatiseerde hulpprogramma's zoals Azure OpenAI Service.
- Bewaak op overfitting door ongeziene invoer te testen en leerpercentages zo nodig aan te passen.
- Houd tijdens de trainingslevenscyclus strikte toegangscontroles en audittrails aan.
Alle evaluaties zijn vertrouwelijk en vallen onder de verantwoordelijke AI-principes van Microsoft.
U kunt uw model blijven ontwikkelen door:
- Nieuwe gegevens uploaden tussen versterkingscycli voor continue verfijning.
- Prompt engineering toepassen om zich aan te passen aan nieuwe taaktypen of wijzigingen in regelgeving.
- De hulpprogramma's van Copilot Studio met weinig code gebruiken om agents te implementeren en te beheren op basis van uw nauwkeurig afgestemde modellen.