Delen via


Microsoft 365 Copilot aanpassen met Copilot afstemmen (early access preview)

Met behulp van Microsoft 365 Copilot afstemmen kunnen organisaties AI-modellen aanpassen aan hun unieke terminologie, communicatiestijl en bedrijfsprocessen. Wanneer u grote taalmodellen (LLM's) afstemt met uw eigen gegevens, kunt u de nauwkeurigheid, toon en relevantie van Copilot-antwoorden in uw tenant verbeteren.

Copilot afstemmen gaat verder dan bewaren en ophalen om tenantspecifieke LLM's te trainen op de gegevens van uw organisatie, met behoud van robuuste bedrijfsbeveiliging, naleving, governance en beheercontroles. De LLMs zijn afgestemd op specifieke taken, zoals documentsamenvatting, document schrijven, deskundig antwoord, stijl bewerken, documentvalidatie en optimalisatie.

In dit artikel wordt het proces beschreven voor het afstemmen van taakspecifieke agents in Microsoft 365 Copilot voor uw organisatie.

Belangrijk

Microsoft 365 Copilot afstemmen is momenteel beschikbaar voor een beperkt aantal klanten via programma's voor vroegtijdige toegang. Toegang via Frontier is gepland voor april 2026. Functies en vereisten kunnen worden gewijzigd.

Procesoverzicht verfijnen

Volg deze trainings- en afstemmingsstappen om AI-modellen voor uw organisatie af te stemmen met behulp van Copilot afstemmen – Model afstemmen:

  • Taakspecifieke aanpassing : gegevens voorbereiden voor training. Elke taak heeft een eigen recept voor het voorbereiden van de juiste organisatiegegevens voor het verfijnen.

  • Training verfijnen : elke taak heeft een eigen recept en verfijningstechniek voor het beste resultaat met behulp van organisatiegegevens. Deze technieken omvatten, maar zijn niet beperkt tot, SFT (Supervised Fine Tuning), Reinforcement Learning (RL) en Reasoning Fine Tuning (RFT). Deze recepten en technieken ontwikkelen zich ook in de loop van de tijd.

  • Evaluatie : elke taak heeft zijn eigen recepten voor het evalueren van de uitvoer met behulp van rubrieken die zijn gedefinieerd door de organisatie.

Schermopname van het verfijningsproces.

Opmerking

De modellen die u afstemt, zijn privé. Uw gegevens worden niet gebruikt om algemene modellen voor andere tenants te trainen. Alle verwerking van uw gegevens vindt plaats in de tenant die alleen uw geautoriseerde gebruikers mogen trainen en gebruiken. Specifieke personen, meestal beheerders, hebben controle over het trainingsproces.

Taakspecifieke aanpassing

Taakspecifieke aanpassing vindt plaats nadat u uw corpora hebt opgenomen. Deze aanpassing omvat het verwerken van de inhoud van de organisatie van de oorspronkelijke indeling in een tekstindeling zonder opmaak met één instructie per regel.

Afstemming onder supervisie

Gebruik afstemming onder supervisie om een vooraf getraind model aan te passen aan specifieke taken of organisatorische vereisten door het te trainen op gelabelde invoer-uitvoerparen. Met dit proces leert het model antwoorden te produceren die aansluiten bij de voorkeursindelingen, toon en nalevingsbehoeften van uw organisatie. Afstemming onder supervisie:

  • Leert structuur en toon: modellen leren hoe u kunt reageren op manieren die de stem van uw organisatie weerspiegelen.
  • Verbetert de nauwkeurigheid van taken: door te trainen op voorbeelden van hoge kwaliteit, wordt het model betrouwbaarder voor zakelijke use cases.
  • Ondersteunt naleving: u kunt modellen trainen om taaltaal en interne classificaties te herkennen en erop te reageren.

Versterkingsleer

Gebruik versterkend leren als een techniek na training om LLM's aan te passen aan de unieke communicatiestijl, toon en voorkeuren voor het gebruik van hulpprogramma's van uw organisatie. In tegenstelling tot onder supervisie nauwkeurig afstemmen, waarmee het model de juiste uitvoer van gelabelde voorbeelden leert produceren, optimaliseert versterkend leren voor subjectieve kwaliteiten door te leren van feedbacksignalen.

Versterkend leren is handig wanneer u wilt dat uw model het volgende doet:

  • Weerspiegel een specifieke toon (empathisch, formeel, beknopt).
  • Geef de voorkeur aan bepaalde hulpprogramma's (zoals Microsoft Graph API's boven ophalen op basis van RAG).
  • Vermijd het ophalen van inhoud uit gevoelige bronnen (zoals ACL-gelabelde documenten).
  • Leer van feedback van gebruikers om continu te verbeteren.

Versterkend leren verfijnt het model door uitvoer te scoren op basis van organisatievoorkeuren, waarbij zowel menselijke als geautomatiseerde feedback wordt gebruikt om het leren te begeleiden. Als Copilot bijvoorbeeld positieve feedback ontvangt over een antwoord op een vraag over een vakantiebeleid, versterkt het model dat antwoord en gebruikt het deze in vergelijkbare contexten. Als een antwoord daarentegen wordt gemarkeerd voor toon of inhoud, leert het model om dat patroon te vermijden.

Geavanceerde aanpassing en onderhoud

Door verschillende verfijningstechnieken te combineren, kunt u modellen maken die de toon, taakafvullingspatronen en Microsoft Purview Gegevensbeheer vereisten van uw organisatie weerspiegelen. Deze onderliggende modellen passen de unieke spraak- en operationele kennis van uw organisatie toe op:

  • Behoud een consistente toon en opmaak voor alle taken.
  • Domeinspecifieke kennis insluiten voor taken zoals het schrijven van documenten, samenvattingen en het geven van deskundige antwoorden op vragen.
  • Respecteer toegangsbeheer en beleid voor gegevensclassificatie tijdens training en deductie.
  • Genereer nauwkeurige antwoorden die zijn afgestemd op uw interne standaarden en verwachtingen van gebruikers.

Alle evaluaties zijn vertrouwelijk en vallen onder de verantwoordelijke AI-principes van Microsoft.

U kunt uw agent blijven ontwikkelen zodra er nieuwe gegevens beschikbaar komen en het model afstemmen door:

  • Nieuwe gegevens uploaden.
  • Uw doelen en metrische evaluatiegegevens bijwerken om u aan te passen aan nieuwe taaktypen of wijzigingen in regelgeving.