Personnaliser Microsoft 365 Copilot avec Optimisation Copilot (préversion de l’accès anticipé)

En utilisant Optimisation Microsoft 365 Copilot, les organisations peuvent adapter les modèles IA pour refléter leur terminologie, leur style de communication et leurs processus métier uniques. Lorsque vous ajustez les modèles de langage volumineux avec vos propres données, vous pouvez améliorer la précision, le ton et la pertinence des réponses Copilot dans votre locataire.

Optimisation Copilot va au-delà de la conservation et de la récupération pour former des llms spécifiques au locataire sur les données de votre organization tout en conservant des contrôles robustes de sécurité, de conformité, de gouvernance et de gestion de l’entreprise. Les modules LLM sont adaptés à des tâches spécifiques telles que le résumé des documents, l’écriture de documents, la réponse d’expert, la modification de style, la validation de document et l’optimisation.

Cet article décrit le processus de réglage des agents spécifiques aux tâches dans Microsoft 365 Copilot pour votre organization.

Importante

Optimisation Microsoft 365 Copilot est actuellement disponible pour un ensemble limité de clients par le biais de programmes d’accès anticipé. L’accès via Frontier est prévu pour avril 2026. Les fonctionnalités et les exigences sont susceptibles de changer.

Vue d’ensemble du processus de réglage précis

Pour affiner les modèles IA pour votre organization à l’aide de Optimisation Copilot - Régler le modèle, suivez ces étapes d’entraînement et de réglage :

  • Adaptation spécifique à la tâche : préparez les données pour l’entraînement. Chaque tâche a sa propre recette pour préparer les données organization appropriées pour le réglage précis.

  • Formation au réglage précis : chaque tâche a sa propre recette et sa propre technique de réglage pour obtenir le meilleur résultat à l’aide de données organization. Ces techniques incluent, sans s’y limiter, le réglage fin supervisé (SFT), l’apprentissage par renforcement (RL) et le réglage précis du raisonnement (RFT). Ces recettes et techniques évoluent également au fil du temps.

  • Évaluation : chaque tâche a ses propres recettes pour évaluer la sortie à l’aide de rubriques définies par le organization.

Capture d’écran montrant le processus de réglage précis.

Remarque

Les modèles que vous paramétrez sont privés. Vos données ne sont pas utilisées pour entraîner des modèles généraux pour d’autres locataires. Tous les traitements de vos données sont effectués dans le locataire auquel seuls vos utilisateurs autorisés ont accès à l’apprentissage et à l’utilisation. Des personnes spécifiques, généralement des administrateurs, ont le contrôle sur le processus de formation.

Adaptation spécifique à une tâche

L’adaptation spécifique à la tâche se produit après l’ingestion de votre société. Cette adaptation implique le traitement du contenu de l’organization de son format d’origine dans un format de texte brut avec une instruction par ligne.

Réglage supervisé

Utilisez le réglage supervisé pour adapter un modèle préentraîné à des tâches spécifiques ou à des exigences organisationnelles en l’entraînant sur des paires entrée-sortie étiquetées. Ce processus permet au modèle d’apprendre à produire des réponses qui s’alignent sur les formats, la tonalité et les besoins de conformité préférés de votre organization. Réglage supervisé :

  • Enseigne la structure et le ton : les modèles apprennent à répondre de manière à refléter la voix de votre organization.
  • Améliore la précision des tâches : en effectuant une formation sur des exemples de haute qualité, le modèle devient plus fiable pour les cas d’usage d’entreprise.
  • Prend en charge la conformité : vous pouvez entraîner des modèles pour reconnaître le langage réglementaire et les classifications internes et y répondre.

Apprentissage par renforcement

Utilisez l’apprentissage par renforcement comme technique post-entraînement pour adapter les llms au style de communication, au ton et aux préférences d’utilisation des outils de votre organization. Contrairement au réglage supervisé, qui apprend au modèle à produire des sorties correctes à partir d’exemples étiquetés, l’apprentissage par renforcement optimise les qualités subjectives en apprenant à partir de signaux de rétroaction.

L’apprentissage par renforcement est utile lorsque vous souhaitez que votre modèle :

  • Refléter un ton de voix spécifique (empathique, formel, concis).
  • Préférer certains outils (tels que les API Microsoft Graph à la récupération basée sur RAG).
  • Évitez de récupérer du contenu à partir de sources sensibles (comme les documents marqués par une liste de contrôle d’accès).
  • Apprenez à partir des commentaires des utilisateurs pour vous améliorer en permanence.

L’apprentissage par renforcement affine le modèle en scoringant la sortie en fonction des préférences de l’organisation, en utilisant des commentaires humains et automatisés pour guider l’apprentissage. Par exemple, si Copilot reçoit des commentaires positifs sur une réponse à une question de stratégie de congés, le modèle renforce cette réponse et la réutilise dans des contextes similaires. À l’inverse, si une réponse est marquée pour le ton ou le contenu, le modèle apprend à éviter ce modèle.

Adaptation et maintenance avancées

En combinant différentes techniques de réglage précis, vous pouvez créer des modèles qui reflètent le ton de votre organization, les modèles d’achèvement des tâches et les exigences de Gouvernance des données Microsoft Purview. Ces modèles sous-jacents appliquent les connaissances vocales et opérationnelles uniques de votre organization à :

  • Conservez un ton et une mise en forme cohérents entre les tâches.
  • Incorporez des connaissances spécifiques à un domaine pour des tâches telles que l’écriture de documents, le résumé et la fourniture de réponses d’experts aux questions.
  • Respectez les contrôles d’accès et les stratégies de classification des données pendant l’apprentissage et l’inférence.
  • Générez des réponses précises alignées sur vos normes internes et les attentes des utilisateurs.

Toutes les évaluations sont confidentielles et régies par les principes d’IA responsable de Microsoft.

Vous pouvez continuer à faire évoluer votre agent à mesure que de nouvelles données sont disponibles et paramétrer le modèle en :

  • Chargement de nouvelles données.
  • Mise à jour de vos objectifs et de vos métriques d’évaluation pour vous adapter aux nouveaux types de tâches ou aux modifications réglementaires.