Note de transparence pour l’analyse des sentiments

Important

Les traductions non anglaises sont fournies uniquement pour des raisons pratiques. Consultez la EN-US version de ce document pour obtenir la version définitive.

Qu’est-ce qu’une note de transparence ?

Important

Cet article part du principe que vous êtes familiarisé avec les recommandations et les meilleures pratiques pour Azure Language in Foundry Tools. Pour plus d’informations, consultez la note de transparence pour la langue.

Un système d’IA inclut non seulement la technologie, mais aussi les personnes qui l’utiliseront, les personnes qui seront affectées par elle et l’environnement dans lequel il est déployé. La création d’un système adapté à son objectif prévu nécessite une compréhension du fonctionnement de la technologie, de ses capacités et de ses limitations et de la façon d’atteindre les meilleures performances. les notes de transparence de Microsoft sont destinées à vous aider à comprendre le fonctionnement de notre technologie IA, les choix que les propriétaires du système peuvent faire qui influencent les performances et le comportement du système, ainsi que l'importance de penser à l'ensemble du système, y compris la technologie, les personnes et l'environnement. Vous pouvez utiliser des notes de transparence lors du développement ou du déploiement de votre propre système, ou les partager avec les personnes qui utiliseront ou seront affectées par votre système.

Les notes de transparence de Microsoft font partie d'un effort plus large de Microsoft pour mettre en pratique nos principes d'IA. Pour en savoir plus, consultez Microsoft principes d’IA.

Principes de base de l’analyse des sentiments

Introduction

La fonctionnalité Analyse des sentiments de la langue évalue le texte et retourne les scores de sentiment et les étiquettes pour chaque phrase. Cela est utile pour détecter les sentiments positifs, neutres et négatifs dans les médias sociaux, les avis des clients, les forums de discussion et d’autres scénarios de produits et de services.

Capacités

Comportement du système

L’analyse des sentiments fournit des étiquettes de sentiment (telles que « négative », « neutre » et « positive ») basées sur le score de confiance le plus élevé trouvé par le service à un niveau de phrase et de document. Cette fonctionnalité retourne également des scores de confiance compris entre 0 et 1 pour chaque document et phrase pour le sentiment positif, neutre et négatif. Les scores plus proches de 1 indiquent une plus grande confiance dans la classification de l’étiquette, tandis que les scores inférieurs indiquent une confiance inférieure. Par défaut, l’étiquette de sentiment global est la plus grande des trois scores de confiance. Toutefois, vous pouvez définir un seuil pour n’importe quel ou tous les scores de confiance des sentiments individuels en fonction de ce qui fonctionne le mieux pour votre scénario. Pour chaque document ou chaque phrase, les scores prédits associés aux étiquettes (positifs, négatifs et neutres) s’ajoutent à 1. Pour plus d’informations sur les étiquettes de sentiments et les scores, voir plus en détail.

En outre, la fonctionnalité d’exploration de données d’opinion facultative retourne des aspects (tels que les attributs de produits ou de services) et leurs mots d’opinion associés. Pour chaque aspect, une étiquette de sentiment globale est retournée avec des scores de confiance pour les sentiments positifs et négatifs. Par exemple, la phrase « Le restaurant avait une grande nourriture et notre serveur était convivial » a deux aspects, « food » et « waiter », et leurs mots d’opinion correspondants sont « super » et « convivial ». Les deux aspects reçoivent donc la classification positivedes sentiments, avec des scores de confiance compris entre 0 et 1,0. Pour lire plus de détails sur l'analyse d'opinion.

Consultez la réponse JSON pour cet exemple.

Cas d’usage

L’analyse des sentiments peut être utilisée dans plusieurs scénarios dans divers secteurs d’activité. Voici quelques exemples :

  • Surveillez les tendances positives et négatives des commentaires dans l’agrégat. Après avoir introduit un nouveau produit, un détaillant peut utiliser le service sentiment pour surveiller plusieurs médias sociaux pour obtenir des mentions du produit et de ses sentiments associés. Le sentiment de tendance peut être utilisé dans les réunions de produits pour prendre des décisions commerciales sur le nouveau produit.
  • Exécutez l’analyse des sentiments sur les résultats bruts des enquêtes pour obtenir des insights sur l’analyse et le suivi avec les participants (clients, employés, consommateurs, etc.). Un magasin avec une politique de suivi sur les avis négatifs des clients dans les 24 heures et les avis positifs dans un délai d'une semaine peut utiliser le service d'analyse de sentiment pour catégoriser les avis pour un suivi facile et opportun.
  • Aidez le personnel du service client à améliorer l’engagement des clients grâce à des insights capturés à partir de l’analyse en temps réel des interactions. Extrayez des insights des appels de services clients transcrits pour mieux comprendre les interactions et tendances de l’agent client afin d’améliorer les engagements des clients.

Considérations relatives au choix d’un cas d’usage

  • Évitez les actions automatiques sans intervention humaine pour les scénarios à impact élevé. Par exemple, les primes des employés ne doivent pas être automatiquement basées sur les scores de sentiment de leur texte d’interaction avec le service client. Les données sources doivent toujours être examinées lorsque la situation économique, la santé ou la sécurité d’une personne est affectée.
  • Examinez attentivement les scénarios en dehors du domaine de révision de produit et de service. Étant donné que le modèle est formé sur les révisions de produits et de services, le système peut ne pas reconnaître avec précision le langage axé sur les sentiments dans d’autres domaines. Veillez toujours à tester le système sur les jeux de données de test opérationnel pour vous assurer que vous obtenez les performances dont vous avez besoin. Votre jeu de données de test opérationnel doit refléter les données réelles que votre système verra en production avec toutes les caractéristiques et variantes que vous aurez lorsque votre produit est déployé. Les données synthétiques et les tests qui ne reflètent pas votre scénario de bout en bout ne seront probablement pas suffisants.
  • Examinez attentivement les scénarios qui prennent des mesures automatiques pour filtrer ou supprimer du contenu. Vous pouvez ajouter un cycle de révision humain et/ou re-classer du contenu (au lieu de le filtrer complètement) si votre objectif est de garantir que le contenu répond à vos normes de communauté.
  • Considérations juridiques et réglementaires : les organisations doivent évaluer des obligations légales et réglementaires spécifiques potentielles lors de l’utilisation d’outils et de solutions Foundry, ce qui peut ne pas convenir à une utilisation dans chaque secteur ou scénario. En outre, les outils ou solutions Foundry ne sont pas conçus pour et ne peuvent pas être utilisés de manière interdite en termes de service applicables et les codes de conduite pertinents.

Limitations

Selon votre scénario et vos données d’entrée, vous pouvez rencontrer différents niveaux de performances. Les informations suivantes sont conçues pour vous aider à comprendre les limitations système et les concepts clés relatifs aux performances à mesure qu’elles s’appliquent à l’analyse des sentiments.

Limitations clés à prendre en compte :

  • Le modèle Machine Learning utilisé pour prédire les sentiments a été formé sur les révisions de produits et de services. Cela signifie que le service s’exécute le plus précisément pour des scénarios similaires et moins précis pour les scénarios en dehors de l’étendue des révisions de produits et de services. Par exemple, les révisions du personnel peuvent utiliser différentes langues pour décrire les sentiments et, par conséquent, vous risquez de ne pas obtenir les résultats ou les performances attendus. Un mot comme « fort » dans l’expression « Shafali était un leader fort » peut ne pas obtenir un sentiment positif parce que le mot fort peut ne pas avoir un sentiment positif clair dans les avis de produits et de services.

  • Étant donné que le modèle est formé sur les révisions de produits et de services, les dialectes et la langue qui sont moins représentés dans le jeu de données peuvent avoir une précision inférieure.

  • Le modèle ne comprend pas l’importance relative des différentes phrases envoyées ensemble. Étant donné que le sentiment global est un score agrégé simple des phrases, le score de sentiment global peut ne pas être d’accord avec l’interprétation d’un humain qui tient compte du fait que certaines phrases peuvent avoir plus d’importance pour déterminer le sentiment global.

  • Le modèle peut ne pas reconnaître le sarcasm. Le contexte, comme le ton de la voix, l’expression faciale, l’auteur du texte, l’audience du texte ou la conversation antérieure sont souvent importants pour comprendre le sentiment. Avec sarcasm, un contexte supplémentaire est souvent nécessaire pour reconnaître si une entrée de texte est positive ou négative. Étant donné que le service voit uniquement l’entrée de texte, la classification des sentiments sarcastiques peut être moins précise. Par exemple, c’était génial, pourrait être positif ou négatif en fonction du contexte, du ton de la voix, de l’expression faciale, de l’auteur et du public.

  • La magnitude du score de confiance ne reflète pas l’intensité du sentiment. Il est basé sur la confiance du modèle pour un sentiment particulier (positif, neutre, négatif). Par conséquent, si votre système dépend de l’intensité du sentiment, envisagez d’utiliser une logique de réviseur humain ou de post-traitement sur les scores d’opinion individuels ou le texte d’origine pour aider à classer l’intensité du sentiment.

  • Bien que nous avons fait des efforts pour réduire les biais présentés par nos modèles, les limitations qui sont fournies avec les modèles linguistiques, y compris le potentiel de produire une sortie inexacte, non fiable et biaisée, s’appliquent au modèle d’analyse des sentiments linguistiques. Nous nous attendons à ce que le modèle ait des faux négatifs et des positifs pour l’instant, mais nous sommes impatients de recueillir des commentaires des utilisateurs pour aider notre travail continu à améliorer ce service.

Meilleures pratiques pour améliorer les performances du système

Étant donné que le sentiment est un peu subjectif, il n’est pas possible de fournir une estimation universelle des performances pour le modèle. En fin de compte, les performances dépendent d’un certain nombre de facteurs tels que le domaine de l’objet, les caractéristiques du texte traité, le cas d’usage du système et la façon dont les utilisateurs interprètent la sortie du système.

Vous pouvez constater que les scores de confiance pour les sentiments positifs, négatifs et neutres peuvent varier en fonction de votre scénario. Au lieu d’utiliser le sentiment global au niveau de la phrase pour le document complet ou la phrase, vous pouvez définir un seuil pour certains ou tous les scores de confiance individuels des sentiments qui convient le mieux à votre scénario. Par exemple, s’il est plus important d’identifier toutes les instances potentielles de sentiment négatif, vous pouvez utiliser un seuil inférieur sur le sentiment négatif au lieu de regarder l’étiquette de sentiment global. Cela signifie que vous pouvez obtenir plus de faux positifs (texte neutre ou positif reconnu comme sentiment négatif), mais moins de faux négatifs (texte négatif non reconnu comme sentiment négatif). Par exemple, vous souhaiterez peut-être lire tous les commentaires de produit qui ont un sentiment négatif potentiel pour les idées d’amélioration du produit. Dans ce cas, vous pouvez utiliser le score de sentiment négatif uniquement et définir un seuil inférieur. Cela peut entraîner un travail supplémentaire, car vous finirez par lire des critiques qui ne sont pas défavorables, mais vous êtes plus susceptible de repérer des pistes d'amélioration. S’il est plus important que votre système reconnaisse uniquement le texte négatif vrai, vous pouvez utiliser un seuil supérieur ou utiliser l’étiquette de sentiment globale. Par exemple, vous souhaiterez peut-être répondre aux avis de produits négatifs. Si vous souhaitez réduire le travail de lecture et de réponse aux critiques négatives, vous pouvez uniquement utiliser la prédiction globale des sentiments et ignorer les scores de sentiment individuels. Même s’il pourrait y avoir des prédictions de sentiment négatif que vous ne détectez pas, il est probable que vous obteniez la plupart des critiques vraiment négatives. Les valeurs de seuil peuvent ne pas avoir de comportement cohérent dans les scénarios. Par conséquent, il est essentiel que vous testiez votre système avec des données réelles qu’il traitera en production.

Voir aussi