Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Les traductions non anglaises sont fournies uniquement pour des raisons pratiques. Consultez la EN-US version de ce document pour obtenir la version définitive.
Qu’est-ce qu’une note de transparence ?
Important
L’Analyse de texte pour la santé est une fonctionnalité fournie « en l’état » et « avec toutes les erreurs ». Analyse de texte pour la santé n’est pas destiné ou mis à la disposition d’un appareil médical, d’un support clinique, d’un outil de diagnostic ou d’une autre technologie destiné à être utilisé dans le diagnostic, la guérison, l’atténuation, le traitement ou la prévention des maladies ou d’autres conditions, et aucune licence ou droit n’est accordé par Microsoft pour utiliser cette fonctionnalité à de telles fins. Cette capacité n’est pas conçue ou destinée à être mise en œuvre ou déployée en tant que substitut des conseils médicaux professionnels ou de l’opinion médicale, du diagnostic, du traitement ou du jugement clinique d’un professionnel de la santé et ne doit pas être utilisée comme tel. Le client est uniquement responsable de toute utilisation de Analyse de texte pour la santé. Le client doit obtenir une licence distincte pour tous les vocabulaires sources qu’il a l’intention d’utiliser, selon les termes définis pour cette annexe au contrat de licence UMLS Metathesaurus ou tout accord équivalent futur. Le client est responsable de la conformité à ces termes du contrat de licence, y compris les restrictions géographiques ou autres applicables.
Analyse de texte pour la santé permet désormais l’extraction des déterminants sociaux de la santé (SDOH) et des mentions d’origine ethnique dans le texte. Cette capacité peut ne pas couvrir toutes les SDOH potentielles et ne dérive pas d’inférences basées sur le SDOH ou l’origine ethnique (par exemple, les renseignements sur l’utilisation de substances sont exposés, mais l’abus de substances n’est pas déduit). Toutes les décisions tirant parti des sorties des Analyse de texte pour la santé qui ont un impact sur les personnes ou l’allocation de ressources (y compris, mais pas limités à ceux liés à la facturation, aux ressources humaines ou à la gestion des soins de traitement) doivent être prises avec une surveillance humaine et ne sont pas basées uniquement sur les résultats du modèle. L’objectif de la capacité d’extraction du SDOH et de l’extraction ethnique est d’aider les fournisseurs à améliorer les résultats de santé et il ne doit pas être utilisé pour stigmatisation ou tirer des inférences négatives sur les utilisateurs ou les consommateurs de données SDOH, ou les populations de patients au-delà de l’objectif déclaré d’aider les fournisseurs à améliorer les résultats de santé.
Un système d’IA inclut non seulement la technologie, mais aussi les personnes qui l’utiliseront, les personnes qui seront affectées par elle et l’environnement dans lequel il est déployé. La création d’un système adapté à son objectif prévu nécessite une compréhension du fonctionnement de la technologie, de ses capacités et de ses limitations, et de la façon d’atteindre les meilleures performances. les notes de transparence de Microsoft sont destinées à vous aider à comprendre le fonctionnement de notre technologie IA, les choix que les propriétaires du système peuvent faire qui influencent les performances et le comportement du système, ainsi que l’importance de penser à l’ensemble du système, y compris la technologie, les personnes et l’environnement. Vous pouvez utiliser des notes de transparence lors du développement ou du déploiement de votre propre système, ou les partager avec les personnes qui utiliseront ou seront affectées par votre système.
Les notes de transparence de Microsoft font partie d'un effort plus large de Microsoft pour mettre en pratique nos principes d'IA. Pour en savoir plus, consultez Principes d’IAresponsibles de Microsoft.
Principes de base de Analyse de texte pour la santé
Introduction
Le Analyse de texte pour la fonctionnalité de santé de Azure Language in Foundry Tools utilise des techniques de traitement du langage naturel pour trouver et étiqueter des informations précieuses sur la santé telles que les diagnostics, les symptômes, les médicaments et les traitements dans du texte non structuré. Le service peut être utilisé pour divers types de documents médicaux non structurés, notamment des résumés de décharge, des notes cliniques, des protocoles d’essai clinique, des publications médicales, etc. Analyse de texte pour la santé effectue la reconnaissance d’entités nommées (NER), extrait les relations entre les entités identifiées, fournit des assertions telles que la négation et la conditionnalité, et lie les entités détectées à des vocabulaires courants.
Analyse de texte pour la santé peut recevoir du texte non structuré en anglais dans le cadre de son offre de disponibilité en général. Des langues supplémentaires sont actuellement prises en charge dans une offre en préversion. Pour plus d’informations, consultez Prise en charge de la langue.
Vous pouvez lire une vue d’ensemble de l’API et de ses fonctionnalités. Consultez également les entités et relations prises en charge.
Par ailleurs, une capacité de personnalisation est désormais disponible pour Analyse de texte for Health, dans le cadre de la nouvelle fonctionnalité en préversion nommée Analyse de texte for Health Custom Analyse de texte pour la santé permet aux clients d'utiliser leurs propres données pour entraîner un modèle NER personnalisé, conçu pour les soins de santé, afin d'extraire leurs catégories de domaine spécifiques, en étendant les Analyse de texte existants pour la carte d'entités de santé. Les clients peuvent également définir un lexique ou un vocabulaire spécifique pour les entités personnalisées nouvellement définies, ainsi que pour les solutions d'analyse de texte existantes concernant les entités de santé, telles que le Nom du Médicament. Par conséquent, Analyse de texte personnalisées pour la santé propose les mêmes fonctionnalités que Analyse de texte pour la santé, ainsi que la possibilité d’étendre la carte des entités existantes en ajoutant de nouvelles entités ML et du vocabulaire personnalisé aux entités existantes.
Termes clés
Analyse de texte pour la santé effectue actuellement la reconnaissance d’entités nommées (NER), l’extraction de relations, la détection d’assertions et la liaison d’entités pour le texte biomédical. Elle peut également être complétée par une extraction d’entités personnalisées supplémentaire, en utilisant des composants de liste et d’entité appris, désormais disponibles via l’Analyse de texte personnalisée pour la santé.
| Terme | Définition |
|---|---|
| Reconnaissance d’entité nommée | Détecte les mots et expressions mentionnés dans du texte non structuré qui peuvent être associés à un ou plusieurs types sémantiques, tels que le diagnostic, le nom du médicament, le symptôme ou le signe, ou l’âge. |
| Extraction de relation | Identifie les connexions significatives entre les concepts mentionnés dans le texte. Par exemple, une relation entre la condition et le moment est trouvée en associant un nom de condition à un moment. |
| Détection d’assertions | Met en évidence les modificateurs d’entité présents dans le texte, tels que la négation ou la conditionnalité. La signification du contenu médical peut être fortement affectée par ces modificateurs. |
| Liaison d’entités | Désambigue les entités distinctes en associant des entités nommées mentionnées dans du texte à des concepts trouvés dans une base de données prédéfinie de concepts, comme dans le système UMLS (Unified Medical Language System). |
| Composant dédié à l’apprentissage des entités | Permet la définition de nouvelles entités personnalisées telles que le traitement, l’installation ou l’instrument médical par le biais de l’apprentissage d’un modèle personnalisé avec des données étiquetées. |
| Composant de liste d’entités | Il permet d’extraire de nouvelles entités personnalisées ou des entités Analyse de texte for Health déjà existantes, grâce à un module de reconnaissance lexicale fondé sur la définition d’une liste de synonymes ou d’un vocabulaire associé aux entités ciblées. Par exemple, « Médicament A » peut être défini comme une nouvelle valeur de liste sous l’entité nom du médicament. |
Capacités
Comportement du système
Pour utiliser Analyse de texte pour la santé, vous entrez du texte brut, non structuré pour l’analyse, et les résultats de l’API sont gérés dans votre application. Quatre fonctions clés sont effectuées dans un seul appel d’API : reconnaissance d’entité, extraction de relation, liaison d’entités et détection d’assertion. L’analyse est effectuée as-is, sans personnalisation supplémentaire du modèle préentraîné. Vous pouvez utiliser Analyse de texte pour la santé via une API hébergée ou en le déployant dans un conteneur dans votre environnement local. Pour plus d’informations, consultez how to call Analyse de texte for health.
Pour personnaliser Analyse de texte pour la santé, utilisez l'expérience de création personnalisée de Analyse de texte pour la santé afin de créer de nouvelles entités qui étendront la carte d'entités préconçues existante. Vous pouvez également définir un nouveau vocabulaire à reconnaître à l’aide d’une correspondance exacte pour les nouvelles entités personnalisées, ainsi que des catégories d’entités prédéfinies existantes telles que le nom du médicament. Après avoir défini la carte d’entité de votre projet, vous pouvez entraîner et déployer le modèle personnalisé pour effectuer des prédictions. Par défaut, le modèle personnalisé déployé prend en charge toutes les fonctionnalités déjà incluses dans Analyse de texte pour la santé pour les catégories d’entités préconstruites. En outre, le modèle personnalisé propose un NER personnalisé pour les nouvelles catégories d’entités ainsi que tout dictionnaire défini pour les entités prédéfinies. Par conséquent, les prédictions du modèle personnalisé effectuent la reconnaissance d’entités nommées, l’extraction de relations, la liaison d’entités et la détection d’assertions pour les Analyse de texte pour les entités de santé et la reconnaissance d’entités nommées personnalisées. Cela permet d’extraire les catégories d’entités définies par le client, ainsi que le vocabulaire défini pour les nouvelles catégories d’entités et celles déjà existantes. Toutes les données utilisées pour entraîner votre modèle personnalisé seront stockées dans votre stockage d’objets blob privé. En outre, l’appel de votre modèle personnalisé nécessite votre clé d’abonnement APIM, ce qui signifie que votre modèle personnalisé est disponible uniquement pour les utilisateurs avec lesquels vous avez partagé votre clé secrète.
Cas d’usage prévus
Analyse de texte pour la santé peut être utilisé dans plusieurs scénarios à travers une variété d'industries que ce type de système prend en charge. Voici quelques motivations courantes pour l’utilisation de Analyse de texte dans le domaine de la santé :
- Aidez et automatisez le traitement des documents médicaux pour le codage approprié afin d’améliorer la précision des soins et de la facturation.
- Augmentez l’efficacité de l’analyse des données de santé afin de favoriser le succès des modèles de soins basés sur la valeur (par exemple, Medicare).
- Améliorez l’agrégation des données clés pour suivre les tendances des soins et des antécédents des patients sans ajouter de surcharge aux fournisseurs de soins de santé.
- Faites des progrès vers l’adoption des normes HL7, qui est le cadre de l’échange, de l’intégration, du partage et de la récupération d’informations électroniques sur la santé en soutien à la pratique clinique quotidienne et à la gestion et à l’évaluation globale des services de santé.
Les mêmes cas d’usage et considérations s’appliquent aux Analyse de texte personnalisés pour la santé, mais les Analyse de texte personnalisés pour la santé sont mieux adaptés aux scénarios où le client a des données et souhaite étendre la carte des entités prédéfinies existante en créant ses propres catégories d’entités ou en définissant le vocabulaire pour les nouvelles catégories d’entités et existantes.
Exemples de cas d’usage
Les cas d’usage suivants sont des exemples populaires pour les applications des Analyse de texte pour la santé et des Analyse de texte personnalisés pour les fonctionnalités santé :
- Extraction d’insights et de statistiques. Identifiez les entités médicales telles que les symptômes, les médicaments et les diagnostics dans les notes cliniques et divers documents cliniques. Utilisez ces informations pour produire des insights et des statistiques sur les populations de patients, pour rechercher des documents cliniques et des publications.
- Création d’analyses prédictives et de modèles prédictifs à partir de données historiques. Permet le développement de solutions pour la planification, la prise de décision, l’analyse des risques et bien plus encore en fonction des modèles de prédiction créés à l’aide de données historiques.
- Annotation et curation assistées. Solutions de support pour l’annotation et la curation des données cliniques. Par exemple, pour prendre en charge le codage clinique, la numérisation des données créées manuellement et l’automatisation des rapports de Registre.
- Solutions de support pour afficher ou analyser des informations relatives à la santé. Soutenir des solutions pour afficher ou analyser des informations liées à la santé. Par exemple, à des fins de création de rapports, prenez en charge les processus d’assurance qualité ou signalez les erreurs possibles à examiner par un humain.
Considérations relatives au choix d’un cas d’usage
Analyse de texte pour la santé est un outil précieux lorsque vous gérez et extrayez des connaissances à partir d’un texte médical non structuré. Toutefois, étant donné la nature sensible des données liées à la santé, il est important de prendre en compte vos cas d'utilisation avec soin. Dans tous les cas, un humain doit prendre des décisions assistées par l’information retournée par le système, et dans tous les cas, vous devez avoir un moyen d’examiner les données sources et de corriger les erreurs. Voici quelques considérations supplémentaires lors du choix d’un cas d’usage :
- Évitez les scénarios qui utilisent ce service comme dispositif médical, pour fournir un soutien clinique ou comme outil de diagnostic à utiliser dans le diagnostic, la guérison, l’atténuation, le traitement, le traitement ou la prévention de la maladie ou d’autres conditions sans intervention humaine. Un professionnel médical qualifié doit toujours faire preuve de diligence raisonnable et vérifier les données sources susceptibles d’influencer les décisions relatives aux soins des patients.
- Évitez les scénarios liés à l’octroi ou au refus automatique des services médicaux ou de l’assurance maladie sans intervention humaine. Étant donné que les décisions qui affectent les niveaux de couverture sont extrêmement impactantes, les données sources doivent toujours être vérifiées dans ces scénarios.
- Évitez les scénarios qui utilisent des informations de santé personnelles à des fins non autorisées par le consentement des patients ou la loi applicable. Les informations de santé ont des protections spéciales concernant la confidentialité et le consentement. Assurez-vous que toutes les données que vous utilisez ont le consentement du patient pour la façon dont vous utilisez les données dans votre système ou que vous êtes conforme à la loi applicable, car elle est liée à l’utilisation des informations de santé.
- Envisagez soigneusement d’utiliser des entités détectées pour mettre à jour automatiquement les dossiers des patients sans intervention humaine. Assurez-vous qu’il existe toujours un moyen de signaler, de suivre et de corriger les erreurs afin d’éviter de propager des données incorrectes à d’autres systèmes. Assurez-vous que toutes les mises à jour des dossiers des patients sont examinées et approuvées par des professionnels qualifiés.
- Envisagez soigneusement d’utiliser des entités détectées dans la facturation des patients sans intervention humaine. Assurez-vous que les fournisseurs et les patients ont toujours un moyen de signaler, de suivre et de corriger les données qui génèrent une facturation incorrecte.
- Examinez attentivement les scénarios qui utilisent les déterminants sociaux détectés de la santé et de l’ethnicité. Assurez-vous toujours qu’il existe un moyen de signaler, de tracer et de corriger toutes les erreurs pour éviter l’inférence erronée de consommation de substance ou offrir une forme incorrecte de soins en fonction de facteurs sociaux et démographiques.
- Prenez soigneusement en compte les scénarios qui utilisent une boucle de rétroaction automatisée pour affiner le Analyse de texte personnalisé pour la santé. Veillez toujours à tester et à évaluer le modèle avant le déploiement dans un environnement de production pour éviter la régression de la qualité du modèle, car l’entraînement de modèle personnalisé est un processus itératif qui est très sensible aux données d’apprentissage d’entrée.
- Considérations juridiques et réglementaires : les organisations doivent évaluer des obligations légales et réglementaires spécifiques potentielles lors de l’utilisation d’outils et de solutions Foundry, ce qui peut ne pas convenir à une utilisation dans chaque secteur ou scénario. En outre, les outils ou solutions Foundry ne sont pas conçus pour et ne peuvent pas être utilisés de manière interdite en termes de service applicables et les codes de conduite pertinents.
Déterminants sociaux de la santé et de l’ethnicité
Analyse de texte pour la santé permet l’extraction des déterminants sociaux de la santé (SDOH) et des mentions d’origine ethnique dans le texte. L’utilisation d’entités sociales et démographiques peut vous aider à déverrouiller les mentions d’un ensemble de facteurs en plus des soins médicaux directs qui peuvent conduire à des résultats de santé, tels que la génétique sous-jacente, les comportements de santé et les facteurs sociaux et environnementaux. En tirant parti des Analyse de texte pour la capacité d’extraction d’entités SDOH de santé, vous pouvez être en mesure de réduire les disparités de santé qui sont souvent enracinées dans les inconvénients sociaux et économiques, d’améliorer les soins, d’évaluer les problèmes d’inégalité de santé et d’incorporer des groupes sous-représentés dans des essais cliniques et des recherches. Pour plus d’informations, consultez Les déterminants sociaux de la santé, la FDA prend des mesures importantes pour augmenter la diversité raciale et ethnique dans les essais cliniques | Classements de santé de la FDA et du comté : relations entre les facteurs déterminants et les résultats de la santé.
Cette fonctionnalité ne dérive pas d’inférences basées sur le SDOH ou l’origine ethnique (par exemple, les informations sur l’utilisation de substances sont exposées à partir du texte d’entrée, mais l’abus de substances n’est pas déduit en fonction des entités extraites). Toutes les décisions qui s’appuient sur les résultats de Analyse de texte pour la santé et qui ont un impact sur les personnes ou l’allocation des ressources (y compris, mais pas limité aux décisions relatives à la facturation, aux ressources humaines ou à la gestion des soins) doivent être prises avec une surveillance humaine et ne reposent pas uniquement sur les résultats du modèle. L’objectif des capacités d’extraction de SDOH et d’origine ethnique est d’aider les fournisseurs à améliorer les résultats en matière de santé. Ils ne doivent pas être utilisés pour stigmatiser ou tirer des inférences négatives sur les utilisateurs ou les consommateurs de données SDOH ou de populations de patients au-delà de l’objectif déclaré d’aider les fournisseurs à améliorer les résultats de santé. Comme avec d’autres entités extraites, la Analyse de texte pour la réponse à la santé retourne également un score de confiance pour l’état de vie, l’emploi, l’utilisation de substances et les entités ethniques. Examinez attentivement le score de confiance dans le contexte de l’utilisation prévue d’une entité.
Analyse de texte personnalisée pour la santé
Analyse de texte pour la santé permet aux développeurs de traiter et d’extraire des informations à partir de données médicales non structurées. Bien que la fonctionnalité d’intégrité puisse traiter et extraire un large éventail de types de données et de catégories d’entités, il existe toujours des cas où le client peut ajouter un nouveau type d’entité spécifique à ses données ou même définir un vocabulaire médical supplémentaire dans une catégorie d’entité existante.
Par conséquent, l’objectif du Analyse de texte personnalisé pour la santé est de fournir un moyen de personnaliser en améliorant Analyse de texte pour la santé en donnant aux clients la possibilité de développer la carte des entités avec des catégories d’entités complètement nouvelles spécifiques à leurs données, ainsi que la possibilité d’ajouter du vocabulaire personnalisé aux catégories d’entités existantes.
L'analyse de texte personnalisée pour la santé permet aux clients d'entraîner un modèle d'apprentissage automatique d'extraction d'entités de santé personnalisé à l'aide de leurs données étiquetées et de dictionnaires/vocabulaire personnalisés. Cela permettra aux clients de définir de nouvelles entités médicales spécifiques à leurs données. Le service appellera également en interne Analyse de texte for Health, fournissant ainsi toutes les fonctionnalités et le mappage d’entités déjà offertes par Analyse de texte for Health. Comme niveau de personnalisation supplémentaire, les clients pourront ajouter leur propre vocabulaire aux Analyse de texte existants pour les entités de santé afin de compléter la réponse préconfigurée avec leurs données.
Le client est chargé de fournir suffisamment de données et de vocabulaire étiquetés pour entraîner le modèle personnalisé ; par conséquent, les performances du modèle peuvent varier en fonction de la qualité et de l’étendue des données d’apprentissage étiquetées utilisées par le client par rapport aux nouvelles catégories d’entités à définir. Il est recommandé de toujours tester et d’évaluer le modèle avant le déploiement dans un environnement de production pour éviter la régression de la qualité du modèle, car l’entraînement de modèle personnalisé est un processus itératif qui est très sensible aux données d’apprentissage d’entrée.
Limitations
- Couverture : la fonctionnalité d’extraction SDOH peut ne pas couvrir tous les SDOH potentiels. La reconnaissance est limitée à l’ethnicité et aux types d’entités répertoriés ici, catégories d’entités reconnues par « Analyse de texte pour la santé » - Foundry Tools | Microsoft Learn.
- Langues : Actuellement, les fonctionnalités d’extraction SDOH et d’extraction d’origine ethnique sont activées uniquement pour le texte anglais. Analyse de texte pour la santé peut recevoir du texte non structuré en anglais dans le cadre de son offre de disponibilité en général. Des langues supplémentaires sont actuellement prises en charge dans une offre en préversion.
- Orthographe : l’orthographe incorrecte peut affecter la sortie. Plus précisément, la liaison d’entités recherche des termes et des synonymes basés uniquement sur une orthographe spécifique et correcte. Si un nom de médicament, par exemple, est mal orthographié, le système peut avoir suffisamment d’informations pour reconnaître que le texte est un nom de médicament, mais il peut ne pas identifier le lien comme il le ferait pour le nom correct orthographié de drogue.
- Performances : les types d’erreurs potentiels ont été décrits dans la section Performances système ci-dessous.
- Custom Analyse de texte pour la santé (en aperçu) : prend en charge toutes les langues prises en charge par Analyse de texte pour la santé. Pour entraîner un modèle personnalisé, vous devez fournir au service d’entraînement un minimum de 10 étiquettes pour chaque catégorie d’entité personnalisée nouvellement définie. Pour entraîner un modèle personnalisé, le client doit ajouter un minimum de 10 documents au jeu de données du projet. Les modules de reconnaissance lexique utilisés pour extraire le vocabulaire défini par le client reposent sur la correspondance exacte des cas dans la langue spécifiée, ce qui signifie que le client doit ajouter toutes les variantes du mot spécifique et l’inclure pour toutes les langues d’entrée de leur projet. Lorsque vous utilisez l’Analyse de texte personnalisée pour la santé, la liaison d’entités, l’extraction de relations et la détection d’assertions sont prises en charge pour les entités Analyse de texte for Health, mais ne seront pas renvoyés pour les nouvelles catégories d’entités personnalisées définies.
Performances système
Analyse de texte pour la santé et Analyse de texte personnalisées pour la santé en général peuvent avoir des erreurs faussement positives et des erreurs faussement négatives pour chaque fonctionnalité prise en charge par la fonctionnalité de santé. Plusieurs exemples de types d’erreurs potentiels sont décrits dans les sections suivantes.
Reconnaissance d’entité nommée (NER)
Faux positif
Dans NER, un faux positif se produit lorsque le système identifie incorrectement une entité comme appartenant à une catégorie. Dans l’exemple suivant, COVID-19 est mal étiqueté comme EXAMINATION_NAME. En fait, covid-19 est un diagnostic, et non le nom d’un examen. C’est donc un faux positif pour EXAMINATION_NAME.
Dans le deuxième exemple, la vodka est un faux positif pour MEDICATION_NAME. Au lieu de cela, il doit être classé comme SUBSTANCE_USE.
Faux négatif
Un faux négatif dans NER se produit lorsqu’une entité doit avoir été identifiée comme appartenant à une catégorie, mais ce n’était pas le cas. Dans l’exemple suivant, l’entité ER doit avoir été identifiée comme CARE_ENVIRONMENT, mais ce n’était pas le cas. Si une entité n’est pas correctement reconnue, le code lié ne sera pas reconnu non plus.
Dans les deux exemples ci-dessous, une seconde occurrence du terme « ETHNICITY » ainsi que des informations relatives à des emplois antérieurs ne sont pas correctement identifiées.
Extraction de relations
Faux positif
Dans l’extraction de relations, un faux positif correspond à une relation détectée alors qu’elle n’aurait pas dû l’être. Dans l’exemple suivant, la valeur de l’examen AST a été incorrectement attribuée à l’examen ALT, qui a déjà une valeur de mesure qui lui est attribuée.
Faux négatif
Un faux négatif dans l’extraction de relations survient lorsqu’une relation attendue n’est pas détectée. Dans l’exemple précédent, la valeur de mesure de 45 n’a pas été attribuée à l’examen AST et elle aurait dû l'être.
Liaison d’entités
Faux positif
La liaison d’entités est obtenue en recherchant une correspondance exacte entre les concepts dans les vocabulaires courants et l’entité reconnue. Un faux positif pour la liaison d’entités se produit dans les rares cas où une entité est capturée alors qu’elle ne doit pas avoir été (faux positif NER) et qu’un concept de correspondance semble exister dans le vocabulaire. Un faux positif pour la liaison d’entités peut également se produire pour des termes ambigus ayant plusieurs concepts de correspondance distincts dans les vocabulaires courants.
Faux négatif
Étant donné que la liaison d’entités correspond exactement au texte d’origine, vous pouvez obtenir un faux négatif s’il y a suffisamment de signal pour reconnaître correctement l’entité, mais que l’orthographe de cette entité n’est pas correcte dans le texte. Par exemple, dans le texte suivant où le mot « therapies » comporte une faute d’orthographe, l’entité associée correcte UMLS : C0087111 ne serait pas extraite.
Détection d’assertions
Faux positif
Dans la détection d’assertion, un faux positif se produit lorsque le système identifie une assertion qui ne doit pas exister dans le texte. Dans l’exemple suivant, l’entité « respiratory disease » est à tort classée comme un DIAGNOSTIC pour la COVID-19.
Faux négatif
Un faux négatif dans la détection d’assertion se produit lorsqu’une assertion n’est pas capturée. Dans l’exemple suivant, le symptôme « réponse » devrait être nié puisqu'il n'y a pas eu de réponse au médicament mentionné.
Meilleures pratiques pour améliorer les performances du système
- Le vocabulaire personnalisé de Custom Analyse de texte for health repose sur une correspondance exacte des termes ; en conséquence, toute erreur orthographique peut altérer l’extraction des entités.
- Pour améliorer la qualité de l’extraction d’entités basée sur ML pour l’Analyse de texte personnalisée pour la santé à l’aide de composants d’entité appris, il est recommandé d’inclure une répartition égale d’étiquettes pour chaque entité personnalisée, ainsi qu’un minimum de 15 étiquettes par entité provenant des exemples représentatifs des données d’entrée.
Évaluation de Analyse de texte pour la santé
Méthodes d’évaluation
Analyse Textuelle pour la santé est formée et évaluée sur divers types de documents médicaux non structurés, y compris des comptes rendus de sortie, des notes cliniques, des protocoles d'essais cliniques, des publications médicales, etc. Le modèle SDOH, qui présente l’état de vie, l’emploi et les entités d’utilisation de substances, est formé et évalué sur un jeu de données annoté manuellement provenant de deux sources indépendantes : environ 750 notes cliniques propriétaires échantillonné de manière aléatoire et environ 1 500 notes cliniques échantillonné de manière aléatoire à partir d’un corpus fourni par un centre médical américain et axé principalement sur les patients adultes. Le corpus original couvre plus de 10 ans de données collectées et des milliers d’admissions de patients. Il fournit une représentation presque égale des patients masculins et féminins. Il convient de noter qu’aucune analyse supplémentaire de la représentation des données d’apprentissage (par exemple, la représentation géographique, démographique ou ethnographique) n’a été effectuée. Même si les tests internes montrent le potentiel du modèle de généraliser dans différentes populations et zones géographiques, vous devez examiner attentivement la façon dont les données d’entraînement et d’évaluation sont représentatives dans le contexte de votre utilisation prévue. Pour évaluer le système par rapport aux préjudices potentiels à l’équité, le jeu de données d’évaluation a été divisé en sous-groupes de documents par facteurs sociaux et démographiques, tels que le sexe, l’âge, l’ethnicité, l’emploi et le statut de vie. Les niveaux de performances minimaux ciblés pour chaque groupe ont été évalués, comme les différences de performances relatives entre les groupes.
Évaluation des analyses de texte personnalisées pour la santé
Custom Analyse de texte for health repose sur un modèle de base spécifique au secteur de la santé, affiné à partir des données fournies par le client, en complément du modèle préconstruit Analyse de texte for health. Le modèle de base de soins de santé utilisé est le même que celui sur lequel repose l'analyse de texte pour la cartographie des entités de santé.
Custom Analyse de texte for health intègre un dispositif d’évaluation interne au sein de l’expérience de création, permettant au client de constituer un jeu de données de test et d’analyser les scores F1, de précision et de rappel pour les catégories d’entités personnalisées définies. Les entités prédéfinies Analyse de texte for Health ne sont pas incluses dans l’évaluation interne. L’expérience propose également des conseils de modèle pour fournir au client des moyens d’améliorer les scores résultants du test, comme recommander des étiquettes supplémentaires pour les entités qui ne fonctionnent pas correctement.
Évaluation et intégration de Analyse de texte pour la santé dans votre utilisation
Microsoft souhaite vous aider à développer et déployer de manière responsable des solutions qui utilisent le langage. Ces considérations sont conformes à notre engagement à développer une IA responsable. Lorsque vous décidez comment utiliser et implémenter des produits et des solutions optimisés par les fonctionnalités de langage, tenez compte des facteurs suivants.
Instructions générales
Lorsque vous êtes prêt à déployer Analyse de texte pour la santé, les activités suivantes vous mettent sur la voie du succès :
- Understand what it can do : Évaluez entièrement les capacités de Analyse de texte pour la santé afin de comprendre ses capacités et ses limitations. Découvrez comment elle s’effectuera dans votre scénario et votre contexte.
- Test avec des données réelles et diversifiées : Comprendre comment Analyse de texte pour la santé fonctionnera dans votre scénario en le testant soigneusement avec des conditions et des données réelles qui reflètent la diversité de vos utilisateurs, de votre géographie et de vos contextes de déploiement. Les petits jeux de données, les données synthétiques et les tests qui ne reflètent pas votre scénario de bout en bout sont peu susceptibles de représenter suffisamment vos performances de production.
- Respectez le droit d’une personne à la vie privée : collectez ou utilisez uniquement des données et des informations provenant de personnes à des fins légitimes et justifiables. Utilisez uniquement les données et les informations que vous avez acceptés d’utiliser ou sont légalement autorisées à utiliser.
- Révision légale : Obtenez un examen juridique approprié de votre solution, en particulier si vous l’utiliserez dans des applications sensibles ou à haut risque. Comprenez les restrictions que vous devrez peut-être utiliser et les risques qui doivent être atténués avant l’utilisation. Il est de votre responsabilité d’atténuer ces risques et de résoudre tous les problèmes susceptibles d’apparaître.
- Révision du système : si vous envisagez d’intégrer et d’utiliser de manière responsable un produit ou une fonctionnalité alimenté par l’IA dans un système existant pour les processus logiciels ou clients ou organisationnels, prenez du temps pour comprendre comment chaque partie de votre système sera affectée. Réfléchissez à la façon dont votre solution IA s’aligne sur Microsoft principes d’IA responsable.
- Humain dans la boucle: maintenir un humain dans la boucle et inclure la supervision humaine comme un domaine de bonnes pratiques à explorer de manière constante. Cela signifie une surveillance humaine constante du produit ou de la fonctionnalité optimisé par l’IA et garantit le rôle des humains dans la prise de décisions basées sur la sortie du modèle. Pour prévenir les dommages et gérer la façon dont le modèle IA s’exécute, assurez-vous que les humains ont un moyen d’intervenir dans la solution en temps réel.
- Sécurité : assurez-vous que votre solution est sécurisée et qu’elle dispose de contrôles adéquats pour préserver l’intégrité de votre contenu et empêcher l’accès non autorisé.
- Boucle de commentaires des clients : fournissez un canal de commentaires que les utilisateurs et les individus peuvent utiliser pour signaler des problèmes avec le service après son déploiement. Une fois que vous avez déployé un produit ou une fonctionnalité optimisé par l’IA, il nécessite une surveillance et une amélioration continues. Disposer d’un plan et être prêt à implémenter des commentaires et des suggestions d’amélioration.
Voir aussi
- Note de transparence pour la langue
- Note de transparence pour la reconnaissance d’entité nommée et l’identification personnelle des informations
- Note de transparence pour l’extraction d’expressions clés
- Note de transparence pour la détection de langue
- Note de transparence pour la réponse aux questions
- Note de transparence pour la synthèse
- Note de transparence pour l’analyse des sentiments
- Confidentialité et sécurité des données pour la langue
- Conseils pour l’intégration et l’utilisation responsable du langage