Nota sulla trasparenza per Analisi del testo per la salute

Importante

Le traduzioni non in inglese sono disponibili solo per praticità. Consultare la EN-US versione di questo documento per la versione definitiva.

Che cos'è una nota sulla trasparenza?

Importante

Analisi del testo per la salute è una funzionalità fornita 'COSÌ COM'È' e 'CON TUTTI I DIFETTI'. Analisi del testo per la salute non è destinata o resa disponibile per l'uso come dispositivo medico, supporto clinico, strumento diagnostico o altra tecnologia destinata a essere utilizzata nella diagnosi, cura, mitigazione, trattamento, prevenzione o prevenzione di malattie o altre condizioni, e nessuna licenza o diritto viene concesso da Microsoft per usare questa funzionalità per tali scopi. Questa funzionalità non è progettata o destinata a essere implementata o distribuita come sostituto di consulenza medica professionale o parere sanitario, diagnosi, trattamento o giudizio clinico di un professionista sanitario e non deve essere usata come tale. Il cliente è responsabile esclusivamente di qualsiasi utilizzo di Analisi del testo per la salute. Il cliente deve ottenere una licenza separata per tutti i vocabolari di origine che intende utilizzare secondo i termini definiti per l'Appendice dell'Accordo di Licenza del Metathesaurus UMLS o qualsiasi equivalente futuro. Il cliente è responsabile di garantire la conformità a tali condizioni di licenza, incluse eventuali restrizioni geografiche o di altro tipo applicabili.

Analisi del testo per la salute consente ora l'estrazione dei determinanti sociali della salute (SDOH) e delle menzioni dell'etnia nel testo. Questa funzionalità potrebbe non coprire tutti i potenziali SDOH e non deriva inferenze basate su SDOH o etnia (ad esempio, le informazioni sull'uso di sostanze vengono rilevate, ma l'abuso di sostanze non viene dedotto). Tutte le decisioni che sfruttano gli output del Analisi del testo per la salute che influiscono sulle persone o sull'allocazione delle risorse (incluse, ma non limitate a, quelle correlate alla fatturazione, alle risorse umane o alla gestione dei trattamenti) devono essere prese con supervisione umana e non devono basarsi esclusivamente sui risultati del modello. Lo scopo della funzionalità DISOH ed estrazione etnica è aiutare i provider a migliorare i risultati sanitari e non deve essere usato per stigmatizzare o disegnare inferenze negative sugli utenti o sui consumatori di dati SDOH, o popolazioni di pazienti oltre lo scopo dichiarato di aiutare i provider a migliorare i risultati sanitari.

Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo useranno, le persone che ne saranno interessate e l'ambiente in cui viene distribuito. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle funzionalità e delle limitazioni e di come ottenere le migliori prestazioni. le note sulla trasparenza di Microsoft consentono di comprendere il funzionamento della tecnologia di intelligenza artificiale, le scelte che i proprietari del sistema possono fare che influenzano le prestazioni e il comportamento del sistema e l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema oppure condividerle con le persone che useranno o saranno interessate dal sistema.

le note sulla trasparenza di Microsoft fanno parte di uno sforzo più ampio per Microsoft mettere in pratica i nostri principi di IA. Per altre informazioni, vedere Responsible AI principles from Microsoft.

Nozioni di base sull'analisi del testo per la salute

Introduzione

Il Analisi del testo per la funzionalità di integrità di Azure Language in Foundry Tools usa tecniche di elaborazione del linguaggio naturale per trovare ed etichettare informazioni sanitarie preziose, ad esempio diagnosi, sintomi, farmaci e trattamenti in testo non strutturato. Il servizio può essere utilizzato per diversi tipi di documenti medici non strutturati, tra cui riepiloghi di scaricamento, note cliniche, protocolli di sperimentazione clinica, pubblicazioni mediche e altro ancora. Analisi del testo per la salute esegue il riconoscimento delle entità denominate (NER), estrae le relazioni tra entità identificate, assegna asserzioni come negazioni e condizionalità, e collega le entità rilevate a vocabolari comuni.

Analisi del testo per la salute può ricevere testo non strutturato in inglese nell'ambito della disponibilità generale. Altre lingue sono attualmente supportate in un'offerta di anteprima. Per altre informazioni, vedere Supporto linguistico.

È possibile leggere una panoramica dell'API e delle relative funzionalità. Vedere anche le entità e le relazioni supportate.

Inoltre, la personalizzazione è ora disponibile per Analisi del testo per la salute nella nuova funzionalità di anteprima, personalizzazione di Analisi del testo per la salute. Custom Analisi del testo per la salute consente ai clienti di usare i loro dati per addestrare un modello NER personalizzato, progettato per il settore sanitario, per estrarre le categorie specifiche del loro dominio, estendendo la mappa delle entità esistente di Analisi del testo per la salute. I clienti possono anche definire un lessico o un vocabolario specifico per le entità personalizzate appena definite, nonché le esistenti analisi del testo per le entità sanitarie, come il Nome del farmaco. Pertanto, le Analisi del testo personalizzate per l'integrità offrono le stesse funzionalità offerte da Analisi del testo per l'integrità, oltre alla possibilità di estendere la mappa delle entità esistente aggiungendo nuove entità di Machine Learning e aggiungendo vocabolario personalizzato alle entità esistenti.

Termini chiave

Analisi del testo per la salute attualmente esegue il riconoscimento delle entità denominate (NER), l'estrazione delle relazioni, l'individuazione delle asserzioni e il collegamento delle entità per il testo biomedico. Può anche essere integrato con l'estrazione di entità personalizzate aggiuntive usando componenti di entità apprese e componenti di elenco, ora disponibili utilizzando Analisi del testo personalizzati per la salute.

Termine Definizione
Riconoscimento di entità denominate Rileva parole e frasi menzionate in testo non strutturato che possono essere associate a uno o più tipi semantici, ad esempio diagnosi, nome del farmaco, sintomo o segno o età.
Estrazione delle relazioni Identifica le connessioni significative tra i concetti menzionati nel testo. Ad esempio, una relazione "time of condition" viene trovata associando un nome di condizione a un'ora.
Il rilevamento delle asserzioni Superfici modificatori di entità menzionati nel testo, ad esempio negazione o condizionalità. Il significato del contenuto medico potrebbe essere altamente influenzato da questi modificatori.
Collegamento di entità Disambigua le entità distinte associando le entità denominate menzionate nel testo ai concetti disponibili in un database predefinito di concetti, ad esempio nel sistema UMLS (Unified Medical Language System).
Componente Appreso dall'Entità Consente la definizione di nuove entità personalizzate, ad esempio trattamento, struttura o strumento medico tramite il training di un modello personalizzato con dati etichettati.
Componente elenco di entità Consente l'estrazione di nuove entità personalizzate o di entità di salute esistenti di Analisi del testo usando un riconoscitore lessicale, definendo un elenco di sinonimi o un vocabolario corrispondente alle entità prescelte. Ad esempio, "Farmaco A" può essere definito come un nuovo valore di elenco sotto l'entità nome farmaco.

Funzionalità

Comportamento del sistema

Per usare Analisi del testo per la salute, si inserisce testo grezzo e non strutturato per l'analisi, e l'output dell'API viene gestito nell'applicazione. Quattro funzioni chiave vengono eseguite in una singola chiamata API: riconoscimento delle entità, estrazione delle relazioni, collegamento di entità e rilevamento delle asserzioni. L'analisi viene eseguita così com'è, senza alcuna personalizzazione aggiuntiva del modello preaddestrato. È possibile usare Analisi del testo per la salute tramite un'API ospitata o distribuendolo in un contenitore nell'ambiente locale. Per ulteriori informazioni, vedere come chiamare Analisi del testo per la salute.

Per personalizzare Analisi del testo per la sanità, usare l'esperienza di creazione di entità per il settore sanitario per creare nuove entità che andranno ad ampliare la mappa delle entità predefinite esistente. È anche possibile definire un nuovo vocabolario da riconoscere usando la corrispondenza esatta per le nuove entità personalizzate, nonché le categorie di entità predefinite esistenti, ad esempio Nome farmaco. Dopo aver definito la mappa delle entità del progetto, è possibile eseguire il training e distribuire il modello personalizzato per eseguire stime. Il modello personalizzato distribuito, per impostazione predefinita, supporta tutte le funzionalità già incluse in Analisi del testo per la salute per le categorie di entità predefinite. Inoltre, il modello personalizzato include NER personalizzato per le nuove categorie di entità e qualsiasi dizionario definito per le entità predefinite. Di conseguenza, le previsioni del modello personalizzato eseguono il riconoscimento delle entità denominate, l'estrazione delle relazioni, il collegamento delle entità e il rilevamento delle asserzioni per le analisi del testo relative alla salute, oltre al riconoscimento personalizzato delle entità denominate per estrarre le categorie di entità definite dal cliente insieme al vocabolario definito per le nuove ed esistenti categorie di entità. Tutti i dati usati per eseguire il training del modello personalizzato verranno archiviati nell'archivio BLOB privato. Inoltre, la chiamata al modello personalizzato richiede la chiave di sottoscrizione di API Management, il che significa che il modello personalizzato è disponibile solo per gli utenti con cui è stata condivisa la chiave segreta.

Casi d'uso previsti

Analisi del testo per la salute può essere usato in molteplici scenari in una varietà di settori supportati da questo tipo di sistema. Alcune motivazioni comuni dei clienti per utilizzare Analisi del testo per la salute includono:

  • Assistere e automatizzare l'elaborazione dei documenti medici per la codifica appropriata per migliorare l'accuratezza della cura e della fatturazione.
  • Aumentare l'efficienza dell'analisi dei dati sanitari per favorire il successo dei modelli di assistenza basata su valore (ad esempio, Medicare).
  • Migliorare l'aggregazione dei dati chiave per tenere traccia delle tendenze di assistenza e cronologia dei pazienti senza aggiungere sovraccarico ai fornitori di servizi sanitari.
  • Fare progressi verso l'adozione di standard HL7, che è il quadro per lo scambio, l'integrazione, la condivisione e il recupero di informazioni sanitarie elettroniche a supporto della pratica clinica quotidiana e gestione e la consegna complessiva e valutazione dei servizi sanitari.

Gli stessi casi d'uso e considerazioni si applicano alle Analisi del testo personalizzate per l'integrità, ma le Analisi del testo personalizzate per l'integrità sono più adatte per gli scenari in cui il cliente dispone di dati e desidera estendere la mappa delle entità predefinite esistenti creando le proprie categorie di entità o definendo il vocabolario per le categorie di entità nuove ed esistenti.

Casi d'uso di esempio

I casi d'uso seguenti sono esempi comuni per le applicazioni del Analisi del testo per la salute e le Analisi del testo personalizzate per le funzionalità di salute.

  • Estrazione di dati analitici e statistiche. Identificare entità mediche come sintomi, farmaci e diagnosi in note cliniche e documenti clinici diversi. Usare queste informazioni per produrre informazioni dettagliate e statistiche sulle popolazioni dei pazienti, per cercare documenti clinici e per la ricerca di documenti e pubblicazioni.
  • Creazione di analisi predittive e di modelli predittivi sui dati storici. Consente lo sviluppo di soluzioni per la pianificazione, il supporto decisionale, l'analisi dei rischi e altro ancora in base ai modelli di stima creati usando dati cronologici.
  • Annotazione e curazione assistita. Soluzioni di supporto per annotazione e cura dei dati clinici. Ad esempio, per supportare la codifica clinica, la digitalizzazione dei dati creati manualmente e l'automazione dei report del Registro di sistema.
  • Soluzioni di supporto per la visualizzazione o l'analisi delle informazioni relative alla salute. Soluzioni per visualizzare o analizzare le informazioni relative alla salute. Ad esempio, a scopo di creazione di report, supporta i processi di controllo della qualità o contrassegna eventuali errori da esaminare da un essere umano.

Considerazioni sulla scelta di un caso d'uso

Analisi del testo per la salute è uno strumento prezioso quando si gestiscono ed estraggono conoscenze da testo medico non strutturato. Tuttavia, data la natura sensibile dei dati correlati alla salute, è importante considerare attentamente i use case. In tutti i casi, un essere umano deve prendere decisioni assistita dalle informazioni restituite dal sistema e, in tutti i casi, è necessario avere un modo per esaminare i dati di origine e correggere gli errori. Ecco alcune considerazioni aggiuntive quando si sceglie un caso d'uso:

  • Evitare scenari che usano questo servizio come dispositivo medico, per fornire supporto clinico o come strumento diagnostico da usare nella diagnosi, cura, mitigazione, trattamento o prevenzione della malattia o altre condizioni senza intervento umano. Un professionista medico qualificato deve sempre eseguire due diligence e verificare i dati di origine che potrebbero influenzare le decisioni relative alle cure dei pazienti.
  • Evitare scenari correlati alla concessione o alla negazione automatica dei servizi medici o dell'assicurazione sanitaria senza intervento umano. Poiché le decisioni che influiscono sui livelli di copertura sono estremamente interessate, i dati di origine devono essere sempre verificati in questi scenari.
  • Evitare scenari che usano informazioni sanitarie personali per uno scopo non consentito dal consenso del paziente o dalla legge applicabile. Le informazioni sanitarie hanno protezioni speciali relative alla privacy e al consenso. Assicurarsi che tutti i dati usati dispongano del consenso dei pazienti per il modo in cui si usano i dati nel sistema o che siano altrimenti conformi alla legge applicabile in relazione all'uso delle informazioni sanitarie.
  • Valutare attentamente l'uso di entità rilevate per aggiornare automaticamente i record dei pazienti senza intervento umano. Assicurarsi che sia sempre disponibile un modo per segnalare, tracciare e correggere eventuali errori per evitare la propagazione di dati non corretti in altri sistemi. Assicurarsi che tutti gli aggiornamenti ai record dei pazienti vengano esaminati e approvati da professionisti qualificati.
  • Valutare attentamente l'uso di entità rilevate nella fatturazione dei pazienti senza intervento umano. Assicurarsi che i provider e i pazienti abbiano sempre un modo per segnalare, tracciare e correggere i dati che generano una fatturazione errata.
  • Considerare attentamente gli scenari che usano i determinanti sociali rilevati delle entità sanitarie ed etniche. Assicurarsi sempre che vi sia un modo per segnalare, tracciare e correggere eventuali errori per evitare l'uso errato di sostanze o offrire una forma errata di cura in base a fattori sociali e demografici.
  • Considerare attentamente gli scenari che usano un ciclo di feedback automatizzato nel perfezionare un modello di Analisi del testo personalizzato per la salute. Assicurarsi sempre di testare e valutare il modello prima della distribuzione in un ambiente di produzione per evitare la regressione della qualità del modello perché il training del modello personalizzato è un processo iterativo molto sensibile ai dati di training di input.
  • Considerazioni legali e normative: le organizzazioni devono valutare potenziali obblighi legali e normativi specifici quando si usano strumenti e soluzioni Foundry, che potrebbero non essere appropriati per l'uso in ogni settore o scenario. Inoltre, gli strumenti o le soluzioni Foundry non sono progettati per e non possono essere usati in modi vietati in termini di servizio applicabili e codici di comportamento pertinenti.

Determinanti sociali della salute e dell'etnia

Analisi del testo per la salute consente l'estrazione dei determinanti sociali della salute (SDOH) e delle menzioni di etnia nel testo. L'uso di entità sociali e demografiche può aiutare a sbloccare menzioni di una serie di fattori oltre a cure mediche dirette che possono guidare i risultati sanitari, ad esempio genetiche sottostanti, comportamenti sanitari e fattori sociali e ambientali. Sfruttando la Analisi del testo per la capacità di estrazione delle entità SDOH per la salute, si potrebbe essere in grado di ridurre le disparità di salute che sono spesso radicate in svantaggi sociali ed economici, migliorare l'assistenza, valutare problemi di inequità sanitaria e incorporare gruppi sottorappresentati in studi clinici e ricerche. Per altre informazioni, vedere Determinanti sociali della salute, FDA adotta importanti passi per aumentare la diversità razziale ed etnica nelle prove cliniche | FDA e County Health Rankings: relazioni tra fattori determinanti e risultati sanitari.

Questa funzionalità non deriva inferenze in base all'SDOH o all'etnia (ad esempio, le informazioni sull'uso di sostanze vengono esposte dal testo di input, ma l'abuso di sostanze non viene dedotto in base alle entità estratte). Tutte le decisioni che si basano sugli output di Analisi del testo per l'integrità e che influisce sulle singole persone o sull'allocazione delle risorse (incluse, ad esempio, le decisioni relative alla fatturazione, alle risorse umane o alla gestione dell'assistenza) devono essere prese con supervisione umana e non si basano esclusivamente sui risultati del modello. Lo scopo delle funzionalità sdoh e di estrazione etnica è aiutare i fornitori a migliorare i risultati sanitari. Non devono essere utilizzati per stigmatizzare o disegnare inferenze negative sugli utenti o sui consumatori di dati SDOH o di popolazioni di pazienti oltre lo scopo dichiarato di aiutare i provider a migliorare i risultati sanitari. Come per altre entità estratte, il Analisi del testo per la risposta sanitaria restituisce anche un punteggio di attendibilità per le entità di stato vivente, occupazione, uso di sostanze ed etnie. Considerare attentamente il punteggio di attendibilità nel contesto dell'uso previsto di un'entità.

Analisi del testo personalizzate per la salute

Analisi del testo per la salute consente agli sviluppatori di elaborare ed estrarre informazioni dettagliate da dati medici non strutturati. Anche se la funzionalità di integrità è in grado di elaborare ed estrarre un'ampia gamma di tipi di dati e categorie di entità, esistono ancora casi in cui il cliente potrebbe voler aggiungere un nuovo tipo di entità specifico ai dati o persino definire un vocabolario medico aggiuntivo in una categoria di entità esistente.

Pertanto, lo scopo di Custom Analisi del testo per l'integrità è fornire un mezzo per personalizzare oltre a Analisi del testo per l'integrità offrendo ai clienti la possibilità di estendere la mappa delle entità con categorie di entità completamente nuove specifiche dei dati, nonché la possibilità di aggiungere vocabolari personalizzati alle categorie di entità esistenti.

Le Analisi del testo personalizzate per la sanità consentono ai clienti di eseguire il training di un modello ML di estrazione di entità sanitarie personalizzato usando i loro dati etichettati e dizionari/vocabolari personalizzati. Ciò consentirà ai clienti di definire nuove entità mediche specifiche dei dati. Il servizio chiamerà internamente anche Analisi del testo per la salute, fornendo tutte le funzionalità e la mappa delle entità già fornite in Analisi del testo per la salute. Come livello di personalizzazione aggiuntivo, i clienti potranno aggiungere il proprio vocabolario alle analisi del testo esistenti per le entità sanitarie, al fine di integrare la risposta predefinita con i propri dati.

Il cliente è responsabile della fornitura di dati etichettati e vocabolari sufficienti per eseguire il training del modello personalizzato; Pertanto, le prestazioni del modello possono variare a seconda della qualità e della completezza dei dati di training etichettati usati dal cliente rispetto alle nuove categorie di entità da definire. È consigliabile testare e valutare sempre il modello prima della distribuzione in un ambiente di produzione per evitare la regressione della qualità del modello perché il training personalizzato del modello è un processo iterativo molto sensibile ai dati di training di input.

Limitazioni

  • Copertura: la funzionalità di estrazione SDOH potrebbe non coprire tutti i potenziali SDOH. Il riconoscimento è limitato all'etnia e ai tipi di entità elencati qui Categorie di entità riconosciute da Analisi del testo per la salute - Foundry Tools | Microsoft Learn.
  • Lingue: attualmente, le funzionalità di estrazione SDOH ed etnica sono abilitate solo per il testo in inglese. Analisi del testo per la salute può ricevere testo non strutturato in inglese nell'ambito della disponibilità generale. Altre lingue sono attualmente supportate in un'offerta di anteprima.
  • Ortografia: l'ortografia non corretta potrebbe influire sull'output. In particolare, il collegamento di entità cerca termini e sinonimi in base a un'ortografia specifica e corretta. Se, ad esempio, un nome di droga viene digitato in modo non corretto, il sistema potrebbe avere informazioni sufficienti per riconoscere che il testo è un nome di droga, ma potrebbe non identificare il collegamento come sarebbe per il nome corretto del farmaco digitato.
  • Prestazioni: i potenziali tipi di errore sono stati descritti nella sezione Prestazioni del sistema seguente.
  • Custom Analisi del testo per la salute (in anteprima): supporta tutte le lingue supportate da Analisi del testo per la salute. Per eseguire il training di un modello personalizzato, è necessario fornire al servizio di training un minimo di 10 etichette per ogni nuova categoria di entità personalizzata definita. Per eseguire il training di un modello personalizzato, il cliente deve aggiungere almeno 10 documenti al set di dati del progetto. I riconoscitori lessico usati per estrarre il vocabolario definito dal cliente si basano sulla corrispondenza esatta delle maiuscole e minuscole nella lingua specificata, ovvero che il cliente deve aggiungere tutte le varianti della parola specifica e includerla per tutte le lingue di input per il progetto. Quando si usano i Analisi del testo personalizzati per la salute, il collegamento delle entità, l'estrazione della relazione e il rilevamento delle asserzioni saranno supportati per le entità di salute nei Analisi del testo, ma non verranno forniti per le categorie di entità personalizzate appena definite.

Prestazioni del sistema

Analisi del testo per l'integrità e le Analisi del testo personalizzate per l'integrità in generale potrebbero presentare errori falsi positivi e errori falsi negativi per ogni funzionalità supportata dalla funzionalità di integrità. Diversi esempi dei possibili tipi di errore sono descritti nelle sezioni successive.

Riconoscimento di entità denominate (NER)

Falso positivo

In NER si verifica un falso positivo quando il sistema identifica erroneamente un'entità come appartenente a una categoria. Nell'esempio seguente COVID-19 viene etichettata erroneamente come EXAMINATION_NAME. Infatti, COVID-19 è una diagnosi, non il nome di un esame. Quindi, questo è un falso positivo per EXAMINATION_NAME.

Nel secondo esempio, la vodka è un falso positivo per MEDICATION_NAME. Al contrario, deve essere classificato come SUBSTANCE_USE.

Screenshot del falso positivo del Riconoscimento delle entità denominate.

Screenshot della classificazione errata dell'uso delle sostanze.

Falso negativo

Un falso negativo in NER si verifica quando un'entità deve essere stata identificata come appartenente a una categoria, ma non lo era. Nell'esempio seguente l'entità ER dovrebbe essere stata identificata come CARE_ENVIRONMENT, ma non lo era. Se un'entità non viene riconosciuta correttamente, il codice collegato non verrà riconosciuto neanche.

Una screenshot del False Negative di Named Entity Recognition.

Nei due esempi successivi, una seconda menzione di ETHNICITY e informazioni sull'occupazione precedente non sono riconosciute correttamente.

Uno screenshot di errata classificazione dell'etnia.

Una schermata della erronea classificazione dei contratti di lavoro.

Estrazione delle relazioni

Falso positivo

Nell'estrazione delle relazioni, un falso positivo si verifica quando una relazione non avrebbe dovuto essere identificata, ma è stata. Nell'esempio successivo, il valore dell'esame AST è stato erroneamente attribuito all'esame ALT, che ha già un valore di misurazione assegnato.

Screenshot dell'estrazione di relazioni False Negative.

Falso negativo

Un falso negativo nell'estrazione di relazioni si verifica quando una relazione avrebbe dovuto essere riconosciuta, ma non lo è stata. Nell'esempio precedente il valore di misurazione 45 non è stato assegnato all'esame AST e avrebbe dovuto esserlo.

Collegamento di entità

Falso positivo

Il collegamento di entità viene ottenuto cercando una corrispondenza esatta tra i concetti nei vocabolari comuni e l'entità riconosciuta. Un falso positivo per il collegamento tra entità si verifica nei rari casi in cui un'entità viene acquisita quando non avrebbe dovuto esserlo (NER falso positivo) e quando sembra esistere un concetto corrispondente nel vocabolario. Un falso positivo per il collegamento di entità può verificarsi anche per termini ambigui con diversi concetti di corrispondenza distinti nei vocabolari comuni.

Falso negativo

Poiché il collegamento di entità è una corrispondenza esatta con il testo originale, è possibile ottenere un falso negativo se è presente un segnale sufficiente per riconoscere correttamente l'entità, ma l'ortografia di tale entità non è corretta nel testo. Nel testo seguente, ad esempio, in cui le terapie sono scritte in modo errato, non si otterrà l'entità collegata appropriata UMLS: C0087111.

Screenshot di errore falso negativo nel collegamento degli entità.

Rilevamento delle affermazioni

Falso positivo

Nel rilevamento delle asserzioni si verifica un falso positivo quando il sistema identifica un'asserzione che non deve esistere nel testo. Nell'esempio seguente, l'entità malattia respiratoria viene erroneamente negata come diagnosi per COVID-19.

Screenshot del rilevamento della negazione del falso positivo.

Falso negativo

Un falso negativo nel rilevamento delle asserzioni si verifica quando un'asserzione non viene acquisita. Nell'esempio seguente, il sintomo "rispondi" deve essere negato perché non c'era risposta al farmaco menzionato.

Uno screenshot di rilevamento della negazione falso negativo.

Procedure consigliate per migliorare le prestazioni del sistema

  • Le analisi del testo personalizzate per il vocabolario personalizzato della salute usano la corrispondenza esatta delle parole; pertanto, un'ortografia errata può influire sull'estrazione di entità.
  • Per migliorare la qualità dell'analisi del testo personalizzata per l'estrazione di entità basata su apprendimento automatico utilizzando componenti apprese per le entità, è consigliabile includere una distribuzione uguale di etichette per ogni entità personalizzata, nonché almeno 15 etichette per ogni entità come esempi rappresentativi dei dati di input.

Valutazione delle analytics del testo per la salute

Metodi di valutazione

Analisi del testo per la salute viene addestrata e valutata su diversi tipi di documenti medici non strutturati, tra cui riepiloghi di dimissione, note cliniche, protocolli di sperimentazione clinica, pubblicazioni mediche e altro ancora. Il modello SDOH, che presenta lo stato di vita, l'occupazione e l'uso di sostanze, viene sottoposto a training e valutato su un set di dati con annotazioni manuali provenienti da due fonti indipendenti: circa 750 note cliniche proprietarie campionate in modo casuale e circa 1.500 note cliniche campionate casualmente da un corpus fornito da un centro medico statunitense e incentrato principalmente sui pazienti adulti. Il corpus originale copre più di 10 anni di dati raccolti e migliaia di ricoveri dei pazienti. Fornisce una rappresentazione quasi uguale dei pazienti maschi e femminili. Si noti che non è stata eseguita alcuna ulteriore analisi della rappresentatività dei dati di training (ad esempio, rappresentazione geografica, demografica o ethnografica). Anche se i test interni dimostrano il potenziale del modello di generalizzare in diverse popolazioni e aree geografiche, è consigliabile valutare attentamente come i dati di training e valutazione siano rappresentativi nel contesto dell'uso previsto. Per valutare il sistema in relazione a potenziali danni all'equità, il set di dati di valutazione è stato suddiviso in sottogruppi di documenti in base a fattori sociali e demografici, ad esempio sesso, età, etnia, occupazione e stato di vita. Sono stati valutati i livelli minimi di prestazioni mirati per ogni gruppo, in quanto sono state differenze di prestazioni relative tra i gruppi.

Valutazione di Analisi del testo personalizzata per la salute

Il Analisi del testo personalizzato per la sanità sfrutta un modello di base per il settore sanitario personalizzato che viene perfezionato dai dati forniti dai clienti, oltre al modello predefinito di analisi del testo per la sanità. Il modello di base per la sanità utilizzato è lo stesso modello di base su cui si basa il Analisi del testo per la mappa delle entità sanitarie.

Le Analisi del testo personalizzate per la salute includono una valutazione interna come parte dell'esperienza di creazione dei contenuti. Questo consente al cliente di creare un set di dati di test e di esaminare i punteggi F1, di precisione e di richiamo per le categorie di entità personalizzate definite. Gli Analisi del testo per le entità predefinite di salute non sono inclusi nella valutazione interna. L'esperienza include anche indicazioni sul modello per fornire al cliente modi per migliorare i punteggi risultanti dai test, ad esempio consigliare etichette aggiuntive per le entità che non funzionano correttamente.

Valutazione e integrazione di Analisi del testo per la salute per il tuo utilizzo

Microsoft vuole aiutarti a sviluppare e distribuire in modo responsabile soluzioni che usano il linguaggio. Queste considerazioni sono in linea con il nostro impegno nello sviluppo dell'IA responsabile. Quando decidi come usare e implementare prodotti e soluzioni basati sulle funzionalità del linguaggio, prendi in considerazione i fattori seguenti.

Linee guida generali

Quando si è pronti a implementare Analisi del testo per la salute, le attività seguenti aiutano a prepararsi al successo:

  • Understand cosa può fare: valutare appieno le funzionalità di Analisi del testo per la salute per comprendere le capacità e le limitazioni. Comprendere come funzionerà nel vostro scenario e contesto.
  • Test con dati reali e diversificati: Comprendere Analisi del testo per la salute verrà eseguito nel tuo scenario testandolo in modo approfondito usando condizioni e dati reali che riflettono la diversità nei contesti di utenti, geografia e distribuzione. È improbabile che i set di dati di piccole dimensioni, i dati sintetici e i test che non riflettono lo scenario end-to-end rappresentino sufficientemente le prestazioni di produzione.
  • Rispettare il diritto di un individuo alla privacy: raccogliere o usare solo i dati e le informazioni degli utenti per scopi legittimi e giustificabili. Usare solo i dati e le informazioni che si hanno il consenso per l'uso o sono legalmente autorizzati a usare.
  • Revisione legale: ottenere una revisione legale appropriata della soluzione, in particolare se verrà usata in applicazioni sensibili o ad alto rischio. È importante capire quali restrizioni siano necessarie e quali rischi debbano essere mitigati prima dell'uso. È responsabilità dell'utente attenuare tali rischi e risolvere eventuali problemi che potrebbero verificarsi.
  • Verifica del sistema: se si prevede di integrare e usare in modo responsabile un prodotto o una funzionalità basata sull'intelligenza artificiale in un sistema esistente per i processi software o clienti o aziendali, è necessario dedicare tempo per comprendere il modo in cui ogni parte del sistema verrà influenzata. Valutare il modo in cui la soluzione di intelligenza artificiale è allineata ai principi di IA responsabile Microsoft.
  • Umano nel ciclo: mantenere un essere umano nel ciclo e includere la supervisione umana come area di modello coerente da esplorare. Ciò significa una costante supervisione umana del prodotto o della funzionalità basata sull'intelligenza artificiale e garantire il ruolo degli esseri umani nel prendere decisioni basate sull'output del modello. Per evitare danni e gestire le prestazioni del modello di intelligenza artificiale, assicurarsi che gli esseri umani abbiano un modo per intervenire nella soluzione in tempo reale.
  • Sicurezza: assicurarsi che la soluzione sia sicura e che disponga di controlli adeguati per mantenere l'integrità del contenuto e impedire l'accesso non autorizzato.
  • Ciclo di feedback dei clienti: fornire un canale di feedback che gli utenti e gli individui possono usare per segnalare problemi con il servizio dopo che è stato distribuito. Dopo aver distribuito un prodotto o una funzionalità basata su intelligenza artificiale, richiede un monitoraggio e un miglioramento continui. Avere un piano e essere pronti per implementare commenti e suggerimenti per il miglioramento.

Vedere anche