Informazioni sulle funzionalità di analisi del testo del linguaggio di Azure

Completato

Il linguaggio di Azure fa parte delle offerte degli strumenti foundry che possono eseguire l'elaborazione avanzata del linguaggio naturale su testo non strutturato. Le funzionalità di analisi del testo del linguaggio di Azure includono:

  • Il riconoscimento delle entità denominate identifica persone, luoghi, eventi e altro ancora. Questa funzionalità può anche essere personalizzata per estrarre categorie personalizzate.
  • Entity linking consente di identificare entità note e di collegarle a Wikipedia.
  • Il rilevamento delle informazioni personali (PII) identifica le informazioni sensibili personali, incluse le informazioni sanitarie personali( PHI).
  • Il rilevamento della lingua identifica la lingua del testo e restituisce un codice di lingua, ad esempio "en" per l'inglese.
  • Analisi del sentiment ed estrazione delle opinioni identifica se il testo è positivo o negativo.
  • Il riepilogo riepiloga il testo identificando le informazioni più importanti.
  • L'estrazione di frasi chiave elenca i concetti principali del testo non strutturato.

Verranno ora esaminate più in dettaglio alcune di queste funzionalità.

Riconoscimento e collegamento di entità

È possibile fornire al linguaggio di Azure testo non strutturato e restituisce un elenco di entità nel testo riconosciuto. Un'entità è un elemento di un particolare tipo o di una categoria; e in alcuni casi, sottotipo, ad esempio:

TIPO Sottotipo Esempio
Persona "Bill Gates", "John"
Posizione "Parigi", "New York"
Organizzazione "Microsoft"
Quantità Numero "6" o "sei"
Quantità Percentuale "25%" o "cinquanta percento"
Quantità Ordinale "1°" o "primo"
Quantità Età "90 giorni" o "30 anni"
Quantità Valuta "10.99"
Quantità Dimensione "10 miglia", "40 cm"
Quantità Temperatura "45 gradi"
Data e ora "6:30PM 4 febbraio 2012"
Data e ora Dati "2 maggio 2017" o "05/02/2017"
Data e ora Tempo "8 am" o "8:00"
Data e ora DateRange "Dal 2 maggio al 5 maggio"
Data e ora Intervallo di tempo "dalle 18 alle 19"
Data e ora Durata "1 minuto e 45 secondi"
Data e ora Set "ogni martedì"
URL "https://www.bing.com"
Posta elettronica "support@microsoft.com"
Numero di telefono basato sugli Stati Uniti "(312) 555-0176"
Indirizzo IP "10.0.1.125"

Il linguaggio di Azure supporta anche il collegamento di entità per evitare ambiguità tra le entità collegando un riferimento specifico. Per le entità riconosciute, il servizio restituisce un URL per un articolo di Wikipedia pertinente.

Si supponga, ad esempio, di usare il linguaggio di Azure per rilevare le entità nell'estratto della revisione del ristorante seguente:

"Ho mangiato al ristorante a Seattle la scorsa settimana."

Entità TIPO Sottotipo Wikipedia URL
Seattle Posizione https://en.wikipedia.org/wiki/Seattle
La settimana scorsa Data e ora DateRange

Rilevamento della lingua

È possibile identificare la lingua in cui viene scritto il testo con la funzionalità di rilevamento della lingua di Azure. Per ogni documento inviato il servizio rileva:

  • Nome della lingua (ad esempio "Inglese").
  • Codice linguistico ISO 6391 (ad esempio, "en").
  • Punteggio che indica un livello di attendibilità nel rilevamento della lingua.

Si consideri, ad esempio, uno scenario in cui si è proprietari e si gestisce un ristorante. I clienti possono completare sondaggi e fornire feedback sul cibo, il servizio, il personale e così via. Si supponga di aver ricevuto le recensioni seguenti dai clienti:

Recensione 1: "Un posto fantastico per il pranzo. La zuppa era deliziosa."

Recensione 2: "Comida maravillosa y gran servicio."

Recensione 3: "Il croque monsieur avec frites era fantastico. Bon appetit!"

È possibile usare le funzionalità di analisi del testo in Lingua di Azure per rilevare la lingua per ognuna di queste recensioni; e potrebbe rispondere con i risultati seguenti:

Documento Nome della lingua Codice ISO 6391 Punteggio
Revisione 1 Inglese en 1.0
Revisione 2 Spagnolo es 1.0
Revisione 3 Inglese en 0.9

Si noti che la lingua rilevata per la revisione 3 è inglese, nonostante il testo contenente una combinazione di inglese e francese. Il servizio di rilevamento della lingua è incentrato sulla lingua predominante nel testo. Il servizio usa un algoritmo per determinare la lingua predominante, ad esempio la lunghezza delle frasi o la quantità totale di testo per la lingua rispetto ad altre lingue nel testo. Il linguaggio predominante è il valore restituito, insieme al codice della lingua. Il punteggio di attendibilità potrebbe essere minore di 1 in seguito al testo in lingua mista.

Potrebbe esserci testo ambiguo per natura o con contenuto in linguaggio misto. Queste situazioni possono presentare una sfida. Un esempio di contenuto ambiguo è un caso in cui il documento contiene testo limitato o solo punteggiatura. Ad esempio, l'uso del linguaggio di Azure per analizzare il testo ":-)", restituisce un valore sconosciuto per il nome della lingua e l'identificatore di lingua e un punteggio di NaN (che viene usato per indicare non un numero).

Analisi del sentiment e opinion mining

Le funzionalità di analisi del testo in Linguaggio di Azure possono valutare il testo e restituire punteggi ed etichette del sentiment per ogni frase. Questa funzionalità è utile per rilevare sentimenti positivi e negativi nei social media, recensioni dei clienti, forum di discussione e altro ancora.

Il linguaggio di Azure usa un modello di classificazione di Machine Learning predefinito per valutare il testo. Il servizio restituisce i punteggi del sentiment in tre categorie: positivo, neutro e negativo. In ognuna delle categorie viene fornito un punteggio compreso tra 0 e 1. I punteggi indicano la probabilità che il testo fornito sia un sentiment particolare. Viene inoltre fornita una valutazione del documento.

Ad esempio, è possibile analizzare le due recensioni di ristoranti seguenti per il sentiment:

Recensione 1: "Abbiamo cenato in questo ristorante ieri sera e la prima cosa che ho notato è stato come il corteggiante il personale era. Siamo stati accolti in modo amichevole e portato subito al nostro tavolo. Il tavolo era pulito, le sedie erano confortevoli, e il cibo era incredibile."

e

Recensione 2: "La nostra esperienza da pranzo in questo ristorante è stata una delle peggiori che abbia mai avuto. Il servizio era lento, e il cibo era terribile. Non mangio mai più a questo stabilimento.

Il punteggio del sentiment per la prima recensione potrebbe essere: Valutazione del documento: punteggio positivo positivo: 0,90 Punteggio neutro: 0,10 Punteggio negativo: 0,00

La seconda recensione potrebbe restituire una risposta: Valutazione del documento: punteggio positivo negativo: 0,00 Punteggio neutro: 0,00 Punteggio negativo: 0,99

Estrazione di frasi chiave

L'estrazione di frasi chiave identifica i punti principali del testo. Si consideri lo scenario del ristorante descritto in precedenza. Se si dispone di un numero elevato di sondaggi, può richiedere molto tempo per leggere le recensioni. È invece possibile usare le funzionalità di estrazione di frasi chiave del servizio Lingua per riepilogare i punti principali.

È possibile ricevere una revisione, ad esempio:

"Abbiamo cenato qui per una festa di compleanno e abbiamo avuto un'esperienza fantastica. Siamo stati accolti da una padrona di casa cordiale e portato subito al nostro tavolo. L'atmosfera era rilassata, il cibo era incredibile, e il servizio era fantastico. Se vi piace ottimo cibo e servizio attento, si dovrebbe provare questo posto."

L'estrazione di frasi chiave può fornire un contesto a questa recensione estraendo le frasi seguenti:

  • festa di compleanno
  • esperienza fantastica
  • cameriera gentile
  • ottimo cibo
  • servizio attento
  • cena
  • table
  • Atmosfera
  • posto

Verranno ora esaminate le funzionalità di intelligenza artificiale conversazionale del linguaggio di Azure.