Informazioni sui modelli linguistici semantici

Completato

Poiché lo stato dell'arte per l'elaborazione del linguaggio naturale è avanzato, la possibilità di addestrare modelli che incapsulano la relazione semantica tra token ha portato all'emergere di potenti modelli linguistici di apprendimento profondo. Al centro di questi modelli è la codifica dei token di lingua come vettori (matrici multivalore di numeri) note come incorporamenti .

I vettori rappresentano linee nello spazio multidimensionale, che descrivono la direzione e la distanza lungo più assi. Nel complesso, il vettore descrive la direzione e la distanza del percorso dall'origine alla fine. I token semanticamente simili dovrebbero comportare vettori con un orientamento simile, ovvero puntano nella stessa direzione. Come esempio semplice, si supponga che gli incorporamenti per i token siano costituiti da vettori con tre elementi, ad esempio:

- 4 ("dog"): [10,3,2]
- 8 ("cat"): [10,3,1]
- 9 ("puppy") [5,2,1] 
- 10 ("skateboard"): [-3,3,2]

Nello spazio tridimensionale, questi vettori hanno un aspetto simile al seguente:

Diagramma dei token tracciati in uno spazio tridimensionale.

I vettori di incorporamento per "cane" e "cucciolo" descrivono un percorso lungo una direzione quasi identica, che è anche abbastanza simile alla direzione per "gatto". Il vettore di incorporamento per "skateboard", tuttavia, descrive un viaggio in una direzione completamente diversa.

I modelli linguistici usati nel settore si basano su questi principi, ma hanno una maggiore complessità. Ad esempio, i vettori usati in genere hanno molte più dimensioni. Esistono anche diversi modi per calcolare gli incorporamenti appropriati per un determinato set di token. Metodi diversi generano stime diverse dai modelli di elaborazione del linguaggio naturale.

Una visualizzazione generalizzata delle soluzioni di elaborazione del linguaggio naturale più moderne è illustrata nel diagramma seguente. Un ampio corpus di testo non elaborato viene tokenizzato e usato per eseguire il training di modelli linguistici, che possono supportare molti tipi diversi di attività di elaborazione del linguaggio naturale.

Diagramma del processo per tokenizzare il testo ed eseguire il training di un modello linguistico che supporta le attività di elaborazione del linguaggio naturale.

Machine Learning per la classificazione del testo

Un'altra tecnica di analisi del testo utile consiste nell'usare un algoritmo di classificazione, ad esempio regressione logistica, per eseguire il training di un modello di Machine Learning che classifica il testo in base a un set noto di categorizzazioni. Un'applicazione comune di questa tecnica consiste nell'addestrare un modello che classifica il testo come positivo o negativo per eseguire l'analisi del sentiment o il mining delle opinioni .

Si considerino ad esempio le recensioni di ristoranti seguenti, già etichettate come 0 (negative ) o 1 (positivo):

- *The food and service were both great*: 1
- *A really terrible experience*: 0
- *Mmm! tasty food and a fun vibe*: 1
- *Slow service and substandard food*: 0

Con un numero sufficiente di recensioni etichettate, puoi addestrare un modello di classificazione usando il testo tokenizzato come caratteristiche e il sentiment (0 o 1) come etichetta . Il modello incapsula una relazione tra token e sentiment, ad esempio le recensioni con token per parole come "great", "tasty"o "fun" restituiscono più probabilmente un sentiment di 1 (positivo), mentre le recensioni con parole come "terrible", "slow"e "substandard" sono più probabili restituire 0 (negativo).