Entender modelos de linguagem semântica
Como o estado da arte para NLP avançou, a capacidade de treinar modelos que encapsulam a relação semântica entre tokens levou ao surgimento de poderosos modelos de linguagem de aprendizado profundo. No cerne desses modelos está a codificação dos tokens de linguagem como vetores (matrizes de valores múltiplos) conhecidos como inserções.
Os vetores representam linhas no espaço multidimensional, descrevendo a direção e a distância ao longo de vários eixos. No geral, o vetor descreve a direção e a distância do caminho da origem ao fim. Tokens semanticamente semelhantes devem resultar em vetores que têm uma orientação semelhante– em outras palavras, eles apontam na mesma direção. Como um exemplo simples, suponha que as inserções para nossos tokens consistam em vetores com três elementos, por exemplo:
- 4 ("dog"): [10,3,2]
- 8 ("cat"): [10,3,1]
- 9 ("puppy") [5,2,1]
- 10 ("skateboard"): [-3,3,2]
No espaço tridimensional, esses vetores têm esta aparência:

Os vetores de inserção para "cachorro" e "cachorrinho" descrevem um caminho ao longo de uma direção quase idêntica, que também é bastante semelhante à direção de "gato". No entanto, o vetor de inserção para "skateboard" descreve o percurso em uma direção muito diferente.
Os modelos de linguagem que usamos no setor são baseados nesses princípios, mas têm maior complexidade. Por exemplo, os vetores usados geralmente têm muito mais dimensões. Também há várias maneiras de calcular as inserções apropriadas para um determinado conjunto de tokens. Métodos diferentes resultam em previsões diferentes de modelos de processamento de linguagem natural.
Uma exibição generalizada das soluções de processamento de linguagem natural mais modernas é mostrada no diagrama a seguir. Um grande corpus de texto bruto é tokenizado e usado para treinar modelos de linguagem, que podem dar suporte a muitos tipos diferentes de tarefa de processamento de linguagem natural.

Machine learning para classificação de texto
Outra técnica de análise de texto útil é usar um algoritmo de classificação, como regressão logística, para treinar um modelo de machine learning que classifica o texto com base em um conjunto conhecido de categorizações. Uma aplicação comum dessa técnica é treinar um modelo que classifica o texto como positivo ou negativo para executar a análise de sentimento ou a mineração de opinião.
Por exemplo, considere as seguintes avaliações de restaurante, que já estão rotuladas como 0 (negativas) ou 1 (positivas):
- *The food and service were both great*: 1
- *A really terrible experience*: 0
- *Mmm! tasty food and a fun vibe*: 1
- *Slow service and substandard food*: 0
Com revisões rotuladas suficientes, você pode treinar um modelo de classificação usando o texto tokenizado como características e o sentimento (0 ou 1) como um rótulo. O modelo encapsulará uma relação entre tokens e sentimento - por exemplo, revisões com tokens para palavras como "great", "tasty"ou "fun" são mais propensas a retornar um sentimento de 1 (positivo), enquanto revisões com palavras como "terrible", "slow"e "substandard" são mais propensas a retornar 0 (negativo).