Descripción de las técnicas estadísticas usadas para el procesamiento de lenguaje natural (NLP)
En las últimas décadas, varios desarrollos en el campo de procesamiento de lenguaje natural (PLN) han dado lugar a grandes modelos de lenguaje (MLG).
Para comprender los LLM, exploremos primero las técnicas estadísticas para el procesamiento del lenguaje natural que con el tiempo han contribuido a las técnicas actuales.
Comienzos del procesamiento de lenguaje natural (NLP)
Como NLP se centra en comprender y generar texto, la mayoría de los primeros intentos de lograr NLP se basaban en el uso de las reglas y la estructura inherentes a los lenguajes. Especialmente antes de que las técnicas de aprendizaje automático fueran frecuentes, los modelos estructurales y la gramática formal eran los métodos principales empleados.
Estos enfoques se basaban en la programación explícita de reglas lingüísticas y patrones gramaticales para procesar y generar texto. Aunque estos modelos podrían controlar algunas tareas específicas del lenguaje razonablemente bien, se enfrentan a desafíos significativos cuando se enfrentan a la gran complejidad y variabilidad de los lenguajes naturales.
En lugar de las reglas de codificación rígida, los investigadores de la 1990 comenzaron a usar modelos estadísticos y probabilísticos para aprender patrones y representaciones directamente de los datos.
Descripción de la tokenización
Como es de esperar, las máquinas tienen dificultades para descifrar texto, ya que dependen principalmente de números. Por lo tanto, para leer texto, es necesario convertir el texto presentado en números.
Un desarrollo importante para permitir que las máquinas funcionen con más facilidad con texto ha sido la tokenización. Tokens son cadenas con un significado conocido, que normalmente representan una palabra. Tokenización consiste en convertir palabras en tokens, que luego se convierten en números. Un enfoque estadístico para la tokenización es mediante una canalización:
- Comience con el texto que desea "tokenizar".
- Dividir las palabras del texto según una norma. Por ejemplo, divida las palabras donde hay un espacio en blanco.
- Lematización. Combine palabras similares quitando el final de una palabra.
- Detener eliminación de palabras. Elimine palabras ruidosas que tengan poco significado, como
the
ya
. Se proporciona un diccionario de estas palabras para quitarlas estructuralmente del texto. - Asignar un número a cada token único.
La tokenización permitió etiquetar el texto. Como resultado, se podrían usar técnicas estadísticas para permitir que los equipos encuentren patrones en los datos en lugar de aplicar modelos basados en reglas.
Técnicas estadísticas de NLP
Dos avances importantes para lograr el PNL utilizaron técnicas estadísticas: Naïve Bayes y Frecuencia de términos - frecuencia inversa de documento (TF-IDF).
Comprensión de Naïve Bayes
Bayes naïve es una técnica estadística que se usó por primera vez para el filtrado de correo electrónico. Para aprender la diferencia entre correo no deseado y correo deseado, se comparan dos documentos. Los clasificadores bayes naïve identifican qué tokens se correlacionan con los correos electrónicos etiquetados como correo no deseado. En otras palabras, la técnica busca qué grupo de palabras solo se produce en un tipo de documento y no en el otro. El grupo de palabras se conoce a menudo como características de la bolsa de palabras.
Por ejemplo, las palabras miracle cure
, lose weight fast
y anti-aging
pueden aparecer con más frecuencia en correos electrónicos de spam sobre productos de salud dudosos que en correos electrónicos normales.
Aunque Bayes naïve resultó ser más eficaz que los modelos simples basados en reglas para la clasificación de texto, todavía era relativamente rudimentario ya que solo se consideraba la presencia (y no la posición) de una palabra o token.
¿Qué es TF-IDF?
La técnica Frecuencia de término - Frecuencia inversa de documentos (TF-IDF) tenía un enfoque similar en que comparaba la frecuencia de una palabra en un documento con la frecuencia de la palabra en un corpus conjunto de documentos. Al entender en qué contexto se utilizaba una palabra, los documentos se podrían clasificar en función de determinados temas. Por lo general, TF-IDF se usa para la recuperación de información, para ayudar a comprender qué palabras o tokens relativos se van a buscar.
Nota:
En el contexto de NLP, un corpus hace referencia a una colección grande y estructurada de documentos de texto que se usa para las tareas de aprendizaje automático. Así, los corpus sirven como recursos esenciales para el entrenamiento, las pruebas y la evaluación de varios modelos de PLN.
Por ejemplo, la palabra flour
puede ocurrir a menudo en documentos que incluyen recetas para hornear. Si está buscando documentos con flour
, los documentos que incluyen baking
pueden ser recuperados, ya que las palabras a menudo se utilizan juntas en un texto.
TF-IDF resultó ser útil para los motores de búsqueda al comprender la relevancia de un documento en la consulta de búsqueda de alguien. Sin embargo, la técnica TF-IDF no tiene en cuenta la relación semántica entre palabras. No se detectan sinónimos o palabras con significados similares.
Aunque las técnicas estadísticas eran valiosos desarrollos en el campo de la PNL, las técnicas de aprendizaje profundo crearon las innovaciones necesarias para lograr el nivel de NLP que tenemos hoy.