Episodio

Análisis de texto y minería de texto mediante R

con Kenneth Benoit

useR!2017: Análisis de texto y minería de texto mediante R

Palabras clave: análisis de texto, minería de texto, aprendizaje automático, redes sociales
Resumen A useR! Hable sobre el análisis de texto y la minería de texto mediante R. Trataría el amplio conjunto de herramientas para el análisis de texto y el procesamiento de lenguaje natural en R, con énfasis en el cuantado del paquete de R, pero también abarcaba otras herramientas principales del ecosistema de R para el análisis de texto (por ejemplo, stringi).
En la charla se explica cómo realizar tareas comunes de análisis de texto y procesamiento de lenguaje natural mediante R. Contrario a una creencia popular entre algunos científicos de datos, cuando se usa correctamente, R es una herramienta rápida y eficaz para administrar tareas de análisis de texto incluso muy grandes. Mi charla presentaría la gran opción disponible, demostraría que funcionan en datos de gran tamaño y compararían las características de R para estas tareas frente a las opciones populares en Python.
En concreto, demostraré cómo dar formato y escribir textos de origen, cómo estructurar sus metadatos y cómo prepararlos para su análisis. Esto incluye tareas comunes como la tokenización, incluida la construcción de ngramas y "skip-gramas", la eliminación de palabras irrelevantes, palabras lematizadoras y otras formas de selección de características. También mostraré cómo etiquetar partes de voz y analizar dependencias estructurales en textos. Para el análisis estadístico, mostraré cómo se puede usar R para obtener estadísticas de resumen del texto, buscar y analizar palabras clave y frases, analizar texto para la diversidad léxica y legibilidad, detectar intercalaciones, aplicar diccionarios y medir las asociaciones de términos y documentos mediante medidas de distancia. Nuestro análisis trata el procesamiento básico de datos relacionados con texto en el lenguaje base de R, pero la mayoría se basa en el paquete de cuantificación (https://github.com/kbenoit/quanteda) para el análisis cuantitativo de datos textuales. También se explica cómo pasar los objetos estructurados de quanteda a otros paquetes analíticos de texto para realizar el modelado de temas, el análisis semántico latente, los modelos de regresión y otras formas de aprendizaje automático.

Sobre mí Kenneth Benoit es profesor de Métodos cuantitativos de investigación social en la London School of Economics and Political Science. Su investigación actual se centra en métodos cuantitativos automatizados para procesar grandes cantidades de datos textuales, principalmente textos políticos y medios sociales. El interés actual abarca desde el análisis de macrodatos, incluidos los medios sociales y los métodos de minería de texto. Durante los últimos 5 años, ha estado desarrollando un importante paquete de R para el análisis de texto, quanteda, como parte de la concesión ERC-2011-StG 283794-QUANTESS.