Episodio
Analisi del testo e data mining del testo con R
con Kenneth Benoit
useR!2017: Analisi del testo e data mining del testo con R
Parole chiave: analisi del testo, text mining, Machine Learning, social media
Riepilogo A useR! Descrivere l'analisi del testo e il data mining del testo usando R. Vorrei trattare l'ampio set di strumenti per l'analisi del testo e l'elaborazione del linguaggio naturale in R, con un'enfasi sul mio pacchetto R quanteda, ma coprendo anche altri strumenti principali nell'ecosistema R per l'analisi del testo (ad esempio stringi).
L'esercitazione descrive come eseguire attività comuni di analisi del testo e elaborazione del linguaggio naturale usando R. Contrariamente a una convinzione comune tra alcuni data scientist, quando usata correttamente, R è uno strumento veloce e potente per gestire anche attività di analisi del testo molto grandi. Il mio discorso presentava le numerose opzioni disponibili, dimostra che questi lavori su dati di grandi dimensioni e confrontano le funzionalità di R per queste attività rispetto alle opzioni più diffuse in Python.
In particolare, dimostrerò come formattare e inserire testi di origine, come strutturare i metadati e come prepararli per l'analisi. Sono incluse attività comuni come la tokenizzazione, tra cui la costruzione di ngrammi e "skip-grammi", la rimozione di parole non significative, le parole stemming e altre forme di selezione delle caratteristiche. Mostrerò anche come contrassegnare parti del discorso e analizzare le dipendenze strutturali nei testi. Per l'analisi statistica, mostrerò come R può essere usato per ottenere statistiche di riepilogo dal testo, cercare e analizzare parole chiave e frasi, analizzare il testo per la diversità lessicale e leggibilità, rilevare le collocazioni, applicare dizionari e misurare le associazioni di termini e documenti usando misure di distanza. L'analisi riguarda l'elaborazione dei dati di base relativa al testo nel linguaggio di base R, ma la maggior parte si basa sul pacchetto quanteda (https://github.com/kbenoit/quanteda) per l'analisi quantitativa dei dati testuali. Viene inoltre illustrato come passare gli oggetti strutturati da quanteda in altri pacchetti analitici di testo per la modellazione di argomenti, l'analisi semantica latente, i modelli di regressione e altre forme di Machine Learning.
A proposito di me Kenneth Benoit è professore di metodi di ricerca sociale quantitativo presso la London School of Economics and Political Science. La sua ricerca attuale si concentra su metodi automatizzati e quantitativi per elaborare grandi quantità di dati testuali, principalmente testi politici e social media. L'interesse corrente si estende dall'analisi dei Big Data, inclusi i social media e i metodi di text mining. Negli ultimi 5 anni, sta sviluppando un importante pacchetto R per l'analisi del testo, quanteda, come parte della concessione dell'ERC-2011-StG 283794-QUANTESS.
useR!2017: Analisi del testo e data mining del testo con R
Parole chiave: analisi del testo, text mining, Machine Learning, social media
Riepilogo A useR! Descrivere l'analisi del testo e il data mining del testo usando R. Vorrei trattare l'ampio set di strumenti per l'analisi del testo e l'elaborazione del linguaggio naturale in R, con un'enfasi sul mio pacchetto R quanteda, ma coprendo anche altri strumenti principali nell'ecosistema R per l'analisi del testo (ad esempio stringi).
L'esercitazione descrive come eseguire attività comuni di analisi del testo e elaborazione del linguaggio naturale usando R. Contrariamente a una convinzione comune tra alcuni data scientist, quando usata correttamente, R è uno strumento veloce e potente per gestire anche attività di analisi del testo molto grandi. Il mio discorso presentava le numerose opzioni disponibili, dimostra che questi lavori su dati di grandi dimensioni e confrontano le funzionalità di R per queste attività rispetto alle opzioni più diffuse in Python.
In particolare, dimostrerò come formattare e inserire testi di origine, come strutturare i metadati e come prepararli per l'analisi. Sono incluse attività comuni come la tokenizzazione, tra cui la costruzione di ngrammi e "skip-grammi", la rimozione di parole non significative, le parole stemming e altre forme di selezione delle caratteristiche. Mostrerò anche come contrassegnare parti del discorso e analizzare le dipendenze strutturali nei testi. Per l'analisi statistica, mostrerò come R può essere usato per ottenere statistiche di riepilogo dal testo, cercare e analizzare parole chiave e frasi, analizzare il testo per la diversità lessicale e leggibilità, rilevare le collocazioni, applicare dizionari e misurare le associazioni di termini e documenti usando misure di distanza. L'analisi riguarda l'elaborazione dei dati di base relativa al testo nel linguaggio di base R, ma la maggior parte si basa sul pacchetto quanteda (https://github.com/kbenoit/quanteda) per l'analisi quantitativa dei dati testuali. Viene inoltre illustrato come passare gli oggetti strutturati da quanteda in altri pacchetti analitici di testo per la modellazione di argomenti, l'analisi semantica latente, i modelli di regressione e altre forme di Machine Learning.
A proposito di me Kenneth Benoit è professore di metodi di ricerca sociale quantitativo presso la London School of Economics and Political Science. La sua ricerca attuale si concentra su metodi automatizzati e quantitativi per elaborare grandi quantità di dati testuali, principalmente testi politici e social media. L'interesse corrente si estende dall'analisi dei Big Data, inclusi i social media e i metodi di text mining. Negli ultimi 5 anni, sta sviluppando un importante pacchetto R per l'analisi del testo, quanteda, come parte della concessione dell'ERC-2011-StG 283794-QUANTESS.
Per inviare suggerimenti, Invia un problema qui.