Episodio

manifestoR - uno strumento per giornalisti di dati, una fonte per minatori di testo e un prototipo per il software riproducibile

con Jirka Lewandowski

useR!2017: manifestoR - uno strumento per i giornalisti di dati...

Parole chiave: scienza politica, riproducibilità, corpus, giornalismo dei dati, text mining
Pagine Web: https://CRAN.R-project.org/package=manifestor,https://manifesto-project.wzb.eu/information/documents/manifestoR
Il Progetto Manifesto è un progetto di ricerca scientifica politica a lungo termine che ha raccolto, archiviando e analizzando i programmi del partito dalle elezioni democratiche dal 1979, ed è una delle fonti di dati più lunghe e ampiamente usate nella scienza politica. Il progetto ha recentemente rilasciato manifestoR come pacchetto R ufficiale per l'accesso e l'analisi dei dati raccolti dal progetto. Il pacchetto è rivolto a tre gruppi: è uno strumento prezioso per il giornalismo dei dati e le scienze sociali, un'origine dati per il data mining e un prototipo per il software che promuove la riproducibilità della ricerca.
Il pacchetto manifestoR fornisce l'accesso al Manifesto Corpus (Merz, Regel & Lewandowski 2016) – il database di testo del progetto – che contiene più di 3000 programmi elettorali provenienti da 573 partiti, insieme in esecuzione nelle elezioni tra il 1946 e il 2015 in 50 paesi, e include documenti in più di 35 lingue diverse. Oltre 2000 di questi documenti sono disponibili come file PDF codificati, puliti, con codifica UTF-8. Poiché questi testi sono accessibili direttamente all'interno di R, manifestoR fornisce un'origine dati comoda e preziosa per i minatori di testo interessati a dati politici e/o multilingue, nonché per i giornalisti di dati.
I testi manifesto accessibili tramite manifestoR sono etichettati per dichiarazione, in base a uno schema di categoria 56 che identifica i problemi e le posizioni dei criteri. Sulla base di questo schema di etichettatura, la comunità di scienze politiche ha sviluppato molti indici aggregati su scala diversa per le posizioni ideologiche dei partiti. La maggior parte di questi algoritmi è stata raccolta e inclusa in manifestoR per fornire un punto di partenza centralizzato e facile da usare per analisi scientifiche e giornalistiche e indagini.
La replicabilità e la riproducibilità delle analisi scientifiche sono valori fondamentali della comunità R e sono di crescente importanza nelle scienze sociali. Pertanto, manifestoR è stato progettato con l'obiettivo di ricerca riproducibile in mente e cerca di impostare un esempio di come un progetto di ricerca scientifica politica possa pubblicare e mantenere un pacchetto open source per promuovere la riproducibilità quando si usano i dati. La raccolta di testo di Manifesto Project è in continua crescita e viene aggiornata, ma qualsiasi versione mai pubblicata può essere facilmente usata come base per gli script scritti con manifestoR. Inoltre, il pacchetto si integra perfettamente con il pacchetto tm ampiamente usato (Feinerer 2008) per il data mining di testo in R e fornisce una rappresentazione data_frame per ogni oggetto dati per connettersi ai pacchetti tidyverse (Wickham 2014), incluso il testo specifico del testo (Silge & Robinson 2016). Per standardizzare e aprire le implementazioni di indici aggregati della community in manifestoR, abbiamo cercato di collaborare con gli autori originali. Inoltre, il pacchetto fornisce l'infrastruttura per adattare facilmente tali indici o per crearne di nuovi. Il discorso discuterà anche le lezioni apprese e le sfide insoddisfatti che si sono manifestate nello sviluppo di tale pacchetto specificamente per la comunità scientifica politica.
Riferimenti

  • Feinerer, Ingo (2008). Framework di data mining di testo in R e nelle relative applicazioni. Tesi di dottorato, Wu Vienna University of Economics and Business.
  • Merz, N., Regel, S., & Lewandowski, J. (2016). Il Manifesto Corpus: una nuova risorsa per la ricerca sui partiti politici e sull'analisi del testo quantitativo. Ricerca e ricerca Politica, 3(2), 2053168016643346. doi: 10.1177/2053168016643346
  • Silge, J., & Robinson, D. (2016). Tidytext: text mining and analysis using Tidy Data Principles in R. JOSS 1 (3). Giornale di registrazione aperto. doi:10.21105/joss.00037.
  • Wickham, H. (2014). Dati ordinati. Journal of Statistical Software, 59(10), 1 - 23. Doi:http://dx.doi.org/10.18637/jss.v059.i10