Episodio

Classifica gli elementi in modo scalare con il modello Bradley-Terry

con Ella Kaye

useR!2017: Classifica gli elementi in modo scalare con bradley-...

Parole chiave: dati di citazione, rete diretta, confronti abbinati, quasi simmetrica, matrici sparse
Pagina Web: https://github.com/EllaKaye/BradleyTerryScalable
Motivata dall'analisi delle reti di citazione su larga scala, implementiamo il familiare modello Bradley-Terry (Zermelo 1929; Bradley e Terry 1952) in modo che possa essere applicato, con requisiti di memoria e tempo di esecuzione relativamente modesti, per associare dati di confronto da reti con un numero elevato di nodi. In questo modo viene fornito un metodo statisticamente basato sulla classificazione di un numero elevato di oggetti, in base solo ai confronti abbinati.
Il pacchetto BradleyTerryScalable integra il pacchetto CRAN esistente BradleyTerry2 (Firth e Turner 2012) consentendo un numero molto maggiore di oggetti da confrontare. A differenza di BradleyTerry2, il nuovo pacchetto BradleyTerryScalable implementa solo la versione "non strutturata" più semplice del modello Bradley-Terry. Il nuovo pacchetto sfrutta la funzionalità nei pacchetti R aggiuntivi igraph (Csardi e Nepusz 2006), Matrix (Bates e Maechler 2017) e Rcpp (Eddelbuettel 2013) per offrire flessibilità nella specifica del modello (intere reti rispetto a cliques disconnessi), oltre all'efficienza e alla velocità della memoria. L'approccio bayesiano di Caron e Doucet (2012) viene fornito come alternativa facoltativa alla massima probabilità, al fine di consentire la classificazione di tutta la rete anche quando la rete di confronti abbinati non è completamente connessa.
Il pacchetto BradleyTerryScalable può gestire facilmente i dati dalle reti dirette con molte migliaia di nodi. L'uso del modello Bradley-Terry per produrre una classificazione dai dati di citazione è stato originariamente sostenuto a Stitype (1994) ed è stato studiato in dettaglio più recentemente in Varin, Cattelan e Firth (2016); qui illustreremo il suo uso con una rete su larga scala di citazioni di brevetti inter-aziendali.
Fa riferimento a Bates, Douglas e Martin Maechler. 2017. "Matrix: classi e metodi di matrice sparse e densi". Pacchetto R versione 1.2-8. http://cran.r-project.org/package=Matrix.

Bradley, Ralph Allan e Milton E Terry. 1952. "Analisi classificazione delle progettazioni di blocchi incomplete: I. metodo di confronti abbinati." Biometrika 39: 324-45.

Caron, François e Arnaud Doucet. 2012. "Inferenza bayesiana efficiente per i modelli Bradley-Terry generalizzati." Giornale di registrazione delle statistiche computazionali e grafiche 21: 174-96.

Csardi, Gabor e Tamas Nepusz. 2006. "The igraph Software Package for Complex Network Research." Sistemi complessi interjournal : 1695. http://igraph.org.

Eddelbuettel, Dirk. 2013. Integrazione semplice di R e C++ con Rcpp. New York: Springer.

Firth, David e Heather L Turner. 2012. "Bradley-Terry Models in R: The BradleyTerry2 Package." Journal of Statistical Software 48 (9). http://www.jstatsoft.org/v48/i09.

Stigler, Stephen M. 1994. "Modelli di citazione nelle riviste di statistiche e probabilità". Scienza statistica, 94-108.

Varin, Cristiano, Manuela Cattelan e David Firth. 2016. "Modellazione statistica dello scambio di citazioni tra riviste statistiche." Giornale di registrazione della Royal Statistical Society: Serie A (Statistiche nella Società) 179: 1-63.

Zermelo, Ernst. 1929. "Die Berechnung Der Turnier-Ergebnisse Als Ein Maximumproblem Der Wahrscheinlichkeitsrechnung." Mathematische Zeit gratitudine 29: 436-60.