Avsnitt

Rangordna objekt skalbart med Bradley-Terry-modellen

med Ella Kaye

useR!2017: Rangordna objekt skalbart med Bradley-...

Nyckelord: Källhänvisningsdata, Dirigerat nätverk, Parkopplade jämförelser, Kvasisymmetri, Sparse-matriser
Webbsida: https://github.com/EllaKaye/BradleyTerryScalable
Motiverad av analysen av storskaliga källhänvisningsnätverk implementerar vi den välbekanta Bradley-Terry-modellen (Zermelo 1929; Bradley och Terry 1952) på ett sådant sätt att det kan tillämpas, med relativt blygsamma krav på minne och körningstid, på parjämförelsedata från nätverk med ett stort antal noder. Detta ger en statistiskt principfast metod för rangordning av ett stort antal objekt, endast baserat på parkopplade jämförelser.
BradleyTerryScalable-paketet kompletterar det befintliga CRAN-paketet BradleyTerry2 (Firth och Turner 2012) genom att tillåta att ett mycket större antal objekt jämförs. Till skillnad från BradleyTerry2 implementerar det nya BradleyTerryScalable-paketet endast den enklaste, "ostrukturerade" versionen av Bradley-Terry-modellen. Det nya paketet utnyttjar funktioner i de ytterligare R-paketen igraph (Csardi och Nepusz 2006), Matrix (Bates och Maechler 2017) och Rcpp (Eddelbuettel 2013) för att ge flexibilitet i modellspecifikationen (hela nätverket kontra frånkopplade klick) samt minneseffektivitet och hastighet. Bayesianska metoden för Caron och Doucet (2012) tillhandahålls som ett valfritt alternativ till maximal sannolikhet, för att tillåta rangordning i hela nätverket även när nätverket med parkopplade jämförelser inte är helt anslutet.
BradleyTerryScalable-paketet kan enkelt hantera data från riktade nätverk med tusentals noder. Användningen av Bradley-Terry-modellen för att producera en rangordning från källhänvisningsdata förespråkades ursprungligen i Stigler (1994), och studerades i detalj mer nyligen i Varin, Cattelan och Firth (2016); här kommer vi att illustrera dess användning med ett storskaligt nätverk av patentciteringar mellan företag.
Refererar till Bates, Douglas och Martin Maechler. 2017. "Matris: Glesa och tät matris klasser och metoder." R-paketversion 1.2-8. http://cran.r-project.org/package=Matrix.

Bradley, Ralph Allan och Milton E Terry. 1952. "Rank Analysis of Incomplete Block Designs: I. the Method of Paired Comparisons." Biometrika 39: 324–45.

Caron, François och Arnaud Doucet. 2012. "Effektiv bayesisk slutsatsdragning för generaliserade Bradley-Terry-modeller." Journal of Computational and Graphical Statistics 21: 174–96.

Csardi, Gabor och Tamas Nepusz. 2006. "Igraph Software Package for Complex Network Research." InterJournal Complex Systems: 1695. http://igraph.org.

Eddelbuettel, Dirk. 2013. Sömlös R- och C++-integrering med Rcpp. New York: Springer.

Firth, David och Heather L Turner. 2012. "Bradley-Terry Modeller i R: BradleyTerry2-paketet." Journal of Statistical Software 48 (9). http://www.jstatsoft.org/v48/i09.

Stigler, Stephen M. 1994. "Källhänvisningsmönster i journalerna för statistik och sannolikhet." Statistikvetenskap, 94–108.

Varin, Cristiano, Manuela Cattelan och David Firth. 2016. "Statistisk modellering av källhänvisningsutbyte mellan statistikjournaler." Journal of the Royal Statistical Society: Series A (Statistics in Society) 179: 1–63.

Zermelo, Ernst. 1929. "Die Berechnung Der Turnier-Ergebnisse Als Ein Maximumproblem Der Wahrscheinlichkeitsrechnung." Mathematische Zeitschrift 29: 436–60.