Épisode
Classement des éléments scalaires avec le modèle Bradley-Terry
par Ella Kaye
useR !2017 : Classement des éléments scalaires avec le Bradley-...
Mots clés : données de citation, réseau dirigé, comparaisons jumelées, quasi-symétrie, matrices éparses
Page web : https://github.com/EllaKaye/BradleyTerryScalable
Motivés par l’analyse des réseaux de citations à grande échelle, nous implémentons le modèle familier Bradley-Terry (Zermelo 1929 ; Bradley et Terry 1952) de telle sorte qu’ils puissent être appliqués, avec des besoins relativement modestes en mémoire et en temps d’exécution, pour associer des données de comparaison à partir de réseaux avec un grand nombre de nœuds. Cela fournit une méthode statistiquement fondée sur le principe du classement d’un grand nombre d’objets, basée uniquement sur des comparaisons jumelées.
Le package BradleyTerryScalable complète le package CRAN existant BradleyTerry2 (Firth et Turner 2012) en autorisant un plus grand nombre d’objets à comparer. Contrairement à BradleyTerry2, le nouveau package BradleyTerryScalable implémente uniquement la version la plus simple et non structurée du modèle Bradley-Terry. Le nouveau package tire parti des fonctionnalités des igraph de packages R supplémentaires (Csardi et Nepusz 2006), Matrix (Bates et Maechler 2017) et Rcpp (Eddelbuettel 2013) pour fournir une flexibilité dans la spécification du modèle (cliques entières et déconnectées) ainsi que l’efficacité et la vitesse de la mémoire. L’approche bayésienne de Caron et Doucet (2012) est fournie comme alternative facultative à la probabilité maximale, afin d’autoriser le classement de l’ensemble du réseau même lorsque le réseau de comparaisons jumelées n’est pas entièrement connecté.
Le package BradleyTerryScalable peut facilement gérer les données à partir de réseaux dirigés avec plusieurs milliers de nœuds. L’utilisation du modèle Bradley-Terry pour produire un classement à partir de données de citation a été initialement recommandée à Stigler (1994), et a été étudié plus en détail plus récemment dans Varin, Cattelan et Firth (2016) ; ici, nous allons illustrer son utilisation avec un réseau à grande échelle de citations de brevets interentreprises.
Fait référence à Bates, Douglas et Martin Maechler. 2017. « Matrice : Classes et méthodes de matrice éparses et denses. » Package R version 1.2-8. http://cran.r-project.org/package=Matrix.
Bradley, Ralph Allan et Milton E Terry. 1952. « Analyse de classement des conceptions de blocs incomplètes : I. méthode de comparaisons jumelées ». Biometrika 39 : 324-45.
Caron, François et Arnaud Doucet. 2012. « Inférence bayésienne efficace pour les modèles Généralisés Bradley-Terry ». Journal of Computational and Graphique Statistics 21 : 174-96.
Csardi, Gabor et Tamas Nepusz. 2006. « Package logiciel igraph pour la recherche de réseau complexe ». Systèmes complexes interjournaux : 1695. http://igraph.org.
Eddelbuettel, Dirk. (2013). Intégration transparente de R et C++ à Rcpp. New York : Springer.
Firth, David et Heather L Turner. 2012. « Bradley-Terry Models in R : The BradleyTerry2 Package. » Journal of Statistical Software 48 (9). http://www.jstatsoft.org/v48/i09.
Stigler, Stephen M. 1994. « Modèles de citation dans les journaux des statistiques et de la probabilité ». Science statistique, 94-108.
Varin, Cristiano, Manuela Cattelan et David Firth. 2016. « Modélisation statistique de l’échange de citations entre les revues de statistiques ». Journal of the Royal Statistics Society : Series A (Statistics in Society) 179 : 1-63.
Zermelo, Ernst. 1929. « Die Berechnung Der Turnier-Ergebnisse Als Ein Maximumproblem Der Wahrscheinlichkeitsrechnung. » Mathematische Zeitschrift 29 : 436-60.
useR !2017 : Classement des éléments scalaires avec le Bradley-...
Mots clés : données de citation, réseau dirigé, comparaisons jumelées, quasi-symétrie, matrices éparses
Page web : https://github.com/EllaKaye/BradleyTerryScalable
Motivés par l’analyse des réseaux de citations à grande échelle, nous implémentons le modèle familier Bradley-Terry (Zermelo 1929 ; Bradley et Terry 1952) de telle sorte qu’ils puissent être appliqués, avec des besoins relativement modestes en mémoire et en temps d’exécution, pour associer des données de comparaison à partir de réseaux avec un grand nombre de nœuds. Cela fournit une méthode statistiquement fondée sur le principe du classement d’un grand nombre d’objets, basée uniquement sur des comparaisons jumelées.
Le package BradleyTerryScalable complète le package CRAN existant BradleyTerry2 (Firth et Turner 2012) en autorisant un plus grand nombre d’objets à comparer. Contrairement à BradleyTerry2, le nouveau package BradleyTerryScalable implémente uniquement la version la plus simple et non structurée du modèle Bradley-Terry. Le nouveau package tire parti des fonctionnalités des igraph de packages R supplémentaires (Csardi et Nepusz 2006), Matrix (Bates et Maechler 2017) et Rcpp (Eddelbuettel 2013) pour fournir une flexibilité dans la spécification du modèle (cliques entières et déconnectées) ainsi que l’efficacité et la vitesse de la mémoire. L’approche bayésienne de Caron et Doucet (2012) est fournie comme alternative facultative à la probabilité maximale, afin d’autoriser le classement de l’ensemble du réseau même lorsque le réseau de comparaisons jumelées n’est pas entièrement connecté.
Le package BradleyTerryScalable peut facilement gérer les données à partir de réseaux dirigés avec plusieurs milliers de nœuds. L’utilisation du modèle Bradley-Terry pour produire un classement à partir de données de citation a été initialement recommandée à Stigler (1994), et a été étudié plus en détail plus récemment dans Varin, Cattelan et Firth (2016) ; ici, nous allons illustrer son utilisation avec un réseau à grande échelle de citations de brevets interentreprises.
Fait référence à Bates, Douglas et Martin Maechler. 2017. « Matrice : Classes et méthodes de matrice éparses et denses. » Package R version 1.2-8. http://cran.r-project.org/package=Matrix.
Bradley, Ralph Allan et Milton E Terry. 1952. « Analyse de classement des conceptions de blocs incomplètes : I. méthode de comparaisons jumelées ». Biometrika 39 : 324-45.
Caron, François et Arnaud Doucet. 2012. « Inférence bayésienne efficace pour les modèles Généralisés Bradley-Terry ». Journal of Computational and Graphique Statistics 21 : 174-96.
Csardi, Gabor et Tamas Nepusz. 2006. « Package logiciel igraph pour la recherche de réseau complexe ». Systèmes complexes interjournaux : 1695. http://igraph.org.
Eddelbuettel, Dirk. (2013). Intégration transparente de R et C++ à Rcpp. New York : Springer.
Firth, David et Heather L Turner. 2012. « Bradley-Terry Models in R : The BradleyTerry2 Package. » Journal of Statistical Software 48 (9). http://www.jstatsoft.org/v48/i09.
Stigler, Stephen M. 1994. « Modèles de citation dans les journaux des statistiques et de la probabilité ». Science statistique, 94-108.
Varin, Cristiano, Manuela Cattelan et David Firth. 2016. « Modélisation statistique de l’échange de citations entre les revues de statistiques ». Journal of the Royal Statistics Society : Series A (Statistics in Society) 179 : 1-63.
Zermelo, Ernst. 1929. « Die Berechnung Der Turnier-Ergebnisse Als Ein Maximumproblem Der Wahrscheinlichkeitsrechnung. » Mathematische Zeitschrift 29 : 436-60.
Vous voulez donner votre avis ? Soumettez un problème ici.