Épisode

Récupération de données avec rvest et purrr

par Max Humber

useR !2017 : récupération de données avec rvest et purrr

Mots clés : rvest, purrr, webscraping, fantasy, sports
Pages web :http://www.maxhumber.com
Les données vraiment intéressantes ne vivent jamais réellement à l’intérieur d’un csv tidy. Sauf si, bien sûr, vous pensez iris ou mtcars est super intéressant. Les données intéressantes se trouvent en dehors des séparateurs de virgules. C’est non structuré, et messy, et tout au dessus de l’endroit. Il vit autour de nous et sur des sites web mal formatés, juste attendre et mendier pour être joué avec.
La recherche et la récupération et le nettoyage de vos propres données est un peu comme la cuisson d’un repas à partir de zéro, au lieu de microwaving un dîner de télévision figé. La microwaving est simple. C’est littéralement une étape : mettre la chose en micro-ondes. Cependant, il n’y a pas d’étape singulière pour faire un bon repas à partir de zéro. Chaque repas est différent. La recette pour faire du curry de noix de coco n’est pas la même que la recette du tacos de choux de Bruxelles. Mais les deux nécessitent un couteau et une poêle à frire !
Dans « Récupération de données avec rvest et purrr », je vais parler à travers comment associer et combiner rvest (couteau) et purrr (la poêle à frire) pour récupérer des données intéressantes à partir d’un tas de sites web. Ce discours est inspiré par un billet de blog récent pour lequel j’ai créé et a été bien reçu par la communauté r-bloggers.com.
rvest est un package R populaire qui facilite la récupération de données à partir de pages web html.
purrr est un package relativement nouveau qui facilite l’écriture de code pour un seul élément d’une liste qui peut être rapidement généralisé au reste de cette même liste.