Utiliser le langage R dans l’Éditeur Power Query

Le langage R est un langage de programmation puissant qui est utilisé par de nombreux statisticiens, scientifiques des données et analystes de données. Vous pouvez utiliser R dans l’Éditeur Power Query de Power BI Desktop pour :

  • Préparer des modèles de données.

  • Créer des rapports.

  • Procéder au nettoyage de données, à la mise en forme avancée de données et à l’analytique de jeux de données, ce qui inclut la saisie semi-automatique des données, les prédictions, le clustering, et bien plus encore.

Installer R

Vous pouvez télécharger R gratuitement à partir de la page de téléchargement de Revolution R Open et du référentiel CRAN.

Installer mice

Comme prérequis, installez la bibliothèque mice dans votre environnement R. Sans mice, l’exemple de code de script ne fonctionnera pas correctement. Le package mice implémente une méthode pour traiter les données manquantes.

Pour installer la bibliothèque mice :

  1. Lancez le programme R.exe (par exemple, C:\Program Files\Microsoft\R Open\R-3.5.3\bin\R.exe).

  2. Exécutez la commande d’installation à partir de l’invite R :

    install.packages('mice') 
    

Utiliser le langage R dans l’Éditeur Power Query

Pour illustrer l’utilisation de R dans l’Éditeur Power Query, nous allons partir d’un exemple de jeu de données boursières contenu dans un fichier .csv et suivre les étapes ci-dessous :

  1. Téléchargez le fichier EuStockMarkets_NA.csv. Notez l’endroit où vous l’enregistrez.

  2. Chargez le fichier dans Power BI Desktop. Sous l’onglet Accueil, sélectionnez Obtenir des données>Texte/CSV.

    Sélectionner Texte/CSV

  3. Sélectionnez le fichier EuStockMarkets_NA.csv, puis choisissez Ouvrir. Les données CSV s’affichent dans la boîte de dialogue Fichier texte/CSV.

    Sélectionner un fichier CSV

  4. Sélectionnez Charger pour charger les données du fichier. Quand Power BI a fini de charger les données, la nouvelle table s’affiche dans le volet Champs.

    Données dans le volet Champs

  5. Pour ouvrir l’éditeur Power Query, dans le ruban Accueil, sélectionnez Transformer les données.

    Sélectionner Transformer les données

  6. Sous l’onglet Transformer, sélectionnez Exécuter un script R. L’éditeur Exécuter un script R s’affiche. Les lignes 15 et 20 ont des données manquantes, tout comme d’autres lignes qui ne sont pas visibles dans l’image. Les étapes suivantes montrent de quelle façon R complète ces lignes à votre place.

    Sélectionner Exécuter un script R

  7. Pour cet exemple, entrez le code de script suivant dans la zone Script de la fenêtre Exécuter un script R. Remplacez <Your File Path> (Chemin de votre fichier) par le chemin du fichier EuStockMarkets_NA.csv sur votre système de fichiers local, par exemple, C:/Users/John Doe/Documents/Microsoft/EuStockMarkets_NA.csv.

       dataset <- read.csv(file="<Your File Path>/EuStockMarkets_NA.csv", header=TRUE, sep=",")
       library(mice)
       tempData <- mice(dataset,m=1,maxit=50,meth='pmm',seed=100)
       completedData <- complete(tempData,1)
       output <- dataset
       output$completedValues <- completedData$"SMI missing values"
    

    Notes

    Vous devrez remplacer une variable nommée output pour créer correctement le nouveau jeu de données avec les filtres appliqués.

  8. Sélectionnez OK. L’Éditeur Power Query affiche un avertissement concernant la confidentialité des données.

    Avertissement sur la confidentialité des données

  9. Dans le message d’avertissement, sélectionnez Continuer. Dans la boîte de dialogue Niveaux de confidentialité qui s’affiche, définissez toutes les sources de données sur Public pour que les scripts R fonctionnent correctement dans le service Power BI.

    Boîte de dialogue Niveaux de confidentialité

    Pour plus d’informations sur les paramètres de confidentialité et leurs implications, consultez Niveaux de confidentialité Power BI Desktop.

  10. Sélectionnez Enregistrer pour exécuter le script.

Le volet Champs comporte une nouvelle colonne appelée completedValues. Dans cette colonne, il manque quelques éléments de données, par exemple sur les lignes 15 et 18. La section suivante explique de quelle façon R gère ce problème.

Avec seulement cinq lignes de script R, l’Éditeur Power Query a renseigné les valeurs manquantes sur la base d’un modèle de prévision.

Créer des visuels à partir des données de script R

Nous pouvons maintenant créer un visuel pour voir de quelle manière le code de script R avec la bibliothèque mice remplit les valeurs manquantes.

Visuel de script R

Vous pouvez enregistrer tous les visuels terminés dans un fichier .pbix Power BI Desktop, et utiliser le modèle de données et ses scripts R dans le service Power BI.

Notes

Vous pouvez télécharger un fichier .pbix une fois toutes ces étapes terminées.

Après avoir chargé le fichier .pbix vers le service Power BI, vous devez effectuer des étapes supplémentaires pour activer l’actualisation des données du service et les visuels mis à jour :

  • Activer l’actualisation planifiée pour le jeu de données : pour activer l’actualisation planifiée pour le classeur contenant votre jeu de données avec des scripts R, consultez Configuration d’une actualisation planifiée. Cet article contient également des informations sur les passerelles de données locales.

  • Installer une passerelle personnelle : une passerelle de données locale (mode personnel) doit être installée sur l’ordinateur où se trouvent le fichier et R. Le service Power BI accède à ce classeur et restitue de nouveau tous les visuels mis à jour. Pour plus d’informations, consultez Utilisation de passerelles personnelles dans Power BI.

Considérations et limitations

Certaines limitations s’appliquent aux requêtes qui incluent des scripts R créés dans l’Éditeur Power Query :

  • Tous les paramètres de source de données R doivent être définis comme étant publics. Toutes les autres étapes d’une requête dans l’Éditeur Power Query doivent également être publiques.

    Pour obtenir les paramètres de la source de données, dans Power BI Desktop, sélectionnez Fichier>Options et paramètres>Paramètres de la source de données.

    Sélectionner les paramètres de la source de données

    Dans la boîte de dialogue Paramètres de la source de données, sélectionnez la ou les sources de données, puis sélectionnez Modifier les autorisations. Définissez le Niveau de confidentialité sur Public.

    Boîte de dialogue Paramètres de la source de données

  • Pour planifier l’actualisation de visuels R ou d’un jeu de données, activez l’actualisation planifiée et installez une passerelle de données locale (mode personnel) sur l’ordinateur contenant le classeur et R.

Vous pouvez réaliser toutes sortes de choses avec R et les requêtes personnalisées. Explorez et mettez en forme vos données exactement comme vous souhaitez les voir.

Étapes suivantes