Choisir une analytique de données et une technologie de création de rapports dans Azure

La plupart des solutions Big Data ont pour but de fournir des informations sur les données par le biais de l’analyse et des rapports. Cela peut inclure des visualisations et des rapports préconfigurés, ou une exploration interactive des données.

Quelles sont vos options quant au choix d’une technologie d’analytique de données ?

Il existe plusieurs options pour l’analyse, les visualisations et la création de rapports dans Azure, selon vos besoins :

Power BI

Power BI est une suite d’outils d’analytique métier. Elle peut se connecter à des centaines de sources de données et peut être utilisée pour l’analyse ad hoc. Consultez cette liste des sources de données actuellement disponibles. Utilisez Power BI Embedded intégration Power BI dans vos propres applications sans nécessiter de licences supplémentaires.

Les organisations peuvent utiliser Power BI pour générer des rapports et les publier. Tout le monde peut créer des tableaux de bord personnalisés, avec gouvernance et sécurité intégrée. Power BI utilise Microsoft Entra ID pour authentifier des utilisateurs qui se connectent au service Power BI, et utilise les informations de connexion Power BI chaque fois qu’un utilisateur tente d’accéder à des ressources nécessitant une authentification.

Notebooks Jupyter

Les blocs-notes Jupyter fournissent un interpréteur de commandes basé sur navigateur permettant aux scientifiques de données de créer des fichiers blocs-notes contenant du code Python, Scala ou R ainsi que du texte Markdown. C’est un moyen efficace de collaborer en partageant et en documentant le code et les résultats dans un document unique.

La plupart des types de clusters HDInsight, notamment Spark ou Hadoop, sont préconfigurés avec des blocs-notes Jupyter pour interagir avec les données et envoyer les travaux pour le traitement. Selon le type du cluster HDInsight que vous utilisez, un ou plusieurs noyaux seront fournis pour l’interprétation et l’exécution de votre code. Par exemple, les clusters Spark sur HDInsight fournissent des noyaux Spark liés que vous pouvez sélectionner pour exécuter du code Python ou Scala à l’aide du moteur Spark.

Les blocs-notes Jupyter fournissent un environnement idéal pour l’analyse, la visualisation et le traitement de vos données avant de générer des visualisations plus avancées avec un outil BI ou de création de rapports comme Power BI.

Blocs-notes Zeppelin

Les blocs-notes Zeppelin offrent également un interpréteur de commandes basé sur navigateur, similaire à Jupyter en termes de fonctionnalité. Certains clusters HDInsight sont préconfigurés avec des blocs-notes Zeppelin. Toutefois, si vous utilisez un cluster HDInsight Interactive Query (Hive LLAP), Zeppelin est actuellement le seul choix possible de blocs-notes permettant d’exécuter des requêtes Hive interactives. En outre, si vous utilisez un cluster HDInsight joint à un domaine, les blocs-notes Zeppelin constituent le seul type vous permettant d’attribuer différentes connexions utilisateur afin de contrôler l’accès aux ordinateurs portables et aux tables Hive sous-jacentes.

Jupyter Notebooks dans VS Code

VS Code est un éditeur de code gratuit et une plateforme de développement que vous pouvez utiliser localement ou connecté à un calcul distant. Combiné avec l’extension Jupyter, il offre un environnement complet pour le développement Jupyter pouvant être amélioré avec des extensions de langage supplémentaires. Si vous souhaitez une expérience Jupyter gratuite et de première qualité avec la possibilité de tirer profit du calcul de votre choix, il s’agit une excellente option. À l’aide de VS Code, vous pouvez développer et exécuter des notebooks sur des dépôts distants et des conteneurs. Pour faciliter la transition à partir d’Azure Notebooks, nous avons rendu l’image conteneur disponible pour qu’elle puisse être également utilisée avec VS Code.

Jupyter (anciennement IPython Notebook) est un projet open source qui permet de combiner facilement du texte Markdown et du code source Python exécutable sur un seul canevas appelé notebook. Visual Studio Code prend en charge l’utilisation de Jupyter Notebooks en mode natif et via des fichiers de code Python.

Critères de sélection principaux

Pour restreindre les choix, commencez par répondre aux questions suivantes :

  • Devez-vous vous connecter à plusieurs sources de données, en indiquant un emplacement centralisé afin de créer des rapports pour les données réparties dans l’ensemble de votre domaine ? Dans ce cas, choisissez une option vous permettant de vous connecter à des centaines de sources de données.

  • Voulez-vous incorporer des visualisations dynamiques dans un site web externe ou une application ? Dans ce cas, choisissez une option proposant des fonctionnalités d’incorporation.

  • Souhaitez-vous concevoir vos visualisations et vos rapports en mode hors connexion ? Si oui, choisissez une option proposant des fonctionnalités hors connexion.

  • Avez-vous besoin d’une grande puissance de traitement pour l’apprentissage de modèles IA volumineux ou complexes, ou pour utiliser des jeux de données très volumineux ? Si oui, choisissez une option permettant de se connecter à un cluster de données volumineux.

Matrice des fonctionnalités

Les tableaux suivants résument les principales différences entre les fonctionnalités.

Fonctionnalités générales

Fonctionnalité Power BI Notebooks Jupyter Blocs-notes Zeppelin Jupyter Notebooks dans VS Code
Se connecter à un cluster Big Data pour un traitement avancé Oui Oui Oui Non
Service géré Oui Oui 1 Oui 1 Oui
Se connecter à des centaines de sources de données Oui No Non Non
Fonctionnalités hors ligne Oui 2 Non Non Non
Fonctionnalités d’incorporation Oui No Non Non
Actualisation automatique des données Oui No Non Non
Accès à de nombreux packages open source Non Oui 3 Oui 3 Oui 4
Options de nettoyage/transformer de données Power Query, R 40 langues, y compris Python, R, Julia et Scala Plus de 20 interpréteurs, y compris Python, JDBC et R Python, F#, R
Tarifs Gratuit pour Power BI Desktop (création), consultez la section Tarification pour les options d’hébergement Gratuit Gratuit Gratuit
Collaboration multi-utilisateur Oui Oui (via le partage ou avec un serveur multi-utilisateur comme JupyterHub) Oui Oui (via le partage)

[1] Si utilisé dans un cluster HDInsight géré.

[2] En utilisant Power BI Desktop.

[2] Vous pouvez rechercher dans le référentiel Maven des packages proposés par la communauté.

[3] Les packages Python peuvent être installés à l’aide de pip ou conda. Les packages R peuvent être installés à partir de CRAN ou de GitHub. Les packages en F # peuvent être installés via nuget.org à l’aide du Gestionnaire de dépendances Paket.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Étapes suivantes