Choisir une analytique de données et une technologie de création de rapports dans Azure
La plupart des solutions Big Data ont pour but de fournir des informations sur les données par le biais de l’analyse et des rapports. Cela peut inclure des visualisations et des rapports préconfigurés, ou une exploration interactive des données.
Il existe plusieurs options pour l’analyse, les visualisations et la création de rapports dans Azure, selon vos besoins :
- Power BI
- Blocs-notes Jupyter
- Blocs-notes Zeppelin
- Jupyter Notebooks dans Visual Studio Code (VS Code)
Power BI est une suite d’outils d’analytique métier. Elle peut se connecter à des centaines de sources de données et peut être utilisée pour l’analyse ad hoc. Consultez cette liste des sources de données actuellement disponibles. Utilisez Power BI Embedded intégration Power BI dans vos propres applications sans nécessiter de licences supplémentaires.
Les organisations peuvent utiliser Power BI pour générer des rapports et les publier. Tout le monde peut créer des tableaux de bord personnalisés, avec gouvernance et sécurité intégrée. Power BI utilise Microsoft Entra ID pour authentifier les utilisateurs qui se connectent au service Power BI, et utilise les identifiants de connexion de Power BI chaque fois qu'un utilisateur tente d'accéder à des ressources qui nécessitent une authentification.
Les blocs-notes Jupyter fournissent un interpréteur de commandes basé sur navigateur permettant aux scientifiques de données de créer des fichiers blocs-notes contenant du code Python, Scala ou R ainsi que du texte Markdown. C’est un moyen efficace de collaborer en partageant et en documentant le code et les résultats dans un document unique.
La plupart des types de clusters HDInsight, notamment Spark ou Hadoop, sont préconfigurés avec des blocs-notes Jupyter pour interagir avec les données et envoyer les travaux pour le traitement. Selon le type du cluster HDInsight que vous utilisez, un ou plusieurs noyaux seront fournis pour l’interprétation et l’exécution de votre code. Par exemple, les clusters Spark sur HDInsight fournissent des noyaux Spark liés que vous pouvez sélectionner pour exécuter du code Python ou Scala à l’aide du moteur Spark.
Les blocs-notes Jupyter fournissent un environnement idéal pour l’analyse, la visualisation et le traitement de vos données avant de générer des visualisations plus avancées avec un outil BI ou de création de rapports comme Power BI.
Les blocs-notes Zeppelin offrent également un interpréteur de commandes basé sur navigateur, similaire à Jupyter en termes de fonctionnalité. Certains clusters HDInsight sont préconfigurés avec des blocs-notes Zeppelin. Toutefois, si vous utilisez un cluster HDInsight Interactive Query (Hive LLAP), Zeppelin est actuellement le seul choix possible de blocs-notes permettant d’exécuter des requêtes Hive interactives. En outre, si vous utilisez un cluster HDInsight joint à un domaine, les blocs-notes Zeppelin constituent le seul type vous permettant d’attribuer différentes connexions utilisateur afin de contrôler l’accès aux ordinateurs portables et aux tables Hive sous-jacentes.
VS Code est un éditeur de code gratuit et une plateforme de développement que vous pouvez utiliser localement ou connecté à un calcul distant. Combiné avec l’extension Jupyter, il offre un environnement complet pour le développement Jupyter pouvant être amélioré avec des extensions de langage supplémentaires. Si vous souhaitez bénéficier d'une expérience Jupyter gratuite de premier ordre, avec la possibilité d'utiliser l'ordinateur de votre choix, il s'agit d'une excellente option. À l’aide de VS Code, vous pouvez développer et exécuter des notebooks sur des dépôts distants et des conteneurs. Pour faciliter la transition à partir d’Azure Notebooks, nous avons rendu l’image conteneur disponible pour qu’elle puisse être également utilisée avec VS Code.
Jupyter (anciennement IPython Notebook) est un projet open source qui permet de combiner facilement du texte Markdown et du code source Python exécutable sur un seul canevas appelé notebook. Visual Studio Code prend en charge l’utilisation de Jupyter Notebooks en mode natif et via des fichiers de code Python.
Pour restreindre les choix, commencez par répondre aux questions suivantes :
Devez-vous vous connecter à plusieurs sources de données, en indiquant un emplacement centralisé afin de créer des rapports pour les données réparties dans l’ensemble de votre domaine ? Dans ce cas, choisissez une option vous permettant de vous connecter à des centaines de sources de données.
Voulez-vous incorporer des visualisations dynamiques dans un site web externe ou une application ? Dans ce cas, choisissez une option proposant des fonctionnalités d’incorporation.
Souhaitez-vous concevoir vos visualisations et vos rapports en mode hors connexion ? Si oui, choisissez une option proposant des fonctionnalités hors connexion.
Avez-vous besoin d’une grande puissance de traitement pour l’apprentissage de modèles IA volumineux ou complexes, ou pour utiliser des jeux de données très volumineux ? Si oui, choisissez une option permettant de se connecter à un cluster de données volumineux.
Les tableaux suivants résument les principales différences entre les fonctionnalités.
Fonctionnalité | Power BI | Notebooks Jupyter | Blocs-notes Zeppelin | Jupyter Notebooks dans VS Code |
---|---|---|---|---|
Se connecter à un cluster Big Data pour un traitement avancé | Oui | Oui | Oui | Non |
Service géré | Oui | Oui 1 | Oui 1 | Oui |
Se connecter à des centaines de sources de données | Oui | No | Non | Non |
Fonctionnalités hors ligne | Oui 2 | Non | Non | Non |
Fonctionnalités d’incorporation | Oui | No | Non | Non |
Actualisation automatique des données | Oui | No | Non | Non |
Accès à de nombreux packages open source | Non | Oui 3 | Oui 3 | Oui 4 |
Options de nettoyage/transformer de données | Power Query, R | 40 langues, y compris Python, R, Julia et Scala | Plus de 20 interpréteurs, y compris Python, JDBC et R | Python, F#, R |
Tarifs | Gratuit pour Power BI Desktop (authoring), voir Pricing pour l'option d'hébergement | Gratuit | Gratuit | Gratuit |
Collaboration multi-utilisateur | Oui | Oui (via le partage ou avec un serveur multi-utilisateur comme JupyterHub) | Oui | Oui (via le partage) |
[1] Si utilisé dans un cluster HDInsight géré.
[2] En utilisant Power BI Desktop.
[2] Vous pouvez rechercher dans le référentiel Maven des packages proposés par la communauté.
[3] Les packages Python peuvent être installés à l'aide de pip ou de Conda. Les packages R peuvent être installés à partir de CRAN ou de GitHub. Les packages en F # peuvent être installés via nuget.org à l’aide du Gestionnaire de dépendances Paket.
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteur principal :
- Zoiner Tejada | CEO et Architecte