Technologies Azure pour le processus d’apprentissage

Effectué

Dans cette unité, vous découvrez comment appliquer les résultats de l’étape de mesure dans le cycle de vie de l’innovation. Vous découvrez aussi l’importance de la démocratisation des données.

Démocratisation des données

Comme vous l’avez découvert dans les unités précédentes, vous pouvez collecter des données auprès de vos clients en utilisant plusieurs sources. Ces sources incluent les micro-enquêtes, les données d’utilisation dérivées d’Azure Application Insights et les indicateurs de fonctionnalités que les clients peuvent décider eux-mêmes d’activer ou non. Plus vous avez de données, meilleures sont vos décisions, mais vous avez besoin d’un moyen de gérer ce flux de données en constante augmentation.

En 2014, Satya Nadella avait parlé de l’importance de la culture des données dans une organisation. Il disait que les décisions ne devraient pas être prises en fonction de sentiments ou d’opinions subjectives, mais en utilisant des données pour les valider. Il disait aussi que les données devaient être disponibles pour chaque personne qui en a besoin, et qu’elles devaient être facilement converties en insights actionnables pour faciliter les décisions basées sur les données.

Une organisation peut prendre des décisions à partir de ses données toujours plus présentes seulement si ces décisions sont basées sur une plateforme de données solide et accessible. Cet effort implique quatre domaines :

  • Collecter les données : la première étape de la prise de décisions pilotées par les données est toujours de disposer de données. La collecte des données peut prendre plusieurs formes : migration à partir de référentiels de données existants, génération de données depuis de nouvelles sources comme Azure Application Insights ou ingestion de données provenant d’autres sources.
  • Partager les données : les données collectées doivent être accessibles à tous ceux qui en ont besoin, et pas seulement aux experts en données. Toutes les personnes d’une organisation doivent être en mesure d’utiliser des données pour prendre leurs décisions.
  • Centraliser les données : les plateformes de données centralisées permettent de simplifier le partage et la gouvernance des données.
  • Gouverner les données : le partage de données ne signifie pas que toutes les données doivent être disponibles pour tout le monde. Vérifiez que toutes les données sensibles sont sécurisées, suivies et gouvernées avant de les partager.

Plateforme de données Azure

La plateforme Azure couvre l’ensemble du cycle de vie des données, ce qui fondamental pour la prise de décision basée sur les données et la démocratisation des données. Des bases de données légères à la demande aux entrepôts de données massives ou à des systèmes NoSQL flexibles, la plateforme de données Azure vous permet de couvrir les quatre domaines d’activité des données.

Collecte de données

L’écosystème de données Azure comprend des services et des outils permettant de migrer, ingérer, stocker et analyser les données. La liste suivante montre seulement quelques-uns des mécanismes qui peuvent être utilisés pour traiter les données et les rendre disponibles pour un partage ultérieur, afin de faciliter la prise de décision pilotée par les données :

  • Analytique données : Azure Synapse Analytics est un service d’analytique d’entreprise qui raccourcit le délai d’obtention d’insights sur l’ensemble des entrepôts de données et des systèmes Big Data. Azure Synapse Analytics rassemble le meilleur des éléments suivants :
    • Technologies SQL utilisées dans l’entreposage des données d’entreprise.
    • Les technologies Spark utilisées pour le Big Data.
    • Pipelines pour l’intégration de données et ETL (extraction, transformation, chargement) et ELT (extraction, chargement, transformation).
    • Intégration forte avec d’autres services Microsoft, comme Power BI, Azure Cosmos DB et Azure Machine Learning.
  • Migration des données : les données peuvent être déjà stockées dans des sources existantes, mais elles doivent être migrées vers une plateforme moderne avant de pouvoir être converties en insights actionnables. Azure Database Migration Service contient des outils qui facilitent la migration de données depuis des systèmes comme SQL Server, PostgreSQL, Oracle et MongoDB.
  • Traitement des données : Azure comprend des services permettant d’analyser et de transformer les flux de données avec Azure Stream Analytics, et d’exécuter des processus ETL à grande échelle avec Azure Data Factory.

Partage des données

Microsoft Power BI est un ensemble d’outils qui regroupent les données provenant de sources disparates en visualisations intégrées et interactives. Les utilisateurs peuvent explorer les données simplement en manipulant des contrôles intuitifs. La puissance des insights est disponible pour toutes les personnes d’une organisation, et pas seulement pour les professionnels des données.

Les propriétaires des différents domaines peuvent créer des rapports et des tableaux de bord qui contiennent les informations pertinentes sur des aspects spécifiques de l’application. Une fois que de nouvelles fonctionnalités ont été introduites pour valider une hypothèse, les données sont facilement disponibles pour valider ou rejeter l’hypothèse en fonction de l’utilisation réelle des clients.

Microsoft Power BI peut vous aider à partager les données de plusieurs façons. Voici quelques exemples :

  • Partager des données avec des collègues et des partenaires : les tableaux de bord Power BI simplifient la consommation des données. Les visualisations permettent aux personnes qui ne sont pas des experts en données d’explorer les données sans avoir à connaître leur structure sous-jacente.
  • Générer rapidement des insights de données : Power BI peut générer automatiquement des visualisations de jeux de données avec sa fonctionnalité Quick Insights. Vous pouvez créer rapidement des tableaux de bord et rechercher des corrélations de données qui n’ont peut-être pas été évidentes dans un premier temps.
  • Incorporer des rapports dans un site web ou un portail : avec Power BI, non seulement les visualisations sont accessibles dans le portail Power BI natif, mais les rapports et les tableaux de bord peuvent également être incorporés dans d’autres applications web. De cette façon, les utilisateurs n’ont pas besoin de quitter leurs sites web d’entreprise familiers pour trouver les données dont ils ont besoin pour leur processus décisionnel.

Centralisation des données

Le principal problème de la centralisation des données est la mise à l’échelle à différents niveaux. Au risque de simplifier, nous pouvons la réduire aux trois V du Big Data :

  • Volume : Azure Data Lake Storage Gen2 est une plateforme Azure économique et évolutive pour le stockage de données. Basé sur la scalabilité massive fournie par Stockage Azure, Azure Data Lake Storage a été conçu pour traiter plusieurs pétaoctets d’informations tout en assurant un débit de centaines de gigabits.
  • Variété : ce terme fait souvent référence au fait que les données ne sont pas toujours structurées. Vous pouvez aussi avoir des données semi-structurées et même non structurées. Azure Synapse se distingue dans ce domaine, car il rassemble le meilleur des technologies SQL utilisées dans l’entreposage des données d’entreprise avec Spark, qui est souvent utilisé pour le Big Data.
  • Vélocité : un problème souvent constaté dans les architectures de données plus anciennes est l’interdépendance entre la capacité de stockage, la vitesse d’analyse et les débits d’ingestion. Dans les solutions de données Azure, une organisation peut mettre à l’échelle indépendamment les différentes dimensions de la plateforme, en les découplant. Les données peuvent être ingérées, traitées et partagées via des pipelines de données qui utilisent les services de données Azure nécessaires, comme le montre Architecture du décisionnel d’entreprise.

Gouvernance des données

Dans le monde actuel, les données représentent à la fois une ressource critique et une responsabilité importante. Les données stockées incluent souvent des informations confidentielles qui peuvent entraîner des dommages personnels ou financiers si elles sont divulguées ou partagées de façon inappropriée. Le stockage et le traitement des données signifie implicitement qu’une organisation accepte cette responsabilité. Les réglementations légales peuvent entraîner des pénalités pour les organisations qui gèrent incorrectement les données personnelles ou confidentielles.

Par conséquent, la gouvernance des données est critique pour les organisations ayant un objectif de démocratisation des données. La première étape de la gouvernance des données est la classification des données qui doivent être traitées de façon spécifique. Par exemple, Microsoft utilise ces catégories de données en interne pour la classification des données :

  • Non professionnelles : données concernant votre vie personnelle, qui n’appartiennent pas à Microsoft.
  • Publiques : données d’entreprise qui sont mises à disposition librement et destinées à être utilisées publiquement.
  • Générales : données d’entreprise non destinées à une audience publique.
  • Confidentielles : données d’entreprise susceptibles de nuire à Microsoft si elles sont partagées.
  • Hautement confidentielles : données d’entreprise susceptibles de porter un préjudice important à Microsoft si elles sont partagées.

L’étape suivante après la classification des données est de vérifier que chaque catégorie de données est protégée contre les accès non autorisés. Azure prend en charge différentes technologies qui font respecter la confidentialité :

  • Chiffrement des données au repos : toutes les données Azure sont chiffrées quand elles sont stockées dans des centres de données Microsoft. Certains services Azure offrent des fonctionnalités de chiffrement spécifiques, comme Transparent Data Encryption dans Azure Synapse et Azure SQL Database.
  • Chiffrement des données au vol : tous les services de données Azure chiffrent les données avec TLS/SSL avant de les envoyer sur le réseau. Certains services, comme Stockage Azure, peuvent autoriser en option le trafic non chiffré. Les organisations doivent désactiver toute communication non chiffrée pour les types de données sensibles.
  • Contrôle de l’accès aux données : Azure offre des mécanismes d’authentification et d’autorisation sophistiqués pour l’accès à la plateforme Azure et pour l’accès aux données elles-mêmes. Contrôle d’accès en fonction du rôle (RBAC) Azure, Accès conditionnel et Privileged Identity Management sont des exemples de services essentiels qui peuvent aider à garantir que seules les personnes autorisées ont accès à des informations sensibles.
  • Audit des données : de nombreuses normes de conformité aux réglementations exigent une preuve des mécanismes de protection des données, en documentant qui a effectué certaines opérations et qui a accédé à certaines données. Comme décrit dans Audit pour Azure SQL Database et Azure Synapse Analytics, l’audit des données dans Azure vise trois aspects de l’audit :
    • Conserver une piste d’audit d’événements sélectionnés, où vous pouvez définir des catégories d’actions de données à auditer.
    • Produire des rapports sur l’activité des bases de données, éventuellement avec des rapports et des tableaux de bord préconfigurés pour démarrer rapidement.
    • Analyser les rapports pour découvrir les événements suspects, les activités inhabituelles et les tendances

État d’esprit de développement

La phase d’apprentissage est parfois à l’origine de mauvaises nouvelles. Des hypothèses que vous pensiez être correctes peuvent s’avérer erronées. Être ouvert à des idées alternatives est essentiel au bon déroulement du processus d’innovation. Il est possible que toute l’hypothèse était erronée ou que seule la façon dont le prototype a été développé soit le problème.

Dans tous les cas, les conclusions doivent toujours s’appuyer sur des données. L’équipe doit passer à la formulation de l’hypothèse suivante, qui peut être une révision ou une itération de la première.

Les données existantes risquent de ne pas vous permettent de conclure sans équivoque au caractère correct ou erroné de l’hypothèse. Dans ce cas, le jeu de données qui participe au processus de décision doit être amélioré. Introduisez de nouveaux points de télémétrie dans l’application ou recherchez de nouvelles façons d’obtenir des informations sur l’expérience client.

Un état d’esprit orienté vers la croissance est fondamental à ce stade. Considérez les hypothèses qui se sont avérées erronées ou partiellement erronées comme des opportunités d’apprendre. Les organisations ne devraient pas perdre de temps sur une innovation qui ne produit pas les résultats attendus en termes d’activité.

Que consulter ensuite ?

La plupart des concepts de cette unité sont décrits plus en détails dans la documentation du Cloud Adoption Framework sur la démocratisation des données.