Modifier

Analyse géospatiale pour le secteur des télécommunications

Azure Data Factory
Azure Data Lake
Azure Databricks
Azure Machine Learning
Azure Maps

L’objectif de cet article est de présenter une architecture pratique qui utilise Azure Cloud Services pour traiter de grands volumes de données géospatiales. Elle permet d’aller de l’avant quand les solutions locales ne peuvent pas être mises à l’échelle. Elle permet également de continuer à utiliser les outils d’analyse géospatiales actuels.

Apache®, Apache Spark®, GeoSpark® et Sedona® sont soit des marques déposées, soit des marques commerciales d’Apache Software Foundation aux États-Unis et/ou dans d’autres pays. L’utilisation de ces marques n’implique aucune approbation de l’Apache Software Foundation.

GeoPandas®, QGIS® et ArcGIS® sont des marques commerciales de leurs sociétés respectives. L’utilisation de ces marques n’implique aucune approbation.

Architecture

Diagramme montrant une architecture qui utilise Azure Cloud Services pour traiter de grands volumes de données géospatiales.

Téléchargez un fichier Visio de cette architecture.

Workflow

  1. Azure Data Factory ingère les données géospatiales dans Azure Data Lake Storage. Ces données proviennent de bases de données géospatiales telles que Teradata, Oracle Spatial et PostgreSQL.
  2. Azure Key Vault sécurise les mots de passe, les informations d’identification, les chaînes de connexion et autres secrets.
  3. Les données sont placées dans différents dossiers et systèmes de fichiers dans Data Lake Storage en fonction de la façon dont elles ont été traitées. Le diagramme illustre une architecture à plusieurs tronçons. Le conteneur Bronze contient des données brutes, le conteneur Silver contient des données semi-organisées et le conteneur Gold contient des données entièrement organisées.
  4. Les données sont stockées dans des formats tels que GeoJson, WKT et les tuiles vectorielles. Azure Databricks et le package GeoSpark/Sedona peuvent convertir les formats et charger, traiter et analyser efficacement des données spatiales à grande échelle sur plusieurs machines.
  5. Azure Databricks et Apache Sedona effectuent différents types de traitement à grande échelle :
    1. Jointures, intersections et pavages
    2. Échantillonnage spatial et statistiques
    3. Indexation spatiale et partitionnement
  6. GeoPandas exporte les données dans différents formats pour une utilisation par des applications SIG tierces telles que QGIS et ARCGIS.
  7. Azure Machine Learning extrait des insights des données géospatiales, en déterminant, par exemple, où et quand déployer de nouveaux points d’accès sans fil.
  8. Power BI et le visuel Azure Maps Power BI (préversion) affichent un canevas de carte qui permet de visualiser les données géospatiales. Power BI utilise un connecteur Azure Databricks natif pour se connecter à un cluster Azure Databricks.
  9. Log Analytics, outil disponible dans le portail Azure, exécute des requêtes sur les données des journaux d’Azure Monitor pour implémenter un système de journalisation robuste et précis afin d’analyser les événements et les performances.

Composants

  • Azure Data Lake Storage est un lac de données évolutif et sécurisé pour les charges de travail d’analytique hautes performances. Vous pouvez utiliser Data Lake Storage pour gérer des pétaoctets de données avec un débit élevé. Il peut prendre en charge plusieurs sources hétérogènes et des données qui se trouvent dans des formats structurés, semi-structurés ou non structurés.
  • Azure Databricks est une plateforme d’analytique données qui utilise des clusters Spark. Les clusters sont optimisés pour la plateforme Azure Cloud Services.
  • Azure Data Factory est un service d’intégration de données serverless, scalable et complètement managé. Il fournit une couche d’intégration et de transformation des données qui fonctionne avec différents magasins de données.
  • Microsoft Power BI est un ensemble de services logiciels, d’applications et de connecteurs qui œuvrent de concert pour transformer plusieurs sources de données en insights cohérents, visuellement immersifs et interactifs.
  • Azure Maps est une collection de services géospatiaux et de kits de développement logiciel (SDK) qui utilisent des données cartographiques actualisées pour fournir un contexte géographique précis à des applications web et mobiles.
  • Azure Machine Learning est un service cloud complètement managé qui permet d’entraîner, de déployer et de gérer des modèles Machine Learning à grande échelle.
  • Azure Key Vault est un service qui peut être utilisé pour stocker les jetons, informations d’identification, certificats, clés API et autres secrets de manière sécurisée ainsi que pour les gérer et en contrôler étroitement l’accès.
  • Le service Azure Monitor est une solution complète pour la collecte, l’analyse et l’exploitation de la télémétrie de vos environnements cloud et locaux. Vous pouvez l’utiliser pour optimiser la disponibilité et les performances de vos applications et services.

Autres solutions

  • Vous pouvez utiliser des pools Synapse Spark pour l’analytique géospatiale au lieu d’Azure Databricks, en utilisant les mêmes frameworks open source.
  • Au lieu d’utiliser Data Factory pour ingérer des données, vous pouvez utiliser Azure Event Hubs. Il peut recevoir des quantités massives de données directement ou à partir d’autres services de streaming d’événements tels que Kafka. Vous pouvez ensuite utiliser Azure Databricks pour traiter les données. Pour plus d’informations, consultez Traitement de flux de données avec Azure Databricks.
  • Au lieu d’Azure Databricks, vous pouvez utiliser Azure SQL Database ou Azure SQL Managed Instance pour interroger et traiter les données géospatiales. Ces bases de données fournissent le langage T-SQL familier, que vous pouvez utiliser pour l’analyse géospatiale. Pour plus d’informations, consultez Données spatiales (SQL Server).
  • Comme Event Hubs, Azure IoT Hub peut ingérer de grandes quantités de données à partir de capteurs et d’appareils IoT de télécommunications. Vous pouvez utiliser la capacité bidirectionnelle d’IoT Hub pour communiquer de manière sécurisée avec les appareils et éventuellement les gérer et les contrôler à partir d’une plateforme centralisée dans le cloud.
  • Vous pouvez utiliser Azure Maps pour fournir un contexte géographique à vos applications web et mobiles. En plus d’utiliser l’intelligence géographique, Azure Maps peut parcourir les services afin de rechercher des adresses, des lieux et des points d’intérêt pour obtenir des informations de trafic en temps réel. Le visuel Azure Maps Power BI offre les mêmes fonctionnalités dans Power BI Desktop et le service Power BI.

Détails du scénario

L’intelligence géographique et l’analyse géospatiale peuvent dévoiler des tendances et des comportements régionaux importants qui affectent les entreprises de télécommunications. Les entreprises peuvent utiliser ces connaissances pour améliorer leur signal radio et leur couverture sans fil, et ainsi bénéficier d’un avantage concurrentiel.

Les entreprises de télécommunications ont de grands volumes de données de ressources géographiquement dispersées, essentiellement constituées de télémétrie utilisateur. Les données proviennent de réseaux radio, d’appareils de détection IoT et de dispositifs de détection à distance qui capturent des données géospatiales. Elles se trouvent dans différents formats structurés et semi-structurés, tels que les données d’imagerie, de GPS, de satellite et de texture. Pour utiliser ces données, vous devez les agréger et les joindre à d’autres sources telles que des cartes régionales et des données de trafic.

Une fois que les données sont agrégées et jointes, le défi consiste à en extraire des insights. Historiquement, les entreprises de télécommunications s’appuyaient sur des systèmes hérités, tels que des bases de données locales avec des fonctionnalités géospatiales. Ces systèmes ont fini par atteindre des limites de scalabilité en raison de la quantité croissante des données. En outre, ils ont besoin d’un logiciel tiers pour effectuer des tâches que les systèmes de base de données géospatiales ne peuvent pas réaliser.

Cas d’usage potentiels

Cette solution est idéale pour le secteur des télécommunications et s’applique aux scénarios suivants :

  • Analyse des informations de signal à travers les différents emplacements pour évaluer la qualité du réseau
  • Analyse des données de l’infrastructure réseau en temps réel pour guider la maintenance et la réparation
  • Analyse de la segmentation et de la demande du marché
  • Identification des relations entre les sites clients et les campagnes marketing de l’entreprise
  • Création de plans de capacité et de couverture pour garantir la connectivité et la qualité de service

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Envisagez de suivre le Microsoft Azure Well-Architected Framework lors de l’implémentation de cette solution. Le framework fournit des conseils techniques organisés en cinq piliers : optimisation des coûts, sécurité, fiabilité, efficacité des performances et excellence opérationnelle.

Performances

  • Suivez les guides de programmation Apache Sedona sur les modèles de conception et les bonnes pratiques en matière de réglage des performances.
  • L’indexation géospatiale est cruciale pour le traitement de données géospatiales à grande échelle. Apache Sedona et d’autres frameworks d’indexation open source, tels que H3, offrent cette fonctionnalité.
  • Le framework GeoPandas ne dispose pas des fonctionnalités distribuées de GeoSpark/Apache Sedona. Ainsi, dans la mesure du possible, utilisez le framework Sedona pour le traitement géospatial.
  • Envisagez d’utiliser les fonctions intégrées de Sedona pour valider la mise en forme des données géométriques avant d’effectuer le traitement.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

Pour une meilleure sécurité, suivez ces conseils :

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

  • Pour estimer le coût d’implémentation de cette solution, utilisez la Calculatrice de prix Azure pour les services mentionnés plus haut.
  • Power BI est fourni avec différentes offres de licences. Pour plus d’informations, consultez Tarification de Power BI.
  • Vos coûts augmentent si vous devez mettre à l’échelle vos configurations de cluster Azure Databricks. Cela dépend de la quantité de données et de la complexité de l’analyse. Pour connaître les bonnes pratiques en matière de configuration de cluster, consultez Bonnes pratiques pour la configuration de cluster dans la documentation d’Azure Databricks.
  • Consultez Vue d’ensemble du pilier d’optimisation des coûts pour savoir comment réduire les coûts.
  • Pour les composants tiers tels que QGIS et ARCGIS, consultez les sites web des fournisseurs afin d’obtenir des informations sur les tarifs.
  • Les frameworks mentionnés dans cette solution, telles qu’Apache Sedona et GeoPandas, sont des frameworks open source gratuits.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Étapes suivantes