Análisis geoespacial para el sector de las telecomunicaciones

Azure Data Factory
Azure Data Lake
Azure Databricks
Azure Machine Learning
Azure Maps

El objetivo de este artículo es presentar una arquitectura práctica que usa Azure Cloud Services para procesar grandes volúmenes de datos geoespaciales. Proporciona un camino a seguir cuando las soluciones locales no escalan. También permite el uso continuado de las herramientas de análisis geoespacial actuales.

Apache®, Apache Spark®, GeoSpark® y Sedona® son marcas comerciales registradas o marcas comerciales de Apache Software Foundation en los Estados Unidos u otros países. El uso de estas marcas no implica la aprobación de Apache Software Foundation.

GeoPandas®, QGIS® y ArcGIS® son marcas comerciales de sus respectivas empresas. El uso de estas marcas no implica ninguna aprobación.

Architecture

Diagrama de una arquitectura que utiliza Azure Cloud Services para procesar grandes volúmenes de datos geoespaciales.

Descargue un archivo Visio de esta arquitectura.

Flujo de trabajo

  1. Azure Data Factory ingiere datos geoespaciales en Azure Data Lake Storage. El origen de estos datos son bases de datos geoespaciales como Teradata, Oracle Spatial y PostgreSQL.
  2. Azure Key Vault protege contraseñas, credenciales, cadenas de conexión y secretos.
  3. Los datos se colocan en varias carpetas y sistemas de archivos en Data Lake Storage según cómo se hayan procesado. El diagrama muestra una arquitectura de múltiples saltos. El contenedor de bronce contiene datos sin procesar, el contenedor de plata contiene datos semiprotegidos y el contenedor dorado contiene datos completamente protegidos.
  4. Los datos se almacenan en formatos como GeoJson, WKT y elementos de vector. Azure Databricks y el paquete GeoSpark / Sedona pueden convertir formatos y cargar, procesar y analizar datos espaciales a gran escala de forma eficaz en cualquier máquina.
  5. Azure Databricks y Apache Sedona realizan varios tipos de procesamiento a escala:
    1. Combinaciones, intersecciones y teselaciones
    2. Muestreo espacial y estadísticas
    3. Indexación espacial y creación de particiones
  6. GeoPandas exporta datos en varios formatos para que se usen en aplicaciones GIS de terceros, como QGIS y ARCGIS.
  7. Azure Machine Learning extrae información de datos geoespaciales, determinando, por ejemplo, dónde y cuándo implementar nuevos puntos de acceso inalámbrico.
  8. Power BI y el objeto visual de Azure Maps Power BI (versión preliminar) representan un lienzo de mapa para visualizar datos geoespaciales. Power BI usa un conector Azure Databricks nativo para conectarse a un clúster Azure Databricks.
  9. Log Analytics, una herramienta de Azure Portal, ejecuta consultas en los datos de los registros de Azure Monitor para implementar un sistema de registro sólido y detallado para analizar eventos y rendimiento.

Componentes

  • Azure Data Lake Storage es un lago de datos seguro y escalable para cargas de trabajo de análisis de alto rendimiento. Puede usar Data Lake Storage para administrar petabytes de datos con alto rendimiento. Puede alojar varios orígenes heterogéneos y datos estructurados, semiestructurados o sin estructura.
  • Azure Databricks es una plataforma de análisis de datos que usa clústeres de Spark. Los clústeres están optimizados para la plataforma de Azure Cloud Services.
  • Azure Data Factory es un servicio de integración de datos sin servidor, escalable y totalmente administrado. Proporciona una capa de transformación e integración de datos que funciona con varios almacenes de datos.
  • Microsoft Power BI es una colección de servicios de software, aplicaciones y conectores que funcionan conjuntamente para convertir múltiples orígenes de datos en información coherente, interactiva y visualmente atractiva.
  • Azure Maps es una colección de servicios geoespaciales y SDK que emplea datos de mapas recientes para proporcionar contexto geográfico a las aplicaciones web y móviles.
  • Azure Machine Learning es un servicio en la nube totalmente administrado que se utiliza para entrenar, implementar y administrar modelos de aprendizaje automático a escala.
  • Azure Key Vault es un servicio que se puede utilizar para almacenar de forma segura, administrar y controlar de manera estricta el acceso a tokens, credenciales, certificados, claves de API y otros secretos.
  • Azure Monitor es una solución completa para recopilar, analizar y actuar en la telemetría desde los entornos local y en la nube. Puede usarla para maximizar la disponibilidad y el rendimiento de las aplicaciones y los servicios.

Alternativas

  • Puede usar grupos de Spark de Synapse para el análisis geoespacial en lugar de Azure Databricks, mediante los mismos marcos de código abierto.
  • En lugar de usar Data Factory para ingerir datos, puede usar Azure Event Hubs. Puede recibir grandes cantidades de datos directamente o de otros servicios de streaming de eventos, como Kafka. A continuación, puede usar Azure Databricks para procesar los datos. Para obtener más información, consulte Procesamiento de stream con Azure Databricks.
  • En lugar Azure Databricks, puede usar Azure SQL Database o Azure SQL Managed Instance para consultar y procesar datos geoespaciales. Estas bases de datos proporcionan el conocido lenguaje T-SQL, que puede usar para el análisis geoespacial. Para obtener más información, consulte Datos espaciales (SQL Server).
  • Como Event Hubs, Azure IoT Hub puede ingerir grandes cantidades de datos de dispositivos IoT de sensor y telecomunicaciones. Puede usar la capacidad bidireccional de IoT Hub para comunicarse de forma segura con los dispositivos y, potencialmente, administrarlos y controlarlos desde una plataforma centralizada en la nube.
  • Puede usar Azure Maps para proporcionar contexto geográfico a las aplicaciones web y móviles. Además de la inteligencia de ubicación, Azure Maps puede localizar servicios para buscar direcciones, lugares y puntos de interés para obtener información de tráfico en tiempo real. El objeto visual de Azure Maps Power BI proporciona las mismas funcionalidades tanto en Power BI Desktop como en el servicio de Power BI.

Detalles del escenario

La inteligencia de ubicación y el análisis geoespacial pueden descubrir tendencias y comportamientos regionales importantes que afectan a las empresas de telecomunicaciones. Las empresas pueden usar estos conocimientos para mejorar su señal de radio y cobertura inalámbrica, y así obtener ventajas competitivas.

Las empresas de telecomunicaciones tienen grandes volúmenes de datos de recursos dispersos a nivel geográfico, la mayoría de los cuales son datos de telemetría de usuario. Los datos proceden de redes de radio, dispositivos de detección de IoT y dispositivos de detección remota que capturan datos geoespaciales. Se encuentran en varios formatos estructurados y semiestructurados, como imágenes, GPS, satélite e información de textura. Para usarlos, es necesario agregarlos y unirlos a otros orígenes, como mapas regionales y datos de tráfico.

Una vez agregados y unidos los datos, el desafío es extraer información. Históricamente, las empresas de telecomunicaciones se basaban en sistemas heredados, como bases de datos locales con funcionalidades geoespaciales. Finalmente, estos sistemas alcanzaron límites de escalabilidad debido a la cantidad cada vez mayor de datos. Además, requieren software de terceros para realizar tareas que los sistemas de bases de datos geoespaciales no pueden realizar.

Posibles casos de uso

Esta solución es ideal para el sector de las telecomunicaciones y se aplica a los escenarios siguientes:

  • Análisis de la información de señal en todas las ubicaciones para evaluar la calidad de la red
  • Análisis de datos de infraestructura de red en tiempo real para guiar el mantenimiento y la reparación
  • Análisis de la segmentación y la demanda del mercado
  • Identificación de relaciones entre las ubicaciones de los clientes y las campañas de marketing de la empresa
  • Creación de planes de capacidad y cobertura para garantizar la conectividad y la calidad del servicio

Consideraciones

Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Tome en consideración seguir el Marco de buena arquitectura de Microsoft Azure al implementar la solución. El marco proporciona una guía técnica en cinco bloques: optimización de costos, seguridad, confiabilidad, eficiencia de rendimiento y excelencia operativa.

Rendimiento

  • Siga las guías de programación de Apache Sedona sobre los patrones de diseño y los procedimientos recomendados para la optimización del rendimiento.
  • La indexación geoespacial es fundamental para procesar datos geoespaciales a gran escala. Apache Sedona y otros marcos de indexación de código abierto como H3 proporcionan esta funcionalidad.
  • El marco GeoPandas no tiene las características distribuidas de GeoSpark/Apache Sedona. Por lo tanto, en la medida de lo posible, use el marco Sedona para el procesamiento geoespacial.
  • Tome en consideración la posibilidad de usar las funciones integradas de Sedona para validar el formato de geometría antes del procesamiento.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

Para mejorar la seguridad, fíjese en las instrucciones siguientes:

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

  • Para estimar el costo de implementación de esta solución, use la Calculadora de precios de Azure para los servicios mencionados anteriormente.
  • Power BI dispone de varias ofertas de licencias. Para obtener más información, consulte Precios de Power BI.
  • Los costos aumentan si es necesario escalar las configuraciones del clúster de Azure Databricks. Esto depende de la cantidad de datos y la complejidad del análisis. Consulte Azure Databricks Procedimientos recomendados: configuración del clúster, para conocer los procedimientos recomendados sobre la configuración del clúster.
  • Consulte Información general sobre el bloque de optimización de costos para ver formas de minimizar los costos.
  • Para los componentes de terceros, como QGIS y ARCGIS, consulte los sitios web del proveedor para obtener información sobre precios.
  • Los marcos mencionados en esta solución, como Apache Sedona y GeoPandas, son marcos de código abierto gratuitos.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Pasos siguientes