Геопространственный анализ для телекоммуникационной отрасли

Фабрика данных Azure
Azure Data Lake
Azure Databricks
Машинное обучение Azure
Azure Maps

В этой статье рассматривается практическая архитектура, которая использует Azure Облачные службы для обработки больших объемов геопространственных данных. Он предоставляет путь вперед, когда локальные решения не масштабируется. Он также позволяет продолжать использовать текущие средства геопространственного анализа.

Apache, Apache® Spark®, GeoSpark® и Sedona® являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах. Использование этих меток не подразумевает подтверждения от Apache Software Foundation.

GeoPandas®, QGIS® и ArcGIS® являются товарными знаками своих соответствующих компаний. Никакое подтверждение не подразумевается использованием этих меток.

Архитектура

Схема архитектуры, использующая Azure Облачные службы для обработки больших объемов геопространственных данных.

Скачайте файл Visio для этой архитектуры.

Рабочий процесс

  1. Фабрика данных Azure прием геопространственных данных в Azure Data Lake Storage. Источником этих данных являются геопространственные базы данных, такие как Teradata, Oracle Spatial и PostgreSQL.
  2. Azure Key Vault защищает пароли, учетные данные, строка подключения и другие секреты.
  3. Данные помещаются в различные папки и файловые системы в Data Lake Storage в соответствии с способом обработки. На схеме показана архитектура с несколькими прыжками . Бронзовый контейнер содержит необработанные данные, серебряный контейнер содержит полу курируемые данные, а золотой контейнер содержит полностью курируемые данные.
  4. Данные хранятся в таких форматах, как GeoJson, WKT и Векторные плитки. Пакет Azure Databricks и GeoSpark / Sedona могут преобразовывать форматы и эффективно загружать, обрабатывать и анализировать крупномасштабные пространственные данные на компьютерах.
  5. Azure Databricks и Apache Sedona выполняют различные виды обработки в масштабе:
    1. Соединения, пересечения и тесселяции
    2. Пространственные выборки и статистика
    3. Пространственное индексирование и секционирование
  6. GeoPandas экспортирует данные в различных форматах для использования сторонними приложениями GIS, такими как QGIS и ARCGIS.
  7. Машинное обучение Azure извлекает аналитические сведения из геопространственных данных, определяющих, например, где и когда следует развертывать новые точки беспроводного доступа.
  8. Визуальный элемент Power BI и Azure Maps Power BI (предварительная версия) отрисовывает холст карты для визуализации геопространственных данных. Power BI использует собственный соединитель Azure Databricks для подключения к кластеру Azure Databricks.
  9. Log Analytics, средство в портал Azure, выполняет запросы к данным в журналах Azure Monitor для реализации надежной и точной системы ведения журнала для анализа событий и производительности.

Компоненты

  • Azure Data Lake Storage — это масштабируемое и безопасное озеро данных для высокопроизводительных рабочих нагрузок аналитики. С помощью Data Lake Storage можно управлять петабайтами данных с высокой пропускной способностью. Он может содержать несколько разнородных источников и данных, которые размещаются в структурированных, полуструктурированных или неструктурированных форматах.
  • Azure Databricks — это платформа аналитики данных, использующая кластеры Spark. Кластеры оптимизированы для платформы Azure Облачные службы.
  • Фабрика данных Azure — это полностью управляемая, масштабируемая и бессерверная служба интеграции данных. Он предоставляет уровень интеграции и преобразования данных, который работает с различными хранилищами данных.
  • Microsoft Power BI — это коллекция программных служб, приложений и соединителей, которые работают вместе, чтобы превратить несколько источников данных в последовательные, визуально иммерсивные и интерактивные аналитические сведения.
  • Azure Maps — это коллекция геопространственных служб и пакетов SDK, использующих свежие данные сопоставления для предоставления географического контекста веб-приложениям и мобильным приложениям.
  • Машинное обучение Azure — это полностью управляемая облачная служба, которая используется для обучения, развертывания и управления моделями машинного обучения в масштабе.
  • Azure Key Vault — это служба, которую можно использовать для безопасного хранения, управления и жесткого контроля доступа к маркерам, учетным данным, сертификатам, ключам API и другим секретам.
  • Azure Monitor — это комплексное решение для сбора, анализа и использования телеметрии из облачных и локальных сред. Его можно использовать для максимальной доступности и производительности приложений и служб.

Альтернативные варианты

  • Пулы Synapse Spark можно использовать для геопространственной аналитики вместо Azure Databricks, используя те же платформы с открытым кодом.
  • Вместо использования фабрики данных для приема данных можно использовать Центры событий Azure. Он может получать большие объемы данных непосредственно или из других служб потоковой передачи событий, таких как Kafka. Затем для обработки данных можно использовать Azure Databricks. Дополнительные сведения см. в статье "Потоковая обработка с помощью Azure Databricks".
  • Вместо Azure Databricks можно использовать База данных SQL Azure или Управляемый экземпляр SQL Azure для запроса и обработки геопространственных данных. Эти базы данных предоставляют знакомый язык T-SQL, который можно использовать для геопространственного анализа. Дополнительные сведения см. в разделе "Пространственные данные" (SQL Server).
  • Как и центры событий, Центр Интернета вещей Azure могут получать большие объемы данных от датчиков и телекоммуникационных устройств Интернета вещей. Вы можете использовать Центр Интернета вещей двунаправленную возможность для безопасного взаимодействия с устройствами и потенциального управления ими с централизованной платформы в облаке.
  • Azure Maps можно использовать для предоставления географического контекста веб-приложениям и мобильным приложениям. Помимо аналитики расположения Azure Maps может выполнять поиск по адресам, местам и точкам интереса для получения сведений о трафике в режиме реального времени. Visual Power BI в Azure Maps предоставляет одинаковые возможности как в Power BI Desktop, так и в служба Power BI.

Подробности сценария

Аналитика расположения и геопространственной аналитики может выявить важные региональные тенденции и поведение, влияющие на телекоммуникационные компании. Компании могут использовать такие знания для повышения их радиосвязи и беспроводного покрытия, и, следовательно, получить конкурентное преимущество.

Телекоммуникационные компании имеют большие объемы географически распределенных данных активов, большинство из которых — данные телеметрии пользователей. Данные поступают из радиосетей, устройств с датчиками Интернета вещей и устройствами удаленного датчика, которые захватывают геопространственные данные. Он находится в различных структурированных и полуструктурированных форматах, таких как изображения, GPS, спутник и текстовый формат. Для использования требуется агрегирование и присоединение к нему с другими источниками, такими как региональные карты и данные трафика.

После агрегирования и объединения данных задача заключается в извлечении аналитических сведений из него. Исторически телекоммуникационные компании опирались на устаревшие системы, такие как локальные базы данных с геопространственных возможностями. В конечном итоге такие системы достигли ограничений масштабируемости из-за постоянно увеличивающегося объема данных. Кроме того, им требуется стороннее программное обеспечение для выполнения задач, которые не могут выполнять геопространственные системы баз данных.

Потенциальные варианты использования

Это решение идеально подходит для телекоммуникационной отрасли и применяется к следующим сценариям:

  • Анализ сведений о сигналах в разных расположениях для оценки качества сети
  • Анализ данных сетевой инфраструктуры в режиме реального времени для руководства по обслуживанию и восстановлению
  • Анализ сегментации рынка и спроса на рынок
  • Определение связей между расположениями клиентов и маркетинговыми кампаниями компании
  • Создание планов емкости и покрытия для обеспечения подключения и качества обслуживания

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

При реализации этого решения рекомендуется использовать microsoft Azure Well-Architected Framework . Платформа предоставляет технические рекомендации в пяти основных аспектах: оптимизация затрат, безопасность, надежность, эффективность производительности и эффективность работы.

Производительность

  • Следуйте руководствам по программированию Apache Sedona по шаблонам проектирования и рекомендациям по настройке производительности.
  • Геопространственный индексирование имеет решающее значение для обработки крупномасштабных геопространственных данных. Apache Sedona и другие платформы индексирования с открытым кодом, такие как H3 , предоставляют эту возможность.
  • Платформа GeoPandas не имеет распределенных функций GeoSpark / Apache Sedona. Таким образом, как можно больше, используйте платформу Sedona для геопространственной обработки.
  • Рекомендуется использовать встроенные функции Sedona для проверки геометрического форматирования перед обработкой.

Безопасность

Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в разделе "Общие сведения о компоненте безопасности".

Для повышения безопасности рекомендуется использовать следующее руководство.

Оптимизация затрат

Оптимизация затрат заключается в поиске способов уменьшения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".

  • Чтобы оценить стоимость реализации этого решения, используйте калькулятор цен Azure для указанных выше служб.
  • Power BI поставляется с различными предложениями лицензирования. Дополнительные сведения см. в статье Цены на Power BI.
  • Увеличение затрат при необходимости масштабирования конфигураций кластера Azure Databricks. Это зависит от объема данных и сложности анализа. Рекомендации по настройке кластера см. в статье "Рекомендации по настройке кластера Azure Databricks : конфигурация кластера".
  • Общие сведения о принципе оптимизации затрат см. в статье "Общие сведения о способах минимизации затрат".
  • Сторонние компоненты, такие как QGIS и ARCGIS, см. на веб-сайтах поставщиков для получения сведений о ценах.
  • Платформы, упомянутые в этом решении, такие как Apache Sedona и GeoPandas, являются бесплатными платформами с открытым исходным кодом.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

Следующие шаги