In diesem Artikel wird in erster Linie eine praktische Architektur gezeigt, die Azure Cloud Services verwendet, um große Mengen an Geodaten zu verarbeiten. Sie stellt eine zukunftsfähige Option dar, wenn lokale Lösungen nicht skaliert werden können. Darüber hinaus ermöglicht sie die Weiterverwendung der aktuellen Geoanalysetools.
Apache®, Apache Spark®, GeoSpark® und Sedona® sind entweder eingetragene Marken oder Marken der Apache Software Foundation in den USA und/oder anderen Ländern. Die Verwendung dieser Markierungen impliziert kein Endorsement durch die Apache Software Foundation.
GeoPandas®, QGIS® und ArcGIS® sind Marken der jeweiligen Unternehmen. Die Verwendung dieser Marken impliziert keine Empfehlung.
Aufbau
Laden Sie eine Visio-Datei dieser Architektur herunter.
Workflow
- Azure Data Factory erfasst Geodaten in Azure Data Lake Storage. Die Quelle dieser Daten sind Geodatenbanken wie Teradata, Oracle Spatial und PostgreSQL.
- Azure Key Vault schützt Kennwörter, Anmeldeinformationen, Verbindungszeichenfolgen und andere Geheimnisse.
- Daten werden entsprechend ihrer Verarbeitung in verschiedenen Ordnern und Dateisystemen in Data Lake Storage platziert. Das Diagramm zeigt eine Architektur mit mehreren Hops. Der Container „Bronze“ enthält Rohdaten, der Container „Silver“ enthält teilweise kuratierte Daten, und der Container „Gold“ enthält vollständig kuratierte Daten.
- Daten werden in Formaten wie GeoJson oder WKT oder als Vektorkacheln gespeichert. Azure Databricks und das Paket mit GeoSpark/Sedona können Formate konvertieren und umfangreiche Geodaten computerübergreifend effizient laden, verarbeiten und analysieren.
- Azure Databricks und Apache Sedona können verschiedene Verarbeitungen im großen Stil ausführen:
- Verknüpfungen, Schnittmengen und Mosaike
- Geosampling und -statistiken
- Geoindizierung und -partitionierung
- GeoPandas exportiert Daten in verschiedenen Formaten für die Verwendung in GIS-Drittanbieteranwendungen wie QGIS und ARCGIS.
- Azure Machine Learning extrahiert Erkenntnisse aus Geodaten und bestimmt beispielsweise, wo und wann neue Funkzugriffspunkte bereitgestellt werden sollen.
- Power BI und das Power BI-Visual in Azure Maps (Vorschauversion) rendern eine Kartencanvas zur Visualisierung von Geodaten. Power BI verwendet einen nativen Azure Databricks-Connector, um eine Verbindung mit einem Azure Databricks-Cluster herzustellen.
- Log Analytics, ein Tool im Azure-Portal, führt Abfragen für Daten in Azure Monitor-Protokollen aus, um ein robustes und differenziertes Protokollierungssystem zum Analysieren von Ereignissen sowie für die Leistungsanalyse zu implementieren.
Komponenten
- Azure Data Lake Storage ist ein skalierbarer und sicherer Data Lake für Hochleistungs-Analyseworkloads. Data Lake Storage ermöglicht die Verwaltung von Datenmengen im Petabytebereich mit hohem Durchsatz. Die Komponente kann für mehrere heterogene Quellen sowie für strukturierte, teilweise strukturierte und unstrukturierte Daten verwendet werden.
- Azure Databricks ist eine Datenanalyseplattform, von der Spark-Cluster verwendet werden. Die Cluster sind für die Azure Cloud Services-Plattform optimiert.
- Azure Data Factory ist ein vollständig verwalteter, skalierbarer und serverloser Datenintegrationsdienst. Er bietet eine Ebene für die Datenintegration und -transformation, die mit verschiedenen Datenspeichern verwendet werden kann.
- Microsoft Power BI ist eine Sammlung von Softwarediensten, Apps und Connectors, die zusammenarbeiten, um aus mehreren Quellen von Daten kohärente, visuell ansprechende und interaktive Erkenntnisse zu gewinnen.
- Azure Maps ist eine Sammlung von Geodiensten und SDKs, bei denen aktuelle Kartendaten verwendet werden, um einen geografischen Kontext für Webanwendungen und mobile Anwendungen bereitzustellen.
- Azure Machine Learning ist ein vollständig verwalteter Clouddienst, der zum bedarfsgesteuerten Trainieren, Bereitstellen und Verwalten von Machine Learning-Modellen verwendet wird.
- Azure Key Vault ist ein Dienst, der die sichere Speicherung, Verwaltung und präzise Steuerung des Zugriffs auf Token, Anmeldeinformationen, Zertifikate, API-Schlüssel und andere Geheimnisse ermöglicht.
- Azure Monitor ist eine umfassende Lösung für das Sammeln und Analysieren von Telemetriedaten aus Ihren Cloud- und lokalen Umgebungen und das Reagieren auf diese. Sie kann verwendet werden, um die Verfügbarkeit und Leistung Ihrer Anwendungen und Dienste zu maximieren.
Alternativen
- Anstelle von Azure Databricks können für Geoanalysen Synapse Spark-Pools mit den gleichen Open-Source-Frameworks verwendet werden.
- Für die Datenerfassung kann Azure Event Hubs anstelle von Data Factory verwendet werden. Damit können große Datenmengen direkt oder aus anderen Ereignisstreamingdiensten wie Kafka empfangen werden. Anschließend können die Daten mit Azure Databricks verarbeitet werden. Weitere Informationen finden Sie unter Datenstromverarbeitung mit Azure Databricks.
- Anstelle von Azure Databricks können Sie Azure SQL-Datenbank oder Azure SQL Managed Instance verwenden, um Geodaten abzufragen und zu verarbeiten. Diese Datenbanken ermöglichen die Verwendung der vertrauten T-SQL-Sprache für Geoanalysen. Weitere Informationen finden Sie unter Geodaten (SQL Server).
- Azure IoT Hub kann genau wie Event Hubs große Datenmengen von Sensoren und von IoT-Geräten für die Telekommunikation erfassen. Sie können die bidirektionale IoT Hub-Funktion verwenden, um sicher mit Geräten zu kommunizieren und diese ggf. über eine zentrale Plattform in der Cloud zu verwalten und zu steuern.
- Sie können Azure Maps verwenden, um geografischen Kontext für Ihre Webanwendungen und mobilen Anwendungen bereitzustellen. Neben Location Intelligence kann Azure Maps Dienste durchsuchen, um Adressen, Orte und Points of Interest zu finden und Verkehrsinformationen in Echtzeit zu erhalten. Das Power BI-Visual in Azure Maps bietet die gleichen Funktionen sowohl in Power BI Desktop als auch im Power BI-Dienst.
Szenariodetails
Location Intelligence und Geoanalysen können wichtige regionale Trends und Verhaltensweisen aufdecken, die für Telekommunikationsunternehmen relevant sind. Unternehmen können solche Erkenntnisse nutzen, um ihre Netzabdeckung zu verbessern und sich so einen Wettbewerbsvorteil zu verschaffen.
Telekommunikationsunternehmen verfügen über große Mengen geografisch verteilter Ressourcendaten, bei denen es sich größtenteils um Benutzertelemetriedaten handelt. Die Daten stammen aus Funknetzen sowie von IoT-Sensorgeräten und Fernerkundungsgeräten, die Geodaten erfassen. Sie liegen in unterschiedlichen strukturierten und teilweise strukturierten Formaten vor – beispielsweise als Bilder, GPS-Daten, Satellitenaufnahmen oder Strukturinformationen. Für die Verwendung dieser Daten müssen sie aggregiert und mit anderen Quellen wie regionalen Karten und Verkehrsdaten verknüpft werden.
Nachdem die Daten aggregiert und verknüpft wurden, besteht die Herausforderung darin, Erkenntnisse daraus zu gewinnen. In der Vergangenheit haben Telekommunikationsunternehmen dabei auf Legacysysteme wie lokale Datenbanken mit Geofunktionen gesetzt. Solche Systeme stoßen jedoch aufgrund der ständig zunehmenden Datenmenge irgendwann an ihre Skalierbarkeitsgrenzen. Außerdem wird Software von Drittanbietern benötigt, um Aufgaben auszuführen, die von den Geodatenbanksystemen nicht bewältigt werden können.
Mögliche Anwendungsfälle
Diese Lösung eignet sich perfekt für die Telekommunikationsbranche und gilt für die folgenden Szenarien:
- Standortübergreifendes Analysieren von Signalinformationen zur Bewertung der Netzqualität
- Analysieren von Netzinfrastrukturdaten in Echtzeit zur Steuerung von Wartungs- und Reparaturmaßnahmen
- Analysieren von Marktsegmentierung und -nachfrage
- Identifizieren von Beziehungen zwischen Kundenstandorten und Marketingkampagnen des Unternehmens
- Erstellen von Kapazitäts- und Abdeckungsplänen, um Konnektivität und Dienstqualität zu gewährleisten
Überlegungen
Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.
Orientieren Sie sich bei der Implementierung dieser Lösung ggf. am Microsoft Azure Well-Architected Framework. Das Framework bietet technische Anleitungen für fünf Säulen: Kostenoptimierung, Sicherheit, Zuverlässigkeit, Leistungseffizienz und optimaler Betrieb.
Leistung
- Verwenden Sie Entwurfsmuster und bewährte Methoden für die Leistungsoptimierung aus den Apache Sedona-Programmierhandbüchern.
- Die Geoindizierung ist für die Verarbeitung umfangreicher Geodaten von entscheidender Bedeutung. Apache Sedona und andere Open-Source-Indizierungsframeworks wie H3 bieten diese Funktion.
- Das GeoPandas-Framework verfügt nicht über die verteilten Features von GeoSpark/Apache Sedona. Verwenden Sie daher möglichst das Sedona-Framework für die Geoverarbeitung.
- Erwägen Sie die Verwendung der integrierten Funktionen von Sedona, um die Geometrieformatierung vor der Verarbeitung zu überprüfen.
Sicherheit
Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.
Informationen zur Verbesserung der Sicherheit finden Sie in den folgenden Leitfäden:
- Erstellen eines von Azure Key Vault unterstützten Geheimnisbereichs
- Konnektivität für sichere Cluster (keine öffentlichen IP-Adressen/NPIP)
- Speichern von Anmeldeinformationen in Azure Key Vault
- Bereitstellen von dedizierten Azure-Diensten in virtuellen Netzwerken
- Verwenden des Premium-Tarifs von Azure Databricks anstelle des Standard-Tarifs, um mehr Sicherheitsfeatures zu erhalten
- Databricks-Sicherheitsleitfaden
Kostenoptimierung
Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.
- Verwenden Sie den Azure-Preisrechner für die oben erwähnten Dienste, um die Kosten für die Implementierung dieser Lösung abschätzen zu können.
- Für Power BI sind verschiedene Lizenzierungsangebote verfügbar. Weitere Informationen finden Sie unter Power BI – Preise.
- Ihre Kosten erhöhen sich, wenn Sie Ihre Azure Databricks-Clusterkonfigurationen skalieren müssen. Dies hängt von der Datenmenge und der Komplexität der Analyse ab. Bewährte Methoden für die Clusterkonfiguration finden Sie unter Bewährte Methoden: Clusterkonfiguration für Azure Databricks.
- Möglichkeiten zur Kostenminimierung finden Sie unter Übersicht über die Säule „Kostenoptimierung“.
- Preisinformationen zu Drittanbieterkomponenten wie QGIS und ARCGIS finden Sie auf der Website des jeweiligen Anbieters.
- Bei den in dieser Lösung erwähnten Frameworks wie Apache Sedona und GeoPandas handelt es sich um kostenlose Open-Source-Frameworks.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautor:
- Arash Mosharraf | Senior Cloud Solution Architect
Nächste Schritte
- Einführung in Azure Data Lake Storage Gen2
- Was ist Power BI?
- Was ist Azure Maps?
- Was ist Azure Machine Learning?
- Informationen zu Azure Key Vault
- Azure Monitor – Übersicht
- Azure Maps-Beispiele
- Azure Data Factory-Tutorials
- Apache Sedona-Programmierhandbücher
- Erste Schritte mit GeoPandas
- Erste Schritte mit GeoMesa
- Verarbeiten von Geodaten im großen Stil mit Databricks
- GIS-Dateiformate
- Referenz zu Apache Sedona
- Übersicht über das H3-Geoindizierungssystem
- Power BI und Esri ArcGIS
- QGIS
- H3: Ein hexagonales hierarchisches Geoindizierungssystem
- Wie lassen sich Roamingdaten der Mobiltelefone von Besuchern in Umsatz verwandeln?
- Wissenswertes zur 5G-Positionsbestimmungen