Semantyka grafu — omówienie

2025-05-29

Dotyczy: ✅Microsoft Fabric

Semantyka grafów umożliwia modelowanie i wykonywanie zapytań dotyczących danych jako połączonych sieci. Graf składa się z węzłów (jednostek) i krawędzi (relacji), które je łączą. Oba węzły i krawędzie mogą zawierać właściwości, tworząc rozbudowany model danych dla złożonych relacji.

Grafy doskonale nadają się do reprezentowania złożonych danych z relacjami wiele-do-wielu, struktur hierarchicznych lub powiązań sieciowych — takich jak sieci społecznościowe, systemy rekomendacji, powiązane zasoby i grafy wiedzy. W przeciwieństwie do relacyjnych baz danych, które wymagają indeksów i łączeń w celu łączenia danych między tabelami, grafy używają bezpośredniego sąsiedztwa między węzłami, umożliwiając szybkie i intuicyjne przemierzanie relacji.

Na poniższym wykresie przedstawiono scenariusz ścieżki ataku cyberbezpieczeństwa. Węzły reprezentują jednostki, takie jak źródła zewnętrzne, użytkownicy i zasoby krytyczne, a krawędzie reprezentują akcje lub relacje, które tworzą potencjalną sekwencję ataków.

Wykres przedstawiający scenariusz cyberbezpieczeństwa, w tym wiadomość e-mail wyłudzającą informacje i ścieżkę dostępu do poufnej bazy danych.

Zapytania grafu wykorzystują strukturę grafu do wykonywania zaawansowanych operacji, takich jak znajdowanie ścieżek, wzorców, najkrótszych odległości, społeczności i miar centralności. Te możliwości umożliwiają zaawansowane modelowanie relacji, interakcji, zależności i przepływów między domenami, w tym sieci społecznościowych, łańcuchów dostaw, sieci urządzeń IoT, cyfrowych reprezentacji bliźniaczych, systemów rekomendacji i struktur organizacyjnych.

Na poniższym wykresie przedstawiono scenariusz łańcucha dostaw, w którym węzły reprezentują dostawców, producentów i dystrybutorów, a krawędzie reprezentują relacje dostaw. W tym przykładzie pokazano, jak wykresy modelują przepływy i zależności w różnych kontekstach biznesowych.

Wykres dwóch dostawców, producenta i dystrybutora oraz relacji dostaw.

Dlaczego warto używać semantyki grafu?

Możliwości programu Graph oferują znaczne korzyści dzięki wykorzystaniu istniejących inwestycji w dane podczas dodawania zaawansowanego modelowania relacji:

Nie jest wymagana migracja danych — twórz modele grafu bezpośrednio z bieżących danych bez duplikowania.
Ekonomiczne rozwiązanie — eliminuje złożoność i wydatki dedykowanych baz danych grafów.
Obsługa analizy czasowej — jako baza danych szeregów czasowych można naturalnie analizować rozwój wykresów w czasie.
Modelowanie oparte na zdarzeniach — modeluje wykresy jako sekwencje zdarzeń relacji, dostosowując je do silnych możliwości przetwarzania zdarzeń.
Bezproblemowa integracja KQL — operatory grafu współpracują ze wszystkimi istniejącymi funkcjami KQL z pełną obsługą funkcji IntelliSense.

Takie podejście zapewnia modelowanie relacji klasy korporacyjnej przy zachowaniu wydajności, skalowania i znanego interfejsu. Organizacje mogą analizować złożone połączone dane między domenami — od łańcuchów dostaw i hierarchii organizacyjnych po sieci urządzeń IoT i relacje społeczne — bez dodatkowych inwestycji w infrastrukturę.

Przejściowe podejście do tworzenia grafu

Wykresy przejściowe są tworzone dynamicznie przy użyciu make-graph operatora . Te grafy istnieją w pamięci podczas wykonywania zapytania i są automatycznie odrzucane po zakończeniu zapytania.

Kluczowe cechy

Tworzenie dynamiczne — kompilowane na podstawie danych tabelarycznych przy użyciu zapytań KQL z całą strukturą znajdującej się w pamięci
Natychmiastowa dostępność — brak wymagań dotyczących wstępnego przetwarzania lub konfiguracji
Ograniczenia pamięci — rozmiar grafu jest ograniczony przez dostępną pamięć w węzłach klastra
Czynniki wydajności — topologia grafu i rozmiary właściwości określają wymagania dotyczące pamięci

Takie podejście jest optymalne dla mniejszych i średnich zestawów danych, w których potrzebna jest natychmiastowa analiza.

Przypadki użycia wykresów przejściowych

Wykresy przejściowe doskonale sprawdzają się w kilku scenariuszach.

Analiza ad hoc — jednorazowe badania wymagające szybkiego badania wzorca
Eksploracyjna analiza danych — testowanie hipotez i weryfikowanie podejść analitycznych
Małe i średnie zestawy danych — analiza ostatnich zdarzeń lub skoncentrowanych podzestawów danych w czasie rzeczywistym
Szybkie tworzenie prototypów — testowanie wzorców grafu przed wdrożeniem modeli trwałych
Dynamiczna analiza danych — często zmieniające się dane, które nie uzasadniają trwałego magazynu

Typowe aplikacje obejmują monitorowanie IoT w czasie rzeczywistym, analizę relacji łańcucha dostaw, mapowanie podróży klientów i dowolny scenariusz wymagający natychmiastowej wizualizacji relacji jednostek.

Trwałe podejście do tworzenia grafu

Wykresy trwałe stosują modeli grafów i zrzutów grafów, aby zapewnić niezawodne rozwiązania dla dużych, złożonych grafów reprezentujących sieci organizacyjne, łańcuchy dostaw, ekosystemy IoT, cyfrowe bliźniaki oraz inne powiązane obszary danych.

Kluczowe cechy grafów trwałych

Magazyn trwały — modele i migawki programu Graph są przechowywane w metadanych bazy danych w celu zapewnienia trwałości i spójności
Skalowalność — obsługa wykresów przekraczających ograniczenia pamięci dzięki możliwościom analizy w skali przedsiębiorstwa
Możliwość ponownego użycia — wielu użytkowników może wykonywać zapytania dotyczące tej samej struktury bez ponownego kompilowania, umożliwiając analizę współpracy
Optymalizacja wydajności — eliminowanie opóźnień budowy grafu w przypadku powtarzających się zapytań
Kontrola wersji — wiele migawek reprezentuje grafy w różnych momentach czasowych na potrzeby analizy historycznej
Obsługa schematu — definicje strukturalne dla różnych typów jednostek i ich właściwości

Funkcja schematu obsługuje zarówno etykiety statyczne (wstępnie zdefiniowane w modelu grafu) jak i etykiety dynamiczne (generowane w czasie wykonywania danych), zapewniając elastyczność złożonych środowisk z różnymi typami jednostek.

Przypadki użycia grafów trwałych

Trwałe wykresy są niezbędne dla:

Analityka przedsiębiorstwa — ciągłe monitorowanie procesów w złożonych sieciach
Analiza danych na dużą skalę — grafy w skali przedsiębiorstwa z milionami węzłów i relacjami
Analiza współpracy — wiele zespołów pracujących z udostępnionymi strukturami grafu
Produkcyjne przepływy pracy — zautomatyzowane systemy wymagające spójnego dostępu do grafu
Porównanie historyczne — analiza czasowa ewolucji i zmian grafu

Przykład: Trwały graf Digital Twin

Wykres przedstawiający przykład cyfrowej fabryki bliźniaczej z relacjami urządzeń i zależnościami sprzętu.

W scenariuszach cyfrowych bliźniaków i IoT, grafy trwałe wspierają regularną analizę relacji urządzeń, zależności urządzeń i ewolucji systemu w czasie. Analiza historyczna umożliwia porównywanie stanów systemowych w różnych okresach, śledzenie ewolucji zasobów i przeprowadzanie długoterminowej analizy trendów.

Przykład: trwały graf IoT i cyfrowy bliźniak

Aplikacje IoT i cyfrowych bliźniaków znacznie korzystają z utrwalonych grafów podczas modelowania złożonych relacji między urządzeniami fizycznymi a ich wirtualnymi reprezentacjami w systemach rozproszonych. Te grafy umożliwiają organizacjom:

Tworzenie kompleksowych modeli wdrożeń IoT i połączonych zasobów
Obsługa monitorowania w czasie rzeczywistym, konserwacji predykcyjnej i optymalizacji wydajności
Analizowanie zależności sprzętu i identyfikowanie potencjalnych punktów awarii
Optymalizowanie umieszczania czujników za pomocą rozumienia topologii fizycznej i logicznej
Śledzenie konfiguracji, komunikacji i wydajności urządzeń w czasie
Wykrywanie anomalii wzorca komunikacji i wizualizowanie ewolucji środowiska inteligentnego
Symulowanie warunków operacyjnych przed wdrożeniem zmian infrastruktury fizycznej

To trwałe podejście okazuje się nieocenione do zarządzania złożonymi ekosystemami IoT na dużą skalę.

Możliwości wykonywania zapytań w grafach

Po stworzeniu grafu (przez make-graph lub na podstawie migawki) możesz wykorzystać pełen zestaw operatorów grafowych KQL do przeprowadzenia kompleksowej analizy.

Operatory podstawowe:

graph-match - Umożliwia zaawansowane dopasowywanie wzorców i operacje przeszukiwania w celu identyfikacji złożonych sekwencji relacji
graph-shortest-paths — Znajduje optymalne ścieżki między jednostkami, pomagając ustalić priorytety połączeń i zidentyfikować relacje krytyczne
graph-to-table — Konwertuje wyniki analizy grafu na format tabelaryczny na potrzeby integracji z istniejącymi systemami

Zaawansowane możliwości analizy:

Analiza oparta na czasie — sprawdzanie, jak zmieniają się relacje i wzorce w czasie
Integracja geoprzestrzenna — łączenie danych grafu z analizą opartą na lokalizacji na potrzeby analizy wzorca geograficznego
Integracja uczenia maszynowego — stosowanie algorytmów do klastrowania jednostek, klasyfikacji wzorców i wykrywania anomalii

Te możliwości obsługują różne przypadki użycia, w tym analizę podróży klienta, systemy rekomendacji produktów, sieci IoT, cyfrowe reprezentacje bliźniacze i wykresy wiedzy.

Wybieranie odpowiedniego podejścia

Poniższe drzewo decyzyjne pomaga wybrać najbardziej odpowiednie podejście do tworzenia grafu na podstawie określonych wymagań i ograniczeń.

Drzewo decyzyjne: wykresy przejściowe i trwałe

Schemat blokowy przedstawiający drzewo decyzyjne dotyczące używania wykresów trwałych lub przejściowych.

Kiedy należy używać wykresów przejściowych

Wybierz wykresy przejściowe dla:

Rozmiar wykresu poniżej 10 milionów węzłów i krawędzi (w celu uzyskania optymalnej wydajności)
Analiza pojedynczego użytkownika lub małego zespołu z minimalnymi wymaganiami dotyczącymi współpracy
Jednorazowe lub eksploracyjne badania , w których potrzebne są natychmiastowe wyniki
Analiza danych w czasie rzeczywistym wymagająca bieżących informacji o stanie
Szybkie tworzenie prototypów i testowanie wzorców grafu i logiki zapytań

Podczas gdy wykresy przejściowe mogą obsługiwać większe zestawy danych, czas wykonywania zapytań zwiększa się, ponieważ wykres musi zostać zrekonstruowany dla każdego zapytania. Należy wziąć pod uwagę ten kompromis wydajności podczas pracy z większymi zestawami danych.

Kiedy używać grafów trwałych

Wybierz trwałe wykresy dla:

Rozmiar wykresu przekraczający 10 milionów węzłów i krawędzi, gdzie przechowywanie rozproszone jest korzystne
Wiele zespołów wymagających dostępu współdzielonego na potrzeby analizy współpracy
Powtarzana analiza stabilnych zestawów danych, gdzie opóźnienie w budowie wpływa na produktywność
Integracja przepływu pracy w produkcji, która wymaga spójnego i niezawodnego dostępu do grafu
Wymagania dotyczące historycznego porównania dla śledzenia zmian w czasie
Ograniczenia pojemności pamięci wpływające na wydajność zapytań
Przepływy pracy wspólnych badań przez zespoły i strefy czasowe

Trwałe wykresy są niezbędne podczas pracy z danymi w skali przedsiębiorstwa lub gdy ograniczenia pamięci wpływają na wydajność.

Zagadnienia dotyczące wydajności

Użycie pamięci

Tymczasowe grafy — ograniczone pamięcią pojedynczego węzła klastra, co ogranicza ich użycie do zestawów danych mieszczących się w dostępnej pamięci RAM
Wykresy trwałe — wykorzystanie rozproszonego magazynu i zoptymalizowanych wzorców dostępu dla danych w skali przedsiębiorstwa

Opóźnienie zapytań

Wykresy przejściowe — uwzględnia czas budowy w każdym zapytaniu z opóźnieniami rosnącymi dla dużych zestawów danych lub zewnętrznych źródeł danych
Wykresy trwałe — eliminowanie opóźnień budowy za pomocą wstępnie utworzonych migawek, co umożliwia szybką analizę

Zależności zewnętrznego źródła danych, takie jak zapytania między klastrami lub tabele zewnętrzne do usług SQL i CosmosDB, mogą znacząco wpłynąć na przejściowy czas budowy grafu, ponieważ każde zapytanie musi czekać na odpowiedzi zewnętrzne.

Aktualność danych

Wykresy przejściowe — zawsze odzwierciedlają bieżący stan danych, idealne do analizy w czasie rzeczywistym
Wykresy trwałe — odzwierciedlają dane w czasie tworzenia migawki, zapewniając spójność dla analizy w warunkach współpracy, ale wymagają regularnych odświeżeń

Integracja z ekosystemem KQL

Semantyka grafu bezproblemowo integruje się z szerszymi możliwościami języka KQL:

Analiza szeregów czasowych — śledzenie ewolucji relacji w czasie
Funkcje geoprzestrzenne — analizowanie wzorców opartych na lokalizacji i anomalii geograficznych
Operatory uczenia maszynowego — wykrywanie wzorców, klasyfikowanie zachowań i identyfikowanie anomalii
Operatory skalarne i tabelaryczne — włączanie złożonych przekształceń, agregacji i wzbogacania danych

Ta integracja umożliwia zaawansowane przepływy pracy, w tym śledzenie ewolucji łańcucha dostaw, analizę dystrybucji zasobów geograficznych, wykrywanie społeczności za pomocą algorytmów klastrowania i korelację szczegółowych informacji grafów przy użyciu tradycyjnej analizy dzienników i analizy zewnętrznej.