Co je grafová databáze?

Grafová databáze je typ databáze, která představuje informace jako uzly (entity) a hrany (relace) místo tabulek a řádků. Tato struktura usnadňuje prozkoumání složitých připojení a vzorů napříč daty.

Nejčastěji používaný typ grafové databáze implementuje model LPG (Labeled Property Graph): entity (uzly) a relace (hrany) můžou mít popisky a vlastnosti (páry klíč-hodnota). Tento flexibilní model umožňuje jak návrhy, které nevyžadují schéma, tak návrhy řízené schématem, a umožňuje vyjádření složitých vztahů. Vzhledem k tomu, že připojení jsou explicitně uložená jako hrany, dotazy procházejí relacemi využíváním hran místo provádění drahých operací spojení při zpracování dotazu.

Poznámka:

Příklady v tomto článku používají ukázkovou datovou sadu grafu sociální sítě.

Základní koncepty grafové databáze

Grafová databáze uspořádá data do tří základních stavebních bloků:

Uzly představují entity, jako jsou lidé, produkty nebo místa. Uzly můžou mít popisky a vlastnosti, které popisují jejich atributy. Uzel může mít například vlastnosti jako Person, firstName, lastName a age.
Hrany představují způsob, jakým jsou entity propojeny, například FRIENDS_WITH, PURCHASEDnebo LOCATED_IN. Hrany mohou také nést vlastnosti a popisky pro zachycení metadata vztahů.
Vlastnosti připojují podrobnosti k uzlům a hranám (například jméno osoby nebo hrany od určitého data).

Jak funguje dotazování na relace

Grafové dotazy načítají propojené informace procházením od počátečního uzlu k jeho sousedům, pak k jejich sousedům atd. Náklady na procházení závisí na počtu okrajů, kterých se dotkne (místní čtvrť), nikoli na celkové velikosti datové sady. Tato charakteristika činí otázky ohledně cest, spojení a vzorů, jako jsou přátelé přátel, nejkratší cesty nebo vícehopové závislosti, přirozenými a efektivními k vyjádření.

Grafové databáze používají dotazovací jazyky založené na vzorech, jako je například Jazyk GQL (Graph Query Language), k stručné popisu těchto procházení. Stejná mezinárodní pracovní skupina, která dohlíží na SQL (ISO/IEC 39075), standardizuje GQL, což odpovídá dotazování grafů se zavedenými databázovými standardy.

Příklad (porovnávání vzorů s GQL):

MATCH (p:Person {firstName: "Annemarie"})-[:knows]->(friend)-[:likes]->(c:Comment)
RETURN c
ORDER BY c.creationDate
LIMIT 100

Tento vzor postupuje takto: počínaje uzlem Person pro Annemarie, sledujte :knows hrany ke každému přátelskému uzlu a pak sledujte :likes hrany ke spojeným :Comment uzlům. Vrátí 100 nejnovějších z těchto komentářů seřazených podle data vytvoření.

Analýza grafů s asistencí umělé inteligence (Preview)

Grafové databáze jsou přirozeně vhodné pro AI uvažování, protože kódují vztahy, které jazykové modely potřebují k přesnému odpovídání na vícekrokové otázky. V Microsoft Fabric Fabric Data Agent podporuje graf jako zdroj dat a umožňuje uživatelům klást otázky v přirozeném jazyce, na které agent odpovídá dotazováním grafu. Podrobnosti o tom, jak NL2GQL překládá přirozený jazyk do GQL, najdete v oznámení o odůvodnění umělé inteligence využívající graf.

Flexibilita datového modelu a schématu grafu

Datové modely grafů mají volitelné schéma: můžete začít s flexibilním modelem a formalizovat jej v průběhu času. V grafu v Microsoft Fabric vyžadují strukturální změny, jako je přidání nových vlastností, úprava popisků nebo změna typů relací, v současné době opětovné ingestování dat do nového modelu. Tento přístup snižuje potřebu duplikace dat a umožňuje týmům sjednotit data z více zdrojů bez náročného návrhu. Pro více informací o datovém modelu použitým v grafech Microsoft Fabric se podívejte na Labeled property graphs.

Běžné použití pro grafové databáze

Grafové databáze úzce odpovídají doménám, kde spojení vytvářejí hodnotu, například:

Sociální sítě – modelování vztahů mezi lidmi a jejich interakcemi
Znalostní grafy – propojení konceptů, entit a faktů pro sémantické vyhledávání a odůvodnění
Systémy doporučení – procházejí interakce uživatelů s položkami za účelem poskytování osobních doporučení.
Podvody a rizikové sítě – detekce podezřelých vzorů napříč účty, transakcemi a zařízeními
Topologie sítě a IT – mapování závislostí mezi servery, službami a komponentami infrastruktury
Analýza závislostí dodavatelského řetězce – trasování původu součástí a vztahů mezi dodavateli
Grafové vyhledávání rozšířené generace (RAG) – používat strukturu grafu jako zdroj znalostí pro agenty umělé inteligence, kteří potřebují vícekrokové uvažování s vysvětlitelnými a podloženými odpověďmi.

V těchto scénářích jsou dotazy méně o jednotlivých záznamech a více o tom, kolik entit souvisí a interaguje přes několik přeskoků.

Kdy zvážit grafovou databázi

Grafová databáze je silná, když relace řídí základní otázky, na které potřebujete odpovědět. Vyberte grafovou databázi, když:

Mezi vaše hlavní otázky patří cesty, okolí a vzory v připojených datech.
Počet skoků je proměnný nebo není předem znám.
Potřebujete zkombinovat a procházet relace mezi různorodé datové sady.

Pokud se pravidelně ptáte na tyto druhy otázek, je grafový model přirozeným fitem.

Porovnání grafů v Microsoft Fabric se samostatnými databázemi grafů

Reprezentace dat jako grafu a jejich uložení do samostatné grafové databáze často představuje ETL (extrakce, transformace, načítání) a řídicí režii. Naproti tomu graf v Microsoft Fabric pracuje přímo na OneLake, což snižuje nebo eliminuje potřebu samostatných kanálů ETL a duplikace dat. Zvažte tyto kompromisy:

Přesun a duplikace dat: Samostatné grafové databáze obvykle vyžadují extrakci, transformaci a načítání dat do samostatného úložiště, což zvyšuje složitost a může vést k duplikovaným datovým sadám. Graph pracuje na OneLake, takže můžete modelovat a dotazovat připojená data, aniž byste je museli přesouvat.
Provozní náklady: Samostatné zásobníky grafů fungují jako oddělené clustery nebo služby a často zahrnují poplatky za nevyužitou kapacitu. V grafu úlohy spotřebovávají jednotky kapacity ve fondu s automatickým vertikálním snížením kapacity a centralizovanými metrikami, které zjednodušují provoz a můžou snížit náklady.
Škálovatelnost: Některé samostatné grafové databáze závisí na škálování pomocí rozšiřování stávajících systémů nebo na clusteringu specifickém pro dodavatele. Graph je navržený pro rozsáhlé grafy a využívá horizontální dělení s navýšením škálováním napříč několika pracovníky k efektivnímu zpracování úloh s velkými objemy dat.
Nástroje a dovednosti: Systémy grafů specifické pro dodavatele mohou vyžadovat specializované jazyky a samostatné analytické architektury. Graph poskytuje sjednocené modelování, dotazování založené na standardech (GQL), vestavěné algoritmy pro analýzu grafů, integraci BI a AI včetně podpory Fabric Data Agent pro dotazování grafů v přirozeném jazyce (náhled) a nástroje pro zkoumání s nízkým nebo žádným kódováním. Tyto funkce umožňují širší skupině uživatelů pracovat s připojenými daty.
Zásady správného řízení a zabezpečení: Samostatná nasazení grafů vyžadují nezávislé nastavení zásad správného řízení a zabezpečení. Graph používá OneLake pro řízení, sledování původu a řízení přístupu na základě role (RBAC), takže dodržování předpisů, audit a oprávnění jsou konzistentní se zbytkem vašeho prostředí Fabric.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-06-02