Modelování dat grafů pomocí služby Azure Cosmos DB pro Apache Gremlin

Platí pro: ✅ Apache Gremlin

Important

Hledáte databázové řešení pro scénáře ve velkém měřítku s 99,999% smlouvou o úrovni služeb (SLA), okamžitým automatickým škálováním a automatickým převzetím služeb při selhání napříč několika oblastmi? Zvažte Azure Cosmos DB pro NoSQL.

Chcete implementovat graf online analytického zpracování (OLAP) nebo migrovat existující aplikaci Apache Gremlin? Zvažte Graph v Microsoft Fabricu.

Tento článek obsahuje doporučení pro použití datových modelů grafů. Tyto osvědčené postupy jsou nezbytné pro zajištění škálovatelnosti a výkonu grafového databázového systému při vývoji dat. Efektivní datový model je zvlášť důležitý pro rozsáhlé grafy.

Požadavky

Proces popsaný v této příručce vychází z následujících předpokladů:

V problémovém prostoru jsou identifikovány entity. Tyto entity mají být pro každý požadavek atomicky využity. Jinými slovy, databázový systém není navržený tak, aby načítal data jedné entity v několika požadavcích na dotazy.
Existuje znalost požadavků na čtení a zápis pro databázový systém. Tyto požadavky řídí optimalizace potřebné pro datový model grafu.
Principy standardu grafu vlastností z Apache jsou dobře pochopitelné.

Kdy potřebuji grafovou databázi?

Řešení grafové databáze je možné optimálně použít, pokud entity a relace v datové doméně mají některou z následujících charakteristik:

Entity jsou vysoce propojené prostřednictvím popisných relací. Výhodou v tomto scénáři je, že relace zůstávají v úložišti.
Existují cyklické relace nebo entity odkazované na sebe. Tento model je často výzvou při použití relačních nebo dokumentových databází.
Mezi entitami se dynamicky vyvíjejí vztahy . Tento model se vztahuje zejména na hierarchická nebo stromová data s mnoha úrovněmi.
Mezi entitami jsou vztahy M:N.
U entit i relací existují požadavky na zápis a čtení.

Pokud jsou výše uvedená kritéria splněná, přístup k grafové databázi pravděpodobně poskytuje výhody pro složitost dotazů, škálovatelnost datového modelu a výkon dotazů.

Dalším krokem je určení, jestli se graf použije k analytickým nebo transakčním účelům. Pokud je graf určený k použití pro náročné výpočetní úlohy a zpracování dat, je vhodné prozkoumat konektor Spark služby Cosmos DB a knihovnu GraphX.

Jak používat objekty grafu

Standard grafu vlastností z Apache definuje dva typy objektů: vrcholy a hrany.

Níže jsou uvedené osvědčené postupy pro vlastnosti v objektech grafu:

Object	Vlastnictví	Typ	Poznámky
Vrcholy	ID	String	Jedinečně vynuceno pro každý oddíl. Pokud při vložení není zadaná hodnota, uloží se automaticky vygenerovaný identifikátor GUID.
Vrcholy	Štítek	String	Tato vlastnost slouží k definování typu entity, kterou vrchol představuje. Pokud není zadaná hodnota, použije se výchozí hodnota vrchol.
Vrcholy	Vlastnosti	Řetězec, Boolean, numerický	Seznam samostatných vlastností uložených jako páry klíč-hodnota v každém vrcholu.
Vrcholy	Partiční klíč	Řetězec, Boolean, numerický	Tato vlastnost definuje, kde jsou uloženy vrcholy a jeho odchozí hrany. Přečtěte si další informace o dělení grafu.
Hrany	ID	String	Jedinečně vynuceno pro každý oddíl. Automaticky vygenerováno ve výchozím nastavení. Hrany obvykle nemusí být jedinečně načteny pomocí identifikátoru.
Hrany	Štítek	String	Tato vlastnost slouží k definování typu relace, kterou mají dva vrcholy.
Hrany	Vlastnosti	Řetězec, Boolean, numerický	Seznam samostatných vlastností uložených jako páry klíč-hodnota v jednotlivých hranách.

Note

Hrany nepotřebují hodnotu klíče rozdělení, protože hodnota se automaticky přiřadí na základě jejich zdrojového vrcholu. Další informace najdete v článku Použití děleného grafu ve službě Azure Cosmos DB.

Pokyny pro modelování entit a vztahů

Následující pokyny vám pomůžou přistupovat k modelování dat pro grafovou databázi Azure Cosmos DB pro Apache Gremlin . Tyto pokyny předpokládají, že existuje existující definice datové domény a dotazů na ni.

Note

Následující kroky se zobrazují jako doporučení. Před zvážením modelu jako připraveného pro produkční prostředí byste ho měli vyhodnotit a otestovat. Doporučení jsou navíc specifická pro implementaci rozhraní Gremlin API služby Azure Cosmos DB.

Modelování vrcholů a vlastností

Prvním krokem datového modelu grafu je mapování každé identifikované entity na objekt vrcholu. Mapování 1:1 všech entit na vrcholy by mělo být počátečním krokem a může se změnit.

Jedním z běžných nástrah je mapování vlastností jedné entity jako samostatných vrcholů. Podívejte se na následující příklad, ve kterém je stejná entita reprezentována dvěma různými způsoby:

Vlastnosti založené na vrcholech: V tomto přístupu entita používá tři samostatné vrcholy a dvě hrany k popisu svých vlastností. I když tento přístup může snížit redundanci, zvyšuje složitost modelu. Zvýšení složitosti modelu může vést k vyšší latenci, složitosti dotazů a výpočetním nákladům. Tento model může také představovat výzvy při dělení.
Vlastnosti vložené do vrcholů: Tento přístup využívá seznam párů klíč-hodnota k reprezentaci všech vlastností entity uvnitř vrcholu. Tento přístup snižuje složitost modelu, což vede k jednodušším dotazům a nákladově efektivnějším procházením.

Note

Předchozí diagramy znázorňují zjednodušený grafový model, který porovnává pouze dva způsoby dělení vlastností entity.

Model vrcholů vložených vlastností obecně poskytuje výkonnější a škálovatelný přístup. Výchozí přístup k novému datovému modelu grafu by se měl přiklonit k tomuto vzoru.

Existují však scénáře, kdy odkazování na vlastnost může přinést výhody. Pokud se například odkazovaná vlastnost často aktualizuje. Pomocí samostatného vrcholu můžete reprezentovat vlastnost, která se neustále mění, aby se minimalizovalo množství operací zápisu, které aktualizace vyžaduje.

Modely relací se směry hran

Po modelování vrcholů je možné přidat hrany, které označují vztahy mezi nimi. Prvním aspektem, který je potřeba vyhodnotit, je směr relace.

Hrany mají výchozí směr, za kterým následuje procházení při použití out() nebo outE() funkcí. Výsledkem tohoto přirozeného směru je efektivní operace, protože všechny vrcholy jsou uloženy s jejich odchozími hranami.

Procházení v opačném směru hrany pomocí funkce in() vždy vede k dotazu napříč partice. Přečtěte si další informace o dělení grafu. Pokud se vyžaduje časté procházení s in() funkcí, přidejte hrany v obou směrech.

Směr okraje můžete určit pomocí predikátů .to() nebo .from() ve .addE() kroku Gremlin. Nebo pomocí knihovny Bulk Executor pro rozhraní Gremlin API.

Note

Hrany mají ve výchozím nastavení směr.

Štítky vztahů

Použití popisných značek vztahů může zlepšit efektivitu operací řešení hran. Tento vzor můžete použít následujícími způsoby:

K označení relace použijte negenerické termíny.
Přidružte popisek zdrojového vrcholu k popisku cílového vrcholu, a to pomocí názvu relace.

Diagram příkladů popisků relací

Čím konkrétnější je štítek, který traverzér používá k filtrování hran, tím lépe. Toto rozhodnutí může mít významný vliv i na náklady na dotazy. Náklady na dotazy můžete kdykoli vyhodnotit pomocí executionProfile kroku.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-04-27

Modelování dat grafů pomocí služby Azure Cosmos DB pro Apache Gremlin

Požadavky

Kdy potřebuji grafovou databázi?

Jak používat objekty grafu

Pokyny pro modelování entit a vztahů

Modelování vrcholů a vlastností

Modely relací se směry hran

Štítky vztahů

Váš názor

Další materiály