Sharding pattern (Wzorzec fragmentowania)

Dzielenie magazynu danych na zestaw poziomych partycji lub fragmentów. Takie podejście może zwiększyć skalowalność podczas przechowywania i uzyskiwania dostępu do dużych ilości danych.

Kontekst i problem

Magazyn danych na jednym serwerze ma następujące ograniczenia:

Przestrzeń do magazynowania: Magazyn danych dla aplikacji w chmurze na dużą skalę może zawierać dużą ilość danych, które rosną wraz z upływem czasu. Serwer zapewnia ograniczoną ilość miejsca do magazynowania na dysku i można zastąpić istniejące dyski większymi lub dodać więcej dysków w miarę wzrostu woluminów danych. System ostatecznie osiągnie limit, w którym nie można zwiększyć pojemności magazynu na jednym serwerze.
Zasoby obliczeniowe: Aplikacja w chmurze musi obsługiwać dużą liczbę współbieżnych użytkowników, którzy uruchamiają zapytania względem magazynu danych. Pojedynczy serwer może nie zapewnić wystarczającej mocy obliczeniowej dla tego obciążenia, co powoduje wydłużenie czasu odpowiedzi i przekroczenia limitu czasu. Można dodać pamięć lub uaktualnić procesory, ale system osiąga limit, po którym nie można już zwiększyć zasobów obliczeniowych.
Przepustowość sieci: Szybkość, z jaką pojedynczy serwer może odbierać żądania i wysyłać odpowiedzi, ogranicza wydajność magazynu danych. Liczba ruchu sieciowego może przekraczać pojemność połączenia sieciowego, co powoduje niepowodzenie żądań.
Geografia: Wymagania prawne, zgodności lub wydajności mogą wymagać przechowywania danych użytkowników w tym samym regionie geograficznym co użytkownicy. Jeśli użytkownicy obejmują kraje/regiony, może nie być w stanie przechowywać wszystkich danych aplikacji w jednym magazynie danych.

Aby tymczasowo odłożyć te ograniczenia, możesz skalować w pionie, dodając pojemność dysku, moc obliczeniową, pamięć i połączenia sieciowe. Aplikacja w chmurze, która musi obsługiwać dużą liczbę użytkowników i duże ilości danych, musi być skalowana w poziomie.

Rozwiązanie

Dzielenie magazynu danych na poziome partycje lub fragmenty. Każdy fragment ma ten sam schemat, ale zawiera własny odrębny podzestaw danych. Każdy fragment jest kompletnym magazynem danych, który może zawierać dane dla wielu jednostek różnych typów. Fragment działa na serwerze, który funkcjonuje jako węzeł przechowywania.

Ten wzorzec ma następujące korzyści:

System można skalować w poziomie, dodając więcej fragmentów w dodatkowych węzłach pamięci masowej.
System może wykorzystywać standardowy sprzęt, a nie wyspecjalizowane i kosztowne komputery dla każdego węzła pamięci masowej.
Można zmniejszyć rywalizację i zwiększyć wydajność przez równoważenie obciążenia między fragmentami.
W chmurze fragmenty mogą znajdować się fizycznie blisko użytkowników, którzy uzyskują dostęp do danych.

Po podzieleniu magazynu danych na fragmenty zdecyduj, które dane mają być przechowywane w poszczególnych fragmentach. Każdy fragment zwykle przechowuje elementy pogrupowane według co najmniej jednego atrybutu danych. Te atrybuty tworzą klucz fragmentu, czasami nazywany kluczem partycji.

Sharding organizuje fizycznie dane. Gdy aplikacja przechowuje i pobiera dane, logika fragmentowania kieruje ją do odpowiedniego fragmentu. Tę logikę można zaimplementować w kodzie dostępu do danych aplikacji lub w systemie magazynu danych, jeśli w sposób niewidoczny obsługuje fragmentowanie.

Abstrakcja fizycznej lokalizacji danych w logice fragmentowania zapewnia kontrolę nad tym, które fragmenty zawierają dane. Możesz również migrować dane między fragmentami bez modyfikowania logiki biznesowej aplikacji, gdy konieczne jest ponowne dystrybuowanie danych, na przykład gdy fragmenty staną się niezrównoważone. Kompromis polega na dodatkowym obciążeniu związanym z dostępem do danych w celu określenia lokalizacji każdego elementu danych podczas procesu pobierania.

Wybór klucza fragmentu

Klucz fragmentu jest najważniejszą decyzją projektową w systemie podzielonym na fragmenty. Aby zmienić klucz szardowania po jego wybraniu, zazwyczaj należy zmigrować wszystkie dane do nowego układu shardów, co jest kosztowną i ryzykowną operacją na działającym systemie. Przed napisaniem jakiegokolwiek kodu należy dokładnie podjąć tę decyzję.

Skuteczny klucz fragmentu jest niezmienny, ma wysoką kardynalność, dystrybuuje dane i obciążenie równomiernie oraz odpowiada dominującym wzorcom zapytań, dzięki czemu większość żądań rozwiązuje się w odniesieniu do pojedynczego fragmentu. Unikaj monotonicznie rosnących wartości (autoinkrementacji liczb całkowitych i sekwencyjnych znaków czasu), atrybutów o niskiej kardynalności (wartości typu logicznego i małych zestawów wyliczeniowych) oraz zmiennych atrybutów, które często się zmieniają. Te atrybuty prowadzą do hotspotów lub kosztownego przenoszenia danych między fragmentami.

Jeśli żaden pojedynczy atrybut nie spełnia tych kryteriów, zdefiniuj złożony klucz fragmentu, łącząc co najmniej dwa atrybuty. Jeśli zapytania muszą pobierać dane według atrybutów, które nie są częścią klucza shardu, użyj wzorca takiego jak wzorzec tabeli indeksów, aby zapewnić wyszukiwania wtórne.

Aby uzyskać więcej informacji na temat wybierania kluczy partycji w usługach platformy Azure, zobacz Wskazówki dotyczące partycjonowania danych i Strategie partycjonowania danych.

Strategie fragmentowania

Wybierz klucz shardu i zdecyduj, jak dystrybuować dane między shardami, używając jednej z poniższych strategii. Nie potrzebujesz korespondencji jeden do jednego między fragmentami i serwerami, które je hostują. Pojedynczy serwer może hostować wiele fragmentów.

Strategia fragmentacji wyszukiwania

W strategii wyszukiwania nazywanej również strategią opartą na katalogach logika fragmentowania implementuje mapę, która kieruje żądanie danych do fragmentu zawierającego te dane przy użyciu klucza fragmentu. W aplikacji wielodostępnej można przechowywać wszystkie dane dla lokatora razem w shardzie, używając identyfikatora lokatora jako klucza sharda. Wielu najemców może dzielić ten sam fragment, ale dane dla jednego najemcy nie są rozproszone na wiele fragmentów. Na poniższym diagramie przedstawiono dzielenie danych dzierżawców na segmenty na podstawie identyfikatorów dzierżawców.

Mapowanie między wartościami klucza dzielenia a magazynem fizycznym może być bezpośrednie, w której każda wartość klucza dzielenia jest mapowana na partycję fizyczną. Bardziej elastyczną techniką jest partycjonowanie wirtualne, gdzie wartości klucza fragmentu są przyporządkowywane do wirtualnych fragmentów, a następnie system przyporządkowuje te wirtualne fragmenty do mniejszej liczby partycji fizycznych. Aplikacja lokalizuje dane przy użyciu wartości klucza shardu, która odwołuje się do wirtualnego shardu, a system w sposób przezroczysty mapuje wirtualne shardy na partycje fizyczne. Mapowanie między fragmentem wirtualnym a partycją fizyczną może ulec zmianie bez konieczności modyfikacji kodu aplikacji.

Strategia fragmentowania oparta na zakresie

Strategia oparta na zakresie grupuje powiązane elementy w tym samym fragmencie i porządkuje je według sekwencyjnego klucza fragmentu. Ta strategia obsługuje aplikacje, które często pobierają zestawy elementów przy użyciu zapytań dotyczących zakresu. Zapytania zakresu zwracają zestaw elementów danych dla klucza shardu należącego do danego zakresu.

Jeśli na przykład aplikacja regularnie musi znaleźć wszystkie zamówienia złożone w danym miesiącu, możesz pobrać dane szybciej, jeśli przechowujesz wszystkie zamówienia dla miesiąca w kolejności daty i godziny w tym samym fragmentzie. Jeśli każde zamówienie jest przechowywane w innym fragmencie, aplikacja musi pobierać je indywidualnie, wykonując dużą liczbę zapytań punktowych. Na poniższym diagramie przedstawiono sekwencyjne zestawy lub zakresy danych przechowywanych w fragmentach.

W tym przykładzie klucz fragmentu jest kluczem złożonym zawierającym miesiąc zamówienia jako najbardziej znaczący element, po którym następuje dzień i godzina zamówienia. Nowe zamówienia są naturalnie sortowane w miarę ich tworzenia i dodawania do sharda.

Niektóre magazyny danych obsługują dwuczęściowe klucze shardowania. Klucz partycji identyfikuje fragment, a klucz wiersza jednoznacznie identyfikuje element w obrębie fragmentu. Fragment zwykle przechowuje dane w kolejności klucza wiersza. W przypadku elementów, które wymagają zapytań zakresu i muszą być zgrupowane razem, można użyć klucza fragmentu, który ma tę samą wartość dla klucza partycji, ale unikatową wartość klucza wiersza.

Strategia fragmentowania oparta na hashach

Strategia oparta na skrótach zmniejsza prawdopodobieństwo hotspotów, które są fragmentami, które otrzymują nieproporcjonalną ilość obciążenia. Ta strategia dystrybuuje dane między fragmentami, aby zrównoważyć rozmiar każdego fragmentu i średnie obciążenie, które napotka każdy fragment. Logika fragmentowania oblicza fragment do przechowywania elementu na podstawie skrótu jednego lub wielu atrybutów danych. Wybrana funkcja tworzenia skrótów powinna równomiernie rozmieszczać dane pomiędzy fragmentami. Na poniższym diagramie przedstawiono dzielenie danych najemców na podstawie skrótu identyfikatorów najemców.

Aby zrozumieć zaletę strategii haszowania nad innymi strategiami fragmentowania, rozważ, w jaki sposób aplikacja multitenant rejestrująca nowych najemców sekwencyjnie może przypisać najemców do fragmentów w magazynie danych. W przypadku korzystania ze strategii zakresu dane dla dzierżaw od 1 do n są przechowywane w fragmentach A, dane dla dzierżaw n+1 do m są przechowywane w fragmentach B, a późniejsze zakresy dzierżaw są mapowane na kolejne fragmenty. Jeśli najnowsi zarejestrowani najemcy są również najbardziej aktywni, większość aktywności danych występuje w kilku fragmentach, co może powodować hotspoty. Natomiast strategia skrótu przydziela najemców do fragmentów na podstawie skrótu ich identyfikatorów. Hash zazwyczaj dystrybuuje kolejnych najemców między różnymi fragmentami, co wyrównuje obciążenie. Na poprzednim diagramie przedstawiono przyjęte podejście dla najemców 55 i 56.

Strategia fragmentowania geograficznego

Strategia geograficzna przypisuje dane do fragmentów na podstawie pochodzenia geograficznego lub zamierzonego regionu zużycia tych danych. W wielu obciążeniach użytkownicy i generowane przez nie dane są skoncentrowane w określonych regionach. Wymagania prawne, takie jak przepisy dotyczące rezydencji danych, mogą wymagać, aby określone dane pozostały w określonej jurysdykcji. Nawet bez sterowników regulacyjnych umieszczenie danych blisko użytkowników, którzy uzyskują do niego dostęp, najczęściej zmniejsza opóźnienie sieci w przypadku operacji odczytu i zapisu.

W tej strategii klucz fragmentu pochodzi z atrybutu geograficznego, takiego jak kraj/region użytkownika, źródłowy region centrum danych lub identyfikator dzierżawy regionalnej. Hostujesz każdy fragment lub przypinasz go do infrastruktury w ramach tej granicy geograficznej.

Na przykład aplikacja, która obsługuje klientów w Ameryce Północnej, Europie i Asia-Pacific może obsługiwać trzy grupy fragmentów, jedną grupę w każdym odpowiednim regionie świadczenia usługi Azure. Aplikacja europejska, która służy tylko użytkownikom europejskim, przekierowuje żądanie do europejskiego shardu. Takie podejście zmniejsza opóźnienie i spełnia wymagania dotyczące przechowywania danych.

Fragmentowanie geograficzne wprowadza ryzyko nierównomiernego rozkładu danych. Jeśli większość użytkowników znajduje się w jednym regionie, fragment tego regionu ponosi nieproporcjonalne obciążenie i przechowywanie. Fragmentowanie geograficzne można połączyć z inną strategią, taką jak skrót lub wyszukiwanie, w każdym regionie, aby równomiernie rozłożyć obciążenie między wiele fragmentów wewnątrz tej samej granicy geograficznej.

Zalety i zagadnienia dotyczące każdej strategii

Cztery strategie fragmentowania mają następujące zalety i zagadnienia:

Strategia wyszukiwania zapewnia większą kontrolę nad konfiguracją fragmentów. Wirtualne fragmenty zmniejszają wpływ ponownego równoważenia obciążenia, ponieważ można dodać nowe partycje fizyczne, aby zrównoważyć obciążenie. Mapowanie między fragmentem wirtualnym i jego partycjami fizycznymi można modyfikować bez wpływu na kod aplikacji. Szukanie lokalizacji fragmentów zwiększa obciążenie systemu.
Strategia zakresu jest łatwa do zaimplementowania i dobrze współdziała z zapytaniami zakresu. Zapytania zakresu mogą pobierać wiele elementów danych z jednego fragmentu w jednej operacji. Zarządzanie danymi jest prostsze. Można na przykład zaplanować aktualizacje w oparciu o strefę czasową na podstawie lokalnych wzorców obciążenia, gdy użytkownicy w tym samym regionie współużytkują tę samą część. Jednak ta strategia nie równoważy obciążenia między fragmentami. Ponowne równoważenie jest trudne i może nie rozwiązać nierównego obciążenia, gdy większość działań koncentruje się na sąsiednich kluczach fragmentów.
Strategia skrótu zapewnia większe prawdopodobieństwo równomiernego rozkładu danych i obciążenia. Żądania można kierować bezpośrednio przy użyciu funkcji skrótu bez utrzymywania mapy. Obliczanie skrótu powoduje pewne koszty. Ponowne równoważenie jest trudne bez spójnego tworzenia skrótów.
Strategia geograficzna spełnia wymagania dotyczące rezydencji i niezależności danych, które nie są z założenia zgodne z innymi strategiami. Zmniejsza to opóźnienie odczytu i zapisu, gdy użytkownicy uzyskują dostęp do danych w ich regionie. Jednak fragmentowanie geograficzne może powodować znaczne dysproporcje danych i obciążenia, gdy populacje użytkowników nie są równomiernie rozproszone w różnych regionach. Zapytania obejmujące regiony, takie jak raportowanie globalne, muszą pobierać dane ze wszystkich fragmentów geograficznych i powodować większe opóźnienia. Połącz fragmentowanie geograficzne z inną strategią w każdym regionie, gdy potrzebujesz zgodności, a nawet dystrybucji obciążenia.

Większość systemów fragmentowania implementuje jedno z tych podejść, ale należy również wziąć pod uwagę wymagania biznesowe aplikacji i jej wzorców użycia danych. Na przykład w aplikacji wielotenantowej:

Dane można fragmentować na podstawie obciążenia. Segregowanie danych dla wysoce niestabilnych najemców w osobnych shardach w celu zwiększenia szybkości dostępu do danych dla innych najemców.
Dane można fragmentować na podstawie lokalizacji dzierżawy. Przejmij dane dzierżawy w określonym regionie geograficznym w tryb offline na potrzeby tworzenia kopii zapasowych i konserwacji poza godzinami szczytu tego regionu, podczas gdy dane dzierżawy w innych regionach pozostają w trybie online w godzinach pracy.
Przypisz najważniejszym klientom własne dedykowane partycje o niewielkim obciążeniu. Użytkownicy o mniejszej wartości mogą współdzielić bardziej gęsto upakowane fragmenty.
Przechowuj dane dla najemców, którzy wymagają silnej izolacji danych i prywatności na oddzielnych serwerach.

Operacje skalowania i przenoszenia danych dla każdej strategii

Każda strategia fragmentowania zapewnia różne możliwości i poziomy złożoności w celu zarządzania skalowaniem do wewnątrz, skalowaniem na zewnątrz, przenoszeniem danych i utrzymaniem stanu.

Strategia wyszukiwania umożliwia skalowanie i przenoszenie danych na poziomie użytkownika— online lub offline. Aby przenieść dane:
1. Wstrzymywanie aktywności niektórych lub wszystkich użytkowników, zazwyczaj poza szczytem.
2. Przenieś dane do nowej partycji wirtualnej lub fizycznego fragmentu.
3. Zaktualizuj mapowania.
4. Unieważnij lub odśwież wszystkie pamięci podręczne, które przechowują te dane.
5. Wznów aktywność użytkownika.
Tę operację można często zarządzać centralnie. Strategia wyszukiwania wymaga, aby stan był wysoce buforowalny i przyjazny dla replik.
Strategia zakresu ogranicza operacje skalowania i przenoszenia danych, ponieważ należy podzielić i scalić dane między fragmenty, zazwyczaj podczas gdy część lub cały magazyn danych jest w trybie offline. Podczas przenoszenia danych w celu ponownego zrównoważenia fragmentów, można nie wyeliminować nierównego obciążenia, jeśli większość działań koncentruje się na sąsiednich kluczach fragmentów lub identyfikatorach danych w tym samym zakresie. Strategia zakresu może również wymagać posiadania stanu do mapowania zakresów na partycje fizyczne.
Strategia skrótu komplikuje operacje skalowania i przenoszenia danych. Klucze partycji są skrótami kluczy fragmentów lub identyfikatorów danych. W przypadku standardowej funkcji skrótu, takiej jak hash(key) mod N, dodawanie lub usuwanie shardu powoduje ponowne przypisanie większości kluczy i wyzwala migrację danych na dużą skalę. Spójne haszowanie zmniejsza ten wpływ, rozmieszczając przestrzeń haszowania w taki sposób, aby tylko niewielka część kluczy została przeniesiona po zmianie liczby fragmentów. Strategia skrótu nie wymaga konserwacji oddzielnego stanu mapowania.
Strategia geograficzna łączy operacje skalowania z aprowizowaniem infrastruktury regionalnej. Dodanie pojemności w jednym regionie nie zwalnia obciążenia w innym regionie. Wymagania prawne, które nakazują fragmentowanie geograficzne, mogą również ograniczać przenoszenie danych przez granice geograficzne. W każdym regionie skalowanie używa strategii pomocniczej, która dystrybuuje dane między fragmentami tego regionu.

Problemy i zagadnienia

Podczas podejmowania decyzji o zaimplementowaniu tego wzorca należy wziąć pod uwagę następujące kwestie:

Używaj fragmentowania jako uzupełnienia innych form partycjonowania, takich jak partycjonowanie pionowe i partycjonowanie funkcjonalne. Na przykład pojedynczy fragment może zawierać jednostki partycjonowane pionowo i można zaimplementować partycję funkcjonalną jako wiele fragmentów. Aby uzyskać więcej informacji, zobacz Partycjonowanie danych poziomych, pionowych i funkcjonalnych.
Zachowaj równowagę fragmentów, aby wszystkie mogły obsługiwać podobny wolumin wejściowy/wyjściowy (we/wy). Niesymetryczność danych gromadzi się w czasie, gdy rekordy są wstawiane i usuwane, co prowadzi do hotspotów. Zaplanuj okresowe ponowne równoważenie.

Ponowne równoważenie przenosi dane między fragmentami i często powoduje przestój lub zmniejszoną przepływność. Aby rzadziej ponownie równoważyć, użyj partycji wirtualnych. Mapowanie wielu partycji logicznych na mniej fragmentów fizycznych. Gdy fragment jest przeciążony, redystrybuuj jego partycje wirtualne do nowych fragmentów fizycznych bez ponownego przesłaniania całego zestawu danych. Usługa Azure Cosmos DB używa tego podejścia do oddzielenia schematu partycji od infrastruktury fizycznej.

Preferuj wiele małych fragmentów zamiast kilku dużych. Mniejsze fragmenty migrują szybciej, równoważą obciążenie bardziej równomiernie i zapewniają większą elastyczność redystrybucji danych.
Należy użyć stabilnych danych dla klucza dzielenia. Jeśli klucz fragmentu ulegnie zmianie, może być konieczne przeniesienie odpowiedniego elementu danych między fragmentami, co zwiększa obciążenie operacji aktualizacji. Unikaj oparcia klucza fragmentu na potencjalnie niestabilnych informacjach. Wybierz atrybuty, które są niezmienne lub naturalnie tworzą klucz.
Zapewnij, że klucze shardów są unikatowe. Na przykład należy unikać używania pól typu autoincrement jako klucza fragmentu. W niektórych systemach pola autoinkrementowane nie mogą koordynować się między fragmentami, co może spowodować, że elementy w różnych fragmentach mają ten sam klucz fragmentu.

Uwaga / Notatka

Automatycznie zwiększane wartości w innych polach, które nie są shard keys, mogą również powodować problemy. Jeśli na przykład do generowania unikatowych identyfikatorów są używane pola autoinkrementowane, dwa różne elementy w różnych fragmentach mogą mieć przypisany ten sam identyfikator.
Fragmentowanie danych w celu obsługi najczęściej wykonywanych zapytań. Być może nie jesteś w stanie zaprojektować klucza shard, który spełnia wymagania każdego zapytania względem danych. W razie potrzeby utwórz tabele indeksów pomocniczych, aby obsługiwać zapytania pobierające dane według atrybutów, które nie są częścią klucza shardowania. Aby uzyskać więcej informacji, zobacz Wzorzec tabeli indeksowania.
Projektuj klucz shardu i model danych, aby większość operacji była ograniczona do pojedynczego shardu. Zapytania, które uzyskują dostęp tylko do jednego fragmentu, są bardziej wydajne niż zapytania pobierające dane z wielu fragmentów. Zdenormalizuj dane, aby zachować powiązane jednostki, które są często odpytywane razem, takie jak klienci i ich zamówienia, w tym samym fragmentze, aby zmniejszyć liczbę oddzielnych operacji odczytu.

Zapytania między fragmentami dodają opóźnienie, użycie zasobów i złożoność. Gdy aplikacja musi pobierać dane z wielu fragmentów, użyj równoległych zapytań fan-out, które są uruchamiane względem każdego fragmentu współbieżnie i agregują wyniki. Nawet w przypadku równoległości najwolniejszy fragment określa ogólne opóźnienie.

Wskazówka

Jeśli jednostka w jednym fragmentie odwołuje się do jednostki w innym fragmentie, dołącz klucz fragmentu dla drugiej jednostki w ramach schematu dla pierwszej jednostki. Takie podejście może poprawić wydajność zapytań odwołujących się do powiązanych danych między fragmentami.
Rozważ ponownie klucz fragmentowania lub czy fragmentowanie odpowiada Twoim potrzebom, jeśli obciążenie wymaga silnej integralności transakcyjnej w granicach fragmentów. Transakcje między shardami stanowią wyzwanie. Protokoły koordynacji rozproszonej, takie jak zatwierdzenie dwufazowe, dodają opóźnienie, wprowadzają tryby awarii i zmniejszają przepływność. Większość systemów podzielonych na fragmenty unika transakcji rozproszonych i zamiast tego przyjmuje spójność ostateczną. W tym modelu każdy fragment jest aktualizowany niezależnie, a aplikacja obsługuje tymczasowe niespójności.
Upewnij się, że zasoby dostępne dla każdego węzła magazynu fragmentów mogą obsługiwać wymagania dotyczące skalowalności pod względem rozmiaru danych i przepływności. Aby uzyskać więcej informacji, zobacz Strategie partycjonowania danych.
Należy rozważyć replikację danych referencyjnych do wszystkich fragmentów. Jeśli zapytanie względem fragmentu odwołuje się również do danych statycznych lub wolno poruszających się, dodaj te dane do fragmentu. Następnie aplikacja może pobrać wszystkie dane dla zapytania bez wykonywania podróży do oddzielnego repozytorium danych.

Uwaga / Notatka

Jeśli dane referencyjne przechowywane w wielu fragmentach zmienią się, system musi zsynchronizować te zmiany we wszystkich fragmentach. Podczas wykonywania tej synchronizacji może wystąpić pewien stopień niespójności. Zaprojektuj aplikacje tak, aby tolerowały tę niespójność.
Systemy podzielone na fragmenty mnożą obciążenie operacyjne. Zaplanuj następujące kwestie:
- Monitorowanie: Należy agregować metryki i dzienniki we wszystkich shardach, aby uzyskać kompletny obraz kondycji systemu.
- Tworzenie kopii zapasowej i przywracanie: Aby zachować spójność między fragmentami, należy utworzyć kopię zapasową każdego fragmentu niezależnie i zaprojektować procedury przywracania. Przywracanie fragmentu do określonego punktu w czasie może powodować niespójności z innymi fragmentami.
- Zmiany schematu: Musisz koordynować zmiany języka DDL (Data Definition Language) na każdym fragmentie.
Te zadania można zaimplementować przy użyciu skryptów lub innych rozwiązań automatyzacji.
Możesz geolokować odłamki, umieszczając dane w pobliżu wystąpień aplikacji, które ich używają. Takie podejście może zwiększyć wydajność, ale wymaga dodatkowego planowania operacji, które muszą uzyskiwać dostęp do wielu fragmentów w różnych lokalizacjach.

Kiedy należy używać tego wzorca

Wskazówka

Przed zaprojektowaniem niestandardowej warstwy fragmentowania określ, które obowiązki związane z fragmentowaniem są już obsługiwane przez platformę danych. Niektóre usługi całkowicie zarządzają fragmentowaniem. Na przykład usługa Azure Cosmos DB dystrybuuje dane między partycjami fizycznymi, obsługuje podziały i kieruje zapytania bez udziału aplikacji. Inne usługi częściowo zarządzają fragmentowaniem. Na przykład usługa Azure SQL Database udostępnia elastyczne narzędzia bazy danych do zarządzania mapami fragmentów i routingu zależnego od danych, ale projektujesz klucz fragmentu i zarządzasz operacjami dzielenia. Użyj wzorca fragmentowania podczas samodzielnego kompilowania i obsługi logiki fragmentowania.

Użyj tego wzorca, gdy:

Łączna ilość danych przekracza pojemność magazynu pojedynczego wystąpienia bazy danych, a żadna opcja skalowania w pionie nie rozwiązuje niedoboru.
Przepływność transakcji lub współbieżność zapytań przekracza to, co może obsłużyć pojedyncze wystąpienie, a same repliki do odczytu nie rozwiązują wąskiego gardła, ponieważ obciążenie zapisu jest również wysokie.

Uwaga / Notatka

Fragmentowanie zwiększa wydajność i skalowalność systemu, a także może zwiększyć dostępność. Awaria w jednej partycji nie musi uniemożliwiać aplikacji uzyskiwania dostępu do danych w innych partycjach. Operator może wykonywać konserwację lub odzyskiwanie jednej partycji bez udostępniania wszystkich danych. Aby uzyskać więcej informacji, zobacz Wskazówki dotyczące partycjonowania danych.
Wymagania dotyczące przepisów lub zgodności nakazują, aby określone podzestawy danych znajdowały się w określonych jurysdykcjach geograficznych, a żadne wdrożenie w jednym regionie nie może spełniać wszystkich wymagań.
Odrębni najemcy lub segmenty klientów wymagają fizycznej izolacji danych ze względów bezpieczeństwa, wydajności lub umów.

W takich scenariuszach wzorzec fragmentowania jest czasami stosowany poza tradycyjnymi magazynami danych. Na przykład system zarządzania strefami DNS może być podzielony na fragmenty przez zespół, środowisko lub region, aby zredukować zakres wpływu zmian DNS i ustalić jasne granice odpowiedzialności. W tym kontekście podstawową motywacją jest segmentacja operacyjna, a nie skalowalność. Aby uzyskać więcej informacji, zobacz Fragmentowanie prywatnych stref DNS.

Fragmentowanie wprowadza znaczną i stałą złożoność architektury danych. Ta złożoność ma wpływ na rozwój, operacje, testowanie, projektowanie zapytań i odzyskiwanie po awarii przez cały okres istnienia systemu.

Ten wzorzec może nie być odpowiedni w następujących przypadkach:

Ilość danych i przepływność mieszczą się w jednym wystąpieniu bazy danych, nawet przy przewidywanym wzroście. Skalowanie w pionie zachowuje prostotę zapytań i integralność transakcyjną.
Wąskie gardło to wolumin odczytu, a nie wolumin zapisu ani pojemność magazynu. Repliki do odczytu i warstwy buforowania mogą odciążać ruch odczytu bez złożoności zapytań między fragmentacjami, którą wprowadza fragmentacja.
Aparat bazy danych obsługuje partycjonowanie na poziomie tabeli, które spełnia twoje potrzeby dotyczące wydajności. Partycjonowanie w jednym wystąpieniu nie wymaga wielu serwerów ani logiki routingu.
Wzorce dominujących zapytań wymagają sprzężeń między jednostkami, transakcji wieloetatowych lub agregacji pełnego zestawu danych. Fragmentowanie sprawia, że te operacje są kosztowne, a narzut związany z zapytaniami typu fan-out i rozproszoną koordynacją może przewyższać korzyści wynikające ze skalowalności.

Projektowanie obciążeń roboczych

Oceń, jak używać wzorca fragmentowania w projekcie obciążenia, aby sprostać celom i zasadom opisanym w filarach platformy Azure Well-Architected Framework. Poniższa tabela zawiera wskazówki dotyczące tego, jak ten wzorzec obsługuje cele poszczególnych filarów.

Filar	Jak ten wzorzec obsługuje cele filaru
Decyzje projektowe dotyczące niezawodności pomagają obciążeniom stały się odporne na awarię i zapewniają, że zostanie ono przywrócone do w pełni funkcjonalnego stanu po wystąpieniu awarii.	Dane i przetwarzanie są odizolowane od fragmentu, więc awaria w jednym fragmentie pozostaje odizolowana od tego fragmentu. - Partycjonowanie danych - RE:07 Instynkt samozachowawczy
Optymalizacja kosztów koncentruje się na utrzymaniu i poprawiezwrotu obciążenia z inwestycji.	System, który implementuje fragmenty, często korzysta z wielu wystąpień mniej kosztownych zasobów obliczeniowych lub magazynowych, a nie jednego droższego zasobu. W wielu przypadkach ta konfiguracja może zaoszczędzić pieniądze. - KOSZT SKŁADNIKA CO:07
Efektywność wydajności pomaga wydajnie sprostać wymaganiom dzięki optymalizacjom skalowania, danych i kodu.	W przypadku używania fragmentowania w strategii skalowania dane i przetwarzanie są izolowane do każdego fragmentu, dlatego żądania konkurują tylko o zasoby w ramach przypisanego fragmentu. Fragmentowanie można również użyć do optymalizacji na podstawie lokalizacji geograficznej. - PE:05 Skalowanie i partycjonowanie - PE:08 Wydajność danych

Jeśli ten wzorzec wprowadza kompromisy w ramach filaru, rozważ je przed celami innych filarów.

Przykład

Rozważmy witrynę internetową, która przedstawia ekspansywną kolekcję informacji o opublikowanych książkach na całym świecie. Liczba możliwych książek w katalogu w tym obciążeniu oraz typowe wzorce zapytań i użycia przekraczają jedną relacyjną bazę danych. Architekt obciążeniowy decyduje się na stronicowanie danych w wielu wystąpieniach bazy danych, używając statycznego ISBN książki jako klucza shard. W szczególności architekt używa cyfry kontrolnej (od 0 do 10) ISBN, która zapewnia 11 możliwych fragmentów logicznych z dość zrównoważonym rozkładem danych.

Aby rozpocząć, architekt kolokuje 11 logicznych fragmentów do trzech fizycznych baz danych fragmentów. W tym podejściu do partycji wirtualnej wiele partycji logicznych odwzorowuje się na mniej węzłów fizycznych. Architekt używa podejścia do fragmentowania lookup i przechowuje mapowanie klucza do serwera w bazie danych mapy shardów.

Diagram przedstawiający architekturę usługi SQL Database podzielonej na fragmenty dla aplikacji wykazu książek.

Mapa fragmentów odnośników

Baza danych mapy fragmentów zawiera następującą tabelę mapowania fragmentów i dane.

SELECT ShardKey, DatabaseServer
FROM BookDataShardMap

| ShardKey | DatabaseServer |
|----------|----------------|
|        0 | bookdbshard0   |
|        1 | bookdbshard0   |
|        2 | bookdbshard0   |
|        3 | bookdbshard1   |
|        4 | bookdbshard1   |
|        5 | bookdbshard1   |
|        6 | bookdbshard2   |
|        7 | bookdbshard2   |
|        8 | bookdbshard2   |
|        9 | bookdbshard0   |
|       10 | bookdbshard1   |

Przykładowy kod witryny internetowej: dostęp do pojedynczego fragmentu

Strona nie jest świadoma ile fizycznych baz danych shardów istnieje (w tym przypadku trzy) ani logiki, która przypisuje klucz shardu do instancji bazy danych. Wie tylko, że cyfra kontrolna ISBN książki jest kluczem shard. Witryna internetowa ma dostęp tylko do odczytu do bazy danych mapy fragmentów oraz dostęp do odczytu i zapisu we wszystkich bazach danych fragmentów. W tym przykładzie witryna internetowa używa tożsamości zarządzanej przez system, należącej do hosta usługi Azure App Service, do autoryzacji, co pozwala na przechowywanie tajnych danych poza parametrami połączenia.

Witryna internetowa jest skonfigurowana przy użyciu następujących parametrów połączenia w appsettings.json pliku, jak pokazano w tym przykładzie lub za pomocą ustawień aplikacji usługi App Service.

{
  ...
  "ConnectionStrings": {
    "ShardMapDb": "Data Source=tcp:<database-server-name>.database.windows.net,1433;Initial Catalog=ShardMap;Authentication=Active Directory Default;App=Book Site v1.5a",
    "BookDbFragment": "Data Source=tcp:SHARD.database.windows.net,1433;Initial Catalog=Books;Authentication=Active Directory Default;App=Book Site v1.5a"
  },
  ...
}

Poniższy kod pokazuje, jak witryna internetowa uruchamia zapytanie o aktualizację względem puli fragmentów bazy danych obciążenia.

...

// All data for this book is stored in a shard based on the book's ISBN check digit,
// which is converted to an integer 0 - 10 (special value 'X' becomes 10).
int isbnCheckDigit = book.Isbn.CheckDigitAsInt;

// Establish a pooled connection to the database shard for this specific book.
using (SqlConnection sqlConn = await shardedDatabaseConnections.OpenShardConnectionForKeyAsync(key: isbnCheckDigit, cancellationToken))
{
  // Update the book's Library of Congress catalog information.
  SqlCommand cmd = sqlConn.CreateCommand();
  cmd.CommandText = @"UPDATE LibraryOfCongressCatalog
                         SET ControlNumber = @lccn,
                             ...
                             Classification = @lcc
                       WHERE BookID = @bookId";

  cmd.Parameters.AddWithValue("@lccn", book.LibraryOfCongress.Lccn);
  ...
  cmd.Parameters.AddWithValue("@lcc", book.LibraryOfCongress.Lcc);
  cmd.Parameters.AddWithValue("@bookId", book.Id);

  await cmd.ExecuteNonQueryAsync(cancellationToken);
}

...

W poprzednim przykładowym kodzie, jeśli book.Isbn było 978-8-1130-1024-6, to isbnCheckDigit powinno być 6. Wywołanie OpenShardConnectionForKeyAsync(6) jest zwykle implementowane przy użyciu podejścia typu "cache-aside". Jeśli buforowane informacje o fragmentach dla klucza fragmentu 6 nie są dostępne, metoda wysyła zapytanie do bazy danych mapy fragmentów zidentyfikowanej przez ShardMapDb ciąg połączeniowy. Metoda pobiera wartość bookdbshard2 z pamięci podręcznej aplikacji lub bazy danych shard i podstawia ją SHARD w łańcuchu BookDbFragment połączenia. Następnie metoda ustanawia lub ponownie ustanawia połączenie w puli z bookdbshard2.database.windows.net, otwiera je i zwraca do kodu, który go wywołał. Następnie kod aktualizuje istniejący rekord w tym wystąpieniu bazy danych.

Przykładowy kod witryny internetowej: dostęp do wielu fragmentów

W rzadkich przypadkach, gdy witryna internetowa wymaga bezpośredniego zapytania między-fragmentowego, aplikacja wykonuje równoległe zapytanie typu fan-out we wszystkich fragmentach.

...

// Retrieve all shard keys.
var shardKeys = shardedDatabaseConnections.GetAllShardKeys();

// Run the query in a fan-out style against each shard in the shard list.
Parallel.ForEachAsync(shardKeys, async (shardKey, cancellationToken) =>
{
  using (SqlConnection sqlConn = await shardedDatabaseConnections.OpenShardConnectionForKeyAsync(key: shardKey, cancellationToken))
  {
    SqlCommand cmd = sqlConn.CreateCommand();
    cmd.CommandText = @"SELECT ...
                          FROM ...
                         WHERE ...";

    SqlDataReader reader = await cmd.ExecuteReaderAsync(cancellationToken);

    while (await reader.ReadAsync(cancellationToken))
    {
      // Collect the results into a thread-safe data structure.
    }

    reader.Close();
  }
});

...

Jako alternatywa dla zapytań obejmujących wiele fragmentów to obciążenie może używać indeksu obsługiwanego zewnętrznie w usłudze Azure AI Search na potrzeby wyszukiwania witryn lub nawigacji aspektowej.

Dodaj wystąpienia shardów

Zespół ds. obciążeń wie, że jeśli wykaz danych lub jego współbieżne użycie znacznie wzrośnie, może wymagać więcej niż trzech wystąpień bazy danych. Zespół ds. obciążeń nie oczekuje dynamicznego dodawania serwerów baz danych i akceptuje przestój operacyjny po wprowadzeniu nowego fragmentu do działania. Aby uruchomić nowe wystąpienie shardu, muszą przenieść dane z istniejących shardów do nowego shardu i zaktualizować tabelę mapowania shardów. Dzięki temu dość statycznemu podejściu proces może bezpiecznie buforować mapowanie klucza fragmentu w bazie danych w kodzie strony internetowej.

Logika klucza fragmentu w tym przykładzie ma górny limit 11 fragmentów fizycznych. Jeśli zespół ds. obciążenia ustali przez szacowanie obciążenia, że w końcu wymaga więcej niż 11 instancji bazy danych, musi wprowadzić inwazyjną zmianę logiki klucza shard. Ta zmiana obejmuje staranne planowanie modyfikacji kodu i migracji danych do nowej logiki klucza.

Funkcje zestawu SDK

Zamiast pisać niestandardowy kod na potrzeby zarządzania fragmentami i routingu zapytań do wystąpień usługi SQL Database, oceń elastyczną bibliotekę klienta bazy danych. Ta biblioteka obsługuje zarządzanie mapami fragmentów, routing zapytań zależnych od danych i zapytania krzyżowe w języku C# i Java.

Następne kroki

Poziomy spójności w usłudze Azure Cosmos DB: Dystrybucja danych między fragmentami wprowadza kompromisy związane ze spójnością. W tym artykule opisano spektrum modeli spójności, od silnej do ostatecznej oraz ich wpływ na dostępność i opóźnienia.

Partycjonowanie danych poziomych, pionowych i funkcjonalnych: w tym artykule opisano inne strategie partycjonowania danych w chmurze w celu zwiększenia skalowalności, zmniejszenia rywalizacji i optymalizacji wydajności.
Wzorzec indeksowania tabeli: Czasami nie można obsługiwać wszystkich zapytań przy użyciu samego projektu klucza shardowania. Aplikacja może używać wzorca tabeli indeksowania do pobierania danych z dużego magazynu danych, określając klucz inny niż klucz fragmentu.
Zmaterializowany wzorzec widoku: aby zachować wydajność niektórych operacji zapytań, można utworzyć zmaterializowane widoki, które agregują i sumują dane, zwłaszcza w przypadku dystrybucji tych danych między fragmentami.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-03