Sposoby określania rozmiaru, skalowania i kolejkowania w magazynie SQL

W tym artykule wyjaśniono, jak rozmiarować i skalować kolejki zapytań magazynów SQL w usłudze Databricks oraz nimi zarządzać w celu optymalizacji wydajności i kosztów. Databricks zaleca używanie bezserwerowego magazynu SQL dla większości obciążeń. Magazyny danych SQL w architekturze bezserwerowej zapewniają najlepszą wydajność i efektywność dzięki dynamicznemu zarządzaniu zasobami dla zapytań.

Zarządzanie bezserwerową usługą SQL Warehouse

Bezserwerowe magazyny SQL używają inteligentnego zarządzania obciążeniami (IWM) do automatycznego zarządzania obciążeniami zapytań. IWM to zestaw funkcji opartych na sztucznej inteligencji, które umożliwiają szybkie i ekonomiczne przetwarzanie zapytań bez konieczności zarządzania infrastrukturą.

Inteligentne zarządzanie obciążeniami i skalowanie automatyczne

Usługa IWM używa modeli uczenia maszynowego do dynamicznego zarządzania zasobami obliczeniowymi:

Po nadejściu nowego zapytania usługa IWM przewiduje wymagania dotyczące zasobów i sprawdza dostępną pojemność.
- Jeśli pojemność istnieje, zapytanie jest uruchamiane natychmiast.
- Jeśli nie, zapytanie zostanie umieszczone w kolejce.
Program IWM stale monitoruje kolejkę. W przypadku zwiększenia czasu oczekiwania autoscaler szybko uruchamia więcej klastrów do przetwarzania zapytań w kolejce.
Gdy zapotrzebowanie spadnie, usługa IWM ogranicza zasoby, aby zmniejszyć koszty, utrzymując wystarczającą wydajność do obsługi ostatnich szczytowych obciążeń.

Takie podejście zapewnia:

Szybkie skalowanie w celu zachowania małych opóźnień zapytań.
Wysokie przetwarzanie przez sprzęt dzięki obsługiwaniu zapytań, gdy tylko sprzęt jest dostępny.
Szybkie skalowanie w dół w celu oszczędzania kosztów podczas niskiego zapotrzebowania.

Ustalanie rozmiaru bezserwerowego magazynu SQL Warehouse

Rozmiar klastra (na przykład X-Small, Medium, Large) określa zasoby obliczeniowe dostępne dla jednego klastra. Autoskalator dodaje lub usuwa klastry tego rozmiaru zgodnie z potrzebami.

Skorzystaj z poniższych wskazówek, aby ułatwić wybór odpowiedniego rozmiaru:

Zacznij od jednego większego magazynu i pozwól, aby funkcje bezserwerowe zarządzały współbieżnością i wydajnością. Zwykle bardziej efektywne jest zmniejszenie rozmiaru, jeśli jest to konieczne, niż rozpoczęcie od małego i skalowanie w górę.
Jeśli zapytania rozlewają się na dysk, zwiększ rozmiar klastra. Sprawdź przeciążenia w profilu zapytania.
W przypadku obciążeń z wieloma współbieżnymi zapytaniami należy skonfigurować wystarczającą maksymalną liczbę klastrów do obsługi szczytowych obciążeń. Monitoruj metrykę Peak Queued Queries na stronie monitorowania hurtowni.

Uwaga

W przypadku bezserwerowych magazynów SQL rozmiary klastrów mogą w niektórych przypadkach używać różnych typów wystąpień niż wymienione w dokumentacji dla magazynów pro i klasycznych magazynów SQL dla równoważnego rozmiaru klastra. Ogólnie rzecz biorąc, stosunek ceny do wydajności rozmiarów klastrów dla bezserwerowych magazynów SQL jest podobny do stosunku magazynów pro i klasycznych.

Monitorowanie wydajności magazynu

Przy użyciu tych narzędzi możesz monitorować i określać odpowiedni rozmiar dowolnego magazynu SQL Warehouse. Maksymalna liczba zapytań w kolejce dla wszystkich typów magazynu wynosi 1000.

Strona monitorowania: Na karcie Monitorowanie usługi SQL Warehouse zaznacz pole Peak Queued Queries (Szczytowe zapytania w kolejce). Wartość spójna powyżej 0 wskazuje, że może być potrzebny większy rozmiar klastra lub więcej klastrów.
Historia zapytań: Analizuj historyczną performancję zapytań, aby zidentyfikować problemy z przepustowością.
Profil zapytania: Sprawdź plany wykonywania metryk, takich jak bajty rozlane na dysk, co wskazuje, że rozmiar magazynu może być zbyt mały.

Klasyczne i profesjonalne magazyny danych SQL

Magazyny klasyczne oraz typu pro używają modelu ręcznego skalowania, w którym konfigurujesz liczbę węzłów.

Określanie rozmiaru i przydzielanie zasobów klastra

Ważna

Rozmiar klastra 5X-Large znajduje się w publicznej wersji zapoznawczej dla magazynów SQL w wersji pro i bezserwerowej we wszystkich regionach. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Podczas tworzenia magazynu klasycznego lub pro wybierz rozmiar klastra i ustaw minimalną i maksymalną liczbę klastrów. Te jednostki SKU mają stały limit jednego klastra na 10 współbieżnych zapytań.

Rozmiar klastra	Typ instancji sterownika	Liczba pracowników
2X-small	Standard_E8ds_v4	1 x Standard_E8ds_v4
X-Small	Standard_E8ds_v4	2 x Standard_E8ds_v4
Mały	Standard_E16ds_v4	4 x Standard_E8ds_v4
Średni	Standard_E32ds_v4	8 x Standard_E8ds_v4
Duży	Standard_E32ds_v4	16 x Standard_E8ds_v4
X-Large	Standard_E64ds_v4	32 x Standard_E8ds_v4
2X-Large	Standard_E64ds_v4	64 x Standard_E8ds_v4
3X-Large	Standard_E64ds_v4	128 x Standard_E8ds_v4
Duży rozmiar 4X	Standard_E64ds_v4	256 x Standard_E8ds_v4
Duży rozmiar 5X	Standard_E64ds_v4	512 x Standard_E8ds_v4

Rozmiar wystąpienia wszystkich procesów roboczych jest Standard_E8ds_v4.

Każdy kierowca i pracownik ma dołączony zarządzany dysk LRS SSD w warstwie Premium o pojemności 256 GB. Opłaty za dołączone dyski są naliczane godzinowo.

Wymagany przydział vCPU platformy Azure dla klasycznych i profesjonalnych hurtowni SQL

Aby uruchomić klasyczny lub Pro SQL Warehouse, musisz mieć odpowiedni limit przydziału vCPU platformy Azure dla wystąpień Standard_E8ds_v4 na koncie platformy Azure. Skorzystaj z poniższych wskazówek, aby określić wymagany limit przydziału procesorów wirtualnych:

Jeśli masz tylko jeden lub dwa magazyny SQL, sprawdź, czy masz 8 procesorów wirtualnych platformy Azure dostępnych dla każdego rdzenia w klastrze. Gwarantuje to, że masz odpowiedni procesor wirtualny platformy Azure, aby umożliwić ponowne aprowizowanie magazynu, co odbywa się mniej więcej co 24 godziny. Może być konieczne zwiększenie mnożnika, jeśli magazyny SQL używają skalowania automatycznego lub równoważenia obciążenia w wielu klastrach.

Wraz ze wzrostem liczby magazynów SQL zaleca się umożliwienie od 4 do 8 wirtualnych procesorów Azure vCPU na każdy rdzeń w klastrze. Usługa Databricks zaleca rozpoczęcie od większej liczby i monitorowanie stabilności.
Procesory wirtualne platformy Azure używane przez magazyny SQL są dodatkiem do procesorów wirtualnych platformy Azure używanych przez klastry używane przez środowisko data science & Engineering lub przez obciążenia inne niż databricks.

Aby zażądać dodatkowego limitu przydziału vCPU w Azure, zobacz Standardowy limit przydziału: Zwiększanie limitów według serii maszyn wirtualnych w dokumentacji Azure.

Uwaga

Informacje w tej tabeli mogą się różnić w zależności od dostępności produktu lub regionu i typu obszaru roboczego.

Logika kolejkowania i skalowania automatycznego

W przypadku klasycznych i profesjonalnych magazynów autoskalowanie dodaje klastry w oparciu o szacowany czas przetworzenia wszystkich uruchomionych zapytań oraz zapytań w kolejce.

2–6 minut ładowania zapytań: Dodaj 1 klaster.
6–12 minut: Dodaj 2 klastry.
12–22 minuty: Dodaj 3 klastry.
Ponad 22 minuty: dodaj 3 klastry oraz 1 dodatkowy dla każdego kolejnego 15 minut obciążenia.

Dodatkowe reguły:

Jeśli zapytanie czeka w kolejce przez 5 minut, następuje zwiększenie zasobów dostawcy.
Jeśli obciążenie pozostanie niskie przez 15 kolejnych minut, magazyn jest skalowany w dół do minimum potrzebnego do obsługi szczytowego obciążenia z tego okresu.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-28