Pomijanie danych

Uwaga

W środowisku Databricks Runtime 13.3 lub nowszym usługa Databricks zaleca używanie płynnego klastrowania dla układu tabeli. Klastrowanie nie jest zgodne z kolejnością Z. Zobacz Używaj płynnego grupowania dla tabel.

Informacje dotyczące pomijania danych są zbierane automatycznie podczas zapisywania danych w tabeli. Usługa Azure Databricks korzysta z tych informacji (minimalnych i maksymalnych wartości, liczby wartości null i łącznej liczby rekordów na plik) w czasie wykonywania zapytań w celu zapewnienia szybszych zapytań.

Musisz mieć zebrane statystyki dla kolumn używanych w ZORDER instrukcjach. Zobacz Co to jest porządkowanie Z?.

Określanie kolumn statystyk

W przypadku tabel zewnętrznych Katalogu Unity statystyki są domyślnie zbierane dla pierwszych 32 kolumn zdefiniowanych w schemacie tabeli. W przypadku zarządzanych tabel Katalogu Unity statystyki pomijania plików są wybierane inteligentnie z wykorzystaniem optymalizacji predykcyjnej i nie mają limitu 32 kolumn. Optymalizacja predykcyjna automatycznie uruchamia ANALYZEpolecenie służące do zbierania statystyk. Databricks zaleca włączenie optymalizacji predykcyjnej dla wszystkich tabel zarządzanych przez Unity Catalog, aby uprościć konserwację danych i zmniejszyć koszty przechowywania. Zobacz Optymalizację predykcyjną dla tabel zarządzanych przez Unity Catalog.

Jeśli nie używasz optymalizacji predykcyjnej, możesz zmodyfikować zachowanie, które ogranicza kolekcje statystyk do 32 kolumn, ustawiając jedną z następujących właściwości tabeli:

Właściwość tabeli	Obsługiwane środowisko uruchomieniowe Databricks	opis
`dataSkippingNumIndexedCols`	Wszystkie obsługiwane wersje środowiska Databricks Runtime	Zwiększ lub zmniejsz liczbę kolumn, na których są zbierane statystyki. Zależy od kolejności kolumn.
`dataSkippingStatsColumns`	Databricks Runtime 13.3 LTS i nowsze	Określ listę nazw kolumn, dla których są zbierane statystyki. Zastępuje `dataSkippingNumIndexedCols`.

Właściwości tabeli można ustawić podczas tworzenia tabeli lub instrukcji ALTER TABLE . Zobacz Informacje o właściwościach tabeli. Poniższy przykład zastępuje domyślne zachowanie zbierania statystyk, aby ustawić zbieranie statystyk dla nazwanych kolumn.

-- For Delta tables
ALTER TABLE table_name SET TBLPROPERTIES('delta.dataSkippingStatsColumns' = 'col1, col2, col3')

-- For Iceberg tables
ALTER TABLE table_name SET TBLPROPERTIES('iceberg.dataSkippingStatsColumns' = 'col1, col2, col3')

Aktualizowanie tych właściwości nie powoduje automatycznej ponownej kompilacji statystyk dla istniejących danych. Ma to wpływ na zachowanie przyszłego gromadzenia statystyk podczas dodawania lub aktualizowania danych w tabeli. Statystyki nie są używane dla kolumn nieuwzględnianych na bieżącej liście kolumn statystyk.

W środowisku Databricks Runtime 14.3 LTS lub nowszym, jeśli zmieniono właściwości tabeli lub zmieniono określone kolumny dla statystyk, możesz ręcznie wyzwolić ponowną kompilację statystyk dla tabeli przy użyciu następującego polecenia:

ANALYZE TABLE table_name COMPUTE DELTA STATISTICS

Uwaga

Długie ciągi są obcinane podczas zbierania statystyk. Możesz wykluczyć długie kolumny ciągów z kolekcji statystyk, zwłaszcza jeśli kolumny nie są często używane do filtrowania zapytań.

Co to jest porządek Z?

Uwaga

Usługa Databricks zaleca używanie płynnego klastrowania dla wszystkich nowych tabel. Nie można używać ZORDER w połączeniu z klastrowaniem płynnym. Zobacz Używaj płynnego grupowania dla tabel.

Porządkowanie Z to technika kolokowania powiązanych informacji w tym samym zestawie plików. Algorytmy pomijania danych usługi Azure Databricks automatycznie używają tej współlokalizacji. To zachowanie zmniejsza ilość danych, które należy odczytać. Aby uporządkować dane według porządku Z, należy określić kolumny w klauzuli ZORDER BY.

OPTIMIZE events
WHERE date >= current_timestamp() - INTERVAL 1 day
ZORDER BY (eventType)

Jeśli oczekujesz, że kolumna będzie często używana w predykatach zapytań, a jeśli ta kolumna ma wysoką kardynalność (czyli dużą liczbę unikatowych wartości), użyj polecenia ZORDER BY.

Można wskazać wiele kolumn dla ZORDER BY jako listę rozdzielaną przecinkami. Jednak skuteczność lokalizacji spada z każdą dodatkową kolumną. Porządkowanie według Z dla kolumn, które nie mają zebranych statystyk, byłoby nieskuteczne i stratą zasobów. Wynika to z faktu, że pomijanie danych wymaga lokalnych statystyk kolumnowych, takich jak wartość minimalna, maksymalna oraz liczba wystąpień. Zbieranie statystyk dla niektórych kolumn można skonfigurować, zmieniając kolejność kolumn w schemacie lub zwiększając liczbę kolumn w celu zbierania statystyk.

Uwaga

Porządkowanie Z nie jest idempotentne , ale ma być operacją przyrostową. Czas potrzebny na porządkowanie Z nie jest gwarantowany do zmniejszania się przy kolejnych uruchomieniach. Jeśli jednak żadne nowe dane nie zostały dodane do partycji, która została po prostu uporządkowana w formacie Z, kolejna kolejność Z tej partycji nie będzie miała żadnego wpływu.
Porządkowanie Z ma na celu tworzenie równomiernie zrównoważonych plików danych pod względem liczby krotek, ale niekoniecznie rozmiaru danych na dysku. Te dwie miary są najczęściej skorelowane, ale mogą wystąpić sytuacje, gdy tak nie jest, co prowadzi do niesymetryczności w czasie optymalizacji zadań.

Jeśli na przykład ZORDER BYdata i najnowsze rekordy są znacznie szersze (na przykład dłuższe tablice lub wartości ciągów) niż te w przeszłości, oczekuje się, że OPTIMIZE czasy trwania zadań zadania zostaną wypaczone, a także wynikowe rozmiary plików. Jest to jednak problem tylko dla OPTIMIZE samego polecenia; nie powinien mieć żadnego negatywnego wpływu na kolejne zapytania.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-03-06

Pomijanie danych

Określanie kolumn statystyk

Co to jest porządek Z?

Opinia

Dodatkowe zasoby