Gegevens overslaan

Notitie

In Databricks Runtime 13.3 en hoger raadt Databricks aan om liquid clustering te gebruiken voor tabelindeling. Clustering is niet compatibel met Z-volgorde. Zie Liquid Clustering gebruiken voor tabellen.

Informatie over het overslaan van gegevens wordt automatisch verzameld wanneer u gegevens in een tabel invoert. Azure Databricks maakt gebruik van deze informatie (minimum- en maximumwaarden, null-aantallen en totaal aantal records per bestand) op het moment van query's om snellere query's te bieden.

U moet statistieken hebben verzameld voor kolommen die worden gebruikt in ZORDER verklaringen. Zie Wat is Z-ordering?

Kolommen voor statistieken opgeven

Voor externe tabellen van Unity Catalog worden statistieken verzameld voor de eerste 32 kolommen die standaard in uw tabelschema zijn gedefinieerd. Voor beheerde tabellen in Unity Catalog worden statistieken voor het overslaan van bestanden intelligent gekozen met behulp van voorspellende optimalisatie en hebben ze geen kolomlimiet van 32. Voorspellende optimalisatie wordt automatisch uitgevoerd ANALYZE, een opdracht voor het verzamelen van statistieken. Databricks raadt aan voorspellende optimalisatie in te schakelen voor alle beheerde tabellen in Unity Catalog om het onderhoud van gegevens te vereenvoudigen en de opslagkosten te verlagen. Zie Voorspellende optimalisatie voor beheerde tabellen van Unity Catalog.

Als u geen predictive optimization gebruikt, kunt u het gedrag wijzigen waarmee statistiekenverzamelingen worden beperkt tot 32 kolommen door een van de volgende tabeleigenschappen in te stellen:

Tabeleigenschap	Databricks Runtime wordt ondersteund	Beschrijving
`dataSkippingNumIndexedCols`	Alle ondersteunde Databricks Runtime-versies	Verhoog of verklein het aantal kolommen waarop statistieken worden verzameld. Afhankelijk van de kolomvolgorde.
`dataSkippingStatsColumns`	Databricks Runtime 13.3 LTS en hoger	Geef een lijst met kolomnamen op waarvoor statistieken worden verzameld. `dataSkippingNumIndexedCols`Vervangt .

Tabeleigenschappen kunnen worden ingesteld bij het maken van tabellen of met ALTER TABLE instructies. Zie naslaginformatie over tabeleigenschappen. In het volgende voorbeeld wordt het standaardgedrag van statistiekenverzameling overschreven om verzameling statistieken in te stellen op benoemde kolommen:

-- For Delta tables
ALTER TABLE table_name SET TBLPROPERTIES('delta.dataSkippingStatsColumns' = 'col1, col2, col3')

-- For Iceberg tables
ALTER TABLE table_name SET TBLPROPERTIES('iceberg.dataSkippingStatsColumns' = 'col1, col2, col3')

Bij het bijwerken van deze eigenschappen worden statistieken voor bestaande gegevens niet automatisch opnieuw berekend. In plaats daarvan heeft dit invloed op het gedrag van het verzamelen van toekomstige statistieken bij het toevoegen of bijwerken van gegevens in de tabel. Statistieken worden niet gebruikt voor kolommen die niet zijn opgenomen in de huidige lijst met statistiekenkolommen.

Als u in Databricks Runtime 14.3 LTS en hoger de tabeleigenschappen hebt gewijzigd of de opgegeven kolommen voor statistieken hebt gewijzigd, kunt u de hercomputatie van statistieken voor een tabel handmatig activeren met behulp van de volgende opdracht:

ANALYZE TABLE table_name COMPUTE DELTA STATISTICS

Notitie

Lange tekenreeksen worden afgekort bij het verzamelen van statistieken. U kunt ervoor kiezen om lange tekenreekskolommen uit te sluiten van de verzameling statistieken, met name als de kolommen niet vaak worden gebruikt voor het filteren van query's.

Wat is Z-ordering?

Notitie

Databricks raadt het gebruik van vloeibare clustering aan voor alle nieuwe tabellen. U kunt niet in combinatie met vloeistofclustering gebruiken ZORDER . Zie Liquid Clustering gebruiken voor tabellen.

Z-volgorde is een techniek om gerelateerde informatie in dezelfde set bestanden te rangschikken. Azure Databricks-algoritmen voor het overslaan van data maken automatisch gebruik van deze co-lokaliteit. Dit gedrag vermindert de hoeveelheid gegevens die moet worden gelezen. Geef de kolommen op die in de ZORDER BY clausule moeten worden gesorteerd op Z-order.

OPTIMIZE events
WHERE date >= current_timestamp() - INTERVAL 1 day
ZORDER BY (eventType)

Als u verwacht dat een kolom vaak wordt gebruikt in querypredicaten en als die kolom een hoge kardinaliteit (dat wil gezegd een groot aantal afzonderlijke waarden) heeft, gebruikt u ZORDER BY.

U kunt meerdere kolommen voor ZORDER BY opgeven als een door komma's gescheiden lijst. De effectiviteit van de lokaliteit daalt echter met elke extra kolom. Z-volgorde op kolommen waarvoor geen statistieken zijn verzameld, zou ineffectief zijn en een verspilling van resources. Dit komt doordat voor het overslaan van gegevens kolom-lokale statistieken zijn vereist, zoals min, max en aantal. U kunt het verzamelen van statistieken voor bepaalde kolommen configureren door de volgorde van kolommen in het schema te wijzigen of u kunt het aantal kolommen verhogen waarop statistieken moeten worden verzameld.

Notitie

Z-volgorde is niet idempotent , maar is een incrementele bewerking. De tijd die nodig is voor Z-volgorde verwerking zal niet noodzakelijk verminderen over meerdere uitvoeringen. Als er echter geen nieuwe gegevens zijn toegevoegd aan een partitie die alleen Z-geordende was, heeft een andere Z-volgorde van die partitie geen effect.
Z-volgorde streeft ernaar om gelijkmatig verdeelde gegevensbestanden te produceren met betrekking tot het aantal tuples, maar niet noodzakelijkerwijs gegevensgrootte op schijf. De twee metingen zijn het vaakst gecorreleerd, maar er kunnen situaties zijn waarin dat niet het geval is, wat leidt tot scheeftrekken in het optimaliseren van taaktijden.

Als u ZORDER BY bijvoorbeeld dateert en de meest recente records veel breder zijn (bijvoorbeeld langere arrays of tekenreekswaarden) dan de records in het verleden, wordt verwacht dat de taakduur van de OPTIMIZE taak scheef zal zijn, evenals de resulterende bestandsgroottes. Dit is echter alleen een probleem voor de OPTIMIZE opdracht zelf; het mag geen negatieve invloed hebben op volgende query's.

Feedback

Is deze pagina nuttig?

Last updated on 2026-03-06

Gegevens overslaan

Kolommen voor statistieken opgeven

Wat is Z-ordering?

Feedback

Aanvullende resources