Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Predictive I/O is a collection of Azure Databricks optimizations that improve performance for data interactions. Predictive I/O capabilities are grouped into the following categories:
- Accelerated reads reduce the time it takes to scan and read data.
- Accelerated updates reduce the amount of data that needs to be rewritten during updates, deletes, and merges.
Predictive I/O is exclusive to the Photon engine on Azure Databricks.
Use predictive I/O to accelerate reads
Predictive I/O is used to accelerate data scanning and filtering performance for all operations on supported compute types.
Important
Predictive I/O reads are supported by the serverless and pro types of SQL warehouses, and Photon-accelerated clusters running Databricks Runtime 11.3 LTS and above.
Predictive I/O improves scanning performance by applying deep learning techniques to do the following:
- Determine the most efficient access pattern to read the data and only scanning the data that is actually needed.
- Eliminujte dekódování sloupců a řádků, které nejsou potřeba k vygenerování výsledků dotazu.
- Calculate the probabilities of the search criteria in selective queries matching a row. Při spouštění dotazů používáme tyto pravděpodobnosti k předvídání toho, kde by došlo k dalšímu odpovídajícímu řádku, a pouze ke čtení těchto dat z cloudového úložiště.
Use predictive I/O to accelerate updates
Prediktivní vstupně-výstupní operace pro aktualizace se používají automaticky pro všechny tabulky s povolenými vektory odstranění pomocí následujících výpočetních typů s podporou Photon:
- Serverless SQL warehouses.
- Pro SQL warehouses.
- Clusters running Databricks Runtime 14.0 and above.
Note
Support for predictive I/O for updates is present in Databricks Runtime 12.2 LTS and above, but Databricks recommends using 14.0 and above for best performance.
See What are deletion vectors?.
Important
Nastavení správce pracovního prostoru určuje, jestli jsou vektory odstranění pro nové tabulky Delta povolené automaticky. See Auto-enable deletion vectors.
Podporu vektorů odstranění v tabulce Delta Lake povolíte nastavením vlastnosti tabulky Delta Lake. Při vytváření tabulky nebo úpravě existující tabulky povolíte vektory odstranění, jak je znázorněno v následujících příkladech:
CREATE TABLE <table-name> [options] TBLPROPERTIES ('delta.enableDeletionVectors' = true);
ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);
Warning
Když povolíte vektory odstranění, upgraduje se verze protokolu tabulky. Po upgradu nebude tabulka čitelná klienty Delta Lake, kteří nepodporují vektory odstranění. Viz kompatibilita a protokoly funkcí Delta Lake.
Seznam klientů, kteří podporují vektory odstranění, naleznete v tématu Kompatibilita s klienty Delta.
In Databricks Runtime 14.1 and above, you can drop the deletion vectors table feature to enable compatibility with other Delta clients. See Drop a Delta Lake table feature and downgrade table protocol.
Prediktivní vstupně-výstupní operace využívá vektory odstranění k urychlení aktualizací snížením četnosti přepisů souborů během úprav dat v tabulkách Delta. Predictive I/O optimizes DELETE
, MERGE
, and UPDATE
operations.
Rather than rewriting all records in a data file when any record is updated or deleted, predictive I/O uses deletion vectors to indicate records have been removed from the target data files. Supplemental data files are used to indicate updates.
Subsequent reads on the table resolve current table state by applying the noted changes to the most recent table version.
Important
Predictive I/O updates share all limitations with deletion vectors. In Databricks Runtime 12.2 LTS and greater, the following limitations exist:
- Delta Sharing není podporováno u tabulek s povolenými vektory odstranění.
- Nelze vygenerovat soubor manifestu pro tabulku s přítomnými vektory odstranění. Spusťte
REORG TABLE ... APPLY (PURGE)
a ujistěte se, že nejsou spuštěny žádné souběžné operace zápisu, aby se vygeneroval manifest. - Soubory manifestu nelze přírůstkově generovat pro tabulku s povolenými vektory odstranění.