Sdílet prostřednictvím


Poznámky k vydání bezserverového výpočetního prostředí

Tento článek vysvětluje funkce a chování, které jsou aktuálně dostupné a nadcházející na výpočetních prostředcích bez serveru pro poznámkové bloky a úlohy.

Další informace o bezserverových výpočetních prostředcích najdete v tématu Připojení k výpočetním prostředkům bez serveru.

Azure Databricks pravidelně vydává aktualizace bezserverového výpočetního prostředí, které automaticky aktualizuje prostředí runtime bezserverového výpočetního prostředí, aby podporovalo vylepšení a upgrady platformy. Všichni uživatelé dostávají stejné aktualizace, které jsou zavedeny během krátké doby.

bezserverové verze prostředí

Bezserverové výpočetní prostředky pro poznámkové bloky a úlohy používají verze prostředí, které poskytují stabilní klientské rozhraní API založené na Spark Connect, aby se zajistila kompatibilita aplikací. Databricks tak může server upgradovat nezávisle, poskytovat vylepšení výkonu, vylepšení zabezpečení a opravy chyb bez nutnosti jakýchkoli změn kódu v úlohách.

Každá verze prostředí zahrnuje konkrétní verzi Pythonu a sadu balíčků Pythonu s definovanými verzemi. Databricks zavádí nové funkce a opravy v nejnovější verzi prostředí a současně aplikuje aktualizace zabezpečení na všechny podporované verze prostředí.

Poznámky k verzi bezserverového prostředí najdete v tématu Verze bezserverového prostředí.

Poznámky k vydání

Tato část obsahuje poznámky k verzi pro bezserverové výpočetní prostředky. Poznámky k vydání jsou organizovány podle roku a týdne v roce. Bezserverové výpočetní prostředí se vždy spouští pomocí nejnovější vydané verze uvedené zde.

Verze 17.3

28. října 2025

Tato bezserverová výpočetní verze přibližně odpovídá databricks Runtime 17.3 LTS.

Nové funkce

  • LIMIT Veškerá podpora rekurzivních objektů CTE: Teď můžete použít LIMIT ALL klauzuli s rekurzivními běžnými tabulkovými výrazy (rCTEs), abyste explicitně určili, že na výsledky dotazu by se nemělo použít žádné omezení řádků. Viz Společný výraz tabulky (CTE).

  • Připojení k souborům ve svazcích katalogu Unity vrátí správnou chybu: Pokus o připojení k existujícím souborům ve svazcích katalogu Unity teď vrátí popisnější chybovou zprávu, která vám pomůže pochopit a vyřešit problém.

  • st_dump podpora funkcí: Funkci teď můžete použít st_dump k dekompilování objektu geometrie do jejích základních částí a vrácení sady jednodušších geometrií. Viz st_dump funkce.

  • Funkce vnitřních prstenců polygonu jsou nyní podporovány: Nyní můžete použít následující funkce pro práci s mnohoúhelníkovými vnitřními kroužky:

  • EXECUTE IMMEDIATE using constant expressions: Příkaz EXECUTE IMMEDIATE teď podporuje použití konstantních výrazů v řetězci dotazu, což umožňuje flexibilnější dynamické spouštění SQL. Viz EXECUTE IMMEDIATE.

  • Povolit spark.sql.files.maxPartitionBytes ve výpočetních prostředcích bez serveru: Nyní můžete nakonfigurovat spark.sql.files.maxPartitionBytes Parametr konfigurace Sparku na bezserverových výpočetních prostředcích pro řízení maximálního počtu bajtů, které se mají zabalit do jednoho oddílu při čtení souborů. Viz Konfigurace vlastností Sparku pro bezserverové poznámkové bloky a úlohy.

Změny chování

  • Podpora informací o aktualizaci MV/ST v části DESCRIBE EXTENDED AS JSON: Příkaz DESCRIBE EXTENDED AS JSON teď obsahuje informace o aktualizaci pro materializovaná zobrazení a streamované tabulky a poskytuje přehled o čase a stavu poslední aktualizace.

  • Přidání sloupce metadat do DESCRIBE QUERY a DESCRIBE TABLE: Příkazy DESCRIBE QUERYDESCRIBE TABLE teď ve výstupu obsahují sloupec metadat, který poskytuje další informace o vlastnostech a vlastnostech jednotlivých sloupců.

  • Správné zpracování struktur null při vyřazení sloupců NullType: Azure Databricks teď správně zpracovává hodnoty null struktury při vyřazení sloupců NullType, což brání potenciálnímu poškození dat nebo neočekávanému chování.

  • Vylepšené zpracování struktur null v Parquet: Tato verze obsahuje vylepšení způsobu zpracování hodnot struktury null při čtení a zápisu do souborů Parquet, což zajišťuje konzistentnější a správné chování.

  • Aktualizace knihovny aws-msk-iam-auth pro Kafka: Knihovna aws-msk-iam-auth používaná pro ověřování Amazon MSK IAM byla aktualizována na nejnovější verzi, což poskytuje lepší zabezpečení a kompatibilitu.

Verze 17.2

25. září 2025

Tato bezserverová výpočetní verze přibližně odpovídá databricks Runtime 17.2.

Nové funkce

  • ST_ExteriorRing Funkce je teď podporovaná: Teď můžete pomocí ST_ExteriorRing funkce extrahovat vnější hranici mnohoúhelníku a vrátit ji jako přímku. Viz st_exteriorring funkce.

  • Podpora klíčového slova TEMPORARY pro vytvoření zobrazení metriky: Nyní můžete použít klíčové slovo TEMPORARY při vytváření zobrazení metriky. Dočasná zobrazení metrik jsou viditelná pouze v relaci, která je vytvořila, a po skončení relace se zahodí. Viz CREATE VIEW.

  • Použijte nativní I/O pro LokiFileSystem.getFileStatus na S3: LokiFileSystem.getFileStatus nyní používá zásobník nativního I/O pro trafik Amazon S3 a vrací org.apache.hadoop.fs.FileStatus objekty místo shaded.databricks.org.apache.hadoop.fs.s3a.S3AFileStatus.

  • Automatický zavaděč odvodí sloupce oddílů v singleVariantColumn režimu: Automatický zavaděč teď odvodí sloupce oddílů z cest k souborům při ingestování dat jako částečně strukturovaného typu varianty pomocí singleVariantColumn této možnosti. Dříve nebyly sloupce oddílů automaticky detekovány. Podívejte se na možnosti automatického zavaděče.

Změny chování

  • DESCRIBE CONNECTION Zobrazuje nastavení prostředí pro připojení JDBC: Azure Databricks teď obsahuje uživatelsky definovaná nastavení prostředí ve výstupu DESCRIBE CONNECTION pro připojení JDBC, která podporují vlastní ovladače a běží izolovaně. Ostatní typy připojení zůstávají beze změny.

  • Možnost zkrátit jednotnou historii během migrace spravovaných tabulek: Nyní můžete zkrátit jednotnou historii při migraci tabulek pomocí ALTER TABLE...SET MANAGED s povolenou funkcí Uniform/Iceberg. To zjednodušuje migrace a snižuje výpadky v porovnání se zákazem a opětovným povolením uniformy ručně.

  • Správné výsledky pro split s prázdným regulárním výrazem a kladným limitem: Azure Databricks teď vrací správné výsledky při použití split function s prázdným regulárním výrazem a kladným limitem. Dříve funkce nesprávně zkrátila zbývající řetězec namísto zahrnutí do posledního prvku.

  • Oprava url_decode a try_url_decode zpracování chyb ve Photonu: Ve Photonu nyní try_url_decode() a url_decode() vrací failOnError = false pro neplatné řetězce kódované v URL, místo aby dotaz selhal.

  • Sdílené spouštěcí prostředí pro uživatelem definované tabulkové funkce (UDTFs) v Katalogu Unity: Azure Databricks nyní sdílí spouštěcí prostředí pro uživatelem definované funkce tabulek Pythonu (UDTFs) od stejného vlastníka a Spark relaci. STRICT ISOLATION Volitelná klauzule je k dispozici k zakázání sdílení UDF s vedlejšími účinky, například úpravou proměnných prostředí nebo spuštěním libovolného kódu.

Verze 17.1

19. srpna 2025

Tato verze bezserverového výpočetního prostředí přibližně odpovídá modulu Databricks Runtime 17.1.

Nové funkce

  • Snížené využití paměti pro široká schémata ve Foton writeru: Vylepšení byla provedena v modulu Photon, které výrazně snižují využití paměti pro široká schémata a řeší scénáře, které dříve způsobily chyby nedostatku paměti.

Změny chování

  • Chyba vyvolaná kvůli neplatným CHECK omezením: Azure Databricks teď vyvolá AnalysisException chybu, pokud CHECK se během ověřování omezení nedá výraz omezení vyřešit.

  • Pulzární spojnice už nezpřístupňuje Bouncy Castle: Knihovna Bouncy Castle je nyní stínována v pulsar konektoru, aby se zabránilo konfliktům tříd. V důsledku toho už úlohy Sparku nemají přístup ke org.bouncycastle.* třídám z konektoru. Pokud váš kód závisí na bouncy Castle, nainstalujte knihovnu ručně do bezserverového prostředí.

  • Automatický zavaděč ve výchozím nastavení používá události souborů, pokud jsou k dispozici: Automatický zavaděč používá události souborů místo výpisu adresáře, pokud je načítací cesta externím umístěním s povolenými událostmi souboru. Výchozí hodnota je useManagedFileEvents nyní if_available (byla false). To může zlepšit výkon příjmu dat a zaznamená upozornění, pokud ještě nejsou povolené události souborů.

  • Konektor Teradata opravuje porovnání řetězců s rozlišováním velkých a malých písmen: Konektor Teradata nyní ve výchozím nastavení zarovnává chování porovnání řetězců s Azure Databricks tím, že porovnávání je citlivé na velká a malá písmena. Tato změna je konfigurovatelná a nemá vliv na stávající uživatele, pokud se nepřihlásí.

Bezserverové prostředí verze 4

13. srpna 2025

Prostředí verze 4 je teď dostupné v bezserverových poznámkových blocích a úlohách. Tato verze prostředí zahrnuje upgrady knihoven a aktualizace rozhraní API. Viz Bezserverové prostředí verze 4.

Verze 17.0

24. července 2025

Tato bezserverová verze výpočetního prostředí přibližně odpovídá Databricks Runtime 17.0.

Nové funkce

  • Podpora procedur SQL: Skripty SQL se teď dají zapouzdřovat do procedury uložené jako opakovaně použitelný prostředek v katalogu Unity. Pomocí příkazu CREATE PROCEDURE můžete vytvořit proceduru a potom ji volat pomocí příkazu VOLAT .

  • Nastavte výchozí kolaci pro SQL funkce: Použití nové DEFAULT COLLATION klauzule v CREATE FUNCTION příkazu definuje výchozí kolaci používanou pro STRING parametry, pro návratový typ a STRING literály v textu funkce.

  • Podpora rekurzivních běžných tabulkových výrazů (rCTE): Azure Databricks teď podporuje navigaci hierarchických dat pomocí rekurzivních běžných tabulkových výrazů (rCTEs). K sledování rekurzivní relace použijte funkci CTE odkazující UNION ALL na sebe.

  • PySpark a Spark Connect teď podporují DataFrames df.mergeInto API: PySpark a Spark Connect teď podporují df.mergeInto rozhraní API.

  • Podpora ALL CATALOGS ve SHOW schématech: Syntaxe SHOW SCHEMAS se aktualizuje tak, aby přijímala ALL CATALOGSa umožňuje iterovat prostřednictvím všech aktivních katalogů, které podporují obory názvů. Výstupní atributy teď obsahují catalog sloupec označující katalog odpovídajícího oboru názvů.

  • Liquid clustering teď komprimuje vektory odstranění efektivněji: Tabulky Delta s liquid clusteringem teď používají fyzické změny vektorů odstranění efektivněji při OPTIMIZE spuštění. Další podrobnosti najdete v tématu Použití změn u datových souborů Parquet.

  • UPDATE: Azure Databricks teď umožňuje používat nedeterministické výrazy v aktualizovaných a vložených hodnotách sloupců operací /. Teď můžete například generovat dynamické nebo náhodné hodnoty pro sloupce pomocí výrazů, jako rand()je .

  • Změňte rozhraní API Delta MERGE Pythonu tak, aby vracelo DataFrame místo jednotky: Rozhraní API Pythonu MERGE (například) nyní také vrací DataFrame, stejně jako rozhraní SQL API, se stejnými výsledky.

Změny chování

  • Behaviorální změna pro možnost přírůstkového výpisu Auto Loader: Hodnota zastaralé možnosti Auto Loader cloudFiles.useIncrementalListing je nyní nastavena na výchozí hodnotu false. V důsledku toho tato změna způsobí, že auto loader při každém spuštění provede výpis celého adresáře. Databricks tuto možnost nedoporučuje používat. Místo toho použijte režim oznámení souboru s událostmi souborů.

  • CREATE VIEW Klauzule na úrovni sloupce teď vyvolávají chybu, pokud ty klauzule platí pouze pro materializovaná zobrazení: CREATE VIEW příkazy, které obsahují klauzuli na úrovni sloupce, která je platná pouze pro MATERIALIZED VIEW sloupce, nyní vyvolají chybu. Ovlivněné klauzule zahrnují NOT NULL, zadané datové typy, DEFAULTa COLUMN MASK.

Bezserverové cíle výkonu jsou obecná dostupnost

10. června 2025

Výběr nastavení výkonu bez serveru pro úlohy a kanály je teď obecně dostupný.

Pokud je povolené nastavení optimalizované pro výkon , vaše úloha je optimalizovaná pro rychlejší spuštění a dobu provádění. Pokud je úloha bez serveru zakázaná, běží ve standardním režimu výkonu, který je optimalizovaný pro náklady a má mírně vyšší latenci spuštění.

Další informace naleznete v tématu Výběr režimu výkonu a Výběr režimu výkonu.

Verze 16.4

28. května 2025

Tato bezserverová verze výpočetních prostředků přibližně odpovídá Databricks Runtime 16.4 LTS.

Změny chování

  • Oprava dodržování možností plánů uložených v mezipaměti zdroje dat: Tato aktualizace zajišťuje, že čtení tabulek respektuje možnosti nastavené pro všechny plány zdrojů dat při ukládání do mezipaměti, nejen první čtení tabulky uložené v mezipaměti. Tabulka zdroje dat dříve načítala první plán v mezipaměti, ale v následných dotazech se nepodařilo zohlednit různé možnosti.

  • Povolit příznak k vyžadování materializace zdroje pro operace MERGE: Dříve mohli uživatelé vypnout materializaci zdroje v operacích MERGE nastavením merge.materializeSource na none. Když je nový příznak povolen, materializace zdroje bude vždy vyžadována a snaha zakázat ji způsobí chybu. Databricks plánuje povolit tento příznak jenom pro zákazníky, kteří tuto konfiguraci ještě nezměnili, takže většina uživatelů by neměla zaznamenat žádné změny chování.

Nové funkce

  • Auto Loader teď dokáže vyčistit zpracovávané soubory ve zdrojovém adresáři: Teď můžete automatickému zavaděči dát pokyn, aby automaticky přesunul nebo odstranil zpracovávané soubory. Zapněte tuto funkci pomocí možnosti Automatický zavaděč cloudFiles.cleanSource. Viz možnosti automatického zavaděče v části cloudFiles.cleanSource.

  • Podpora rozšíření typu přidaná pro streamování z tabulek Delta: Tato verze přidává podporu pro streamování z tabulky Delta s rozšířenými typy dat sloupců a pro sdílení tabulky Delta s povoleným rozšířením typu pomocí Databricks-to-Databricks Delta Sharing. Funkce rozšíření typu je aktuálně ve verzi Public Preview. Viz Rozšíření typu.

  • IDENTIFIER Podpora je nyní dostupná v DBSQL pro operace katalogu: Klauzuli teď můžete použít IDENTIFIER při provádění následujících operací katalogu:

    • CREATE CATALOG
    • DROP CATALOG
    • COMMENT ON CATALOG
    • ALTER CATALOG

    Tato nová syntaxe umožňuje dynamicky zadávat názvy katalogů pomocí parametrů definovaných pro tyto operace, což umožňuje flexibilnější a opakovaně použitelné pracovní postupy SQL. Jako příklad syntaxe zvažte CREATE CATALOG IDENTIFIER(:param) , kde param je parametr zadaný k zadání názvu katalogu. Vizklauzule .

  • Kompletované výrazy teď poskytují automaticky generované přechodné aliasy: Automaticky generované aliasy pro kompletované výrazy teď deterministicky začleňují COLLATE informace. Automaticky generované aliasy jsou přechodné (nestabilní) a neměly by se spoléhat. Místo toho jako osvědčený postup používejte expression AS alias konzistentně a explicitně.

  • Přidat podporu API pro propustnost filtru do zdrojů dat Pythonu: Bezserverové výpočetní prostředky teď podporují propustnost filtru do zdrojů dat Pythonu při dávkovém čtení jako API, podobně jako SupportsPushDownFilters rozhraní. Viz poznámky k verzi 16.4 LTS.

  • Vylepšení zpětného trasování pro Python UDF: Zpětné trasování Python UDF nyní zahrnuje rámce z driveru i executor spolu s rámci klienta, což vede k lepším chybovým zprávám, které zobrazují podrobnější a relevantnější detaily (jako například obsah řádků v rámcích uvnitř UDF).

  • UNION/EXCEPT/INTERSECT uvnitř zobrazení a EXECUTE IMMEDIATE nyní vrací správné výsledky: Dotazy na dočasné a trvalé definice zobrazení s prvotní úrovní UNION/EXCEPT/INTERSECT a nealiasovanými sloupci dříve vracely nesprávné výsledky, protože klíčová slova UNION/EXCEPT/INTERSECT byla považována za aliasy. Teď tyto dotazy správně provádějí celou operaci nastavení.

  • Konfigurace mezipaměti plánu zdroje dat a průvodce migrací: Čtení ze zdrojové tabulky souborů bude správně respektovat možnosti dotazů (například oddělovače). Dříve byl první plán dotazu uložen do mezipaměti a následné změny možností ignorovány. Chcete-li obnovit předchozí chování, nastavte spark.sql.legacy.readFileSourceTableCacheIgnoreOptions na true.

  • Nové listagg a string_agg funkce: Od této verze můžete použít funkce listagg nebo string_agg k agregaci STRING a BINARY hodnot v rámci skupiny. Viz string_agg.

Režim výkonu je teď konfigurovatelný pro bezserverové úlohy.

14. dubna 2025

Teď můžete vybrat režim výkonu bezserverové úlohy pomocí nastavení Optimalizace výkonu na stránce podrobností úlohy. Dříve byly všechny úlohy bez serveru optimalizované pro výkon. Teď můžete zakázat nastavení optimalizované pro výkon a spustit úlohu ve standardním režimu výkonu. Standardní režim peformance je navržený tak, aby snížil náklady na úlohy, kde je přijatelná mírně vyšší latence spuštění.

Standardní režim výkonu není podporován pro průběžné kanály, jednorázová spuštění vytvořená pomocí koncového bodu runs/submit nebo úlohy SQL Warehouse, včetně materializovaných zobrazení.

Další informace o režimu výkonu najdete v tématu Výběr režimu výkonu.

Verze 16.3

9. dubna 2025

Tato bezserverová výpočetní verze přibližně odpovídá modulu Databricks Runtime 16.3.

Změny chování

  • *Vylepšená chybová zpráva při kafka.sasl.client.callback.handler.class přiřazení neplatné hodnoty: Tato verze obsahuje změnu, která vrátí popisnější chybovou zprávu, pokud kafka.sasl.client.callback.handler.class je přiřazena neplatná hodnota.

Nové funkce

  • Podpora čtení stavu je nyní obecně dostupná: Podpora čtení informací o stavu pro dotazy ve strukturovaném streamování je teď obecně dostupná v bezserverovém computingu. Podívejte se na Informace o stavu strukturovaného streamování.

  • Downgrade protokolu tabulky Delta je obecně dostupný s ochranou kontrolního bodu: DROP FEATURE je obecně dostupný pro odstranění funkcí tabulky Delta Lake a downgrade protokolu tabulky. Ve výchozím nastavení DROP FEATURE teď vytváří chráněné kontrolní body pro více optimalizovaný a jednodušší proces downgrade, který nevyžaduje žádnou čekací dobu ani krácení historie. Viz Smazat tabulku Delta Lake a snížit protokol tabulky.

  • Zápis procedurálních skriptů SQL založených na ANSI SQL/PSM (Public Preview):Teď můžete použít skriptovací funkce založené na ANSI SQL/PSM k zápisu procedurální logiky s SQL, včetně příkazů toku řízení, místních proměnných a zpracování výjimek. Viz skriptování SQL.

  • Výchozí kolace na úrovni tabulky a zobrazení: Nyní můžete určit výchozí kolaci pro tabulky a zobrazení. To zjednodušuje vytváření tabulek a zobrazení, kde všechny nebo většina sloupců sdílejí stejnou kolaci. Viz Kolace.

  • Nové funkce H3: Byly přidány tři nové funkce H3: h3_try_coverash3, h3_try_coverash3string a h3_try_tessellateaswkb.

  • Alter multiple table columns in one ALTER TABLE statement: Nyní můžete změnit více sloupců v jednom ALTER TABLE příkazu. Viz ALTER TABLE klauzule ...COLUMN.

Verze 16.2

13. března 2025

Bezserverová výpočetní verze přibližně odpovídá Databricks Runtime 16.2.

Změny chování

  • V Delta sdílení je historie tabulek ve výchozím nastavení povolena: Sdílení vytvořená pomocí příkazu ALTER SHARE <share> ADD TABLE <table> SQL nyní mají povoleno sdílení historie (WITH HISTORY) ve výchozím nastavení. Viz ALTER SHARE.

  • Příkazy SQL přihlašovacích údajů vrací chybu v případě neshody typu přihlašovacích údajů: Pokud se typ přihlašovacích údajů zadaný v příkazu SQL pro správu přihlašovacích údajů neshoduje s typem argumentu přihlašovacích údajů, vrátí se chyba a příkaz se nespustí.

Nové funkce

  • Použijte & ve výrazech generovaných sloupců Nyní můžete použít funkce timestampdiff a timestampadd ve výrazech generovaných sloupců v Delta Lake. Viz sloupce vygenerované službou Delta Lake.

  • Aktualizace pro DESCRIBE TABLE vrácení metadat jako strukturovaného formátu JSON: Teď můžete příkazem DESCRIBE TABLE AS JSON vrátit metadata tabulky jako dokument JSON. Výstup JSON je strukturovanější než výchozí sestava čitelná pro člověka a dá se použít k interpretaci schématu tabulky prostřednictvím kódu programu. Další informace najdete ve DESCRIBE TABLE formátu JSON.

  • Klace necitlivé na koncové mezery: Nyní je podporována kolace necitlivá na koncové mezery v bezserverovém prostředí. Tyto kolace například považují 'Hello' a 'Hello ' za stejné. Další informace najdete v tématu kolace RTRIM.

Opravy chyb

  • Vylepšené zpracování přírůstkového klonování: Tato verze obsahuje opravu pro hraniční případ, kdy by přírůstkové klonování mohlo znovu kopírovat soubory, které již byly zkopírovány ze zdrojové tabulky do cílové tabulky. Viz Klonování tabulky v Azure Databricks.

Možnost nastavení vysoké paměti dostupná v bezserverových poznámkových blocích (Veřejná ukázka)

7. února 2025

Nyní můžete nakonfigurovat větší paměťovou kapacitu pro provoz vašich bezserverových notebooků. Toto nastavení se dá použít u interaktivních i plánovaných úloh poznámkových bloků.

Bezserverové využití s vysokou pamětí má vyšší rychlost emisí DBU než standardní paměť.

Další informace najdete v tématu Použití vysoko paměťových bezserverových výpočetních prostředků.

Verze 16.1

5. února 2025

Tato bezserverová verze výpočetů přibližně odpovídá modulu Databricks Runtime 16.0 a Databricks Runtime 16.1.

Nové funkce

  • Podpora Avro pro rekurzivní schéma: Teď můžete použít recursiveFieldMaxDepth možnost s from_avro funkcí a avro zdrojem dat. Tato možnost nastaví maximální hloubku rekurze schématu ve zdroji dat Avro. Viz Čtení a zápis streamovaných dat Avro.
  • Rozšířená podpora pro Confluent Schema Registry pro Avro: Serverless nyní podporuje referenci schématu Avro díky registru schémat Confluent. Viz Ověřte se v externím registru schémat Confluent.
  • Vynuťte přeuspořádání tabulek pomocí liquidního clusteringu: Nyní můžete použít OPTIMIZE FULL pro vynucení přeuspořádání všech záznamů v tabulce s povoleným liquidním clusteringem. Viz Vynucení přeskupení pro všechny záznamy.
  • Rozhraní Delta API pro Python teď podporují sloupce identit: K vytváření tabulek se sloupci identit teď můžete použít rozhraní Delta API pro Python. Viz Použití sloupců identit v Delta Lake.
  • Vytváření tabulek s dynamickým clusteringem během streamovacích zápisů: Nyní můžete použít clusterBy k povolení dynamického clusteringu při vytváření nových tabulek se zápisy ve Structured Streaming. Viz Povolení clusteringu kapalin.
  • Podpora pro OPTIMIZE Klauzule FULL: Bezserverové výpočetní prostředky teď podporují klauzuli OPTIMIZE FULL . Tato klauzule optimalizuje všechny záznamy v tabulce, která používá tekuté seskupování, včetně dříve seskupených dat.
  • Podpora specifikace možností WITH v INSERT a odkazech na tabulku: Bezserverové výpočetní prostředky nyní podporují specifikaci možností pro odkazy na tabulky a názvy tabulek v INSERT příkazech, které lze použít k řízení chování zdrojů dat.
  • Nové funkce SQL: Na výpočetních prostředcích bez serveru jsou teď k dispozici následující funkce SQL:
  • Povolení automatického vývoje schématu při slučování dat do tabulky Delta: Podpora byla přidána pro withSchemaEvolution() člena DeltaMergeBuilder třídy. Slouží withSchemaEvolution() k povolení automatického vývoje schématu během MERGE operací. Například mergeBuilder.whenMatched(...).withSchemaEvolution().execute()}}.
  • Podpora kolací v Apache Sparku je ve verzi Public Preview: Teď můžete ke sloupcům a výrazům STRING přiřazovat kolace vědomé si jazyka, nerozlišující velká a malá písmena a nerozlišující přístup. Tato seřazení se používají v porovnání řetězců, řazení, operacích seskupování a mnoha řetězcových funkcích. Viz Kolace.
  • Podpora kolací v Delta Lake je ve verzi Public Preview: Při vytváření nebo změně tabulky Delta teď můžete definovat kolace pro sloupce. Viz podpora kolace pro Delta Lake.
  • LITE režim pro vakuum je ve verzi Public Preview: Nyní můžete použít VACUUM table_name LITE k provedení lehčí operace vakua, která využívá metadata v transakčním protokolu Delta. Podívejte se na plný vs. odlehčený režim a VACUUM.
  • Podpora parametrizace USE CATALOG with IDENTIFIER klauzule:Klauzule IDENTIFIER je nyní podporována pro příkaz USE CATALOG. S touto podporou můžete parametrizovat aktuální katalog na základě řetězcové proměnné nebo značky parametru.
  • COMMENT ON COLUMN podpora tabulek a zobrazení: Příkaz COMMENT ON teď podporuje změny komentářů pro sloupce zobrazení a tabulky.
  • Volání pojmenovaného parametru pro další funkce: Volání pojmenovaných parametrů podporují následující funkce:
  • Parametr SYNC METADATA příkazu REPAIR TABLE je podporován metastorem Hive: Nyní můžete používat parametr SYNC METADATA s příkazem REPAIR TABLE k aktualizaci metadat tabulky spravované metastore Hive. Viz REPAIR TABLE.
  • Vylepšená integrita dat pro komprimované dávky Apache Arrow: Pro další ochranu před poškozením dat teď každá LZ4 komprimovaná dávka Arrow obsahuje LZ4 kontrolní součty obsahu a bloků. Viz popis formátu rámce LZ4 .
  • Integrovaný ovladač Oracle JDBC: Bezserverové výpočetní prostředí teď obsahuje integrovaný ovladač Oracle JDBC. Pokud používáte JAR soubor ovladače JDBC nahraného zákazníkem prostřednictvím DriverManager, je nutné skripty přepsat tak, aby explicitně používaly vlastní JAR soubor. V opačném případě se použije integrovaný ovladač. Tento ovladač podporuje pouze Federaci Lakehouse. Pro jiné případy použití musíte poskytnout vlastní ovladač.
  • Podrobnější chyby pro tabulky Delta přístupné pomocí cest: K dispozici je nové prostředí chybových zpráv pro tabulky Delta, do kterých je přistupováno pomocí cest. Všechny výjimky se teď předávají uživateli. Výjimka DELTA_MISSING_DELTA_TABLE je teď vyhrazena, když se podkladové soubory nedají číst jako tabulka Delta.

Změny chování

  • Zásadní změna: Hostovaný RStudio je na konci životnosti: V této verzi je RStudio Server hostovaný na Databricksu na konci životnosti a nedostupný v jakémkoli pracovním prostoru Azure Databricks běžícím na bezserverových výpočtech. Další informace a zobrazení seznamu alternativ k RStudio najdete v tématu Připojení k RStudio Serveru hostovaného v Databricks.
  • Zásadní změna: Odebrání podpory pro změnu byte, shortint a long typy pro širší typy: Chcete-li zajistit konzistentní chování v tabulkách Delta a Apache Iceberg, následující změny datového typu již nelze použít u tabulek s povolenou funkcí rozšíření typu:

    • byte, shortint a long do decimal.
    • byte, short a int do double.
  • Oprava analýzy vzorů regulárních výrazů s negací ve vnořeném seskupování znaků: Tato verze obsahuje změnu, která podporuje správné parsování vzorů regulárních výrazů s negací ve vnořeném seskupování znaků. Bude například [^[abc]] analyzován jako "libovolný znak, který není jedním z "abc".

    Kromě toho chování Photon bylo nekonzistentní se Sparkem pro vnořené třídy znaků. Regex vzory obsahující vnořené třídy znaků již nebudou používat Photon a místo toho budou používat Spark. Vnořená třída znaků je jakýkoli vzor obsahující hranaté závorky uvnitř hranatých závorek, například [[a-c][1-3]].

  • Zlepšení detekce duplicitních shod v Delta Lake MERGE:MERGE nyní bere v úvahu podmínky zadané v klauzuli WHEN MATCHED. Viz Upsert do tabulky Delta Lake pomocí sloučení.

  • Funkce addArtifact() jsou teď konzistentní napříč typy výpočetních prostředků: Když použijete addArtifact(archive = True) k přidání závislosti na bezserverovém výpočetním prostředí, archiv se automaticky rozbalí.

Opravy chyb

  • Posuny časového pásma teď zahrnují sekundy při serializaci na CSV, JSON a XML: Časová razítka s posuny časového pásma, která zahrnovala sekundy (běžné pro časová razítka z období před rokem 1900), předtím při serializaci na CSV, JSON a XML sekundy vynechávala. Byl opraven výchozí formátovač časového razítka a nyní vrací správné hodnoty posunu pro tyto časová razítka.

Další změny

  • Přejmenované kódy chyb pro cloudFiles Zdroj strukturovaného streamování: Byly přejmenovány následující kódy chyb:
    • _LEGACY_ERROR_TEMP_DBR_0143 se přejmenuje na CF_INCORRECT_STREAM_USAGE.
    • _LEGACY_ERROR_TEMP_DBR_0260 se přejmenuje na CF_INCORRECT_BATCH_USAGE .

Verze 15.4

28. října 2024

Tato bezserverová výpočetní verze přibližně odpovídá modulu Databricks Runtime 15.4.

Nové funkce

  • Ověřovací funkce UTF-8: Tato verze zavádí následující funkce pro ověřování řetězců UTF-8:
    • is_valid_utf8 ověřuje, zda je řetězec platný UTF-8.
    • make_valid_utf8 převede potenciálně neplatný řetězec UTF-8 na platný řetězec UTF-8 pomocí náhradních znaků.
    • validate_utf8 vyvolá chybu, pokud vstup není platným řetězcem UTF-8.
    • try_validate_utf8 vrátí NULL, pokud vstup není platným řetězcem UTF-8.
  • Povolit UniForm Iceberg pomocí ALTER TABLE: Nyní můžete povolit UniForm Iceberg u existujících tabulek bez přepisování datových souborů. Podívejte se na Zapnutí čtení funkcí Iceberg v existující tabulce.
  • try_url_decode funkce: Tato verze představuje funkci try_url_decode , která dekóduje řetězec kódovaný adresou URL. Pokud řetězec není ve správném formátu, vrátí NULL funkce místo vyvolání chyby.
  • Volitelně můžete optimalizátoru povolit, aby se spoléhal na nevynucená omezení cizích klíčů: Pokud chcete zvýšit výkon dotazů, můžete nyní zadat RELY klíčové slovo pro FOREIGN KEY omezení při VYTVOŘENÍ nebo ALTER tabulky.
  • Paralelizované spuštění úloh pro selektivní přepsání: Selektivní přepsání pomocí replaceWhere nyní umožňuje spuštění úloh, které paralelně odstraňují data a vkládají nová data, čímž dochází ke zlepšení výkonu dotazů a využití clusteru.
  • Vylepšený výkon kanálu změn dat se selektivním přepsáním: Selektivní přepsání pomocí replaceWhere tabulek s datovým kanálem změn už pro vložená data nezapisuje samostatné datové soubory změn. Tyto operace používají skrytý sloupec _change_type přítomný v podkladových datových souborech Parquet ke sledování změn, aniž by docházelo ke zvětšování objemu zápisu.
  • Vylepšená latence dotazu pro COPY INTO příkaz: Tato verze obsahuje změnu, která zlepšuje latenci dotazu pro COPY INTO příkaz. Toto vylepšení je implementováno tak, že načtení stavu úložištěm stavů RocksDB je asynchronní. Při této změně byste měli vidět vylepšení počátečních časů pro dotazy s velkými stavy, jako jsou dotazy s velkým počtem již přijatých souborů.
  • Podpora pro vyřazení funkce tabulky kontrolních omezení: Funkci tabulky teď můžete odstranit checkConstraints z tabulky Delta pomocí ALTER TABLE table_name DROP FEATURE checkConstraintsfunkce . Viz Zakázání omezení kontroly.

Změny chování

  • Změna vazby schématu pro zobrazení: Když se datové typy v podkladovém dotazu zobrazení změní z těch, které byly použity při prvním vytvoření zobrazení, Databricks už nevyvolává chyby pro odkazy na zobrazení, když není možné provést bezpečný převod.

    Místo toho zobrazení kompenzuje pomocí pravidel běžného přetypování, pokud je to možné. Tato změna umožňuje Databricks tolerovat změny schématu tabulky snadněji.

  • ! Databricks už nebude tolerovat použití NOT jako synonyma pro mimo booleovské logiky. Tato změna snižuje nejasnosti, je v souladu se standardem SQL a usnadňuje přenosnost SQL. Například:

    CREATE ... IF ! EXISTS, IS ! NULL, ! NULL vlastnost sloupce nebo pole ! IN a ! BETWEEN musí být nahrazena tímto:

    CREATE ... IF NOT EXISTS, IS NOT NULL, NOT NULL sloupcová nebo políčková vlastnost, NOT IN a NOT BETWEEN.

    Na operátor logické předpony! (např. !is_mgr nebo !(true AND false)) tato změna nemá vliv.

  • Zakázat nezdokumentované a nezpracované části syntaxe definování sloupce v zobrazeních: Databricks podporuje CREATE VIEW pojmenované sloupce a komentáře k sloupcům.

    Specifikace typů sloupců, omezení NOT NULL nebo DEFAULT byla v syntaxi tolerována bez jakéhokoli účinku. Databricks odstraní tuto toleranci syntaxe. Tím se sníží záměna, zarovná se se standardem SQL a umožní budoucí vylepšení.

  • Konzistentní zpracování chyb pro dekódování Base64 ve Sparku a Photonu: Tato verze změní způsob, jakým Photon zpracovává chyby dekódování Base64 tak, aby odpovídaly zpracování těchto chyb Sparku. Před těmito změnami cesta generování kódu Photon a Spark někdy nevyvolala výjimky při analýze, zatímco interpretovaná verze Spark správně vyvolala IllegalArgumentException nebo ConversionInvalidInputError. Tato aktualizace zajišťuje, že Photon konzistentně vyvolává stejné výjimky jako Spark během chyb dekódování Base64, což poskytuje předvídatelnější a spolehlivější zpracování chyb.

  • CHECK K poskytování užitečnějších chybových zpráv, v Databricks Runtime 15.3 a novějších, příkaz, který obsahuje omezení odkazující na neplatný název sloupce, vrátí třídu chyb UNRESOLVED_COLUMN.WITH_SUGGESTION. Již dříve byl vrácen INTERNAL_ERROR.

JDK se upgraduje z JDK 8 na JDK 17.

15. srpna 2024

Bezserverové výpočetní prostředky pro poznámkové bloky a pracovní postupy se migrovaly ze sady Java Development Kit (JDK) 8 na JDK 17 na straně serveru. Tento upgrade zahrnuje následující změny chování:

  • Správná analýza vzorů regulárních výrazů s negací ve vnořeném seskupování znaků: Při tomto upgradu teď Azure Databricks podporuje správnou analýzu vzorů regulárních výrazů s negací ve vnořeném seskupování znaků. Bude například [^[abc]] analyzován jako "libovolný znak, který není jedním z "abc".

    Kromě toho chování Photon bylo nekonzistentní se Sparkem pro vnořené třídy znaků. Regex vzory obsahující vnořené třídy znaků již nebudou používat Photon a místo toho budou používat Spark. Vnořená třída znaků je jakýkoli vzor obsahující hranaté závorky uvnitř hranatých závorek, například [[a-c][1-3]].

Verze 15.1

23. července 2024

Tato bezserverová výpočetní verze zhruba odpovídá Databricks Runtime 15.1.

Nové funkce

*klauzule WHERE: Nyní můžete použít syntaxi hvězdičky () v klauzuli * k odkazování na všechny sloupce ze seznamu WHERE.

Například SELECT * FROM VALUES(1, 2) AS T(a1, a2) WHERE 1 IN(T.*).

Changes

Vylepšené obnovení chyb při parsování JSON: Analyzátor JSON používaný pro from_json() a výrazy cesty JSON se nyní rychleji zotavuje z nesprávné syntaxe, což vede k menší ztrátě dat.

Při výskytu chybné syntaxe JSON v poli struktury, hodnotě pole, klíči mapy nebo hodnotě mapy teď parser JSON vrátí NULL jenom pro nečitelné pole, klíč nebo prvek. Další pole, klíče nebo prvky budou správně zpracovány. Před touto změnou parser JSON přestal analyzovat pole, strukturu nebo mapu a vrátil NULL pro zbývající obsah.

Verze 14.3

15. dubna 2024

Jedná se o počáteční bezserverovou výpočetní verzi. Tato verze zhruba odpovídá databricks Runtime 14.3 s některými úpravami, které odeberou podporu některých bezserverových a starších funkcí.

podporované parametry konfigurace Sparku

Kvůli automatizaci konfigurace Sparku na bezserverových výpočetních prostředcích služba Azure Databricks odebrala podporu ručního nastavení většiny konfigurací Sparku. Pokud chcete zobrazit seznam podporovaných parametrů konfigurace Sparku, přečtěte si téma Konfigurace vlastností Sparku pro bezserverové poznámkové bloky a úlohy.

Úloha na bezserverové výpočetní kapacitě selže, pokud nastavíte nepodporovanou konfiguraci Sparku.

input_file funkce jsou zastaralé

Funkce input_file_name(), input_file_block_length() a input_file_block_start() jsou zastaralé. Používání těchto funkcí se důrazně nedoporučuje.

Místo toho použijte sloupec metadat souboru k načtení informací o metadatech souboru.

Změny chování

Bezserverové výpočetní prostředky verze 2024.15 zahrnují následující změny chování:

  • Oprava chyby unhex(hexStr): Při použití unhex(hexStr) funkce je hexStr vždy vycpaný do celého bajtu. Dříve funkce unhex ignorovala první poloviční bajt. Například: unhex('ABC') nyní vytvoří x'0ABC' místo x'BC'.
  • Automaticky generované aliasy sloupců jsou teď stabilní: Když se na výsledek výrazu odkazuje bez aliasu sloupce zadaného uživatelem, bude tento automaticky vygenerovaný alias nyní stabilní. Nový algoritmus může vést ke změně dříve automaticky generovaných názvů používaných ve funkcích, jako jsou materializovaná zobrazení.
  • Skenování tabulek s CHAR typovými poli jsou nyní vždy vyplněny: tabulky Delta, některé tabulky JDBC a externí zdroje dat ukládají data CHAR v nevycpávané podobě. Při čtení teď Azure Databricks rozdělí data mezerami na deklarovanou délku, aby se zajistila správná sémantika.
  • Přetypování z BIGINT/DECIMAL na TIMESTAMP vyvolá výjimku pro přetečení hodnot: Azure Databricks umožňuje přetypování z BIGINT a DECIMAL na TIMESTAMP tím, že považuje hodnotu za počet sekund z unixové epochy. Dříve služba Azure Databricks vracela přetečené hodnoty, ale nyní v případě přetečení vyvolá výjimku. Slouží try_cast k vrácení hodnoty NULL místo výjimky.
  • Bylo vylepšeno provádění PySpark UDF tak, aby odpovídalo přesnému chování spouštění UDF na vyhrazených výpočetních prostředcích: Provedli jsme následující změny:
    • Funkce definované uživatelem s návratovým typem řetězcovým už implicitně nepřevádějí neřetězcové hodnoty na hodnoty řetězcové. Dříve funkce definované uživatelem s návratovým typem str aplikovaly obálku str(..) na výsledek bez ohledu na skutečný typ dat vrácené hodnoty.
    • UDF s návratovými typy timestamp již implicitně neprovádějí převod časové zóny na časová razítka.