Databricks Runtime 11.0 (non supportato)

Articolo
03/01/2024

Le note sulla versione seguenti forniscono informazioni su Databricks Runtime 11.0, basate su Apache Spark 3.3.0. Databricks ha rilasciato queste immagini nel giugno 2022.

Miglioramenti e nuove funzionalità

Nuova versione di Apache Spark
I notebook Python ora usano il kernel IPython
Supporto per ipywidgets
Il connettore Synapse ora scrive dati Parquet in modalità non legacy
Lo schema HTTPS ora applicato quando il client ABFS usa il token di firma di accesso condiviso
SQL: DESC è ora un alias per DESCRIBE
SQL: Nuovi current_version dettagli della versione dell'output della funzione
L'eliminazione di un vincolo di tabella Delta mancante genera ora un errore
SQL: la nuova EXCEPT clausola nell'istruzione SELECT esclude le colonne dalla selezione
Supporto per l'eliminazione di colonne nelle tabelle Delta (anteprima pubblica)
COPY INTO Miglioramenti
CONVERT TO DELTA è ora supportato negli ambienti abilitati per Unity Catalog (anteprima pubblica)

Nuova versione di Apache Spark

Databricks Runtime 11.0 e Databricks Runtime 11.0 Photon includono Apache Spark 3.3.0. Per informazioni dettagliate, vedere Apache Spark.

I notebook Python ora usano il kernel IPython

In Databricks Runtime 11.0 e versioni successive, i notebook Python usano il kernel IPython per eseguire il codice Python. Vedere Kernel IPython.

Supporto per ipywidgets

È ora possibile usare ipywidgets per rendere interattivi i notebook Python di Databricks. Vedere ipywidgets.

Il connettore Synapse ora scrive dati Parquet in modalità non legacy

Il connettore Azure Synapse scrive ora dati Parquet in modalità non legacy. Mantiene il INT96 formato timestamp quando si usano PolyBase e COPY i comandi per i carichi di lavoro batch e di streaming.

Lo schema HTTPS ora applicato quando il client ABFS usa il token di firma di accesso condiviso

Quando il client ABFS (Blob File System) di Azure usa un token sas (Shared Access Signature), viene applicato lo schema HTTPS.

SQL: `DESC` è ora un alias per `DESCRIBE`

È ora possibile usare DESC come alias per DESCRIBE quando si descrivono percorsi esterni o credenziali di archiviazione. Ad esempio:

-- Describe an external location.
DESC EXTERNAL LOCATION location_name;

-- Describe a storage credential.
DESC STORAGE CREDENTIAL credential_name;

SQL: Nuovi `current_version` dettagli della versione dell'output della funzione

La nuova current_version funzione restituisce la versione corrente di Databricks Runtime, se disponibile, la versione sql di Databricks corrente, se disponibile, e altri dettagli della versione correlati. Usare questa nuova funzione per eseguire query sulle informazioni relative alla versione. Vedere current_version funzione.

L'eliminazione di un vincolo di tabella Delta mancante genera ora un errore

Se si tenta ora di eliminare un vincolo di tabella Delta in base al nome e tale vincolo non esiste, verrà visualizzato un errore. Per ottenere il comportamento precedente, che non genera un errore se il vincolo non esiste, è ora necessario usare l'istruzione IF EXISTS . Vedere ALTER TABLE.

SQL: la nuova `EXCEPT` clausola nell'istruzione `SELECT` esclude le colonne dalla selezione

SELECT Le istruzioni supportano ora la EXCEPT clausola per escludere colonne dalla selezione. Ad esempio, restituisce SELECT * EXCEPT (x) FROM table tutte le colonne di , ad eccezione xdi table. Sono consentite anche colonne annidate. Ad esempio, restituisce SELECT * EXCEPT (x.a) FROM table tutte le tablecolonne di , ma omette il campo a dallo struct x.

Supporto per l'eliminazione di colonne nelle tabelle Delta (anteprima pubblica)

È possibile usare ALTER TABLE <table-name> DROP COLUMN [IF EXISTS] <column-name> o ALTER TABLE <table-name> DROP COLUMNS [IF EXISTS] (<column-name>, *) per eliminare una colonna o un elenco di colonne, rispettivamente, da una tabella Delta come operazione di sola metadati. Le colonne vengono effettivamente eliminate in modo leggero, perché sono ancora nei file Parquet sottostanti, ma non sono più visibili alla tabella Delta.

È possibile usare REORG TABLE <table-name> APPLY (PURGE) per attivare una riscrittura di file nei file che contengono dati eliminati soft, ad esempio colonne eliminate.

È possibile usare VACUUM per rimuovere i file eliminati dall'archiviazione fisica, inclusi i file precedenti che contengono colonne eliminate e sono stati riscritti da REORG TABLE.

Miglioramenti di `COPY INTO`

È ora possibile creare tabelle Delta segnaposto vuote in modo che lo schema venga dedotto successivamente durante un COPY INTO comando:

CREATE TABLE IF NOT EXISTS my_table
[COMMENT <table-description>]
[TBLPROPERTIES (<table-properties>)];

COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
FORMAT_OPTIONS ('mergeSchema' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true');

L'istruzione SQL precedente è idempotente e può essere pianificata per l'esecuzione per inserire i dati esattamente una volta in una tabella Delta.

Nota

La tabella Delta vuota non è utilizzabile all'esterno di COPY INTO. Non è possibile usare INSERT INTO e MERGE INTO per scrivere dati in tabelle Delta senza schema. Dopo l'inserimento dei dati nella tabella con COPY INTO, è possibile eseguire query sulla tabella.

Se i dati inseriti non possono essere letti a causa di un problema di danneggiamento, è possibile ignorare i file danneggiati impostando ignoreCorruptFiles su true in FORMAT_OPTIONS:

COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
FORMAT_OPTIONS ('ignoreCorruptFiles' = 'true')

Il COPY INTO comando restituisce il numero di file ignorati a causa del danneggiamento nella num_skipped_corrupt_files colonna. Questa metrica viene visualizzata anche nella operationMetrics colonna numSkippedCorruptFiles sotto dopo l'esecuzione DESCRIBE HISTORY nella tabella Delta.

I file danneggiati non vengono rilevati da COPY INTO, quindi possono essere ricaricati in un'esecuzione successiva se il danneggiamento è corretto. È possibile vedere quali file sono danneggiati eseguendo COPY INTO in VALIDATE modalità .

`CONVERT TO DELTA` è ora supportato negli ambienti abilitati per Unity Catalog (anteprima pubblica)

Negli ambienti abilitati per Unity-Catalog è CONVERT TO DELTA ora possibile:

Convertire i file Parquet in percorsi esterni in Delta Lake.
Convertire tabelle esterne Parquet in tabelle Delta.

Modifiche del comportamento

SQL: lpad e rpad le funzioni supportano ora sequenze di byte
Formato stringa in format_string e printf non più consentito %0$
I valori Null nei file CSV vengono ora scritti come stringhe vuote senza virgolette per impostazione predefinita
La proprietà external table è ora riservata
Log4j viene aggiornato da Log4j 1 a Log4j 2
Le librerie installate da Maven vengono ora risolte nel piano di calcolo per impostazione predefinita

SQL: `lpad` e `rpad` le funzioni supportano ora sequenze di byte

Le funzioni lpad e rpad sono state aggiornate per aggiungere il supporto per le sequenze di byte oltre alle stringhe.

Formato stringa in `format_string` e `printf` non più consentito `%0$`

Se si specifica il formato %0$ nelle format_string funzioni e printf , per impostazione predefinita, viene generato un errore. Questa modifica consiste nel mantenere il comportamento previsto con le versioni precedenti di Databricks Runtime e i database di terze parti comuni. Il primo argomento deve sempre fare riferimento %1$ quando si utilizza un indice di argomento per indicare la posizione dell'argomento nell'elenco di argomenti.

I valori Null nei file CSV vengono ora scritti come stringhe vuote senza virgolette per impostazione predefinita

I valori Null nei file CSV sono stati scritti in precedenza come stringhe vuote tra virgolette. Con questa versione, i valori Null nei file CSV vengono ora scritti come stringhe vuote senza virgolette per impostazione predefinita. Per tornare al comportamento precedente, impostare l'opzione nullValue su "" per le operazioni di scrittura.

La proprietà `external` table è ora riservata

La proprietà external è ora una proprietà di tabella riservata per impostazione predefinita. Le eccezioni vengono ora generate quando si usa la external proprietà con le CREATE TABLE ... TBLPROPERTIES clausole e ALTER TABLE ... SET TBLPROPERTIES .

Log4j viene aggiornato da Log4j 1 a Log4j 2

Log4j 1 viene aggiornato a Log4j 2. Le dipendenze di Log4j 1 legacy vengono rimosse.

Se si dipende dalle classi Log4j 1 precedentemente incluse in Databricks Runtime, tali classi non esistono più. È consigliabile aggiornare le dipendenze a Log4j 2.

Se sono presenti plug-in personalizzati o file di configurazione che dipendono da Log4j 2, potrebbero non funzionare più con la versione di Log4j 2 in questa versione. Per assistenza, contattare il team dell'account di Azure Databricks.

Le librerie installate da Maven vengono ora risolte nel piano di calcolo per impostazione predefinita

Le librerie Maven ora vengono risolte nel piano di calcolo per impostazione predefinita quando si installano librerie in un cluster. È necessario che il cluster abbia accesso a Maven Central. In alternativa, è possibile ripristinare il comportamento precedente impostando la proprietà di configurazione spark:

spark.databricks.libraries.enableMavenResolution false

Correzioni di bug

La compatibilità binaria per LeafNode, UnaryNodee BinaryNode tra Apache Spark e Databricks Runtime è stata corretta e le classi sono ora compatibili con Apache Spark 3.3.0 e versioni successive. Se si verifica il messaggio seguente o simile quando si usa un pacchetto di terze parti con Databricks Runtime, ricompilare il pacchetto con Apache Spark 3.3.0 o versione successiva: Found interface org.apache.spark.sql.catalyst.plans.logical.UnaryNode, but class was expected.

Aggiornamenti della libreria

Librerie Python aggiornate:
- platformdirs dalla versione 2.5.1 alla versione 2.5.2
- protobuf da 3.20.0 a 3.20.1
Librerie R aggiornate:
- BLOB da 1.2.2 a 1.2.3
- scopa da 0.7.12 a 0.8.0
- cursore da 6.0-91 a 6.0-92
- cli da 3.2.0 a 3.3.0
- dplyr da 1.0.8 a 1.0.9
- futuro da 1.24.0 a 1.25.0
- future.apply dalla versione 1.8.1 alla versione 1.9.0
- gert da 1.5.0 a 1.6.0
- ggplot2 da 3.3.5 a 3.3.6
- glmnet da 4.1-3 a 4.1-4
- haven from 2.4.3 to 2.5.0
- httr da 1.4.2 a 1.4.3
- magliar da 1,38 a 1,39
- magrittr da 2.0.2 a 2.0.3
- parallelamente da 1.30.0 a 1.31.1
- ps da 1.6.0 a 1.7.0
- RColorBrewer da 1.1-2 a 1.1-3
- RcppEigen da 0.3.3.9.1 a 0.3.3.9.2
- readxl da 1.3.1 a 1.4.0
- rmarkdown da 2.13 a 2.14
- rprojroot da 2.0.2 a 2.0.3
- RSQLite da 2.2.11 a 2.2.13
- scala da 1.1.1 a 1.2.0
- testat da 3.1.2 a 3.1.4
- tibble da 3.1.6 a 3.1.7
- tinytex da 0,37 a 0,38
- tzdb da 0.2.0 a 0.3.0
- uuid da 1.0-4 a 1.1-0
- vctrs da 0.3.8 a 0.4.1
Librerie Java aggiornate:
- com.fasterxml.jackson.core.jackson-annotations da 2.13.0 a 2.13.3
- com.fasterxml.jackson.core.jackson-core da 2.13.0 a 2.13.3
- com.fasterxml.jackson.core.jackson-databind da 2.13.0 a 2.13.3
- com.fasterxml.jackson.dataformat.jackson-dataformat-cbor da 2.13.0 a 2.13.3
- com.fasterxml.jackson.datatype.jackson-datatype-joda da 2.13.0 a 2.13.3
- com.fasterxml.jackson.module.jackson-module-paranamer da 2.13.0 a 2.13.3
- com.fasterxml.jackson.module.jackson-module-scala_2.12 da 2.13.0 a 2.13.3
- com.google.crypto.tink.tink da 1.6.0 a 1.6.1
- com.ning.compress-lzf da 1.0.3 a 1.1
- dev.developer.netlib.arpack da 2.2.0 a 2.2.1
- dev.sdk.netlib.blas da 2.2.0 a 2.2.1
- dev.developer.netlib.lapack da 2.2.0 a 2.2.1
- io.netty.netty-all dalla versione 4.1.73.Final alla versione 4.1.74.Final
- io.netty.netty-buffer da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-codec da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-common da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-handler dalla versione 4.1.73.Final alla versione 4.1.74.Final
- io.netty.netty-resolver da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-tcnative-classes da 2.0.46.Final a 2.0.48.Final
- trasporto io.netty.netty da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-classes-epoll da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-classes-kqueue da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-native-epoll-linux-aarch_64 da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-native-epoll-linux-x86_64 da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-native-kqueue-osx-aarch_64 da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-native-kqueue-osx-x86_64 da 4.1.73.Final a 4.1.74.Final
- io.netty.netty-transport-native-unix-common da 4.1.73.Final a 4.1.74.Final
- joda-time.joda-time da 2.10.12 a 2.10.13
- org.apache.commons.commons-math3 da 3.4.1 a 3.6.1
- org.apache.httpcomponents.httpcore da 4.4.12 a 4.4.14
- org.apache.orc.orc-core da 1.7.3 a 1.7.4
- org.apache.orc.orc-mapreduce da 1.7.3 a 1.7.4
- org.apache.orc.orc-shims da 1.7.3 a 1.7.4
- org.eclipse.jetty.jetty-client da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-continuation da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-http da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-io da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-jndi da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-plus da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-proxy da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-security da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-server da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-servlet da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-servlets da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-util da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-util-ajax da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-webapp da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.jetty-xml da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.websocket.websocket-api da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.websocket.websocket-client da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.websocket.websocket-common da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.websocket.websocket-server da 9.4.43.v20210629 a 9.4.46.v20220331
- org.eclipse.jetty.websocket.websocket-servlet da 9.4.43.v20210629 a 9.4.46.v20220331
- org.mariadb.jdbc.mariadb-java-client da 2.2.5 a 2.7.4
- org.postgresql.postgresql da 42.2.19 a 42.3.3
- org.roaringbitmap.RoaringBitmap da 0.9.23 a 0.9.25
- org.roaringbitmap.shims da 0.9.23 a 0.9.25
- org.rocksdb.rocksdbjni da 6.20.3 a 6.24.2
- org.slf4j.jcl-over-slf4j da 1.7.32 a 1.7.36
- org.slf4j.jul-to-slf4j da 1.7.32 a 1.7.36
- org.slf4j.slf4j-api da 1.7.30 a 1.7.36

Apache Spark

Databricks Runtime 11.0 include Apache Spark 3.3.0.

Spark SQL e Core

Modalità ANSI

Nuove regole di sintassi cast esplicite in modalità ANSI (SPARK-33354)
Elt() deve restituire null se index è Null in modalità ANSI (SPARK-38304)
Facoltativamente, restituisce un risultato Null se l'elemento non esiste in array/map (SPARK-37750)
Consenti cast tra tipo numerico e tipo timestamp (SPARK-37714)
Disabilitare le parole chiave riservate ANSI per impostazione predefinita (SPARK-37724)
Usare le regole di assegnazione dell'archivio per la risoluzione della chiamata di funzione (SPARK-37438)
Aggiungere una configurazione per consentire il cast tra Datetime e Numeric (SPARK-37179)
Aggiungere una configurazione per applicare facoltativamente parole chiave riservate ANSI (SPARK-37133)
Non consentire operazioni binarie tra intervallo e valore letterale stringa (SPARK-36508)

Miglioramenti delle funzionalità

Supportare i tipi ANSI SQL INTERVAL (SPARK-27790)
Miglioramenti dei messaggi di errore (SPARK-38781)
Supporto dei metadati dei file nascosti per Spark SQL (SPARK-37273)
Supporto di valori letterali stringa non elaborati (SPARK-36371)
Classe helper per batch Dataset.observe() (SPARK-34806)
Supporto specificare il numero di partizione iniziale per il ribilanciamento (SPARK-38410)
Supporto della modalità a catena per dropNamespace l'API (SPARK-37929)
Consenti l'assegnazione dell'archivio e il cast implicito tra i tipi datetime (SPARK-37707)
Collect, first e last devono essere funzioni di aggregazione deterministiche (SPARK-32940)
Aggiungere ExpressionBuilder per le funzioni con overload complessi (SPARK-37164)
Aggiungere il supporto della matrice all'unione in base al nome (SPARK-36546)
Aggiungere df.withMetadata: uno zucchero di sintassi per aggiornare i metadati di un dataframe (SPARK-36642)
Supporto di valori letterali stringa non elaborati (SPARK-36371)
Usare CAST nell'analisi di date/timestamp con il modello predefinito (SPARK-36418)
Classe valore di supporto nello schema annidato per Dataset (SPARK-20384)
Aggiunta del supporto della sintassi AS OF (SPARK-37219)
Aggiungere REPEATABLE in TABLESAMPLE per specificare il valore di inizializzazione (SPARK-37165)
Aggiungere una sintassi set catalog xxx ansi per modificare il catalogo corrente (SPARK-36841)
Supporto ILIKE (ALL | ANY | SOME) - LIKE senza distinzione tra maiuscole e minuscole (SPARK-36674, SPARK-36736, SPARK-36778)
La fase di query di supporto mostra le statistiche di runtime in modalità di spiegazione formattata (SPARK-38322)
Aggiungere le metriche delle dimensioni della spill per l'unione di ordinamento (SPARK-37726)
Aggiornare la sintassi SQL di SHOW FUNCTIONS (SPARK-37777)
Supporto della sintassi DROP COLUMN [IF EXISTS] (SPARK-38939)
Nuove funzioni predefinite e le relative estensioni (SPARK-38783)
- Datetime
  - Aggiungere la funzione TIMESTAMPADD() (SPARK-38195)
  - Aggiungere la funzione TIMESTAMPDIFF() (SPARK-38284)
  - Aggiungere l'alias DATEDIFF() per TIMESTAMPDIFF() (SPARK-38389)
  - Aggiungere l'alias DATEADD() per TIMESTAMPADD() (SPARK-38332)
  - Aggiungere la convert\_timezone() funzione (SPARK-37552, SPARK-37568)
  - Esporre make_date espressione in functions.scala (SPARK-36554)
- Funzioni AES (SPARK-12567)
  - Aggiungere funzioni predefinite aes_encrypt e aes_decrypt (SPARK-12567)
  - Supportare la modalità GCM di aes\_encrypt()/aes\_decrypt() (SPARK-37591)
  - Impostare GCM come modalità predefinita in aes\_encrypt()/aes\_decrypt() (SPARK-37666)
  - Aggiungere gli mode argomenti e padding a aes\_encrypt()aes\_decrypt()/(SPARK-37586)
- Funzione di aggregazione ANSI (SPARK-37671)
  - Supporto della funzione di aggregazione ANSI: regr_count (SPARK-37613)
  - Supporto della funzione di aggregazione ANSI: regr_avgx e regr_avgy (SPARK-37614)
  - Supporto della funzione di aggregazione ANSI: percentile_cont (SPARK-37676, SPARK-38219)
  - Supporto della funzione di aggregazione ANSI: percentile_disc (SPARK-37691)
  - Supporto della funzione di aggregazione ANSI: regr_count (SPARK-37613)
  - Supporto della funzione di aggregazione ANSI: array_agg (SPARK-27974)
  - Supporto della funzione di aggregazione ANSI: regr_r2 (SPARK-37641)
  - Nuova funzione SQL: try_avg (SPARK-38589)
- Collezioni
  - Introduzione alla funzione SQL ARRAY_SIZE (SPARK-38345)
  - Nuova funzione SQL: map_contains_key (SPARK-37584)
  - Nuova funzione SQL: try_element_at (SPARK-37533)
  - Nuova funzione SQL: try_sum (SPARK-38548)
- Formato
  - Aggiungere una nuova funzione SQL to_binary (SPARK-37507, SPARK-38796)
  - Nuova funzione SQL: try_to_binary (SPARK-38590, SPARK-38796)
  - Funzioni di formattazione dei tipi di dati: to\_number (SPARK-28137)
- Stringa/binaria
  - Aggiungere la funzione stringa CONTAINS() (SPARK-37508)
  - Aggiungere le startswith() funzioni stringa e endswith() (SPARK-37520)
  - Aggiungere funzioni lpad e rpad per stringhe binarie (SPARK-37047)
  - Funzione support split_part (SPARK-38063)
- Aggiungere un parametro di scala alle funzioni floor e ceil (SPARK-37475)
- Nuove funzioni SQL: try_subtract e try_multiply (SPARK-38164)
- Implementa histogram_numeric funzione di aggregazione che supporta l'aggregazione parziale (SPARK-16280)
- Aggiungere max_by/min_by a sql.functions (SPARK-36963)
- Aggiungere nuove funzioni SQL predefinite: edizione Standard C e CSC (SPARK-36683)
- array_intersect handle duplicati Double.NaN e Float.NaN (SPARK-36754)
- Aggiungere cot come funzioni Scala e Python (SPARK-36660)

Miglioramenti delle prestazioni

Generazione di codice a fasi intere
- Aggiungere code-gen per l'aggregazione di ordinamento senza raggruppamento di chiavi (SPARK-37564)
- Aggiungere code-gen per l'unione completa di ordinamento esterno (SPARK-35352)
- Aggiungere code-gen per l'hash join casuale completo (SPARK-32567)
- Aggiungere code-gen per l'esistenza di merge di ordinamento (SPARK-37316)
Eseguire il push verso il basso (filtri)
- Eseguire il push dei filtri tramite RebalancePartitions (SPARK-37828)
- Push down boolean column filter (SPARK-36644)
- Push down limit 1 for right side of left semi/anti join if join condition is empty (SPARK-37917)
- Tradurre funzioni di aggregazione più standard per il pushdown (SPARK-37527)
- Supporto della propagazione di una relazione vuota tramite aggregazione/unione (SPARK-35442)
- Filtro runtime a livello di riga (SPARK-32268)
- Supporto del semi join sinistro nei filtri di runtime a livello di riga (SPARK-38565)
- Supporto del pushdown del predicato e dell'eliminazione delle colonne per le CTE deduped (SPARK-37670)
Vettorizzazione
- Implementare un oggetto ConstantColumnVector e migliorare le prestazioni dei metadati dei file nascosti (SPARK-37896)
- Abilitare la lettura vettorializzata per VectorizedPlainValuesReader.readBooleans (SPARK-35867)
Combinare/rimuovere/sostituire nodi
- Combinare unioni se è presente un progetto tra di essi (SPARK-37915)
- Combinare un cast se è possibile eseguire il cast in modo sicuro di due cast (SPARK-37922)
- Rimuovere l'ordinamento se è figlio di RepartitionByExpression (SPARK-36703)
- Rimuove il outer join se ha solo DISTINCT sul lato trasmesso con alias (SPARK-37292)
- Sostituire l'hash con l'aggregazione di ordinamento se figlio è già ordinato (SPARK-37455)
- Comprimere i progetti solo se non si duplicano espressioni costose (SPARK-36718)
- Rimuovere gli alias ridondanti dopo RewritePredicateSubquery (SPARK-36280)
- Unire sottoquery scalari non correlate (SPARK-34079)
Partizionamento
- Non aggiungere l'eliminazione dinamica della partizione se esiste l'eliminazione di partizioni statiche (SPARK-38148)
- Migliorare il ribilanciamentoPartitions nelle regole di Optimizer (SPARK-37904)
- Aggiungere un fattore di partizione di piccole dimensioni per partizioni di ribilanciamento (SPARK-37357)
Unirsi
- Ottimizzare la logica per abbassare di livello il hash join broadcast in DynamicJoinSelection (SPARK-37753)
- Ignorare le chiavi di join duplicate durante la compilazione di relazioni per edizione Standard MI/ANTI shuffled hash join (SPARK-36794)
- Supportare un join asimmetrico ottimizzato anche se introduce un'ulteriore sequenza casuale (SPARK-33832)
AQE
- Supporto elimina i limiti in AQE Optimizer (SPARK-36424)
- Ottimizzare un piano di riga in modalità normale e AQE Optimizer (SPARK-38162)
Aggregate.groupOnly supporta espressioni piegabili (SPARK-38489)
Matrice ByteArrayMethodsEquals dovrebbe ignorare rapidamente il controllo dell'allineamento con la piattaforma non idonea (SPARK-37796)
Aggiungere l'eliminazione del modello di albero alla regola CTESubstitution (SPARK-37379)
Aggiungere altre semplificazioni degli operatori Not (SPARK-36665)
Supporto di BooleanType in UnwrapCastInBinaryComparison (SPARK-36607)
Coalesce elimina tutte le espressioni dopo la prima espressione non nullable (SPARK-36359)
Aggiungere un visitatore di piano logico per propagare gli attributi distinti (SPARK-36194)

Miglioramenti dei connettori predefiniti

Generale
- Serializzazione leniente di datetime dall'origine dati (SPARK-38437)
- Considerare la posizione della tabella come assoluta quando la prima lettera del percorso è barra in create/alter table (SPARK-38236)
- Rimuovere gli zeri iniziali dalla partizione del tipo di numero statico vuoto (SPARK-35561)
- Supporto ignoreCorruptFiles e ignoreMissingFiles nelle opzioni origine dati (SPARK-38767)
- SHOW CATALOGS Comando Add (SPARK-35973)
Parquet
- Abilitare i nomi delle colonne dello schema corrispondenti in base agli ID campo (SPARK-38094)
- Rimuovere il nome del campo di controllo durante la lettura/scrittura di dati in parquet (SPARK-27442)
- Supportare i valori booleani di lettura vettorializzati usano la codifica RLE con Parquet DataPage V2 (SPARK-37864)
- Supportare la codifica della pagina dati Parquet v2 (DELTA_BINARY_PACKED) per il percorso vettorializzato (SPARK-36879)
- Rebase timestamp nel fuso orario della sessione salvato nei metadati Parquet/Avro (SPARK-37705)
- Eseguire il push del gruppo per colonna di partizione per aggregazione (SPARK-36646)
- Push down di Aggregazione (Min/Max/Count) per Parquet (SPARK-36645)
- Parquet: abilitare le colonne dello schema corrispondenti in base all'ID campo (SPARK-38094)
- Ridurre le dimensioni predefinite della pagina LONG_ARRAY_OFFedizione Standard T se vengono usati G1GC e ON_HEAP (SPARK-37593)
- Implementare codifiche di DELTA_BYTE_ARRAY vettorializzate e DELTA_LENGTH_BYTE_ARRAY per il supporto parquet V2 (SPARK-37974)
- Supportare tipi complessi per il lettore vettorializzatore Parquet (SPARK-34863)
ORCO
- Rimuovere il nome del campo di controllo durante la lettura/scrittura di dati esistenti in Orc (SPARK-37965)
- Push di aggregazione verso il basso per ORC (SPARK-34960)
- Supportare la lettura e la scrittura di intervalli ANSI da/a origini dati ORC (SPARK-36931)
- Supportare i nomi delle colonne solo numeri nelle origini dati ORC (SPARK-36663)
JSON
- Rispettare allowNonNumericNumbers durante l'analisi dei valori NaN e Infinity tra virgolette nel lettore JSON (SPARK-38060)
- Usare CAST per datetime in CSV/JSON per impostazione predefinita (SPARK-36536)
- Allineare il messaggio di errore per i tipi di chiave non supportati in MapType nel lettore Json (SPARK-35320)
CSV
- Correzione del riferimento alla colonna di record danneggiata da CSV (SPARK-38534)
- I valori null devono essere salvati come nulla anziché le stringhe vuote "" tra virgolette per impostazione predefinita (SPARK-37575)
JDBC
- Aggiungere l'istruzione IMMEDIATE all'implementazione del troncamento del dialetto DB2 (SPARK-30062)
Alveare
- Supporto per la scrittura di tabelle in bucket Hive (formati di file Hive con hash Hive) (SPARK-32712)
- Usare espressioni per filtrare le partizioni Hive sul lato client (SPARK-35437)
- Supportare l'eliminazione delle partizioni dinamiche per HiveTableScanExec (SPARK-36876)
- InsertIntoHiveDir deve usare l'origine dati se è convertibile (SPARK-38215)
- Supporto per la scrittura di tabelle in bucket Hive (formato Parquet/ORC con hash Hive) (SPARK-32709)

Rimozione delle autorizzazioni dei nodi

Il fallback Archiviazione non deve tentare di risolvere il nome host arbitrario "remoto" (SPARK-38062)
ExecutorMonitor.onExecutorRemoved deve gestire ExecutorDecommission come completato (SPARK-38023)

Altre modifiche rilevanti

Aggiungere un blocco con granularità fine a BlockInfoManager (SPARK-37356)
Supporto del mapping dei tipi di risorse spark gpu/fpga al tipo di risorsa YARN personalizzato (SPARK-37208)
Segnala dimensioni accurate del blocco casuale se la sua asimmetria (SPARK-36967)
Supporto della registrazione netty a livello di rete (SPARK-36719)

Structured Streaming

Funzionalità principali

Introduzione a Trigger.AvailableNow per l'esecuzione di query di streaming come Trigger.Once in più batch (SPARK-36533)

Altre modifiche rilevanti

Usare StatefulOpClusteredDistribution per gli operatori con stato rispettando la compatibilità con le versioni precedenti (SPARK-38204)
Correzione del timeout flatMapGroupsWithState in batch con i dati per la chiave (SPARK-38320)
Correzione del problema di correttezza nell'outer join del flusso di flusso con il provider dell'archivio stati RocksDB (SPARK-38684)
Supporto di Trigger.AvailableNow nell'origine dati Kafka (SPARK-36649)
Ottimizzare il percorso di scrittura nel provider dell'archivio stati RocksDB (SPARK-37224)
Introdurre una nuova origine dati per fornire un set coerente di righe per microbatch (SPARK-37062)
Usare HashClusteredDistribution per gli operatori con stato rispettando la compatibilità con le versioni precedenti (SPARK-38204)

PySpark

API Pandas in Spark

Miglioramenti principali

Ottimizzazione dell'indice 'distributed-sequence' con l'impostazione predefinita (SPARK-36559, SPARK-36338)
- Supporto per specificare il tipo di indice e il nome nell'API pandas in Spark (SPARK-36709)
- Visualizzare il tipo di indice predefinito nei piani SQL per l'API Pandas in Spark (SPARK-38654)

Funzionalità principali

Implementare l'ps.merge_asof nativo sparkSQL (SPARK-36813)
Supporto di TimedeltaIndex nell'API pandas in Spark (SPARK-37525)
Supportare timedelta di Python (SPARK-37275, SPARK-37510)
Implementare funzioni in CategoricalAccessor/CategoricalIndex (SPARK-36185)
Usa il formattatore di stringhe standard di Python per l'API SQL nell'API Pandas in Spark (SPARK-37436)
Supportare le operazioni di base della serie/indice timedelta (SPARK-37510)
Supporto ps. MultiIndex.dtypes (SPARK-36930)
Implementare Index.map (SPARK-36469)
Implementare serie.xor e serie.rxor (SPARK-36653)
Implementare l'operatore invert unario di integrali ps. Serie/indice (SPARK-36003)
Implementare DataFrame.cov (SPARK-36396)
Supporto di str e timestamp per (serie|DataFrame).describe() (SPARK-37657)
Supporto del parametro lambda column di DataFrame.rename(SPARK-38763)

Altre modifiche rilevanti

Modifiche di rilievo

Eliminare i riferimenti al supporto di Python 3.6 in docs e python/docs (SPARK-36977)
Rimuovere namedtuple hack sostituendo la selezione predefinita in cloudpickle (SPARK-32079)
Passare dalla versione minima pandas alla versione 1.0.5 (SPARK-37465)
Miglioramenti principali
- Fornire un profiler per le funzioni definite dall'utente Python/Pandas (SPARK-37443)
- Usa il formattatore di stringhe standard di Python per l'API SQL in PySpark (SPARK-37516)
- Esporre lo stato SQL e la classe di errore nelle eccezioni PySpark (SPARK-36953)
- Provare a acquisire faulthanlder quando un ruolo di lavoro Python si arresta in modo anomalo (SPARK-36062)

Funzionalità principali

Implementare DataFrame.mapInArrow in Python (SPARK-37228)
Usa il formattatore di stringhe standard di Python per l'API SQL in PySpark (SPARK-37516)
Aggiungere l'API pyspark df.withMetadata (SPARK-36642)
Supporto della timedelta di Python (SPARK-37275)
Esporre tableExists in pyspark.sql.catalog (SPARK-36176)
Esporre databaseExists in pyspark.sql.catalog (SPARK-36207)
Esposizione di functionExists nel catalogo sql pyspark (SPARK-36258)
Aggiungere Dataframe.observation a PySpark (SPARK-36263)
Aggiungere api max_by/min_by a PySpark (SPARK-36972)
Supporto per dedurre la dict annidata come struct durante la creazione di un dataframe (SPARK-35929)
Aggiungere API bit/octet_length a Scala, Python e R (SPARK-36751)
Supporto dell'API ILIKE in Python (SPARK-36882)
Aggiungere il metodo isEmpty per l'API DataFrame Python (SPARK-37207)
Aggiungere più colonne aggiungendo il supporto (SPARK-35173)
Aggiungere SparkContext.addArchive in PySpark (SPARK-38278)
Rendere i repository di tipi sql eval-able (SPARK-18621)
Hint di tipo inline per fpm.py in python/pyspark/mllib (SPARK-37396)
Implementare dropna il parametro di SeriesGroupBy.value_counts (SPARK-38837)

MLLIB

Funzionalità principali

Aggiungere distanceMeasure param to trainKMeansModel (SPARK-37118)
Esporre LogisticRegression.setInitialModel, ad esempio KMeans et al do (SPARK-36481)
Supporto di CrossValidatorModel ottenere la deviazione standard delle metriche per ogni paramMap (SPARK-36425)

Miglioramenti principali

Ottimizzare alcuni treeAggregate in MLlib ritardando le allocazioni (SPARK-35848)
Riscrivere _shared_params_code_gen.py in hint di tipo inline per ml/param/shared.py (SPARK-37419)

Altre modifiche rilevanti

Aggiornamento alla versione 1.2 (SPARK-35310)

SparkR

Eseguire la migrazione della documentazione di SparkR a pkgdown (SPARK-37474)
Esporre make_date'espressione in R (SPARK-37108)
Aggiungere api max_by/min_by a SparkR (SPARK-36976)
Supporto dell'API ILIKE in R (SPARK-36899)
Aggiungere sec e csc come funzioni R (SPARK-36824)
Aggiungere API bit/octet_length a Scala, Python e R (SPARK-36751)
Aggiungere cot come funzione R (SPARK-36688)

INTERFACCIA UTENTE

Riepilogo delle metriche di speculazione a livello di fase (SPARK-36038)
Tempo di attesa per il recupero casuale del blocco di lettura casuale in StagePage (SPARK-37469)
Aggiungere configurazioni modificate per l'esecuzione di SQL nell'interfaccia utente (SPARK-34735)
Make ThriftServer recognize spark.sql.redaction.string.regex (SPARK-36400)
Collegare e avviare il gestore dopo l'avvio dell'applicazione nell'interfaccia utente (SPARK-36237)
Aggiungere la durata del commit al nodo del grafo della scheda SQL (SPARK-34399)
Supporto del back-end RocksDB nel server cronologia Spark (SPARK-37680)
Mostra le opzioni per l'API Pandas in Spark nell'interfaccia utente (SPARK-38656)
Rinominare 'SQL' in 'SQL/DataFrame' nella pagina dell'interfaccia utente SQL (SPARK-38657)

Compilazione

Migrazione da log4j 1 a log4j 2 (SPARK-37814)
Aggiornare log4j2 a 2.17.2 (SPARK-38544)
Eseguire l'aggiornamento a Py4J 0.10.9.5 (SPARK-38563)
Aggiornare ORC alla versione 1.7.4 (SPARK-38866)
Aggiornare le tabelle dati alla versione 1.10.25 (SPARK-38924)

Aggiornamenti di manutenzione

Vedere Databricks Runtime 11.0 (non supportato).

Ambiente di sistema

Sistema operativo: Ubuntu 20.04.4 LTS
Java: Zulu 8.56.0.21-CA-linux64
Scala: 2.12.14
Python: 3.9.5
R: 4.1.3
Delta Lake: 1.2.1

Librerie Python installate

Libreria	Versione	Libreria	Versione	Libreria	Versione
Antergos Linux	2015.10 (ISO-Rolling)	argon2-cffi	20.1.0	async-generator	1,10
attrs	21.2.0	backcall	0.2.0	backports.entry-points-selectable	1.1.1
bleach	4.0.0	boto3	1.21.18	botocore	1.24.18
certifi	2021.10.8	cffi	1.14.6	chardet	4.0.0
charset-normalizer	2.0.4	cycler	0.10.0	Cython	0.29.24
dbus-python	1.2.16	debugpy	1.4.1	decorator	5.1.0
defusedxml	0.7.1	distlib	0.3.4	informazioni sulla distribuzione	0.23ubuntu1
entrypoints	0,3	facet-overview	1.0.0	filelock	3.6.0
idna	3.2	ipykernel	6.12.1	ipython	7.32.0
ipython-genutils	0.2.0	ipywidgets	7.7.0	jedi	0.18.0
Jinja2	2.11.3	jmespath	0.10.0	joblib	1.0.1
jsonschema	3.2.0	jupyter-client	6.1.12	jupyter-core	4.8.1
jupyterlab-pygments	0.1.2	jupyterlab-widgets	1.0.0	kiwisolver	1.3.1
MarkupSafe	2.0.1	matplotlib	3.4.3	matplotlib-inline	0.1.2
mistune	0.8.4	nbclient	0.5.3	nbconvert	6.1.0
nbformat	5.1.3	nest-asyncio	1.5.1	notebook	6.4.5
numpy	1.20.3	creazione del pacchetto	21.0	pandas	1.3.4
pandocfilters	1.4.3	parso	0.8.2	patsy	0.5.2
pexpect	4.8.0	pickleshare	0.7.5	Pillow	8.4.0
pip	21.2.4	platformdirs	2.5.2	plotly	5.6.0
prometheus-client	0.11.0	prompt-toolkit	3.0.20	protobuf	3.20.1
psutil	5.8.0	psycopg2	2.9.3	ptyprocess	0.7.0
pyarrow	7.0.0	pycparser	2,20	Pygments	2.10.0
PyGObject	3.36.0	pyodbc	4.0.31	pyparsing	3.0.4
pirsistente	0.18.0	python-apt	2.0.0+ubuntu0.20.4.7	python-dateutil	2.8.2
pytz	2021.3	pyzmq	22.2.1	requests	2.26.0
requests-unixsocket	0.2.0	s3transfer	0.5.2	scikit-learn	0.24.2
Scipy	1.7.1	seaborn	0.11.2	Send2Trash	1.8.0
setuptools	58.0.4	sei	1.16.0	ssh-import-id	5.10
statsmodels	0.12.2	tenacity	8.0.1	terminado	0.9.4
testpath	0.5.0	threadpoolctl	2.2.0	tornado	6.1
traitlets	5.1.0	aggiornamenti automatici	0,1	urllib3	1.26.7
virtualenv	20.8.0	wcwidth	0.2.5	webencodings	0.5.1
wheel	0.37.0	widgetsnbextension	3.6.0

Librerie R installate

Le librerie R vengono installate dallo snapshot di Microsoft CRAN nel 2022-05-06.

Libreria	Versione	Libreria	Versione	Libreria	Versione
askpass	1.1	assertthat	0.2.1	Backports	1.4.1
base	4.1.3	base64enc	0.1-3	bit	4.0.4
bit64	4.0.5	blob	1.2.3	boot	1.3-28
Birra	1.0-7	Brio	1.1.3	Scopa	0.8.0
bslib	0.3.1	cachem	1.0.6	chiamante	3.7.0
caret	6.0-92	cellranger	1.1.0	Chron	2.3-56
class	7.3-20	cli	3.3.0	clipr	0.8.0
cluster	2.1.3	codetools	0.2-18	spazio colori	2.0-3
segno comune	1.8.0	compilatore	4.1.3	config	0.3.1
cpp11	0.4.2	Pastello	1.5.1	credentials	1.3.2
curl	4.3.2	data.table	1.14.2	datasets	4.1.3
DBI	1.1.2	dbplyr	2.1.1	desc	1.4.1
devtools	2.4.3	diffobj	0.3.5	digest	0.6.29
dplyr	1.0.9	dtplyr	1.2.1	e1071	1.7-9
puntini di sospensione	0.3.2	evaluate	0.15	fani	1.0.3
farver	2.1.0	fastmap	1.1.0	fontawesome	0.2.2
forcats	0.5.1	foreach	1.5.2	straniero	0.8-82
forge	0.2.0	fs	1.5.2	future	1.25.0
future.apply	1.9.0	Gargarismi	1.2.0	Generics	0.1.2
Gert	1.6.0	ggplot2	3.3.6	Gh	1.3.0
gitcreds	0.1.1	glmnet	4.1-4	globals	0.14.0
Colla	1.6.2	googledrive	2.0.0	Googlesheets4	1.0.0
Gower	1.0.0	grafica	4.1.3	grDevices	4.1.3
grid	4.1.3	gridExtra	2.3	gsubfn	0,7
gtable	0.3.0	hardhat	0.2.0	Haven	2.5.0
highr	0.9	Hms	1.1.1	htmltools	0.5.2
htmlwidgets	1.5.4	httpuv	1.6.5	httr	1.4.3
ids	1.0.1	ini	0.3.1	ipred	0.9-12
isoband	0.2.5	Iteratori	1.0.14	jquerylib	0.1.4
jsonlite	1.8.0	KernSmooth	2.23-20	magliare	1.39
Etichettatura	0.4.2	later	1.3.0	Reticolo	0.20-45
Java	1.6.10	lifecycle	1.0.1	listenv	0.8.0
lubridate	1.8.0	magrittr	2.0.3	Markdown	1.1
Un sacco	7.3-56	Con matrice	1.4-1	memoise	2.0.1
metodi	4.1.3	mgcv	1.8-40	Mime	0.12
ModelMetrics	1.2.2.2	modelr	0.1.8	Munsell	0.5.0
nlme	3.1-157	nnet	7.3-17	numDeriv	2016.8-1.1
openssl	2.0.0	parallel	4.1.3	parallelly	1.31.1
Pilastro	1.7.0	pkgbuild	1.3.1	pkgconfig	2.0.3
pkgload	1.2.4	plogr	0.2.0	plyr	1.8.7
Lode	1.0.0	prettyunits	1.1.1	Proc	1.18.0
processx	3.5.3	prodlim	2019.11.13	Avanzamento	1.2.2
progressr	0.10.0	promises	1.2.0.1	proto	1.0.0
proxy	0.4-26	ps	1.7.0	purrr	0.3.4
r2d3	0.2.6	R6	2.5.1	randomForest	4.7-1
rappdirs	0.3.3	rcmdcheck	1.4.0	RColorBrewer	1.1-3
Rcpp	1.0.8.3	RcppEigen	0.3.3.9.2	readr	2.1.2
readxl	1.4.0	ricette	0.2.0	Rivincita	1.0.1
rematch2	2.1.2	remotes	2.4.2	reprex	2.0.1
reshape2	1.4.4	rlang	1.0.2	rmarkdown	2.14
RODBC	1.3-19	roxygen2	7.1.2	rpart	4.1.16
rprojroot	2.0.3	Rserve	1.8-10	RSQLite	2.2.13
rstudioapi	0,13	rversions	2.1.1	rvest	1.0.2
Sass	0.4.1	Scale	1.2.0	selettore	0.4-2
sessioninfo	1.2.2	Forma	1.4.6	Lucido	1.7.1
sourcetools	0.1.7	sparklyr	1.7.5	SparkR	3.3.0
spaziale	7.3-11	Spline	4.1.3	sqldf	0.4-11
SQUAREM	2021.1	stats	4.1.3	stats4	4.1.3
stringi	1.7.6	stringr	1.4.0	Sopravvivenza	3.2-13
sys	3.4	tcltk	4.1.3	testatat	3.1.4
tibble	3.1.7	tidyr	1.2.0	tidyselect	1.1.2
tidyverse	1.3.1	timeDate	3043.102	tinytex	0,38
tools	4.1.3	tzdb	0.3.0	usethis	2.1.5
utf8	1.2.2	utils	4.1.3	uuid	1.1-0
vctrs	0.4.1	viridisLite	0.4.0	Vroom	1.5.7
waldo	0.4.0	Whisker	0,4	withr	2.5.0
xfun	0,30	xml2	1.3.3	xopen	1.0.0
xtable	1.8-4	Yaml	2.3.5	zip	2.2.0

Librerie Java e Scala installate (versione del cluster Scala 2.12)

ID gruppo	ID artefatto	Versione
antlr	antlr	2.7.7
com.amazonaws	amazon-distribuisci-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.12.189
com.amazonaws	aws-java-sdk-cloudformation	1.12.189
com.amazonaws	aws-java-sdk-cloudfront	1.12.189
com.amazonaws	aws-java-sdk-cloudhsm	1.12.189
com.amazonaws	aws-java-sdk-cloudsearch	1.12.189
com.amazonaws	aws-java-sdk-cloudtrail	1.12.189
com.amazonaws	aws-java-sdk-cloudwatch	1.12.189
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.12.189
com.amazonaws	aws-java-sdk-codedeploy	1.12.189
com.amazonaws	aws-java-sdk-cognitoidentity	1.12.189
com.amazonaws	aws-java-sdk-cognitosync	1.12.189
com.amazonaws	aws-java-sdk-config	1.12.189
com.amazonaws	aws-java-sdk-core	1.12.189
com.amazonaws	aws-java-sdk-datapipeline	1.12.189
com.amazonaws	aws-java-sdk-directconnect	1.12.189
com.amazonaws	aws-java-sdk-directory	1.12.189
com.amazonaws	aws-java-sdk-dynamodb	1.12.189
com.amazonaws	aws-java-sdk-ec2	1.12.189
com.amazonaws	aws-java-sdk-ecs	1.12.189
com.amazonaws	aws-java-sdk-efs	1.12.189
com.amazonaws	aws-java-sdk-elasticache	1.12.189
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.12.189
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.12.189
com.amazonaws	aws-java-sdk-elastictranscoder	1.12.189
com.amazonaws	aws-java-sdk-emr	1.12.189
com.amazonaws	aws-java-sdk-glacier	1.12.189
com.amazonaws	aws-java-sdk-glue	1.12.189
com.amazonaws	aws-java-sdk-iam	1.12.189
com.amazonaws	aws-java-sdk-importexport	1.12.189
com.amazonaws	aws-java-sdk-consultas	1.12.189
com.amazonaws	aws-java-sdk-kms	1.12.189
com.amazonaws	aws-java-sdk-lambda	1.12.189
com.amazonaws	aws-java-sdk-logs	1.12.189
com.amazonaws	aws-java-sdk-machinelearning	1.12.189
com.amazonaws	aws-java-sdk-opsworks	1.12.189
com.amazonaws	aws-java-sdk-rds	1.12.189
com.amazonaws	aws-java-sdk-redshift	1.12.189
com.amazonaws	aws-java-sdk-route53	1.12.189
com.amazonaws	aws-java-sdk-s3	1.12.189
com.amazonaws	aws-java-sdk-ses	1.12.189
com.amazonaws	aws-java-sdk-simpledb	1.12.189
com.amazonaws	aws-java-sdk-simpleworkflow	1.12.189
com.amazonaws	aws-java-sdk-sns	1.12.189
com.amazonaws	aws-java-sdk-sqs	1.12.189
com.amazonaws	aws-java-sdk-ssm	1.12.189
com.amazonaws	aws-java-sdk-storagegateway	1.12.189
com.amazonaws	aws-java-sdk-sts	1.12.189
com.amazonaws	aws-java-sdk-support	1.12.189
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.12.189
com.amazonaws	jmespath-java	1.12.189
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	stream	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.mdfsoftware	kryo-shaded	4.0.2
com.mdfsoftware	minlog	1.3.0
com.fasterxml	compagno di classe	1.3.4
com.fasterxml.jackson.core	annotazioni jackson	2.13.3
com.fasterxml.jackson.core	jackson-core	2.13.3
com.fasterxml.jackson.core	jackson-databind	2.13.3
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.13.3
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.13.3
com.fasterxml.jackson.module	jackson-module-paranamer	2.13.3
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.13.3
com.github.ben-manes.caffeina	Caffeina	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.luben	zstd-jni	1.5.2-1
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.8.6
com.google.crypto.tink	Tink	1.6.1
com.google.flatbuffers	flatbuffers-java	1.12.0
com.google.guava	Guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	2.0.204
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEA edizione Standard
com.lihaoyi	sourcecode_2.12	0.1.9
com.microsoft.azure	azure-data-lake-store-sdk	2.3.9
com.ning	compress-lzf	1.1
com.sun.mail	javax.mail	1.5.2
com.tdunning	JSON	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.10.0
com.twitter	chill_2.12	0.10.0
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocità	univocità-parser	2.9.1
com.zaxxer	HikariCP	4.0.3
commons-cli	commons-cli	1.5.0
commons-codec	commons-codec	1.15
commons-collections	commons-collections	3.2.2
commons-dbcp	commons-dbcp	1.4
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.11.0
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-pool	commons-pool	1.5.4
dev.sdk.netlib	arpack	2.2.1
dev.sdk.netlib	blas	2.2.1
dev.sdk.netlib	lapack	2.2.1
hive-2.3__hadoop-3.2	jets3t-0.7	liball_deps_2.12
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0.21
io.delta	delta-sharing-spark_2.12	0.4.0
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.74.Final
io.netty	netty-buffer	4.1.74.Final
io.netty	netty-codec	4.1.74.Final
io.netty	netty-common	4.1.74.Final
io.netty	netty-handler	4.1.74.Final
io.netty	netty-resolver	4.1.74.Final
io.netty	netty-tcnative-classes	2.0.48.Final
io.netty	netty-transport	4.1.74.Final
io.netty	netty-transport-classes-epoll	4.1.74.Final
io.netty	netty-transport-classes-kqueue	4.1.74.Final
io.netty	netty-transport-native-epoll-linux-aarch_64	4.1.74.Final
io.netty	netty-transport-native-epoll-linux-x86_64	4.1.74.Final
io.netty	netty-transport-native-kqueue-osx-aarch_64	4.1.74.Final
io.netty	netty-transport-native-kqueue-osx-x86_64	4.1.74.Final
io.netty	netty-transport-native-unix-common	4.1.74.Final
io.prometheus	simpleclient	0.7.0
io.prometheus	simpleclient_common	0.7.0
io.prometheus	simpleclient_dropwizard	0.7.0
io.prometheus	simpleclient_pushgateway	0.7.0
io.prometheus	simpleclient_servlet	0.7.0
io.prometheus.jmx	Collettore	0.12.0
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.servlet	jakarta.servlet-api	4.0.3
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.annotation	javax.annotation-api	1.3.2
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.transaction	jta	1.1
javax.transaction	transaction-api	1.1
javax.xml.bind	jaxb-api	2.2.11
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.13
maven-trees	hive-2.3__hadoop-3.2	liball_deps_2.12
net.java.dev.jna	Jna	5.8.0
net.razorvine	Sottaceto	1.2
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.13.14
net.snowflake	spark-snowflake_2.12	2.10.0-spark_3.1
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.8
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	formato freccia	7.0.0
org.apache.arrow	arrow-memory-core	7.0.0
org.apache.arrow	arrow-memory-netty	7.0.0
org.apache.arrow	freccia-vettore	7.0.0
org.apache.avro	avro	1.11.0
org.apache.avro	avro-ipc	1.11.0
org.apache.avro	avro-mapred	1.11.0
org.apache.commons	commons-collections4	4.4
org.apache.commons	commons-compress	1.21
org.apache.commons	commons-crypto	1.1.0
org.apache.commons	commons-lang3	3.12.0
org.apache.commons	commons-math3	3.6.1
org.apache.commons	commons-text	1,9
org.apache.curator	curatore-cliente	2.13.0
org.apache.curator	curatore-framework	2.13.0
org.apache.curator	ricette curatori	2.13.0
org.apache.derby	Derby	10.14.2.0
org.apache.hadoop	hadoop-client-api	3.3.2-databricks
org.apache.hadoop	hadoop-client-runtime	3.3.2
org.apache.hive	hive-beeline	2.3.9
org.apache.hive	hive-cli	2.3.9
org.apache.hive	hive-jdbc	2.3.9
org.apache.hive	hive-llap-client	2.3.9
org.apache.hive	hive-llap-common	2.3.9
org.apache.hive	hive-serde	2.3.9
org.apache.hive	hive-shims	2.3.9
org.apache.hive	hive-storage-api	2.7.2
org.apache.hive.shims	hive-shims-0.23	2.3.9
org.apache.hive.shims	hive-shims-common	2.3.9
org.apache.hive.shims	hive-shims-scheduler	2.3.9
org.apache.httpcomponents	httpclient	4.5.13
org.apache.httpcomponents	httpcore	4.4.14
org.apache.ivy	ivy	2.5.0
org.apache.logging.log4j	log4j-1.2-api	2.17.2
org.apache.logging.log4j	log4j-api	2.17.2
org.apache.logging.log4j	log4j-core	2.17.2
org.apache.logging.log4j	log4j-slf4j-impl	2.17.2
org.apache.mesos	mesos-shaded-protobuf	1.4.0
org.apache.orc	orc-core	1.7.4
org.apache.orc	orc-mapreduce	1.7.4
org.apache.orc	orc-shim	1.7.4
org.apache.parquet	parquet-column	1.12.0-databricks-0004
org.apache.parquet	parquet-common	1.12.0-databricks-0004
org.apache.parquet	codifica parquet	1.12.0-databricks-0004
org.apache.parquet	strutture parquet-format-structures	1.12.0-databricks-0004
org.apache.parquet	parquet-hadoop	1.12.0-databricks-0004
org.apache.parquet	parquet-jackson	1.12.0-databricks-0004
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.xbean	xbean-asm9-shaded	4.20
org.apache.yetus	annotazioni del gruppo di destinatari	0.5.0
org.apache.zookeeper	zookeeper	3.6.2
org.apache.zookeeper	zookeeper-jute	3.6.2
org.checkerframework	checker-qual	3.5.0
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.46.v20220331
org.eclipse.jetty	jetty-continuation	9.4.46.v20220331
org.eclipse.jetty	jetty-http	9.4.46.v20220331
org.eclipse.jetty	jetty-io	9.4.46.v20220331
org.eclipse.jetty	jetty-jndi	9.4.46.v20220331
org.eclipse.jetty	jetty-plus	9.4.46.v20220331
org.eclipse.jetty	jetty-proxy	9.4.46.v20220331
org.eclipse.jetty	jetty-security	9.4.46.v20220331
org.eclipse.jetty	jetty-server	9.4.46.v20220331
org.eclipse.jetty	jetty-servlet	9.4.46.v20220331
org.eclipse.jetty	jetty-servlets	9.4.46.v20220331
org.eclipse.jetty	jetty-util	9.4.46.v20220331
org.eclipse.jetty	jetty-util-ajax	9.4.46.v20220331
org.eclipse.jetty	jetty-webapp	9.4.46.v20220331
org.eclipse.jetty	jetty-xml	9.4.46.v20220331
org.eclipse.jetty.websocket	websocket-api	9.4.46.v20220331
org.eclipse.jetty.websocket	websocket-client	9.4.46.v20220331
org.eclipse.jetty.websocket	websocket-common	9.4.46.v20220331
org.eclipse.jetty.websocket	websocket-server	9.4.46.v20220331
org.eclipse.jetty.websocket	websocket-servlet	9.4.46.v20220331
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2.34
org.glassfish.jersey.containers	jersey-container-servlet-core	2.34
org.glassfish.jersey.core	jersey-client	2.34
org.glassfish.jersey.core	maglia-comune	2.34
org.glassfish.jersey.core	jersey-server	2.34
org.glassfish.jersey.inject	jersey-hk2	2.34
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.jetbrains	annotations	17.0.0
org.joda	joda-convert	1,7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.7.0-M11
org.json4s	json4s-core_2.12	3.7.0-M11
org.json4s	json4s-jackson_2.12	3.7.0-M11
org.json4s	json4s-scalap_2.12	3.7.0-M11
org.lz4	lz4-java	1.8.0
org.mariadb.jdbc	mariadb-java-client	2.7.4
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.3.3
org.roaringbitmap	RoaringBitmap	0.9.25
org.roaringbitmap	Spessori	0.9.25
org.rocksdb	rocksdbjni	6.24.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.14
org.scala-lang	scala-library_2.12	2.12.14
org.scala-lang	scala-reflect_2.12	2.12.14
org.scala-lang.modules	scala-collection-compat_2.12	2.4.3
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.2
org.scalanlp	breeze_2.12	1.2
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.36
org.slf4j	jul-to-slf4j	1.7.36
org.slf4j	slf4j-api	1.7.36
org.spark-project.spark	Inutilizzati	1.0.0
org.threeten	treten-extra	1.5.0
org.cortanaani	xz	1.8
org.typelevel	algebra_2.12	2.0.1
org.typelevel	cats-kernel_2.12	2.1.1
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0
org.typelevel	spire-platform_2.12	0.17.0
org.typelevel	spire-util_2.12	0.17.0
org.typelevel	spire_2.12	0.17.0
org.wildfly.openssl	wildfly-openssl	1.0.7.Final
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.8.4
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1,5
software.amazon.ion	ion-java	1.0.2
Stax	stax-api	1.0.1

Databricks Runtime 11.0 (non supportato)

Miglioramenti e nuove funzionalità

Nuova versione di Apache Spark

I notebook Python ora usano il kernel IPython

Supporto per ipywidgets

Il connettore Synapse ora scrive dati Parquet in modalità non legacy

Lo schema HTTPS ora applicato quando il client ABFS usa il token di firma di accesso condiviso

SQL: DESC è ora un alias per DESCRIBE

SQL: Nuovi current_version dettagli della versione dell'output della funzione

L'eliminazione di un vincolo di tabella Delta mancante genera ora un errore

SQL: la nuova EXCEPT clausola nell'istruzione SELECT esclude le colonne dalla selezione

Supporto per l'eliminazione di colonne nelle tabelle Delta (anteprima pubblica)

Miglioramenti di COPY INTO

CONVERT TO DELTA è ora supportato negli ambienti abilitati per Unity Catalog (anteprima pubblica)

Modifiche del comportamento

SQL: lpad e rpad le funzioni supportano ora sequenze di byte

Formato stringa in format_string e printf non più consentito %0$

I valori Null nei file CSV vengono ora scritti come stringhe vuote senza virgolette per impostazione predefinita

La proprietà external table è ora riservata

Log4j viene aggiornato da Log4j 1 a Log4j 2

Le librerie installate da Maven vengono ora risolte nel piano di calcolo per impostazione predefinita

Correzioni di bug

Aggiornamenti della libreria

Apache Spark

Contenuto della sezione:

Spark SQL e Core

Modalità ANSI

Miglioramenti delle funzionalità

Miglioramenti delle prestazioni

Miglioramenti dei connettori predefiniti

Rimozione delle autorizzazioni dei nodi

Altre modifiche rilevanti

Structured Streaming

Funzionalità principali

Altre modifiche rilevanti

PySpark

API Pandas in Spark

Miglioramenti principali

Funzionalità principali

Altre modifiche rilevanti

Modifiche di rilievo

Funzionalità principali

MLLIB

Funzionalità principali

Miglioramenti principali

Altre modifiche rilevanti

SparkR

INTERFACCIA UTENTE

Compilazione

Aggiornamenti di manutenzione

Ambiente di sistema

Librerie Python installate

Librerie R installate

Librerie Java e Scala installate (versione del cluster Scala 2.12)

Risorse aggiuntive

SQL: `DESC` è ora un alias per `DESCRIBE`

SQL: Nuovi `current_version` dettagli della versione dell'output della funzione

SQL: la nuova `EXCEPT` clausola nell'istruzione `SELECT` esclude le colonne dalla selezione

Miglioramenti di `COPY INTO`

`CONVERT TO DELTA` è ora supportato negli ambienti abilitati per Unity Catalog (anteprima pubblica)

SQL: `lpad` e `rpad` le funzioni supportano ora sequenze di byte

Formato stringa in `format_string` e `printf` non più consentito `%0$`

La proprietà `external` table è ora riservata