Databricks Runtime 7.0 (EoS)

Статья
08/12/2024

Примечание.

Поддержка этой версии databricks Runtime закончилась. Сведения о дате окончания поддержки см . в журнале завершения поддержки. Все поддерживаемые версии среды выполнения Databricks см. в заметках о выпуске Databricks Runtime и совместимости.

Этот образ Databricks выпущен в июне 2020 г.

В следующих заметках о выпуске содержатся сведения о Databricks Runtime 7.0 на платформе Apache Spark 3.0.

Новые возможности

У Databricks Runtime 7.0 следующие новые функции:

Scala 2.12

В Databricks Runtime 7.0 версия Scala обновлена с 2.11.12 до 2.12.10. Список изменений в Scala 2.12 по сравнению с версией 2.11 доступен в заметках о выпуске Scala 2.12.0.
Автозагрузчик (общедоступная предварительная версия), выпущенный в Databricks Runtime 6.4, улучшен в Databricks Runtime 7.0

Автозагрузчик реализует более эффективный способ добавочной обработки новых файлов данных по мере их поступления в облачное хранилище BLOB-объектов во время операций извлечения, преобразования и загрузки. Эта технология эффективнее структурированной потоковой передачи на основе файлов, при которой система обнаруживает новые файлы, периодически проверяя содержимое облачного каталога и отслеживая те файлы, которые уже регистрировались (такой подход может стать очень неэффективным по мере роста каталога). Автозагрузчик также удобнее и эффективнее по сравнению со структурированной потоковой передачей на основе уведомлений о файлах, которая требует ручной настройки служб уведомления о файлах в облаке и не позволяет задним числом обрабатывать уже существующие файлы. Дополнительные сведения см. в статье об автозагрузчике.

В Databricks Runtime 7.0 больше не требуется запрашивать пользовательский образ Databricks Runtime, чтобы использовать автозагрузчик.
Команда COPY INTO (общедоступная предварительная версия), которая позволяет загружать данные в Delta Lake с помощью идемпотентных попыток, улучшена в Databricks Runtime 7.0

Команда SQL COPY INTO, выпущенная в качестве общедоступной предварительной версии в Databricks Runtime 6.4, позволяет загружать данные в Delta Lake с помощью идемпотентных попыток. Для загрузки данных в Delta Lake сегодня необходимо использовать API-интерфейсы DataFrame Apache Spark. Если во время загрузки возникают сбои, их необходимо эффективно обрабатывать. Новая команда COPY INTO реализует в SQL знакомый декларативный интерфейс для загрузки данных. Команда отслеживает ранее загруженные файлы, и в случае сбоев ее можно безопасно перезапустить. Дополнительные сведения см. в статье COPY INTO.

Усовершенствования

Соединитель Azure Synapse (прежнее название — Хранилище данных SQL) поддерживает оператор COPY.

Основное преимущество COPY заключается в том, что пользователи с более низким уровнем привилегий могут записывать данные в Azure Synapse без строгих разрешений CONTROL в Azure Synapse.
Магическая команда %matplotlib inline больше не требуется для отображения объектов Matplolib как встроенных в ячейки записной книжки. Они всегда отображаются встроенным по умолчанию.
Изображения Matplolib теперь обрабатываются с помощью transparent=False, чтобы не терять указанный пользователем фон. Это поведение можно предопределить, настроив конфигурацию Spark: spark.databricks.workspace.matplotlib.transparent true.
При выполнении заданий структурированной потоковой передачи в кластерах с высоким уровнем параллелизма перезапуск задания иногда завершается сбоем, так как предыдущее задание не было завершено должным образом. В Databricks Runtime 6.3 предоставлена возможность настройки конфигурации SQL (spark.sql.streaming.stopActiveRunOnRestart true) в кластере, чтобы останавливать предыдущее выполнение. Эта конфигурация используется в Databricks Runtime 7.0 по умолчанию.

Изменения основных библиотек

Пакеты Python

Обновленные основные пакеты Python:

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 -> 3.1.3
numpy 1.16.2 -> 1.18.1
pandas 0.24.2 -> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 -> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

Удаленные пакеты Python:

boto (используйте boto3)
pycurl

Примечание.

В среде Python в Databricks Runtime 7.0 используется Python 3.7, который отличается от Python, установленного в системе Ubuntu: /usr/bin/python и /usr/bin/python2 связаны с Python 2.7, а /usr/bin/python3 связан с Python 3.6.

Пакеты R

Добавленные пакеты R:

метла
высокий
isoband
трикотажный
Markdown
modelr
reprex
rmarkdown
rvest
селектор
tidyverse
tinytex
xfun

Удаленные пакеты R:

abind
bitops
автомобиль
carData
doMC
gbm
h2o
littler
lme4
mapproj
maps
Maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils
RcppEigen
RCurl
rio
sp
SparseM
statmod
zip

Библиотеки Java и Scala

Apache Hive, используемая для обработки определяемых пользователем функций Hive, и Hive SerDes обновлены до версии 2.3.
Раньше служба хранилища Azure и JAR-файлы Key Vault входили в пакет Databricks Runtime, что не позволяло использовать разные версии этих библиотек, подключенных к кластерам. Классы в com.microsoft.azure.storage и com.microsoft.azure.keyvault больше не расположены по пути классов в Databricks Runtime. Если вы использовали зависимости от таких путей классов, необходимо подключить к своим кластерам пакет SDK службы хранилища Azure или Azure Key Vault.

Изменения в работе

В этом разделе перечислены изменения в поведении при переходе от Databricks Runtime 6.6 к Databricks Runtime 7.0. Их следует учитывать при переносе рабочих нагрузок из предыдущих выпусков Databricks Runtime в Databricks Runtime 7.0 и более поздних версий.

Изменения в поведении Spark

Поскольку Databricks Runtime 7.0 — это первая версия Databricks Runtime на базе Spark 3.0, при переносе рабочих нагрузок из Databricks Runtime 5.5 LTS или 6.x, созданных на базе Spark 2.4, необходимо учитывать множество изменений. Эти изменения перечислены в разделе "Изменения в поведении" каждой функциональной области в главе Apache Spark этой статьи с заметками о выпуске:

Изменения в поведении для ядра Spark, Spark SQL и структурированной потоковой передачи
Изменения в поведении для MLlib
Изменения в поведении для SparkR

Другие изменения в поведении

Обновление до Scala 2.12 включает в себя следующие изменения:
- Сериализация ячейки пакета обрабатывается по-разному. В следующем примере показано изменение в поведении и способ его решения.
  
  При выполнении foo.bar.MyObjectInPackageCell.run(), как определено в следующей ячейке пакета, приведет к ошибке java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  Чтобы обойти эту ошибку, можно выполнить перенос MyObjectInPackageCell внутри сериализуемого класса.
- В некоторых случаях с помощью DataStreamWriter.foreachBatch потребуется обновление исходного кода. Это изменение обусловлено тем, что Scala 2.12 имеет автоматическое преобразование из лямбда-выражений в типы SAM и может привести к неоднозначности.
  
  Например, не удается скомпилировать следующий код Scala:
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  Чтобы устранить ошибку компиляции, измените foreachBatch { (df, id) => myFunc(df, id) } на foreachBatch(myFunc _) или явно используйте API Java: foreachBatch(new VoidFunction2 ...).
Так как версия Apache Hive, используемая для обработки определяемых пользователем функций Hive и SerDes Hive, обновлена до 2.3, требуются два изменения:
- Интерфейс SerDe Hive заменен абстрактным классом AbstractSerDe. Для любой реализации пользовательского Hive SerDe требуется миграция в AbstractSerDe.
- Установка для параметра spark.sql.hive.metastore.jars значения builtin означает, что клиент хранилища метаданных Hive 2.3 будет использоваться для доступа к хранилищам метаданных для Databricks Runtime 7.0. Если необходимо получить доступ к внешним хранилищам метаданных на базе Hive 1.2, укажите для spark.sql.hive.metastore.jars папку, содержащую JAR-файл Hive 1.2.

Устаревшие и удаленные возможности

Индекс пропуска данных не рекомендовалось использовать начиная с Databricks Runtime 4.3. Он удален в Databricks Runtime 7.0. Вместо этого рекомендуется использовать разностные таблицы, обеспечивающие улучшенные возможности для пропуска данных.
В Databricks Runtime 7.0 базовая версия Apache Spark использует Scala 2.12. Поскольку библиотеки, скомпилированные для Scala 2.11, могут внезапно отключать кластеры Databricks Runtime 7.0, кластеры, работающие с Databricks Runtime 7.0 и выше, не устанавливают библиотеки, настроенные для установки на всех кластерах. На вкладке Библиотеки кластера отображается состояние Skipped и сообщение об устаревании, в котором объясняются изменения в обработке библиотеки. Однако при наличии кластера, созданного в более ранней версии Databricks Runtime до выпуска платформы Azure Databricks версии 3.20 в рабочей области, теперь можно изменить этот кластер для использования Databricks Runtime 7.0. Все библиотеки, которые были настроены для установки на всех кластерах, будут установлены в этом кластере. В этом случае любой несовместимый JAR-файл в установленных библиотеках может привести к отключению кластера. Для решения этой проблемы кластер можно клонировать или создать новый.

Apache Spark

Databricks Runtime 7.0 включает Apache Spark 3.0.

В этом разделе рассматриваются следующие вопросы.

Ядро, Spark SQL, структурированная потоковая передача
MLlib
SparkR
GraphX
Нерекомендуемы
Известные проблемы

Ядро, Spark SQL, структурированная потоковая передача

Советы

(Project Hydrogen) Планировщик с поддержкой ускорителя (SPARK-24615)
Адаптивное выполнение запросов (SPARK-31412)
Динамическое удаление секций (SPARK-11150)
Усовершенствованный pandas UDF API с указаниями для типов (SPARK-28264)
Пользовательский интерфейс структурированной потоковой передачи (SPARK-29543)
API подключаемых модулей каталога (SPARK-31121)
Улучшенная совместимость с ANSI SQL

Улучшения в плане производительности

Адаптивное выполнение запросов (SPARK-31412)
- Базовая платформа (SPARK-23128)
- Корректировка после смешивания номеров секций (SPARK-28177)
- Динамическое повторное использование вложенных запросов (SPARK-28753)
- Локальное средство чтения в случайном порядке (SPARK-28560)
- Оптимизация неравномерного объединения (SPARK-29544)
- Оптимизация чтения непрерывных блоков в случайном порядке (SPARK-9853)
Динамическое удаление секций (SPARK-11150)
Другие правила оптимизатора
- Правило ReuseSubquery (SPARK-27279)
- Правило PushDownLeftSemiAntiJoin (SPARK-19712)
- Правило PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- Правило ReplaceNullWithFalse (SPARK-25860)
- Правило Eliminate выполняет сортировку без ограничений во вложенном запросе операций Join/Aggregation (SPARK-29343)
- Правило PruneHiveTablePartitions (SPARK-15616)
- Удаление ненужных вложенных полей из Generate (SPARK-27707)
- Правило RewriteNonCorrelatedExists (SPARK-29800)
Уменьшение затрат на синхронизацию кэша таблиц (SPARK-26917), (SPARK-26617), (SPARK-26548)
Разделение кода агрегирования на небольшие функции (SPARK-21870)
Добавление пакетной обработки в команды INSERT и ALTER TABLE ADD PARTITION (SPARK-29938)

Улучшения в плане расширяемости

API подключаемых модулей каталога (SPARK-31121)
Рефакторинг API источников данных версии 2 (SPARK-25390)
Поддержка хранилища метаданных Hive 3.0 и 3.1 (SPARK-27970), (SPARK-24360)
Расширение интерфейса подключаемого модуля Spark для драйвера (SPARK-29396)
Расширение системы метрик Spark за счет пользовательских метрик с помощью подключаемых модулей исполнителя (SPARK-28091)
API-интерфейсы разработчика для расширенной обработки по столбцам (SPARK-27396)
Встроенная миграция источника с помощью DSV2: parquet, ORC, CSV, JSON, Kafka, текст, Avro (SPARK-27589)
Разрешение FunctionInjection в SparkExtensions (SPARK-25560)
Разрешение регистрации агрегатора как UDAF (SPARK-27296)

Улучшения соединителей

Очистка столбцов с помощью недетерминированных выражений (SPARK-29768)
Поддержка spark.sql.statistics.fallBackToHdfs в таблицах источников данных (SPARK-25474)
Разрешение удаления секций с помощью фильтров вложенных запросов для источника файлов (SPARK-26893)
Избегание применения метода pushdown для вложенных запросов в фильтрах источников данных (SPARK-25482)
Рекурсивная загрузка данных из источников файлов (SPARK-27990)
Parquet/ORC
- Применение метода pushdown к предикатам дизъюнкции (SPARK-27699)
- Обобщение очистки вложенных столбцов (SPARK-25603) и включение по умолчанию (SPARK-29805)
- Только Parquet
  - Применение метода pushdown к предикатам для вложенных полей (SPARK-17636)
- Только ORC
  - Поддержка схемы слияния для ORC (SPARK-11412)
  - Удаление вложенных схем для ORC (SPARK-27034)
  - Уменьшение сложности преобразования предикатов для ORC (SPARK-27105, SPARK-28108)
  - Обновление Apache ORC до версии 1.5.9 (SPARK-30695)
CSV
- Поддержка применения метода pushdown к фильтрам в источнике данных CSV (SPARK-30323)
Hive SerDe
- Отсутствие вывода схемы при чтении таблицы Hive SerDe с собственным источником данных (SPARK-27119)
- Команды Hive CTAS должны использовать источник данных, если он преобразуемый (SPARK-25271)
- Использование собственного источника данных для оптимизации вставки секционированной таблицы Hive (SPARK-28573)
Apache Kafka
- Добавление поддержки для заголовков Kafka (SPARK-23539)
- Добавление поддержки токена делегирования Kafka (SPARK-25501)
- Новый параметр для источника Kafka: смещение по метке времени (начальной/конечной) (SPARK-26848)
- Поддержка параметра minPartitions в источнике пакета Kafka и источнике потоковой передачи версии 1 (SPARK-30656)
- Обновление Kafka до версии 2.4.1 (SPARK-31126)
Новые встроенные источники данных
- Новые встроенные источники данных двоичных файлов (SPARK-25348)
- Новые источники данных пакета холостых команд (SPARK-26550) и приемник потоковой передачи холостых команд (SPARK-26649)

Усовершенствования функций

[Hydrogen] Планировщик с поддержкой ускорителя (SPARK-24615)
Ввод полного набора указаний в соединении (SPARK-27225)
Добавлено указание PARTITION BY для запросов SQL (SPARK-28746)
Обработка метаданных в сервере Thrift (SPARK-28426)
Добавление функций высшего порядка в API Scala (SPARK-27297)
Поддержка простого контекста задачи сбора в barrier (SPARK-30667)
Определяемые пользователем функции Hive поддерживают пользовательский тип (SPARK-28158)
Поддержка операторов DELETE/UPDATE/MERGE в Catalyst (SPARK-28351, SPARK-28892, SPARK-28893)
Реализация DataFrame.tail (SPARK-30185)
Новые встроенные функции
- sinh, cosh, tanh, asinh, acosh, atanh (SPARK-28133)
- any, every, some (SPARK-19851)
- bit_and, bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and, bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by, min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- version (SPARK-29554)
- xxhash64 (SPARK-27099)
Улучшения существующих встроенных функций
- Улучшение встроенных функций и операций с датой и временем (SPARK-31415)
- Поддержка режима FAILFAST для from_json (SPARK-25243)
- array_sort добавляет новый параметр блока сравнения (SPARK-29020)
- Теперь фильтр может принимать индекс в качестве входных данных, а также как элемент (SPARK-28962)

Улучшения совместимости с SQL

Переход на григорианский календарь (SPARK-26651)
Создание собственного определения шаблона даты и времени Spark (SPARK-31408)
Введение политики назначения хранения ANSI для вставки таблицы (SPARK-28495)
Следование правилам назначения хранения ANSI при вставке таблицы по умолчанию (SPARK-28885)
Добавление SQLConf spark.sql.ansi.enabled (SPARK-28989)
Поддержка предложения фильтра ANSI SQL для статистического выражения (SPARK-27986)
Поддержка функции ANSI SQL OVERLAY (SPARK-28077)
Поддержка вложенных комментариев ANSI в скобках (SPARK-28880)
Выдача исключения при переполнении для целых чисел (SPARK-26218)
Проверка переполнения для арифметических операций с интервалами (SPARK-30341)
Выдача исключения, если недопустимая строка приводится к числовому типу (SPARK-30292)
Приведение поведения при переполнении в результате умножения и деления интервалов в соответствие с другими операциями (SPARK-30919)
Добавление псевдонимов для типов ANSI char и decimal (SPARK-29941)
Средство синтаксического анализа SQL определяет зарезервированные ключевые слова, соответствующие ANSI (SPARK-26215)
Запрещение использования зарезервированных ключевых слов как идентификаторов, если включен режим ANSI (SPARK-26976)
Поддержка синтаксиса ANSI SQL LIKE ... ESCAPE (SPARK-28083)
Поддержка логико-предикативного синтаксиса SQL ANSI (SPARK-27924)
Улучшенная поддержка обработки связанных вложенных запросов (SPARK-18455)

Улучшения мониторинга и возможностей отладки

Новый пользовательский интерфейс структурированной потоковой передачи (SPARK-29543)
SHS: разрешение журналам событий развертывать выполнение приложений потоковой передачи (SPARK-28594)
Добавление API, позволяющего пользователю определять и просматривать произвольные метрики в пакетных и потоковых запросах (SPARK-29345)
Инструментирование для отслеживания времени планирования на каждый запрос (SPARK-26129)
Размещение базовых метрик случайного перемещения данных в оператор обмена SQL (SPARK-26139)
Инструкция SQL отображается на вкладке SQL, а не в месте вызова (SPARK-27045)
Добавление подсказки в SparkUI (SPARK-29449)
Увеличение производительности параллельных операций сервера журналов (SPARK-29043)
Команда EXPLAIN FORMATTED (SPARK-27395)
Поддержка дампа усеченных планов и созданного кода в файл (SPARK-26023)
Улучшение описания выходных данных запроса для платформы (SPARK-26982)
Добавление команды SHOW VIEWS (SPARK-31113)
Улучшение сообщений об ошибках средства синтаксического анализа SQL (SPARK-27901)
Встроенная поддержка мониторинга Prometheus (SPARK-29429)

Улучшения PySpark

Переработанные пользовательские функции pandas с указаниями типов (SPARK-28264)
Конвейер определяемых пользователем функций pandas (SPARK-26412)
Поддержка StructType как аргументов и типов возвращаемого значения для скалярных определяемых пользователем функций pandas (SPARK-27240)
Поддержка когруппы кадров данных через определяемые пользователем функции pandas (SPARK-27463)
Добавление mapInPandas для разрешения итератора кадров данных (SPARK-28198)
Определенные функции SQL должны также использовать имена столбцов (SPARK-26979)
Исключения PySpark SQL стали больше соответствовать стандартам Python (SPARK-31849)

Улучшения в документации и тестовом охвате

Создание справочника по SQL (SPARK-28588)
Создание руководства пользователя для WebUI (SPARK-28372)
Создание страницы для документации по конфигурации SQL (SPARK-30510)
Добавление сведений о версии для конфигурации Spark (SPARK-30839)
Регрессионные тесты портов от PostgreSQL (SPARK-27763)
Охват тестов сервера Thrift (SPARK-28608)
Охват тестов определяемых пользователем функций (Python, Pandas, Scala) (SPARK-27921)

Другие важные изменения

Встроенное обновление выполнения Hive с версии 1.2.1 до 2.3.6 (SPARK-23710, SPARK-28723, SPARK-31381)
Использование зависимости Apache Hive 2.3 по умолчанию (SPARK-30034)
Предоставление общего доступа к Scala 2.12 и удаление версии 2.11 (SPARK-26132)
Улучшение логики для исполнителей истечения времени ожидания в динамическом выделении (SPARK-20286)
Хранимые на диске блоки RDD, обрабатываемые службой смешивания и игнорируемые для динамического выделения (SPARK-27677)
Получение новых исполнителей, чтобы избежать зависания из-за добавления в список блокировок (SPARK-22148)
Разрешение совместного использования распределителей пулов памяти Netty (SPARK-24920)
Устранение взаимоблокирови между TaskMemoryManager и UnsafeExternalSorter$SpillableIterator (SPARK-27338)
Представление AdmissionControl API для StructuredStreaming (SPARK-30669)
Улучшение производительности главной страницы журнала Spark (SPARK-25973)
Ускорение и сокращение агрегирования метрик в прослушивателе SQL (SPARK-29562)
Избегание применения сети при получении смешенных блоков из того же узла (SPARK-27651)
Улучшение списка файлов для DistributedFileSystem (SPARK-27801)

Изменения в поведении для ядра Spark, Spark SQL и структурированной потоковой передачи

В следующих руководствах по миграции перечислены изменения в поведении между Apache Spark версии 2.4 и 3.0. Из-за этих изменений может потребоваться обновление заданий, которые выполнялись в более ранних версиях Databricks Runtime:

Следующие изменения в поведении не рассмотрены в указанных выше руководствах:

В Spark 3.0 был удален устаревший класс org.apache.spark.sql.streaming.ProcessingTime. Вместо этого используйте org.apache.spark.sql.streaming.Trigger.ProcessingTime. Аналогично, org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger был удален и заменен на Trigger.Continuous, а org.apache.spark.sql.execution.streaming.OneTimeTrigger был скрыт и заменен на Trigger.Once. (SPARK-28199).
В Databricks Runtime 7.0 при чтении таблицы Hive SerDe по умолчанию Spark запрещает чтение файлов в подкаталоге, который не является разделом таблицы. Чтобы включить его, установите конфигурацию spark.databricks.io.hive.scanNonpartitionedDirectory.enabled в значение true. Это не влияет на собственные средства чтения таблиц и средства чтения файлов.

Руководства по программированию:

MLlib

Советы

Поддержка нескольких столбцов была добавлена в Binarizer (SPARK-23578), StringIndexer (SPARK-11215), StopWordsRemover (SPARK-29808) и PySpark QuantileDiscretizer (SPARK-22796)
Поддержка преобразования признаков на основе дерева (SPARK-13677)
Добавлены два новых средства оценки: MultilabelClassificationEvaluator (SPARK-16692) и RankingEvaluator (SPARK-28045)
Поддержка весов выборок добавлена в DecisionTreeClassifier/Regressor (SPARK-19591), RandomForestClassifier/Regressor (SPARK-9478), GBTClassifier/Regressor (SPARK-9612), RegressionEvaluator (SPARK-24102), BinaryClassificationEvaluator (SPARK-24103), BisectingKMeans (SPARK-30351), KMeans (SPARK-29967) и GaussianMixture (SPARK-30102)
Добавлен R API для PowerIterationClustering (SPARK-19827)
Добавлен прослушиватель Spark ML для отслеживания состояния конвейера машинного обучения (SPARK-23674)
Согласование с набором для проверки было добавлено в деревья с градиентным бустингом в Python (SPARK-24333)
Добавлен преобразователь RobustScaler (SPARK-28399)
Добавлены классификаторы и регрессии компьютеров факторизации (SPARK-29224)
Добавлены гауссовский наивный байесовский (SPARK-16872) и дополненный наивный байесовский (SPARK-29942) алгоритмы
Соответствие функции машинного обучения между Scala и Python (SPARK-28958)
Объект predictRaw стал общедоступным во всех моделях классификации, объект predictProbability стал общедоступным во всех моделях классификации кроме LinearSVCModel (SPARK-30358)

Изменения в поведении для MLlib

В следующем руководстве по миграции перечислены изменения в поведении между Apache Spark версии 2.4 и 3.0. Из-за этих изменений может потребоваться обновление заданий, которые выполнялись в более ранних версиях Databricks Runtime:

Руководство по миграции: MLlib (машинное обучение)

Следующие изменения в поведении не рассмотрены в указанном выше руководстве:

В Spark 3.0 логистическая регрессия по нескольким классам в Pyspark теперь будет правильно возвращать LogisticRegressionSummary, а не подкласс BinaryLogisticRegressionSummary. В данном случае дополнительные методы, предоставляемые с помощью BinaryLogisticRegressionSummary, не будут работать (SPARK-31681).
В Spark 3.0 pyspark.ml.param.shared.Has* примеси больше не предоставляют методы задания set*(self, value), используйте вместо них соответствующий метод self.set(self.*, value). Дополнительные сведения см. в статье SPARK-29093 (SPARK-29093).

Руководство по программированию

Руководство по библиотеке машинного обучения (MLlib)

SparkR

Оптимизация Arrow во взаимодействии со SparkR (SPARK-26759)
Улучшение производительности через векторизированные функции R: gapply(), dapply(), createDataFrame, collect()
"Безотложное выполнение" для оболочки R, IDE (SPARK-24572)
API R для кластеризации методом степенной итерации (SPARK-19827)

Устаревшие элементы

Нерекомендуемая поддержка Python 2 (SPARK-27884)
Нерекомендуемая поддержка R < 3.4 (SPARK-26014)

Известные проблемы

При анализе дня года с использованием шаблона символ D возвращает неверный результат, если поле года отсутствует. Это может произойти в функциях SQL, таких как to_timestamp, в которых преобразуется строка типа datetime в значения типа datetime с помощью строки шаблона (SPARK-31939).
Соединение/окно/статистическое выражение внутри вложенных запросов могут привести к неверным результатам, если ключи имеют значения -0,0 и 0,0 (SPARK-31958).
Запрос окна может завершиться аварийно с неоднозначной ошибкой самосоединения (SPARK-31956).
Потоковые запросы с оператором dropDuplicates не могут быть перезапущены с помощью контрольной точки, записанной Spark 2.x (SPARK-31990)

Обновления в рамках обслуживания

См. Служебные обновления Databricks Runtime 7.0.

Системная среда

Операционная система: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: R версии 3.6.3 (29.02.2020)
Delta Lake: 0.7.0

Установленные библиотеки Python

Библиотека	Версия	Библиотека	Версия	Библиотека	Версия
asn1crypto	1.3.0	backcall	0.1.0	boto3	1.12.0
botocore	1.15.0	certifi	2020.4.5	cffi	1.14.0
chardet	3.0.4	криптография	2.8	cycler	0.10.0
Cython	0.29.15	decorator	4.4.1	docutils	0.15.2
entrypoints	0,3	idna	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	jupyter-client	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	3.1.3
numpy	1.18.1	pandas	1.0.1	parso	0.5.2
patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
pip	20.0.2	prompt-toolkit	3.0.3	psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2,19
Pygments	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
python-dateutil	2.8.1	pytz	2019.3	pyzmq	18.1.1
requests	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
scipy	1.4.1	мореборн	0.10.0	setuptools	45.2.0
six	1.14.0	ssh-import-id	5.7	statsmodels	0.11.0
tornado	6.0.3	traitlets	4.3.3	unattended-upgrades	0,1
urllib3	1.25.8	virtualenv	16.7.10	wcwidth	0.1.8
wheel	0.34.2

Установленные библиотеки R

Библиотеки R устанавливаются из моментального снимка Microsoft CRAN от 22.04.2020.

Библиотека	Версия	Библиотека	Версия	Библиотека	Версия
askpass	1,1	assertthat	0.2.1	внутренние порты	1.1.6
base	3.6.3	base64enc	0.1-3	BH	1.72.0-3
bit	1.1-15.2	bit64	0.9-7	большой двоичный объект	1.2.1
загрузка	1.3-25	заваривать	1.0–6	метла	0.5.6
вызывающий объект	3.4.3	крышка	6.0-86	cellranger	1.1.0
chron	2.3-55	class	7.3-17	cli	2.0.2
clipr	0.7.0	cluster	2.1.0	codetools	0.2-16
colorspace	1.4-1	commonmark	1,7	компилятор	3.6.3
config	0,3	covr	3.5.0	карандаш	1.3.4
переходный разговор	1.1.0.1	curl	4.3	data.table	1.12.8
наборы данных	3.6.3	DBI	1.1.0	dbplyr	1.4.3
desc	1.2.0	средства разработки	2.3.0	digest	0.6.25
dplyr	0.8.5	DT	0,13	многоточие	0.3.0
evaluate	0,14	вентиляторы	0.4.1	Farver	2.0.3
fastmap	1.0.1	forcats	0.5.0	foreach	1.5.0
иностранный	0.8-76	forge	0.2.0	fs	1.4.1
Универсальные шаблоны	0.0.2	ggplot2	3.3.0	gh	1.1.0
git2r	0.26.1	glmnet	3.0-2	globals	0.12.5
клей	1.4.0	Говер	0.2.1	графика	3.6.3
grDevices	3.6.3	grid	3.6.3	gridExtra	2.3
gsubfn	0,7	gtable	0.3.0	haven	2.2.0
высокий	0,8	hms	0.5.3	htmltools	0.4.0
htmlwidgets	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	ini	0.3.1
ipred	0.9-9	isoband	0.2.1	Итераторы	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	трикотажный	1.28
маркирование	0,3	later	1.0.0	решётка	0.20-41
Lava	1.6.7	lazoval	0.2.2	жизненный цикл	0.2.0
lubridate	1.7.8	magrittr	1.5	Markdown	1,1
МАССАЧУСЕТС	7.3-51.6	«Матрица»	1.2-18	memoise	1.1.0
оплаты	3.6.3	mgcv	1.8-31	мим	0,9
ModelMetrics	1.2.2.2	modelr	0.1.6	munsell	0.5.0
nlme	3.1-147	nnet	7.3-14	numDeriv	2016.8-1.1
openssl	1.4.1	parallel	3.6.3	столб	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	хвалить	1.0.0
prettyunits	1.1.1	pROC	1.16.2	processx	3.4.2
prodlim	2019.11.13	Ход выполнения	1.2.2	promises	1.1.0
proto	1.0.0	ps	1.3.2	purrr	0.3.4
r2d3	0.2.3	R6	2.4.1	randomForest	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	readr	1.3.1	readxl	1.3.1
Рецепты	0.1.10	реванш	1.0.1	rematch2	2.1.1
remotes	2.1.1	reprex	0.3.0	reshape2	1.4.4
rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0,11	rversions	2.0.1
rvest	0.3.5	весы	1.1.0	селектор	0.4-2
sessioninfo	1.1.1	форма	1.4.4	блестящий	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
пространственный	7.3-11	Сплайны	3.6.3	sqldf	0.4-11
SQUAREM	2020.2	stats	3.6.3	статистика4	3.6.3
stringi	1.4.6	stringr	1.4.0	выживание	3.1-12
sys	3,3	tcltk	3.6.3	ОбучениеDemos	2,10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
tidyselect	1.0.0	tidyverse	1.3.0	TimeDate	3043.102
tinytex	0,22	средства	3.6.3	usethis	1.6.0
utf8	1.1.4	служебные программы	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	усы	0,4	withr	2.2.0
xfun	0,13	xml2	1.3.1	xopen	1.0.0
xtable	1.8-4	yaml	2.2.1

Установленные библиотеки Java и Scala (версия кластера Scala 2.12)

ИД группы	Идентификатор артефакта	Версия
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	потоковая передача	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1–0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-shaded	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.3.4
com.fasterxml.jackson.core	jackson-annotations	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.caffeine	caffeine	2.3.4
com.github.fommil	jniloader	1,1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1,1
com.github.fommil.netlib	native_ref-java-natives	1,1
com.github.fommil.netlib	native_system-java	1,1
com.github.fommil.netlib	native_system-java-natives	1,1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1,1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1,1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guava	15,0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	профилировщик	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.microsoft.azure	azure-data-lake-store-sdk	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1,10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1,6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0.10
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1,1
javax.transaction	transaction-api	1,1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0–2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	pyrolite	4.30
net.sf.jpam	jpam	1,1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.12.0
net.snowflake	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0,1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	0.15.1
org.apache.arrow	arrow-memory	0.15.1
org.apache.arrow	arrow-vector	0.15.1
org.apache.avro	avro	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3,9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1,6
org.apache.curator	curator-client	2.7.1
org.apache.curator	curator-framework	2.7.1
org.apache.curator	curator-recipes	2.7.1
org.apache.derby	derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0–M20
org.apache.directory.api	api-util	1.0.0–M20
org.apache.directory.server	apacheds-i18n	2.0.0–M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0–M15
org.apache.hadoop	hadoop-annotations	2.7.4
org.apache.hadoop	hadoop-auth	2.7.4
org.apache.hadoop	hadoop-client	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	hadoop-hdfs	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	hive-metastore	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	hive-shims	2.3.7
org.apache.hive	hive-storage-api	2.7.1
org.apache.hive	hive-vector-code-gen	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common	2.3.7
org.apache.hive.shims	hive-shims-scheduler	2.3.7
org.apache.htrace	htrace-core	3.1.0-incubating
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	ivy	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	orc-shims	1.5.10
org.apache.parquet	parquet-column	1.10.1.2-databricks4
org.apache.parquet	parquet-common	1.10.1.2-databricks4
org.apache.parquet	parquet-encoding	1.10.1.2-databricks4
org.apache.parquet	parquet-format	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	скорость	1.5
org.apache.xbean	xbean-asm7-shaded	4.15
org.apache.yetus	audience-annotations	0.5.0
org.apache.zookeeper	zookeeper	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-continuation	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	jetty-plus	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy	9.4.18.v20190429
org.eclipse.jetty	jetty-security	9.4.18.v20190429
org.eclipse.jetty	jetty-server	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	jetty-util	9.4.18.v20190429
org.eclipse.jetty	jetty-webapp	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2,30
org.glassfish.jersey.containers	jersey-container-servlet-core	2,30
org.glassfish.jersey.core	jersey-client	2,30
org.glassfish.jersey.core	jersey-common	2,30
org.glassfish.jersey.core	jersey-server	2,30
org.glassfish.jersey.inject	jersey-hk2	2,30
org.glassfish.jersey.media	jersey-media-jaxb	2,30
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1,7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	shims	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	неиспользованный	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0,52

Поделиться через

Databricks Runtime 7.0 (EoS)

Новые возможности

Усовершенствования

Изменения основных библиотек

Пакеты Python

Пакеты R

Библиотеки Java и Scala

Изменения в работе

Изменения в поведении Spark

Другие изменения в поведении

Устаревшие и удаленные возможности

Apache Spark

В этом разделе рассматриваются следующие вопросы.

Ядро, Spark SQL, структурированная потоковая передача

Советы

Улучшения в плане производительности

Улучшения в плане расширяемости

Улучшения соединителей

Усовершенствования функций

Улучшения совместимости с SQL

Улучшения мониторинга и возможностей отладки

Улучшения PySpark

Улучшения в документации и тестовом охвате

Другие важные изменения

Изменения в поведении для ядра Spark, Spark SQL и структурированной потоковой передачи

Руководства по программированию:

MLlib

Советы

Изменения в поведении для MLlib

Руководство по программированию

SparkR

Изменения в поведении для SparkR

Руководство по программированию

GraphX

Устаревшие элементы

Известные проблемы

Обновления в рамках обслуживания

Системная среда

Установленные библиотеки Python

Установленные библиотеки R

Установленные библиотеки Java и Scala (версия кластера Scala 2.12)

Обратная связь

Дополнительные ресурсы