Поделиться через


Хранилище компонентов Databricks

Эта страница представляет собой обзор возможностей, доступных при использовании Хранилища компонентов Databricks с каталогом Unity.

Хранилище компонентов Databricks предоставляет центральный реестр для функций, используемых в моделях искусственного интеллекта и машинного обучения. Таблицы признаков и модели регистрируются в каталоге Unity, обеспечивая встроенное управление, отслеживание и совместное использование признаков между рабочими областями, а также их обнаружение. При использовании Databricks весь рабочий процесс обучения модели выполняется на одной платформе, в том числе:

  • Конвейеры данных, которые загружают необработанные данные, создают таблицы характеристик, обучают модели и выполняют пакетное прогнозирование.
  • Модели и функции, обслуживающие конечные точки, доступные с одним щелчком мыши и предоставляющие миллисекунд задержки.
  • Мониторинг данных и моделей.

При использовании функций из хранилища функций для обучения моделей модель автоматически отслеживает происхождение функций, которые использовались в обучении. Во время вывода модель автоматически ищет последние значения признаков. Хранилище функций также предоставляет вычисления функций по запросу для приложений в режиме реального времени. Хранилище функций обрабатывает все задачи вычислений компонентов. Это устраняет отклонение обучения и обслуживания, гарантируя, что вычисления функций, используемые при выводе, совпадают с теми, которые используются во время обучения модели. Он также значительно упрощает клиентский код, так как все запросы функций и вычисления обрабатываются хранилищем функций.

Замечание

На этой странице рассматриваются возможности проектирования функций и обслуживания рабочих областей, которые включены для каталога Unity. Если параметры вашего рабочего пространства не активированы для Unity Catalog, см. Хранилище функций рабочего пространства (устаревшая версия).

Общие сведения

Общие сведения о работе Хранилища компонентов Databricks и глоссарии терминов см. в обзоре и глоссарии хранилища компонентов.

Проектирование компонентов

Функция Description
Работа с таблицами компонентов в каталоге Unity Создание и работа с таблицами компонентов.

Открытие и совместное использование возможностей

Функция Description
Изучение функций в каталоге Unity Изучение таблиц компонентов и управление ими с помощью обозревателя каталогов и пользовательского интерфейса компонентов.
Использование тегов с таблицами компонентов и функциями в каталоге Unity Используйте простые пары "ключ-значение", чтобы классифицировать таблицы и функции функций и управлять ими.

Использование функций в рабочих процессах обучения

Функция Description
Использование функций для обучения моделей Используйте функции для обучения моделей.
Соединения функций на определенный момент времени Используйте точность на определенный момент времени, чтобы создать обучающий набор данных, который отражает значения признаков по состоянию на время записи наблюдения меток.
Python API Справочник по API Python

Предоставление функций

Функция Description
Хранилища компонентов Databricks Online Обслуживают данные функций для онлайн-приложений и моделей машинного обучения в режиме реального времени. Работает на базе Databricks Lakebase.
Серверное обслуживание моделей с автоматическим поиском признаков Автоматический поиск значений параметров из онлайн-хранилища.
Конечные точки предоставления функций Предоставлять возможности моделям и приложениям вне Databricks.
Вычисление функций по запросу Вычислите значения признаков во время вывода.

Управление функциональностью и происхождение

Функция Description
Управление функциональностью и линейность Используйте каталог Unity для управления доступом к таблицам функций и просмотра происхождения таблицы признаков, модели или функции.

Tutorials

Tutorial Description
Примеры записных книжек для начала работы Базовая записная книжка. Показывает, как создать таблицу компонентов, обучить модель и запустить пакетную оценку с помощью автоматического поиска функций. Кроме того, отображается пользовательский интерфейс конструктора функций для поиска функций и просмотра происхождения.
Пример записной книжки для такси. Показывает процесс создания функций, их обновления и использования для обучения модели и пакетного вывода.
Пример. Развертывание и запрос конечной точки обслуживания компонентов Руководство и пример записной книжки, показывающие, как развернуть и запросить конечную точку обслуживания функций.
Пример: использование функций в структурированных приложениях RAG Руководство по использованию онлайновых таблиц Databricks и конечных точек подачи признаков для приложений генерации с расширенным извлечением (RAG).

Требования

  • Рабочая область должна быть активирована для каталога Unity.
  • Для разработки функций в каталоге Unity требуется Databricks Runtime 13.3 LTS или более поздней версии.

Если ваша рабочая область не соответствует этим требованиям, см. о том, как использовать устаревшее хранилище компонентов рабочей области.

Поддерживаемые типы данных

Проектирование компонентов в каталоге Unity и устаревшее хранилище компонентов рабочей области поддерживают следующие типы данных PySpark:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalTypeи MapType поддерживаются во всех версиях конструктора компонентов в каталоге Unity и в магазине компонентов рабочей области версии 0.3.5 или более поздней версии. [2] StructType поддерживается в конструкторе компонентов версии 0.6.0 или более поздней версии.

Перечисленные выше типы данных поддерживают типы функций, которые распространены в приложениях машинного обучения. Например:

  • Вы можете хранить сжатые векторы, тензоры и внедрения как ArrayType.
  • Вы можете хранить разреженные векторы, тензоры и внедрения как MapType.
  • Вы можете хранить текст как StringType.

При публикации в онлайн-магазинах функции ArrayType и MapType сохраняются в формате JSON.

В пользовательском интерфейсе хранилища признаков отображаются метаданные для типов данных признаков:

Пример сложных типов данных

Дополнительные сведения

Для получения дополнительной информации о лучших практиках скачайте Полное руководство по Feature Stores.