Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Эта страница представляет собой обзор возможностей, доступных при использовании Хранилища компонентов Databricks с каталогом Unity.
Хранилище компонентов Databricks предоставляет центральный реестр для функций, используемых в моделях искусственного интеллекта и машинного обучения. Таблицы признаков и модели регистрируются в каталоге Unity, обеспечивая встроенное управление, отслеживание и совместное использование признаков между рабочими областями, а также их обнаружение. При использовании Databricks весь рабочий процесс обучения модели выполняется на одной платформе, в том числе:
- Конвейеры данных, которые загружают необработанные данные, создают таблицы характеристик, обучают модели и выполняют пакетное прогнозирование.
- Модели и функции, обслуживающие конечные точки, доступные с одним щелчком мыши и предоставляющие миллисекунд задержки.
- Мониторинг данных и моделей.
При использовании функций из хранилища функций для обучения моделей модель автоматически отслеживает происхождение функций, которые использовались в обучении. Во время вывода модель автоматически ищет последние значения признаков. Хранилище функций также предоставляет вычисления функций по запросу для приложений в режиме реального времени. Хранилище функций обрабатывает все задачи вычислений компонентов. Это устраняет отклонение обучения и обслуживания, гарантируя, что вычисления функций, используемые при выводе, совпадают с теми, которые используются во время обучения модели. Он также значительно упрощает клиентский код, так как все запросы функций и вычисления обрабатываются хранилищем функций.
Замечание
На этой странице рассматриваются возможности проектирования функций и обслуживания рабочих областей, которые включены для каталога Unity. Если параметры вашего рабочего пространства не активированы для Unity Catalog, см. Хранилище функций рабочего пространства (устаревшая версия).
Общие сведения
Общие сведения о работе Хранилища компонентов Databricks и глоссарии терминов см. в обзоре и глоссарии хранилища компонентов.
Проектирование компонентов
| Функция | Description |
|---|---|
| Работа с таблицами компонентов в каталоге Unity | Создание и работа с таблицами компонентов. |
Открытие и совместное использование возможностей
| Функция | Description |
|---|---|
| Изучение функций в каталоге Unity | Изучение таблиц компонентов и управление ими с помощью обозревателя каталогов и пользовательского интерфейса компонентов. |
| Использование тегов с таблицами компонентов и функциями в каталоге Unity | Используйте простые пары "ключ-значение", чтобы классифицировать таблицы и функции функций и управлять ими. |
Использование функций в рабочих процессах обучения
| Функция | Description |
|---|---|
| Использование функций для обучения моделей | Используйте функции для обучения моделей. |
| Соединения функций на определенный момент времени | Используйте точность на определенный момент времени, чтобы создать обучающий набор данных, который отражает значения признаков по состоянию на время записи наблюдения меток. |
| Python API | Справочник по API Python |
Предоставление функций
| Функция | Description |
|---|---|
| Хранилища компонентов Databricks Online | Обслуживают данные функций для онлайн-приложений и моделей машинного обучения в режиме реального времени. Работает на базе Databricks Lakebase. |
| Серверное обслуживание моделей с автоматическим поиском признаков | Автоматический поиск значений параметров из онлайн-хранилища. |
| Конечные точки предоставления функций | Предоставлять возможности моделям и приложениям вне Databricks. |
| Вычисление функций по запросу | Вычислите значения признаков во время вывода. |
Управление функциональностью и происхождение
| Функция | Description |
|---|---|
| Управление функциональностью и линейность | Используйте каталог Unity для управления доступом к таблицам функций и просмотра происхождения таблицы признаков, модели или функции. |
Tutorials
| Tutorial | Description |
|---|---|
| Примеры записных книжек для начала работы |
Базовая записная книжка. Показывает, как создать таблицу компонентов, обучить модель и запустить пакетную оценку с помощью автоматического поиска функций. Кроме того, отображается пользовательский интерфейс конструктора функций для поиска функций и просмотра происхождения. Пример записной книжки для такси. Показывает процесс создания функций, их обновления и использования для обучения модели и пакетного вывода. |
| Пример. Развертывание и запрос конечной точки обслуживания компонентов | Руководство и пример записной книжки, показывающие, как развернуть и запросить конечную точку обслуживания функций. |
| Пример: использование функций в структурированных приложениях RAG | Руководство по использованию онлайновых таблиц Databricks и конечных точек подачи признаков для приложений генерации с расширенным извлечением (RAG). |
Требования
- Рабочая область должна быть активирована для каталога Unity.
- Для разработки функций в каталоге Unity требуется Databricks Runtime 13.3 LTS или более поздней версии.
Если ваша рабочая область не соответствует этим требованиям, см. о том, как использовать устаревшее хранилище компонентов рабочей области.
Поддерживаемые типы данных
Проектирование компонентов в каталоге Unity и устаревшее хранилище компонентов рабочей области поддерживают следующие типы данных PySpark:
IntegerTypeFloatTypeBooleanTypeStringTypeDoubleTypeLongTypeTimestampTypeDateTypeShortTypeArrayType-
BinaryType[1] -
DecimalType[1] -
MapType[1] -
StructType[2]
[1] BinaryType, DecimalTypeи MapType поддерживаются во всех версиях конструктора компонентов в каталоге Unity и в магазине компонентов рабочей области версии 0.3.5 или более поздней версии.
[2] StructType поддерживается в конструкторе компонентов версии 0.6.0 или более поздней версии.
Перечисленные выше типы данных поддерживают типы функций, которые распространены в приложениях машинного обучения. Например:
- Вы можете хранить сжатые векторы, тензоры и внедрения как
ArrayType. - Вы можете хранить разреженные векторы, тензоры и внедрения как
MapType. - Вы можете хранить текст как
StringType.
При публикации в онлайн-магазинах функции ArrayType и MapType сохраняются в формате JSON.
В пользовательском интерфейсе хранилища признаков отображаются метаданные для типов данных признаков:
Дополнительные сведения
Для получения дополнительной информации о лучших практиках скачайте Полное руководство по Feature Stores.