Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Эта страница представляет собой обзор возможностей, доступных при использовании Хранилища компонентов Databricks с каталогом Unity.
Хранилище компонентов Databricks предоставляет центральный реестр для функций, используемых в моделях искусственного интеллекта и машинного обучения. Таблицы признаков и модели регистрируются в каталоге Unity, обеспечивая встроенное управление, отслеживание и совместное использование признаков между рабочими областями, а также их обнаружение. При использовании Databricks весь рабочий процесс обучения модели выполняется на одной платформе, в том числе:
- Конвейеры данных, которые загружают необработанные данные, создают таблицы характеристик, обучают модели и выполняют пакетное прогнозирование.
- Модели и функции, обслуживающие конечные точки, доступные с одним щелчком мыши и предоставляющие миллисекунд задержки.
- Мониторинг данных и моделей.
При использовании функций из хранилища функций для обучения моделей модель автоматически отслеживает происхождение функций, которые использовались в обучении. Во время вывода модель автоматически ищет последние значения признаков. Хранилище функций также предоставляет вычисления функций по запросу для приложений в режиме реального времени. Хранилище функций обрабатывает все задачи вычислений компонентов. Это устраняет отклонение обучения и обслуживания, гарантируя, что вычисления функций, используемые при выводе, совпадают с теми, которые используются во время обучения модели. Он также значительно упрощает клиентский код, так как все запросы функций и вычисления обрабатываются хранилищем функций.
Замечание
На этой странице рассматриваются возможности проектирования функций и обслуживания рабочих областей, которые включены для каталога Unity. Если рабочая область не включена для Unity Catalog, см. раздел «Хранилище компонентов рабочей области (устарело)».
Общие сведения
Общие сведения о работе Хранилища компонентов Databricks и глоссарии терминов см. в обзоре и глоссарии хранилища компонентов.
Проектирование компонентов
| Функция | Description |
|---|---|
| Таблицы характеристик | Создание и работа с таблицами компонентов. |
Открытие и совместное использование возможностей
| Функция | Description |
|---|---|
| Изучение функций в каталоге Unity | Изучение таблиц компонентов и управление ими с помощью обозревателя каталогов и пользовательского интерфейса компонентов. |
| Использование тегов с таблицами компонентов и функциями в каталоге Unity | Используйте простые пары "ключ-значение", чтобы классифицировать таблицы и функции функций и управлять ими. |
Использование функций в рабочих процессах обучения
| Функция | Description |
|---|---|
| Обучение моделей с помощью таблиц компонентов | Используйте функции для обучения моделей. |
| Соединения функций на определенный момент времени | Используйте точность на определенный момент времени, чтобы создать обучающий набор данных, который отражает значения признаков по состоянию на время записи наблюдения меток. |
| Python API | Справочник по API Python |
Предоставление функций
| Функция | Description |
|---|---|
| Хранилища компонентов Databricks Online | Обслуживают данные функций для онлайн-приложений и моделей машинного обучения в режиме реального времени. Работает на базе Databricks Lakebase. |
| Серверное обслуживание моделей с автоматическим поиском признаков | Автоматический поиск значений параметров из онлайн-хранилища. |
| Конечные точки предоставления функций | Предоставлять возможности моделям и приложениям вне Databricks. |
| Вычисление функций по запросу | Вычислите значения признаков во время вывода. |
Управление функциональностью и происхождение
| Функция | Description |
|---|---|
| Управление функциональностью и линейность | Используйте каталог Unity для управления доступом к таблицам функций и просмотра происхождения таблицы признаков, модели или функции. |
Tutorials
| Tutorial | Description |
|---|---|
| Примеры записных книжек для начала работы |
Базовая записная книжка. Показывает, как создать таблицу компонентов, обучить модель и запустить пакетную оценку с помощью автоматического поиска функций. Кроме того, отображается пользовательский интерфейс конструктора функций для поиска функций и просмотра происхождения. Пример записной книжки для такси. Показывает процесс создания функций, их обновления и использования для обучения модели и пакетного вывода. |
| Пример. Развертывание и запрос конечной точки обслуживания компонентов | Руководство и пример записной книжки, показывающие, как развернуть и запросить конечную точку обслуживания функций. |
| Пример: использование функций в структурированных приложениях RAG | Руководство по использованию онлайновых таблиц Databricks и конечных точек подачи признаков для приложений генерации с расширенным извлечением (RAG). |
Требования
- Рабочая область должна быть активирована для каталога Unity.
- Для разработки функций в каталоге Unity требуется Databricks Runtime 13.3 LTS или более поздней версии.
Если рабочая область не соответствует этим требованиям, см. раздел "Хранилище компонентов рабочей области" (не рекомендуется) для использования устаревшего хранилища компонентов рабочей области.
Поддерживаемые типы данных
Проектирование компонентов в каталоге Unity и устаревшее хранилище компонентов рабочей области поддерживают следующие типы данных PySpark:
IntegerTypeFloatTypeBooleanTypeStringTypeDoubleTypeLongTypeTimestampTypeDateTypeShortTypeArrayType-
BinaryType[1] -
DecimalType[1] -
MapType[1] -
StructType[2]
[1] BinaryType, DecimalTypeи MapType поддерживаются во всех версиях конструктора компонентов в каталоге Unity и в магазине компонентов рабочей области версии 0.3.5 или более поздней версии.
[2] StructType поддерживается в конструкторе компонентов версии 0.6.0 или более поздней версии.
Перечисленные выше типы данных поддерживают типы функций, которые распространены в приложениях машинного обучения. Например:
- Вы можете хранить сжатые векторы, тензоры и внедрения как
ArrayType. - Вы можете хранить разреженные векторы, тензоры и внедрения как
MapType. - Вы можете хранить текст как
StringType.
При публикации в онлайн-магазинах функции ArrayType и MapType сохраняются в формате JSON.
В пользовательском интерфейсе хранилища признаков отображаются метаданные для типов данных признаков:
Дополнительные сведения
Для получения дополнительной информации о лучших практиках скачайте Полное руководство по Feature Stores.