Поделиться через


Проектирование функций и обслуживание

На этой странице рассматриваются возможности проектирования функций и обслуживания рабочих областей, которые включены для каталога Unity. Если рабочая область не включена для каталога Unity, ознакомьтесь с хранилищем компонентов рабочей области (устаревшая версия).

Зачем использовать Databricks в качестве хранилища функций?

С помощью платформы Databricks Data Intelligence весь рабочий процесс обучения модели выполняется на одной платформе:

  • Конвейеры данных, которые прием необработанных данных, создание таблиц признаков, обучение моделей и выполнение пакетного вывода. При обучении и регистрации модели с помощью проектирования компонентов в каталоге Unity модель упаковается с метаданными компонентов. При использовании модели для пакетной оценки или вывода через Интернет он автоматически получает значения признаков. Вызывающему объекту не нужно знать о признаках или включать логику для их поиска или объединения, чтобы оценить новые данные.
  • Модели и функции, обслуживающие конечные точки, доступные с одним щелчком мыши и предоставляющие миллисекунд задержки.
  • Мониторинг данных и моделей.

Кроме того, платформа предоставляет следующие возможности:

  • Обнаружение функций. Вы можете просматривать и искать функции в пользовательском интерфейсе Databricks.
  • Управление. Таблицы функций, функции и модели управляются каталогом Unity. При обучении модели он наследует разрешения от данных, на которые он был обучен.
  • Происхождение данных. При создании таблицы функций в Azure Databricks источники данных, используемые для создания таблицы компонентов, сохраняются и доступны. Для каждого признака в этой таблице можно также получить доступ к моделям, записным книжкам, заданиям и конечным точкам, которые используют этой признак.
  • Доступ между рабочими областями. Таблицы функций, функции и модели автоматически доступны в любой рабочей области, имеющей доступ к каталогу.

Требования

  • Рабочая область должна быть включена для каталога Unity.
  • Для разработки функций в каталоге Unity требуется Databricks Runtime 13.3 LTS или более поздней версии.

Если ваша рабочая область не соответствует этим требованиям, см . раздел "Хранилище функций рабочей области" (устаревшая версия) для использования хранилища функций рабочей области.

Как работает проектирование функций в Databricks?

Типичный рабочий процесс машинного обучения с помощью инженерии функций в Databricks следует этому пути:

  1. Напишите код для преобразования необработанных данных в признаки и создания объекта DataFrame Spark, содержащего нужные признаки.
  2. Создайте таблицу Delta в каталоге Unity. Любая таблица Delta с первичным ключом автоматически является таблицей компонентов.
  3. Обучение и ведение журнала модели с помощью таблицы функций. При этом модель сохраняет спецификации признаков, используемых для обучения. Если модель используется для вывода, она автоматически объединяет признаки из соответствующих таблиц признаков.
  4. Зарегистрируйте модель в реестре моделей.

Эту модель теперь можно использовать для создания прогнозов по новым данным. В вариантах использования с пакетной обработакой модель автоматически извлекает необходимые признаки из Хранилища признаков.

Рабочий процесс Хранилища признаков для вариантов использования с пакетным машинным обучением.

Для вариантов использования в режиме реального времени опубликуйте функции в онлайн-таблице. Сторонние интернет-магазины также поддерживаются. См . сторонние интернет-магазины.

Во время вывода модель считывает предварительно вычисляемые функции из интернет-магазина и присоединяет их к данным, предоставленным в клиентском запросе к конечной точке обслуживания модели.

Поток Хранилища признаков для обслуживаемых моделей машинного обучения.

Начало использования инженерии функций — примеры записных книжек

Чтобы приступить к работе, попробуйте использовать эти примеры записных книжек. Основные инструкции по созданию таблицы компонентов, обучению модели и выполнению пакетной оценки с помощью автоматического поиска функций. Он также содержит сведения о пользовательском интерфейсе проектирования функций и показывает, как его можно использовать для поиска функций и понимания того, как создаются и используются функции.

Базовая инженерия компонентов в примерах записной книжки каталога Unity

Получить записную книжку

Пример записной книжки для такси иллюстрирует процесс создания функций, их обновления и использования для обучения модели и пакетного вывода.

Пример записной книжки "Проектирование компонентов в каталоге Unity"

Получить записную книжку

Поддерживаемые типы данных

Проектирование функций в каталоге Unity и хранилище функций рабочей области поддерживают следующие типы данных PySpark:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryTypeи DecimalTypeMapType поддерживается во всех версиях конструктора компонентов в каталоге Unity и в магазине компонентов рабочей области версии 0.3.5 или более поздней версии. [2] StructType поддерживается в конструкторе компонентов версии 0.6.0 или более поздней версии.

Перечисленные выше типы данных поддерживают типы функций, которые распространены в приложениях машинного обучения. Например:

  • Вы можете хранить сжатые векторы, тензоры и внедрения как ArrayType.
  • Вы можете хранить разреженные векторы, тензоры и внедрения как MapType.
  • Вы можете хранить текст как StringType.

При публикации в онлайн-хранилищах признаки ArrayType и MapType сохраняются в формате JSON.

В пользовательском интерфейсе хранилища признаков отображаются метаданные для типов данных признаков:

Пример сложных типов данных

Дополнительные сведения

Для получения дополнительных сведений о рекомендациях скачайте комплексное руководство по хранилищам компонентов.