Поделиться через


Системы рекомендаций на основе глубокого обучения

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

На этой странице приведены примеры записных книжек для создания систем рекомендаций с помощью бессерверных вычислений GPU. В этих примерах показано, как создавать эффективные модели рекомендаций с помощью современных подходов глубокого обучения.

Модель рекомендаций с двумя башнями

В этих записных книжках показано, как преобразовать данные рекомендаций в формат мозаичных сегментов данных (MDS), а затем использовать эти данные для создания модели рекомендаций с двумя башнями. Этот подход особенно эффективен для крупномасштабных систем рекомендаций.

Подготовка данных. Преобразование набора данных модели рекомендаций в формат MDS

Сначала преобразуйте набор данных рекомендаций в формат MDS для эффективной загрузки данных:

Преобразование данных

Получите ноутбук

Обучение модели: двухбашенная рекомендательная модель с помощью PyTorch Lightning

Обучите модель с двумя башнями, используя подготовленный набор данных и API PyTorch Lightning Trainer на нескольких узлах GPU (A10 или H100 GPU).

Рекомендатель PyTorch

Получите ноутбук

Пример: Тонкая настройка встраиваемых моделей с помощью llm-foundry в вычислительной среде GPU без сервера.

Внедрение моделей является критически важным компонентом современных систем рекомендаций, особенно на этапе извлечения, где они обеспечивают эффективный поиск сходства в миллионах элементов. Хотя модель с двумя башнями создает специфичные для задач встраивания, предварительно обученные модели встраиваний можно точно настроить для доменных приложений, чтобы повысить качество извлечения.

В следующем примере ноутбука показано, как использовать контрастное обучение для тонкой настройки модели эмбеддинга в стиле BERT на бессерверных вычислениях на GPU (SGC). Она использует платформу llm-foundry с тренером Composer для точной настройки моделей, таких как gte-large-en-v1.5, работая с данными, хранящимися в таблицах Delta. В этом примере используется Mosaic Streaming для преобразования данных в формат Mosaic Data Shard (MDS) для распределенной загрузки данных, а также MLflow для отслеживания и ведения журнала моделей.

Настройка записной книжки для внедрения моделей

Получите ноутбук

Замечание

  • Модель внедрения ожидает данные со столбцами для query_text, positive_passage, а также при необходимости negative_passages.
  • Дообученные эмбеддинги можно использовать в векторных хранилищах данных для операций поиска по сходству, что позволяет эффективно извлекать релевантные элементы для систем рекомендаций.
  • Этот подход особенно полезен, если необходимо адаптировать модель внедрения общего назначения к конкретному домену или варианту использования.