Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".
На этой странице приведены примеры записных книжек для создания систем рекомендаций с помощью бессерверных вычислений GPU. В этих примерах показано, как создавать эффективные модели рекомендаций с помощью современных подходов глубокого обучения.
Модель рекомендаций с двумя башнями
В этих записных книжках показано, как преобразовать данные рекомендаций в формат мозаичных сегментов данных (MDS), а затем использовать эти данные для создания модели рекомендаций с двумя башнями. Этот подход особенно эффективен для крупномасштабных систем рекомендаций.
Подготовка данных. Преобразование набора данных модели рекомендаций в формат MDS
Сначала преобразуйте набор данных рекомендаций в формат MDS для эффективной загрузки данных:
Преобразование данных
Обучение модели: двухбашенная рекомендательная модель с помощью PyTorch Lightning
Обучите модель с двумя башнями, используя подготовленный набор данных и API PyTorch Lightning Trainer на нескольких узлах GPU (A10 или H100 GPU).
Рекомендатель PyTorch
Пример: Тонкая настройка встраиваемых моделей с помощью llm-foundry в вычислительной среде GPU без сервера.
Внедрение моделей является критически важным компонентом современных систем рекомендаций, особенно на этапе извлечения, где они обеспечивают эффективный поиск сходства в миллионах элементов. Хотя модель с двумя башнями создает специфичные для задач встраивания, предварительно обученные модели встраиваний можно точно настроить для доменных приложений, чтобы повысить качество извлечения.
В следующем примере ноутбука показано, как использовать контрастное обучение для тонкой настройки модели эмбеддинга в стиле BERT на бессерверных вычислениях на GPU (SGC). Она использует платформу llm-foundry с тренером Composer для точной настройки моделей, таких как gte-large-en-v1.5, работая с данными, хранящимися в таблицах Delta. В этом примере используется Mosaic Streaming для преобразования данных в формат Mosaic Data Shard (MDS) для распределенной загрузки данных, а также MLflow для отслеживания и ведения журнала моделей.
Настройка записной книжки для внедрения моделей
Замечание
- Модель внедрения ожидает данные со столбцами для
query_text,positive_passage, а также при необходимостиnegative_passages. - Дообученные эмбеддинги можно использовать в векторных хранилищах данных для операций поиска по сходству, что позволяет эффективно извлекать релевантные элементы для систем рекомендаций.
- Этот подход особенно полезен, если необходимо адаптировать модель внедрения общего назначения к конкретному домену или варианту использования.