Deep Learning-basierte Empfehlungssysteme

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Diese Seite enthält Notizbuchbeispiele zum Erstellen von Empfehlungssystemen mit Serverless GPU Compute. Diese Beispiele veranschaulichen, wie effiziente Empfehlungsmodelle mit modernen Deep Learning-Ansätzen erstellt werden.

Zwei-Turm-Empfehlungsmodell

Diese Notizbücher veranschaulichen, wie Sie Ihre Empfehlungsdaten in das MdS-Format (Mosaik Data Shard) konvertieren und diese Daten dann verwenden, um ein Zwei-Turm-Empfehlungsmodell zu erstellen. Dieser Ansatz ist besonders effektiv für groß angelegte Empfehlungssysteme.

Datenvorbereitung: Konvertieren des Empfehlungsmodell-Datasets in das MDS-Format

Konvertieren Sie zunächst Ihr Empfehlungsdatenset in das MDS-Format, um das Laden effizienter Daten zu optimieren:

Konvertieren von Daten

Notebook abrufen

Modelltraining: Zwei-Turm-Empfehlungsmodell mit PyTorch Lightning

Trainieren Sie das Zwei-Turm-Empfehlungsmodell mit dem vorbereiteten Datensatz und der PyTorch Lightning Trainer API auf mehreren GPU-Knoten (A10 oder H100 GPUs).

PyTorch-Empfehlung

Notebook abrufen

Beispiel: Feinabstimmung der Einbettungsmodelle mit llm-Foundry auf serverlosem GPU-Compute

Einbettungsmodelle sind ein wichtiger Bestandteil moderner Empfehlungssysteme, insbesondere in der Abrufphase, in der sie eine effiziente Ähnlichkeitssuche über Millionen von Elementen ermöglichen. Während das Zwei-Tower-Modell aufgabenspezifische Einbettungen generiert, können vortrainierte Einbettungsmodelle für domänenspezifische Anwendungen optimiert werden, um die Abrufqualität zu verbessern.

Das folgende Beispielnotizbuch veranschaulicht, wie Sie kontrastives Lernen verwenden, um ein BERT-Format-Einbettungsmodell auf serverlosen GPU-Compute (SGC) zu optimieren. Es verwendet das llm-foundry-Framework mit dem Composer-Trainermodul, um Modelle wie gte-large-en-v1.5 zu optimieren und mit Daten zu arbeiten, die in Delta-Tabellen gespeichert sind. In diesem Beispiel wird Mosaic Streaming verwendet, um Daten in das MDS-Format (Mosaic Data Shard) zu konvertieren, für das Laden verteilter Daten und MLflow für die Modellverfolgung und Protokollierung.

Optimieren des Einbettungsmodellnotizbuchs

Notebook abrufen

Hinweis

Das Einbettungsmodell erwartet Daten mit Spalten für query_text, positive_passage, und optional negative_passages.
Die fein abgestimmten Einbettungen können in Vektorspeichern für Ähnlichkeitssuchvorgänge verwendet werden, wodurch ein effizienter Abruf relevanter Elemente für Empfehlungssysteme ermöglicht wird.
Dieser Ansatz ist besonders hilfreich, wenn Sie ein allgemeines Einbettungsmodell an Ihre spezifische Domäne oder Ihren Anwendungsfall anpassen müssen.

Feedback

War diese Seite hilfreich?

Last updated on 2025-12-19

Freigeben über

Deep Learning-basierte Empfehlungssysteme

Zwei-Turm-Empfehlungsmodell

Datenvorbereitung: Konvertieren des Empfehlungsmodell-Datasets in das MDS-Format

Konvertieren von Daten

Modelltraining: Zwei-Turm-Empfehlungsmodell mit PyTorch Lightning

PyTorch-Empfehlung

Beispiel: Feinabstimmung der Einbettungsmodelle mit llm-Foundry auf serverlosem GPU-Compute

Optimieren des Einbettungsmodellnotizbuchs

Feedback

Zusätzliche Ressourcen