Freigeben über


Deep Learning-basierte Empfehlungssysteme

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Diese Seite enthält Notizbuchbeispiele zum Erstellen von Empfehlungssystemen mit Serverless GPU Compute. Diese Beispiele veranschaulichen, wie effiziente Empfehlungsmodelle mit modernen Deep Learning-Ansätzen erstellt werden.

Zwei-Turm-Empfehlungsmodell

Diese Notizbücher veranschaulichen, wie Sie Ihre Empfehlungsdaten in das MdS-Format (Mosaik Data Shard) konvertieren und diese Daten dann verwenden, um ein Zwei-Turm-Empfehlungsmodell zu erstellen. Dieser Ansatz ist besonders effektiv für groß angelegte Empfehlungssysteme.

Datenvorbereitung: Konvertieren des Empfehlungsmodell-Datasets in das MDS-Format

Konvertieren Sie zunächst Ihr Empfehlungsdatenset in das MDS-Format, um das Laden effizienter Daten zu optimieren:

Konvertieren von Daten

Notebook abrufen

Modelltraining: Zwei-Turm-Empfehlungsmodell mit PyTorch Lightning

Trainieren Sie das Zwei-Turm-Empfehlungsmodell mit dem vorbereiteten Datensatz und der PyTorch Lightning Trainer API auf mehreren GPU-Knoten (A10 oder H100 GPUs).

PyTorch-Empfehlung

Notebook abrufen

Beispiel: Feinabstimmung der Einbettungsmodelle mit llm-Foundry auf serverlosem GPU-Compute

Einbettungsmodelle sind ein wichtiger Bestandteil moderner Empfehlungssysteme, insbesondere in der Abrufphase, in der sie eine effiziente Ähnlichkeitssuche über Millionen von Elementen ermöglichen. Während das Zwei-Tower-Modell aufgabenspezifische Einbettungen generiert, können vortrainierte Einbettungsmodelle für domänenspezifische Anwendungen optimiert werden, um die Abrufqualität zu verbessern.

Das folgende Beispielnotizbuch veranschaulicht, wie Sie kontrastives Lernen verwenden, um ein BERT-Format-Einbettungsmodell auf serverlosen GPU-Compute (SGC) zu optimieren. Es verwendet das llm-foundry-Framework mit dem Composer-Trainermodul, um Modelle wie gte-large-en-v1.5 zu optimieren und mit Daten zu arbeiten, die in Delta-Tabellen gespeichert sind. In diesem Beispiel wird Mosaic Streaming verwendet, um Daten in das MDS-Format (Mosaic Data Shard) zu konvertieren, für das Laden verteilter Daten und MLflow für die Modellverfolgung und Protokollierung.

Optimieren des Einbettungsmodellnotizbuchs

Notebook abrufen

Hinweis

  • Das Einbettungsmodell erwartet Daten mit Spalten für query_text, positive_passage, und optional negative_passages.
  • Die fein abgestimmten Einbettungen können in Vektorspeichern für Ähnlichkeitssuchvorgänge verwendet werden, wodurch ein effizienter Abruf relevanter Elemente für Empfehlungssysteme ermöglicht wird.
  • Dieser Ansatz ist besonders hilfreich, wenn Sie ein allgemeines Einbettungsmodell an Ihre spezifische Domäne oder Ihren Anwendungsfall anpassen müssen.