Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Von Bedeutung
Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.
Diese Seite enthält Notizbuchbeispiele zum Erstellen von Empfehlungssystemen mit Serverless GPU Compute. Diese Beispiele veranschaulichen, wie effiziente Empfehlungsmodelle mit modernen Deep Learning-Ansätzen erstellt werden.
Zwei-Turm-Empfehlungsmodell
Diese Notizbücher veranschaulichen, wie Sie Ihre Empfehlungsdaten in das MdS-Format (Mosaik Data Shard) konvertieren und diese Daten dann verwenden, um ein Zwei-Turm-Empfehlungsmodell zu erstellen. Dieser Ansatz ist besonders effektiv für groß angelegte Empfehlungssysteme.
Datenvorbereitung: Konvertieren des Empfehlungsmodell-Datasets in das MDS-Format
Konvertieren Sie zunächst Ihr Empfehlungsdatenset in das MDS-Format, um das Laden effizienter Daten zu optimieren:
Konvertieren von Daten
Modelltraining: Zwei-Turm-Empfehlungsmodell mit PyTorch Lightning
Trainieren Sie das Zwei-Turm-Empfehlungsmodell mit dem vorbereiteten Datensatz und der PyTorch Lightning Trainer API auf mehreren GPU-Knoten (A10 oder H100 GPUs).
PyTorch-Empfehlung
Beispiel: Feinabstimmung der Einbettungsmodelle mit llm-Foundry auf serverlosem GPU-Compute
Einbettungsmodelle sind ein wichtiger Bestandteil moderner Empfehlungssysteme, insbesondere in der Abrufphase, in der sie eine effiziente Ähnlichkeitssuche über Millionen von Elementen ermöglichen. Während das Zwei-Tower-Modell aufgabenspezifische Einbettungen generiert, können vortrainierte Einbettungsmodelle für domänenspezifische Anwendungen optimiert werden, um die Abrufqualität zu verbessern.
Das folgende Beispielnotizbuch veranschaulicht, wie Sie kontrastives Lernen verwenden, um ein BERT-Format-Einbettungsmodell auf serverlosen GPU-Compute (SGC) zu optimieren. Es verwendet das llm-foundry-Framework mit dem Composer-Trainermodul, um Modelle wie gte-large-en-v1.5 zu optimieren und mit Daten zu arbeiten, die in Delta-Tabellen gespeichert sind. In diesem Beispiel wird Mosaic Streaming verwendet, um Daten in das MDS-Format (Mosaic Data Shard) zu konvertieren, für das Laden verteilter Daten und MLflow für die Modellverfolgung und Protokollierung.
Optimieren des Einbettungsmodellnotizbuchs
Hinweis
- Das Einbettungsmodell erwartet Daten mit Spalten für
query_text,positive_passage, und optionalnegative_passages. - Die fein abgestimmten Einbettungen können in Vektorspeichern für Ähnlichkeitssuchvorgänge verwendet werden, wodurch ein effizienter Abruf relevanter Elemente für Empfehlungssysteme ermöglicht wird.
- Dieser Ansatz ist besonders hilfreich, wenn Sie ein allgemeines Einbettungsmodell an Ihre spezifische Domäne oder Ihren Anwendungsfall anpassen müssen.