Migrieren optimierter LLM-Bereitstellungsendpunkte zum bereitgestellten Durchsatz
In diesem Artikel wird beschrieben, wie Sie Ihre vorhandenen LLM-Bereitstellungsendpunkte zur Bereitstellung mit bereitgestelltem Durchsatz mithilfe der Foundation Model-APIs migrieren.
Was ändert sich?
Der bereitgestellte Durchsatz bietet eine einfachere Umgebung für das Starten optimierter LLM-Bereitstellungsendpunkte. Die LLM-Modellbereitstellung in Databricks wurde wie folgt geändert:
- Aufskalierungsbereiche können in LLM-nativer Form konfiguriert werden, z. B. als Token pro Sekunde anstelle der Parallelität.
- Kunden müssen den GPU-Workloadtyp nicht mehr selbst auswählen.
Neue LLM-Bereitstellungsendpunkte werden standardmäßig mit bereitgestelltem Durchsatz erstellt. Wenn Sie den GPU-Workloadtyp weiterhin auswählen möchten, wird dies nur über die API unterstützt.
Migrieren von LLM-Bereitstellungsendpunkten zum bereitgestellten Durchsatz
Die einfachste Möglichkeit zum Migrieren Ihres vorhandenen Endpunkts zum bereitgestellten Durchsatz besteht darin, Ihren Endpunkt mit einer neuen Modellversion zu aktualisieren. Nachdem Sie eine neue Modellversion ausgewählt haben, zeigt die Benutzeroberfläche die Umgebung für den bereitgestellten Durchsatz an. Die Benutzeroberfläche zeigt Token-pro-Sekunde-Bereiche basierend auf dem Benchmarking von Databricks für typische Anwendungsfälle an.
Die Leistung mit diesem aktualisierten Angebot ist aufgrund von Optimierungen deutlich besser, wobei der Preis für Ihren Endpunkt unverändert bleibt. Wenden Sie sich für Produktfeedback oder Fragen an model-serving-feedback@databricks.com
.