Перенос оптимизированных конечных точек обслуживания LLM в подготовленную пропускную способность
В этой статье описывается перенос существующих конечных точек обслуживания LLM в подготовленный интерфейс пропускной способности , доступный с помощью API модели Foundation.
Изменения
Подготовленная пропускная способность упрощает запуск оптимизированных конечных точек обслуживания LLM. Databricks изменил свою модель LLM, чтобы:
- Диапазоны горизонтального масштабирования можно настроить в собственных терминах LLM, например маркеры в секунду вместо параллелизма.
- Клиентам больше не нужно выбирать типы рабочих нагрузок GPU.
Новые конечные точки обслуживания LLM создаются с подготовленной пропускной способностью по умолчанию. Если вы хотите продолжить выбор типа рабочей нагрузки GPU, этот интерфейс поддерживается только с помощью API.
Перенос конечных точек обслуживания LLM в подготовленную пропускную способность
Самый простой способ переноса существующей конечной точки на подготовленную пропускную способность — обновить конечную точку с новой версией модели. После выбора новой версии модели пользовательский интерфейс отображает интерфейс для подготовленной пропускной способности. В пользовательском интерфейсе отображаются маркеры в секунду на основе тестирования Databricks для типичных вариантов использования.
Производительность с этим обновленным предложением является строго лучше из-за улучшений оптимизации, а цена на конечную точку остается неизменной. Обратитесь к model-serving-feedback@databricks.com
отзывам или проблемам продукта.