Поделиться через


Перенос оптимизированных конечных точек обслуживания LLM в подготовленную пропускную способность

В этой статье описывается перенос существующих конечных точек обслуживания LLM в подготовленный интерфейс пропускной способности , доступный с помощью API модели Foundation.

Изменения

Подготовленная пропускная способность упрощает запуск оптимизированных конечных точек обслуживания LLM. Databricks изменил свою модель LLM, чтобы:

  • Диапазоны горизонтального масштабирования можно настроить в собственных терминах LLM, например маркеры в секунду вместо параллелизма.
  • Клиентам больше не нужно выбирать типы рабочих нагрузок GPU.

Новые конечные точки обслуживания LLM создаются с подготовленной пропускной способностью по умолчанию. Если вы хотите продолжить выбор типа рабочей нагрузки GPU, этот интерфейс поддерживается только с помощью API.

Перенос конечных точек обслуживания LLM в подготовленную пропускную способность

Самый простой способ переноса существующей конечной точки на подготовленную пропускную способность — обновить конечную точку с новой версией модели. После выбора новой версии модели пользовательский интерфейс отображает интерфейс для подготовленной пропускной способности. В пользовательском интерфейсе отображаются маркеры в секунду на основе тестирования Databricks для типичных вариантов использования.

Provisioned throughput LLM serving

Производительность с этим обновленным предложением является строго лучше из-за улучшений оптимизации, а цена на конечную точку остается неизменной. Обратитесь к model-serving-feedback@databricks.com отзывам или проблемам продукта.