프로비전된 처리량의 초당 토큰 범위는 무엇을 의미합니까?

아티클
03/01/2024

이 문서에서는 Databricks가 Foundation Model API에 대해 프로비전된 처리량 워크로드에 대해 초당 토큰을 측정하는 방법과 이유를 설명합니다.

LLM(대규모 언어 모델)의 성능은 종종 초당 토큰 측면에서 측정됩니다. 엔드포인트를 제공하는 프로덕션 모델을 구성할 때 애플리케이션이 엔드포인트에 보내는 요청 수를 고려하는 것이 중요합니다. 이렇게 하면 대기 시간에 영향을 주지 않도록 크기를 조정하도록 엔드포인트를 구성해야 하는지 이해하는 데 도움이 됩니다.

프로비저닝된 처리량으로 배포된 엔드포인트에 대한 스케일 아웃 범위를 구성할 때 Databricks는 토큰을 사용하여 시스템에 입력되는 입력을 더 쉽게 추론할 수 있습니다.

토큰이란?

LLM은 토큰이라고 하는 용어로 텍스트를 읽고 생성합니다. 토큰은 단어 또는 하위 단어일 수 있으며 텍스트를 토큰으로 분할하는 정확한 규칙은 모델마다 다릅니다. 예를 들어 온라인 도구를 사용하여 Llama의 토큰 변환기가 단어를 토큰으로 변환하는 방법을 확인할 수 있습니다.

초당 토큰 측면에서 LLM 성능을 측정하는 이유는 무엇인가요?

일반적으로 서비스 엔드포인트는 RPS(초당 동시 요청 수)에 따라 구성됩니다. 그러나 LLM 유추 요청은 전달되는 토큰 수와 생성되는 수에 따라 다른 시간이 소요되며, 요청 간에 불균형이 발생할 수 있습니다. 따라서 엔드포인트 요구 사항의 규모를 결정하려면 요청 내용(토큰)을 기준으로 엔드포인트 규모를 측정해야 합니다.

다른 사용 사례는 서로 다른 입력 및 출력 토큰 비율을 특징으로 합니다.

입력 컨텍스트의 다양한 길이: 일부 요청에는 몇 가지 입력 토큰만 포함될 수 있지만(예: 짧은 질문) 요약을 위한 긴 문서와 같이 수백 또는 수천 개의 토큰이 포함될 수 있습니다. 이러한 가변성 때문에 RPS를 기반으로 하는 서비스 엔드포인트를 구성하는 것은 다양한 요청의 다양한 처리 요구를 고려하지 않기 때문에 어려운 일입니다.
사용 사례에 따라 출력 길이가 다양합니다. LLM에 대한 사용 사례가 다르면 출력 토큰 길이가 크게 다를 수 있습니다. 출력 토큰 생성은 LLM 유추에서 가장 시간이 많이 걸리는 부분이므로 처리량에 큰 영향을 줄 수 있습니다. 예를 들어 요약에는 더 짧은 응답이 포함되지만 문서 또는 제품 설명 작성과 같은 텍스트 생성은 훨씬 더 긴 답변을 생성할 수 있습니다.

내 엔드포인트에 대한 초당 토큰 범위를 선택할 어떻게 할까요? 있나요?

엔드포인트를 제공하는 프로비전된 처리량은 엔드포인트에 보낼 수 있는 초당 토큰 범위로 구성됩니다. 엔드포인트가 확장 및 축소되어 프로덕션 애플리케이션의 부하를 처리합니다. 엔드포인트의 크기가 조정된 초당 토큰 범위에 따라 시간당 요금이 청구됩니다.

사용 사례에 대해 작동하는 프로비전된 처리량 서비스 엔드포인트에서 초당 토큰 범위를 파악하는 가장 좋은 방법은 대표적인 데이터 세트를 사용하여 부하 테스트를 수행하는 것입니다. 사용자 고유의 LLM 엔드포인트 벤치마킹 수행을 참조 하세요.

고려해야 할 두 가지 중요한 요소가 있습니다.

Databricks가 LLM의 초당 토큰 성능을 측정하는 방법

Databricks는 검색 보강된 생성 사용 사례에 공통적인 요약 작업을 나타내는 워크로드에 대해 엔드포인트를 벤치마크합니다. 특히 워크로드는 다음으로 구성됩니다.
- 입력 토큰 2048개
- 256개의 출력 토큰
표시된 토큰 범위는 입력 및 출력 토큰 처리량을 결합 하고 기본적으로 처리량 및 대기 시간의 분산을 최적화합니다.

Databricks 벤치마크는 사용자가 초당 많은 토큰을 요청당 1의 일괄 처리 크기로 엔드포인트에 동시에 보낼 수 있습니다. 이렇게 하면 엔드포인트에 동시에 도달하는 여러 요청이 시뮬레이트되며, 이는 프로덕션 환경에서 엔드포인트를 실제로 사용하는 방법을 보다 정확하게 나타냅니다.
자동 크기 조정 작동 방식

모델 서비스 기능은 애플리케이션의 초당 토큰 수요를 충족하도록 기본 컴퓨팅의 크기를 조정하는 신속한 자동 크기 조정 시스템을 제공합니다. Databricks는 프로비전된 처리량을 초당 토큰 청크로 확장하므로 프로비전된 처리량의 추가 단위는 사용하는 경우에만 요금이 청구됩니다.

다음을 통해 공유

프로비전된 처리량의 초당 토큰 범위는 무엇을 의미합니까?

토큰이란?

초당 토큰 측면에서 LLM 성능을 측정하는 이유는 무엇인가요?

내 엔드포인트에 대한 초당 토큰 범위를 선택할 어떻게 할까요? 있나요?

추가 리소스