Microsoft Foundry 포털의 모델 순위표(미리 보기)

중요합니다

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Supplemental Terms for Microsoft Azure Previews 참조하세요.

Foundry 포털의 모델 순위표(미리 보기)를 사용하면 업계 표준 모델 벤치마크를 사용하여 Foundry 모델 카탈로그의 모델을 비교할 수 있습니다.

시작하려면 Foundry 포털의 모델 순위표를 사용하여 모델을 비교하고 선택합니다.

각 순위표 범주에 대한 자세한 벤치마킹 방법론을 검토할 수 있습니다.

추론, 지식, 질문 답변, 수학 및 코딩을 비롯한 핵심 작업에서 모델이 얼마나 잘 수행하는지 이해하기 위한 언어 모델의 품질 벤치마킹.
유해한 동작 생성에 대해 안전한 모델이 얼마나 안전한지 이해하기 위한 언어 모델의 안전 벤치마킹
대기 시간 및 처리량 측면에서 모델이 수행하는 방식을 이해하기 위한 언어 모델의 성능 벤치마킹
언어 모델의 비용을 벤치마킹하여 모델 사용의 예상 비용을 이해하다.
특정 사용 사례 또는 시나리오에 가장 적합한 모델을 찾는 데 도움이 되는 언어 모델의 시나리오 순위표 벤치마킹
모델 포함의 품질 벤치마킹을 통해 검색 및 검색을 비롯한 포함 기반 작업에서 모델이 얼마나 잘 수행되는지 파악할 수 있습니다.

적합한 모델을 찾으면 모델 카탈로그에서 세부 벤치마킹 결과를 열 수 있습니다. 여기에서 모델을 배포하거나, 플레이그라운드에서 사용해 보거나, 사용자 고유의 데이터로 평가할 수 있습니다. 순위표는 텍스트 언어 모델(LLM(큰 언어 모델) 및 작은 언어 모델(SLLM) 포함) 및 포함 모델에 대한 벤치마킹을 지원합니다.

모델 벤치마크는 품질, 안전성, 비용 및 처리량 전반에 걸쳐 LLM 및 SLLM을 평가합니다. 포함 모델은 표준 품질 벤치마크를 사용하여 평가됩니다. 순위표는 새 모델 및 벤치마크 데이터 세트를 사용할 수 있게 되면 업데이트됩니다.

모델 벤치마킹 범위

모델 순위표에는 Foundry 모델 카탈로그에서 큐레이팅된 텍스트 기반 언어 모델이 선택되어 있습니다. 모델은 다음 조건에 따라 포함됩니다.

Azure 직접 모델의 우선 순위 지정: 일반적인 생성 AI 시나리오와 관련성을 위해 Azure 직접 모델이 선택됩니다.
핵심 벤치마크 적용 가능성: 모델은 추론, 지식, 질문 답변, 수학 추론 및 코딩과 같은 범용 언어 작업을 지원해야 합니다. 특수 모델(예: 단백질 접기 또는 도메인별 QA) 및 기타 형식은 지원되지 않습니다.

이 범위는 순위표가 핵심 AI 시나리오와 관련된 최신 고품질 모델을 반영하도록 합니다.

순위표 결과 해석

순위표는 여러 차원의 모델을 비교하는 데 도움이 되므로 사용 사례에 적합한 모델을 선택할 수 있습니다. 결과를 해석하기 위한 몇 가지 지침은 다음과 같습니다.

품질 인덱스: 품질 지수가 높을수록 추론, 코딩, 수학 및 지식 작업 전반에서 전반적인 성능이 향상됨을 나타냅니다. 모델 간 품질 인덱스를 비교하여 범용 언어 작업에 대한 상위 성과자를 식별합니다.
안전 점수: 공격 성공률이 낮을수록 더 강력한 모델을 나타냅니다. 특히 유해한 출력이 중요한 문제인 고객 관련 애플리케이션의 경우 품질 점수와 함께 안전 점수를 고려합니다.
성능 장차: 대기 시간 및 처리량 메트릭을 사용하여 모델의 실제 응답성을 이해합니다. 고품질이지만 대기 시간이 긴 모델은 실시간 애플리케이션에 적합하지 않을 수 있습니다.
비용 고려 사항: 예상 비용 메트릭은 3대1 입력-출력 토큰 비율을 사용합니다. 실제 워크로드의 입력-출력 비율에 따라 기대치를 조정합니다.
시나리오 순위표: 사용 사례가 특정 시나리오(예: 코딩 또는 수학)에 매핑되는 경우 시나리오 순위표로 시작하여 전체 품질 인덱스에만 의존하지 않고 해당 작업에 최적화된 모델을 찾습니다.

팁 (조언)

순위표 벤치마크는 공용 데이터 세트를 사용하여 모델 간에 표준화된 비교를 제공합니다. 특정 데이터 및 사용 사례에 대한 모델 성능을 평가하려면 생성 AI 앱 평가(Evaluate your generative AI Apps)를 참조하세요.

언어 모델의 품질 벤치마크

Foundry는 추론, 지식, 질문 답변, 수학 및 코딩 기능을 측정하는 표준 벤치마크 데이터 세트의 정확도 점수를 사용하여 LLM 및 SLLM의 품질을 평가합니다.

Index	Description
품질 인덱스	벤치마크 데이터 세트의 평균 적용 가능한 정확도 점수(`exact_match`, `pass@1`, `arena_hard`)를 계산합니다.

품질 인덱스 값은 0에서 1까지 다양하며, 값이 높을수록 성능이 향상됩니다. 품질 인덱스에 포함된 데이터 세트는 다음과 같습니다.

데이터 세트 이름	카테고리
bigbench_hard(예제 1,000개까지 다운샘플링됨)	논리적 사고
chembench	화학
프론티어사이언스	과학적 추론
gpqa	품질 보증 (QA)
mbppplus	Coding
mmlu_pro(예제 1,000개까지 다운샘플링됨)	일반 지식
musr	논리적 사고
tau2_telecom	에이전트 및 도구 호출 선택

정확도 점수에 대한 자세한 내용을 참조하세요.

Metric Description

정확도 정확도 점수는 데이터 세트 및 모델 수준에서 사용할 수 있습니다. 데이터 세트 수준에서 점수는 데이터 세트의 모든 예제에 대해 계산된 정확도 메트릭의 평균 값입니다. 사용되는 정확도 메트릭은 exact_match 메트릭을 사용하는 HumanEval 및 MBPP 데이터 세트를 제외한 모든 경우에 사용됩니다 pass@1 . 정확한 일치는 모델 생성 텍스트를 데이터 세트에 따라 정답과 비교하고, 생성된 텍스트가 대답과 정확히 일치하는 경우 1을 보고하고, 그렇지 않으면 0을 보고합니다. 메트릭은 pass@1 코드 생성 태스크에서 단위 테스트 집합을 통과하는 모델 솔루션의 비율을 측정합니다. 모델 수준에서 정확도 점수는 각 모델에 대한 데이터 세트 수준 정확도의 평균입니다.

Metric	Description
정확도	정확도 점수는 데이터 세트 및 모델 수준에서 사용할 수 있습니다. 데이터 세트 수준에서 점수는 데이터 세트의 모든 예제에 대해 계산된 정확도 메트릭의 평균 값입니다. 사용되는 정확도 메트릭은 `exact_match` 메트릭을 사용하는 HumanEval 및 MBPP 데이터 세트를 제외한 모든 경우에 사용됩니다 `pass@1` . 정확한 일치는 모델 생성 텍스트를 데이터 세트에 따라 정답과 비교하고, 생성된 텍스트가 대답과 정확히 일치하는 경우 1을 보고하고, 그렇지 않으면 0을 보고합니다. 메트릭은 `pass@1` 코드 생성 태스크에서 단위 테스트 집합을 통과하는 모델 솔루션의 비율을 측정합니다. 모델 수준에서 정확도 점수는 각 모델에 대한 데이터 세트 수준 정확도의 평균입니다.

정확도 점수는 0에서 1까지이며, 값이 더 높습니다.

언어 모델의 안전 벤치마크

안전 벤치마크는 관련성과 엄격성을 모두 보장하도록 설계된 구조적 필터링 및 유효성 검사 프로세스를 통해 선택됩니다. 벤치마크는 우선 순위가 높은 위험을 해결하는 경우 온보딩할 자격이 있습니다. 안전 순위표에는 안전과 관련된 관심 주제에 대한 의미 있는 신호를 제공할 수 있을 만큼 신뢰할 수 있는 벤치마크가 포함됩니다. 순위표는 HarmBench를 사용하여 모델 보안을 프록시하고 다음과 같이 시나리오 순위표를 구성합니다.

데이터 세트 이름	순위표 시나리오	Metric	해석
HarmBench(표준)	표준 유해한 동작	공격 성공률	값이 낮을수록 표준 유해한 콘텐츠를 유도하도록 설계된 공격에 대한 견고성이 향상됩니다.
HarmBench(상황별)	상황에 맞는 유해한 동작	공격 성공률	값이 낮을수록 상황에 맞는 유해한 콘텐츠를 유도하도록 설계된 공격에 대한 견고성이 향상됩니다.
HarmBench(저작권 위반)	저작권 위반	공격 성공률	값이 낮을수록 저작권 위반에 대한 강력한 견고성을 나타냅니다.
WMDP	중요한 도메인에 대한 지식	정확도	값이 높을수록 중요한 도메인에 대한 지식이 커지게 됩니다.
Toxigen	독성 콘텐츠 검색	F1 점수	값이 높을수록 검색 성능이 향상됩니다.

유해한 동작 감지

HarmBench 벤치마크는 안전하지 않은 응답을 유도하도록 설계된 프롬프트를 사용하여 유해한 동작을 측정합니다. 다음 7가지 의미 체계 범주를 다룹니다.

사이버 범죄 및 무단 침입
화학 및 생물학적 무기 또는 약물
저작권 위반
오정보 및 허위정보
괴롭힘 및 왕따
불법 활동
일반적인 피해

이러한 범주는 다음 세 가지 기능 영역으로 그룹화됩니다.

표준 유해한 동작
상황에 맞는 유해한 동작
저작권 위반

각 기능 범주는 별도의 시나리오 순위표에 있습니다. 평가는 HarmBench(공격 없음) 및 HarmBench 평가자의 직접 프롬프트를 사용하여 ASR(공격 성공률)을 계산합니다. ASR 값이 낮을수록 모델이 더 안전합니다. 평가에는 공격 전략이 사용되지 않으며, 모델 벤치마킹은 Foundry Guardrails(이전의 콘텐츠 필터)를 해제하여 수행됩니다.

독성 콘텐츠 검색

Toxigen은 악의적이고 암시적인 증오 발언을 감지하기 위한 대규모 데이터 세트입니다. 여기에는 13개의 소수 집단을 참조하는 암시적으로 유독하고 양성 문장이 포함됩니다. Foundry는 주석이 추가된 Toxigen 샘플을 사용하고 F1 점수를 계산하여 분류 성능을 측정합니다. 점수가 높을수록 독성 콘텐츠 감지가 향상됩니다. 벤치마킹은 Foundry Guardrails(이전의 콘텐츠 필터)가 꺼진 상태에서 수행됩니다.

중요한 도메인 지식

WMDP(대량 파괴 프록시) 벤치마크는 생물 보안, 사이버 보안 및 화학 보안을 포함한 중요한 도메인의 모델 지식을 측정합니다. 순위표는 사이버 보안, 생물 보안 및 화학 보안 전반에서 평균 정확도 점수를 사용합니다. WMDP 정확도 점수가 높을수록 위험한 기능에 대한 더 많은 지식이 표시됩니다(안전 관점에서 더 나쁜 동작). 모델 벤치마킹은 기본 Foundry Guardrails(이전 콘텐츠 필터)를 사용하여 수행됩니다. 이러한 가드레일은 폭력, 자해, 성적, 증오 및 불공정에서 콘텐츠 피해를 감지하고 차단하지만 사이버 보안, 생물 보안 및 화학 보안의 범주를 대상으로 하지는 않습니다.

안전 벤치마크의 제한 사항

안전은 여러 차원의 복잡한 항목입니다. 단일 오픈 소스 벤치마크는 모든 시나리오에서 시스템의 전체 안전을 테스트하거나 나타낼 수 없습니다. 또한 많은 벤치마크는 벤치마크 디자인과 위험 정의 간의 포화 또는 잘못된 정렬로 인해 어려움을 겪고 있습니다. 일부 벤치마크는 또한 목표 위험이 개념화되고 운영되는 방식에 대한 명확한 설명서가 부족하여 결과가 실제 위험의 뉘앙스를 정확하게 포착하는지 여부를 평가하기가 어렵습니다. 이러한 제한으로 인해 실제 안전 시나리오에서 모델 성능을 과대 평가하거나 과소 평가할 수 있습니다.

언어 모델의 성능 벤치마크

성능 메트릭은 하루에 24개의 평가판을 사용하여 14일 동안 집계되며, 평가판당 두 개의 요청은 1시간 간격으로 전송됩니다. 달리 명시되지 않는 한 다음 기본 매개 변수는 서버리스 API 배포와 Azure OpenAI 모두에 적용됩니다.

매개 변수	가치	에 적용할 수 있습니다.
지역	미국 동부/미국 동부2	서버리스 API 배포 및 Azure OpenAI
TPM(분당 토큰) 속도 제한	비추론형 모델은 3만 개(Azure OpenAI 기준 180 RPM), 추론형 모델은 10만 개의 토큰 한도를 제공합니다. N/A(서버리스 API 배포)	Azure OpenAI 모델의 경우 배포 유형(서버리스 API, 전역, 글로벌 표준 등)에 따라 속도 제한 범위가 있는 사용자가 선택할 수 있습니다. 서버리스 API 배포의 경우 이 설정은 추상화됩니다.
요청 수	1시간마다 두 번의 요청(하루에 24회 트라이얼)	서버리스 API 배포, Azure OpenAI
시험/실행 수	14일 동안 매일 24회의 실험을 진행하여 총 336회 실행	서버리스 API 배포, Azure OpenAI
프롬프트/컨텍스트 길이	보통 길이	서버리스 API 배포, Azure OpenAI
처리된 토큰 수(보통)	입력 토큰 대비 출력 토큰의 비율이 80:20입니다, 즉 800개의 입력 토큰에 대해 200개의 출력 토큰입니다.	서버리스 API 배포, Azure OpenAI
동시 요청 수	하나(요청이 차례로 순차적으로 전송됨)	서버리스 API 배포, Azure OpenAI
데이터	가상(정적 텍스트에서 준비된 입력 프롬프트)	서버리스 API 배포, Azure OpenAI
배포 유형	서버리스 API	Azure OpenAI에만 적용
스트리밍	진실	서버리스 API 배포 및 Azure OpenAI에 적용됩니다. 관리형 컴퓨팅을 통해 배포된 모델 또는 스트리밍이 지원되지 않는 엔드포인트의 경우 TTFT는 대기 시간 메트릭의 P50으로 표시됩니다.
SKU	Standard_NC24ads_A100_v4(24코어, 220GB RAM, 64GB storage)	Managed Compute에만 적용 가능(비용 및 성능 메트릭 예측)

LLM 및 SLLM의 성능은 다음 메트릭에서 평가됩니다.

Metric	Description
대기 시간 평균	요청을 처리하는 평균 시간(초)으로, 여러 요청을 통해 계산됩니다. 요청은 2주 동안 매시간 엔드포인트로 전송되고 평균은 계산됩니다.
대기 시간 P50	중앙값(50번째 백분위수) 대기 시간. 50개% 요청이 이 시간 내에 완료됩니다.
대기 시간 P90	90% 백분위수 지연 시간 90개% 요청이 이 시간 내에 완료됩니다.
대기 시간 P95	95번째 백분위수 지연 시간 95개% 요청이 이 시간 내에 완료됩니다.
지연 시간 P99	99번째 백분위수 지연 시간. 99개% 요청이 이 시간 내에 완료됩니다.
처리량 GTPS	GTPS(초당 생성된 토큰)는 요청이 엔드포인트로 전송되는 시점부터 초당 생성되는 출력 토큰의 수입니다.
처리량 TTPS	TTPS(초당 총 토큰 수)는 입력 프롬프트와 생성된 출력 토큰을 포함하여 초당 처리되는 총 토큰 수입니다. 스트리밍을 지원하지 않는 모델의 경우 ttft(Time to First 토큰)는 P50 대기 시간 값(응답을 수신하는 데 걸린 시간)을 나타냅니다.
대기 시간 TTFT	TTFT(첫 번째 토큰에 대한 총 시간)는 스트리밍을 사용할 때 엔드포인트에서 반환되는 응답의 첫 번째 토큰에 걸리는 시간입니다.
토큰 간 시간	이 메트릭은 받은 토큰 사이의 시간입니다.

Foundry는 다음을 사용하여 성능을 요약합니다.

Metric	Description
지연	첫 번째 토큰에 도달하기까지의 평균 시간입니다. 낮을수록 좋습니다.
처리량	초당 평균 생성된 토큰입니다. 더 높은 것이 좋습니다.

대기 시간 또는 처리량과 같은 성능 메트릭의 경우 첫 번째 토큰에 대한 시간과 초당 생성된 토큰은 모델의 일반적인 성능 및 동작에 대한 전반적인 감각을 향상합니다. 성능 번호는 최신 배포 구성을 반영하도록 주기적으로 새로 고쳐집니다.

언어 모델의 비용 벤치마크

비용 계산은 Foundry 플랫폼에서 호스트되는 LLM 또는 SLM 모델 엔드포인트를 사용하기 위한 추정치입니다. Foundry는 서버리스 API 배포 및 Azure OpenAI 모델의 비용 표시를 지원합니다. 이러한 비용은 변경될 수 있으므로 비용 계산은 최신 가격을 반영하도록 주기적으로 새로 고쳐집니다.

LLM 및 SLLM의 비용은 다음 메트릭에서 평가됩니다.

Metric	Description
입력 토큰당 비용	1백만 개의 입력 토큰에 대한 서버리스 API 배포 비용
출력 토큰당 비용	1백만 개의 출력 토큰에 대한 서버리스 API 배포 비용
예상 비용	입력 토큰당 비용 및 출력 토큰당 비용의 합계에 대한 비용이며 비율은 3:1입니다.

Foundry는 다음과 같이 비용을 표시합니다.

Metric	Description
비용	100만 개의 토큰당 예상 미국 달러 비용입니다. 예상 워크로드는 입력 토큰과 출력 토큰 간의 3대 1 비율을 사용합니다. 값이 낮을수록 좋습니다.

시나리오 순위표 벤치마킹

시나리오 순위표는 일반적인 실제 평가 목표를 통해 벤치마크 데이터 세트를 그룹화하므로 사용 사례별로 모델의 강점과 약점을 빠르게 식별할 수 있습니다. 각 시나리오는 하나 이상의 공용 벤치마크 데이터 세트를 집계합니다.

다음 표를 사용하여 시나리오 열에서 사용 사례를 찾은 다음, 연결된 벤치마크 데이터 세트와 결과가 나타내는 내용을 검토합니다. 다음 표에는 사용 가능한 시나리오 순위표와 관련 데이터 세트 및 설명이 요약되어 있습니다.

시나리오	데이터세트	Description
표준 유해한 동작	HarmBench (표준)	표준 유해한 프롬프트에 대한 공격 성공률입니다. 낮을수록 좋습니다. 유해한 동작 감지를 참조하세요.
상황에 맞는 유해한 동작	HarmBench(컨텍스트)	상황에 맞는 유해한 프롬프트에 대한 공격 성공률입니다. 낮을수록 좋습니다. 유해한 동작 감지를 참조하세요.
저작권 위반	HarmBench (저작권)	저작권 위반 프롬프트에 대한 공격 성공률입니다. 낮을수록 좋습니다. 유해한 동작 감지를 참조하세요.
중요한 도메인에 대한 지식	WMDP(생물 보안, 화학 보안, 사이버 보안)	세 가지 중요한 도메인 하위 집합의 정확도입니다. 정확도가 높을수록 중요한 기능에 대한 더 많은 지식이 있음을 나타냅니다. 중요한 도메인 지식을 참조하세요.
독성 감지	ToxiGen(주석이 추가됨)	독성 콘텐츠 검색 기능에 대한 F1 점수입니다. 더 높은 것이 좋습니다. 독성 콘텐츠 검색을 참조하세요.
논리적 사고	BIG-Bench Hard(1000 하위 표본)	추론 기능 평가. 값이 높을수록 좋습니다.
Coding	BigCodeBench (지시), LiveBench (코딩), LiveCodeBench 미디엄 MBPPPlus	코드 관련 작업에 대한 정확도를 측정합니다. 값이 높을수록 좋습니다.
일반 지식	MMLU-Pro(1K 영어 하위 샘플)	MMLU-Pro의 영어 전용 하위 샘플 예제 1,000개.
질문 및 답변	Arena-Hard, GPQA(다이아몬드)	악의적 사람 선호도 QA(Arena-Hard) 및 대학원 수준의 여러 분야 QA(GPQA 다이아몬드). 값이 높을수록 좋습니다.
수학	MATH(500 하위 샘플)	언어 모델의 수학 추론 기능을 측정합니다. 값이 높을수록 좋습니다.
근거성	TruthfulQA(MC1)	언어 모델의 다중 선택적 근거 있음/진실성 평가. 값이 높을수록 좋습니다.

임베딩 모델의 품질 기준

포함 모델의 품질 인덱스는 정보 검색, 문서 클러스터링 및 요약 작업을 대상으로 하는 포괄적인 서버리스 API 벤치마크 데이터 세트 집합의 평균 정확도 점수로 정의됩니다.

Metric	Description
정확도	정확도는 처리된 총 예측 수 중 올바른 예측의 비율입니다.
F1 점수	F1 점수는 정밀도 및 재현율의 가중 평균이며, 가장 좋은 값은 1(완벽한 정밀도 및 재현율)이며 최악의 경우는 0입니다.
평균 정밀도(MAP)	MAP는 순위 및 추천 시스템의 품질을 평가합니다. 제안된 항목의 관련성과 시스템이 더 관련성이 큰 항목을 맨 위에 배치하는 데 얼마나 좋은지 모두 측정합니다. 값의 범위는 0에서 1까지이며 MAP이 높을수록 시스템에서 관련 항목을 목록에 더 높게 배치할 수 있습니다.
정규화된 할인 누적 이득(NDCG)	NDCG는 관련성에 따라 항목을 정렬하는 machine learning 알고리즘의 기능을 평가합니다. 순위를 모든 관련 항목이 목록 맨 위에 있는 이상적인 순서와 비교합니다. 여기서 k는 순위 품질을 평가하는 동안 목록 길이입니다. 이러한 벤치마크에서 k=10은 메트릭 `ndcg_at_10`으로 표시되며, 이는 상위 10개 항목이 평가됨을 의미합니다.
정밀성	정밀도는 특정 클래스의 인스턴스를 올바르게 식별하는 모델의 기능을 측정합니다. 정밀도는 대상 클래스를 예측할 때 machine learning 모델이 올바른 빈도를 보여줍니다.
스피어맨 상관 관계	코사인 유사성을 기반으로 하는 Spearman 상관 관계는 먼저 변수 간의 코사인 유사성을 계산한 다음, 이러한 점수의 순위를 지정하고 순위를 사용하여 Spearman 상관 관계를 계산하여 계산됩니다.
V 측정값	V 측정값은 클러스터링의 품질을 평가하는 데 사용되는 메트릭입니다. V 측정값은 동질성과 완전성의 조화 평균으로 계산되어 의미 있는 점수를 위해 둘 사이의 균형을 보장합니다. 가능한 점수는 0에서 1 사이이며, 1점은 완벽한 레이블링을 의미합니다.

점수 계산

개별 점수

벤치마크 결과는 언어 모델 평가에 일반적으로 사용되는 공용 데이터 세트에서 비롯됩니다. 대부분의 경우 데이터는 데이터의 작성자 또는 큐레이터가 유지 관리하는 GitHub 리포지토리에서 호스팅됩니다. Foundry 평가 파이프라인은 원래 원본에서 데이터를 다운로드한 뒤, 각 예제 행에서 프롬프트를 추출하고, 모델 응답을 생성하며, 관련 정확도 메트릭을 계산합니다.

프롬프트 생성은 데이터 세트 및 업계 표준을 소개하는 문서에서 지정한 대로 각 데이터 세트에 대한 모범 사례를 따릅니다. 대부분의 경우 각 프롬프트에는 여러 샷이 포함됩니다. 즉, 모델을 작업에 맞추어 준비시키기 위한 완전한 질문과 답변의 몇 가지 예가 있습니다. 샷 수는 데이터 세트에 따라 다르며 각 데이터 세트의 원래 게시에 지정된 방법론을 따릅니다. 평가 파이프라인에서는 보류된 데이터의 일부로부터 질문-답변 쌍을 샘플링하여 평가용 샷을 구성합니다.

벤치마크 제한 사항

모든 벤치마크에는 결과를 해석할 때 고려해야 하는 내재된 제한 사항이 있습니다.

품질 벤치마크: 모델이 비슷한 데이터에 대해 학습되거나 조정됨에 따라 벤치마크 데이터 세트는 시간이 지남에 따라 포화 상태가 될 수 있습니다. 평가 결과는 프롬프트 생성 및 사용된 몇 안 되는 예제 수에 따라 달라질 수도 있습니다.
성능 벤치마크: 메트릭은 고정된 입력-출력 토큰 비율 및 단일 지역 배포가 있는 가상 워크로드를 사용하여 수집됩니다. 실제 성능은 워크로드 패턴, 동시성, 지역 및 배포 구성에 따라 다를 수 있습니다.
비용 벤치마크: 비용 예측은 측정 시 3대 1 입력-출력 토큰 비율 및 현재 가격을 기반으로 합니다. 실제 비용은 워크로드에 따라 달라지며 가격 변경이 적용됩니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-03-19