Chọn mô hình sử dụng điểm chuẩn
Trước khi triển khai một mô hình, bạn muốn hiểu cách mô hình hoạt động trên các khía cạnh khác nhau. Điểm chuẩn mô hình cung cấp dữ liệu khách quan, có thể đo lường được để giúp bạn so sánh các mô hình và đưa ra quyết định lựa chọn sáng suốt. Cổng thông tin Microsoft Foundry cung cấp các công cụ đo điểm chuẩn toàn diện được sắp xếp thành các chỉ số chất lượng, an toàn, chi phí và hiệu suất.
Access điểm chuẩn mô hình
Bạn có thể khám phá điểm chuẩn theo hai cách trong cổng thông tin Microsoft Foundry:
Trong danh mục mô hình, hãy xem bảng xếp hạng Mô hình để xem thứ hạng so sánh trên tất cả các mô hình có sẵn. Chế độ xem này giúp bạn xác định các mô hình hoạt động tốt nhất cho các chỉ số hoặc tình huống cụ thể. Bảng xếp hạng hiển thị các mô hình hàng đầu được xếp hạng theo chất lượng, độ an toàn, chi phí ước tính và thông lượng.
Để biết điểm chuẩn chi tiết trên một kiểu máy cụ thể, hãy mở thẻ kiểu máy đó và chọn tab Điểm chuẩn . Chế độ xem này cho thấy cách mô hình riêng lẻ hoạt động trên các chỉ số và tập dữ liệu khác nhau, với biểu đồ so sánh đặt mô hình tương đối với các mô hình tương tự.
Tiêu chuẩn chất lượng
Điểm chuẩn chất lượng đánh giá mức độ tạo ra các phản hồi chính xác, mạch lạc và phù hợp với ngữ cảnh. Các chỉ số này sử dụng bộ dữ liệu công khai và phương pháp đánh giá tiêu chuẩn để đảm bảo tính nhất quán.
Chỉ số chất lượng cung cấp tổng quan cấp cao bằng cách tính trung bình điểm chính xác trên nhiều bộ dữ liệu điểm chuẩn đo lường lý luận, kiến thức, trả lời câu hỏi, khả năng toán học và kỹ năng viết mã. Giá trị chỉ mục chất lượng cao hơn cho thấy hiệu suất tổng thể mạnh mẽ hơn trên các tác vụ ngôn ngữ có mục đích chung.
Điểm chuẩn chất lượng sử dụng các bộ dữ liệu như:
- Arena-Hard - trả lời câu hỏi đối nghịch
- BIG-Bench Khả năng suy luận khó
- GPQA - câu hỏi đa ngành cấp độ sau đại học
- HumanEval+ và MBPP+ - tác vụ tạo mã
- MATH - lý luận toán học
- MMLU-Pro - đánh giá kiến thức chung
- IFEval - hướng dẫn sau
Điểm chuẩn là các chỉ số chuẩn hóa từ không đến một, trong đó giá trị cao hơn cho thấy hiệu suất tốt hơn.
Tiêu chuẩn an toàn
Các chỉ số an toàn đảm bảo các mô hình không tạo ra nội dung có hại, thiên vị hoặc không phù hợp. Các điểm chuẩn này rất quan trọng đối với các ứng dụng tiếp xúc với người dùng cuối, đặc biệt là trong các ngành được quản lý hoặc các tình huống đối mặt với khách hàng.
Microsoft Foundry đánh giá các mô hình trên nhiều khía cạnh an toàn:
Tính năng phát hiện hành vi có hại sử dụng điểm chuẩn HarmBench để đo lường mức độ chống lại việc tạo nội dung không an toàn của các mô hình. Đánh giá tính toán Tỷ lệ tấn công thành công (ASR), trong đó các giá trị thấp hơn cho thấy các mô hình an toàn hơn, mạnh mẽ hơn. HarmBench kiểm tra ba lĩnh vực chức năng:
- Các hành vi có hại tiêu chuẩn - tội phạm mạng, hoạt động bất hợp pháp, tác hại chung
- Hành vi có hại theo ngữ cảnh - thông tin sai lệch, quấy rối, bắt nạt
- Vi phạm bản quyền - sao chép tài liệu có bản quyền
Phát hiện nội dung độc hại sử dụng tập dữ liệu ToxiGen để đo lường mức độ xác định của các mô hình đối nghịch và ngôn từ thù địch ngầm. Điểm F1 cao hơn cho thấy hiệu suất phát hiện tốt hơn khi tham chiếu đến các nhóm thiểu số.
Kiến thức miền nhạy cảm sử dụng điểm chuẩn WMDP (Vũ khí hủy diệt hàng loạt) để đo lường kiến thức mô hình về an toàn sinh học, an ninh mạng và an ninh hóa học. Điểm WMDP cao hơn cho thấy nhiều kiến thức hơn về các khả năng nguy hiểm tiềm ẩn.
Điểm an toàn giúp bạn hiểu được độ bền của mô hình, đặc biệt quan trọng đối với các ứng dụng tiếp xúc với khách hàng, nơi đầu ra có hại gây ra mối quan tâm đáng kể.
Tiêu chuẩn chi phí
Hiểu được tác động tài chính của việc sử dụng mô hình giúp bạn cân bằng các yêu cầu về chất lượng với các hạn chế về ngân sách. Điểm chuẩn chi phí trong Microsoft Foundry hiển thị giá cho triển khai API phi máy chủ và mô hình Azure OpenAI.
Chi phí trên mỗi mã thông báo đầu vào cho biết giá để xử lý 1 triệu mã thông báo đầu vào (văn bản bạn gửi đến mô hình).
Chi phí trên mỗi mã thông báo đầu ra cho biết giá để tạo ra 1 triệu mã thông báo đầu ra (văn bản mà mô hình tạo ra).
Chi phí ước tính kết hợp chi phí đầu vào và đầu ra bằng cách sử dụng tỷ lệ 3:1 điển hình (ba mã thông báo đầu vào cho mỗi mã thông báo đầu ra), cung cấp cho bạn một con số duy nhất để so sánh. Giá trị thấp hơn cho thấy các mô hình tiết kiệm chi phí hơn.
Điểm chuẩn chi phí giúp bạn xác định các mô hình mang lại chất lượng bạn cần ở mức giá phù hợp với mô hình sử dụng và ngân sách của ứng dụng.
Điểm chuẩn hiệu suất
Chỉ số hiệu suất đo lường tốc độ và hiệu quả của các mô hình phản hồi các yêu cầu. Các điểm chuẩn này quan trọng đối với các ứng dụng thời gian thực, nơi trải nghiệm người dùng phụ thuộc vào khả năng phản hồi.
Các phép đo độ trễ bao gồm:
- Độ trễ trung bình - thời gian trung bình tính bằng giây để xử lý yêu cầu
- Độ trễ P50 (trung bình) - 50% yêu cầu hoàn thành nhanh hơn thời điểm này
- Độ trễ P90 - 90% yêu cầu hoàn thành nhanh hơn thời điểm này
- Độ trễ P95 - 95% yêu cầu hoàn thành nhanh hơn thời điểm này
- Độ trễ P99 - 99% yêu cầu hoàn thành nhanh hơn thời điểm này
- Thời gian đến mã thông báo đầu tiên (TTFT) - thời gian cho đến khi mã thông báo đầu tiên đến khi sử dụng phát trực tuyến
Các phép đo thông lượng bao gồm:
- Mã thông báo được tạo mỗi giây (GTPS) - mã thông báo đầu ra được tạo mỗi giây
- Tổng số token mỗi giây (TTPS) - kết hợp token đầu vào và đầu ra được xử lý mỗi giây
- Thời gian giữa các token - khoảng thời gian giữa các lần nhận token liên tiếp
Bảng xếp hạng tóm tắt hiệu suất bằng cách sử dụng thời gian trung bình đến token đầu tiên (thấp hơn là tốt hơn) và token được tạo trung bình mỗi giây (càng cao càng tốt). Các mô hình thông lượng cao, độ trễ thấp cung cấp trải nghiệm người dùng tốt hơn trong các ứng dụng tương tác. Đối với các công việc xử lý hàng loạt mà tốc độ ít quan trọng hơn chi phí, bạn có thể ưu tiên các yếu tố khác.
Sử dụng bảng xếp hạng và tính năng so sánh
Bảng xếp hạng mô hình cho phép bạn xem các mô hình hàng đầu cho các chỉ số cụ thể. Bạn có thể sắp xếp theo chất lượng, độ an toàn, chi phí ước tính và thông lượng để xác định các mô hình phù hợp nhất với yêu cầu của bạn.
Bảng xếp hạng kịch bản giúp bạn tìm các mô hình được tối ưu hóa cho các trường hợp sử dụng cụ thể như suy luận, mã hóa, toán học, trả lời câu hỏi hoặc tính cơ sở. Nếu ứng dụng của bạn ánh xạ đến một kịch bản cụ thể, hãy bắt đầu với bảng xếp hạng kịch bản có liên quan thay vì chỉ dựa vào chỉ số chất lượng tổng thể.
Biểu đồ đánh đổi hiển thị đồng thời hai chỉ số, chẳng hạn như chất lượng so với chi phí hoặc chất lượng so với thông lượng. Những hình ảnh trực quan này giúp bạn tìm ra sự cân bằng tối ưu cho yêu cầu của mình. Sử dụng menu thả xuống để so sánh chất lượng với chi phí, thông lượng hoặc độ an toàn. Các mô hình gần góc trên cùng bên phải của biểu đồ hoạt động tốt trên cả hai chỉ số. Một mô hình kém chính xác hơn một chút nhưng nhanh hơn hoặc rẻ hơn đáng kể có thể phục vụ tốt hơn nhu cầu của bạn.
So sánh song song cho phép bạn chọn hai hoặc ba mô hình từ bảng xếp hạng và so sánh chúng trên nhiều chiều:
- Điểm chuẩn hiệu suất (chất lượng, an toàn, thông lượng)
- Chi tiết mô hình (cửa sổ ngữ cảnh, dữ liệu đào tạo, ngôn ngữ được hỗ trợ)
- Điểm cuối được hỗ trợ (tùy chọn triển khai)
- Hỗ trợ tính năng (gọi hàm, đầu ra có cấu trúc, tầm nhìn)
Chọn kiểu máy bằng cách chọn hộp bên cạnh tên của chúng, sau đó chọn So sánh để mở chế độ xem so sánh chi tiết.