Quản lý mã thông báo
- 5 phút
Hãy tưởng tượng bạn đột ngột có lưu lượng truy cập vào API của mình, có thể có giao dịch bán hàng hoặc lý do khác. Để tránh sử dụng quá mức và sự gián đoạn dịch vụ có thể xảy ra, bạn cần tìm ra cách quản lý điều đó.
Chính sách Giới hạn Mã thông báo Azure OpenAI
Như đã đề cập ở phần đầu của đơn vị này, đột ngột đột biến đột ngột là một cái gì đó, bạn cần phải xử lý. Tin tốt là Azure API Management có một cái gì đó được gọi là Chính sách Giới hạn Mã thông báo.
Chính sách này cho phép khách hàng đặt giới hạn về việc sử dụng mã thông báo, được thể hiện bằng token mỗi phút (TPM) và đảm bảo việc sử dụng hợp lý và hiệu quả các tài nguyên OpenAI.
Các tính năng chính
Các tính năng chính của chính sách này là:
- kiểm soát chính xác: Khách hàng có thể gán các giới hạn dựa trên mã thông báo trên các khóa truy cập khác nhau, chẳng hạn như Khóa đăng ký hoặc Địa chỉ IP, điều chỉnh việc thực thi cho các trường hợp sử dụng cụ thể.
- Real-Time dõi: Chính sách dựa trên số liệu sử dụng mã thông báo được trả về từ điểm cuối OpenAI, cho phép theo dõi và thực thi chính xác các giới hạn trong thời gian thực.
- Tính toán Trước Mã thông báo: Nó cho phép tính toán trước các mã thông báo nhắc ở phía Azure API Management, giảm thiểu các yêu cầu không cần thiết đến hệ phụ trợ OpenAI nếu đã vượt quá giới hạn.
- tùy chỉnh nâng cao: Khách hàng có thể áp dụng tiêu đề và biến chẳng hạn như mã thông báo tiêu thụ và mã thông báo còn lại trong các chính sách để kiểm soát và tùy chỉnh tốt hơn.
Ss bạn có thể thấy, có khá một số tính năng giúp bạn quản lý chi phí và nhờ giám sát thời gian thực, bạn có thể đảm bảo rằng bạn không vượt quá giới hạn.
Cách sử dụng
Để sử dụng chính sách này, bạn cần thêm nó vào quy trình xử lý đến của hoạt động API. Dưới đây là cách bạn có thể thực hiện:
<azure-openai-token-limit counter-key="key value"
tokens-per-minute="number"
estimate-prompt-tokens="true | false"
retry-after-header-name="custom header name, replaces default 'Retry-After'"
retry-after-variable-name="policy expression variable name"
remaining-tokens-header-name="header name"
remaining-tokens-variable-name="policy expression variable name"
tokens-consumed-header-name="header name"
tokens-consumed-variable-name="policy expression variable name" />
Có khá nhiều thuộc tính bạn có thể đặt, nhưng những thuộc tính quan trọng nhất là:
- phím số: Chìa khóa để sử dụng để đếm mã thông báo. Giá trị này có thể là khóa đăng ký hoặc địa chỉ IP.
- tokens-per-minute: Số lượng token cho phép mỗi phút.
- ước tính-prompt-tokens: Có ước tính mã thông báo lời nhắc hay không.
Chính sách Số liệu Mã thông báo Phát hành Azure OpenAI
Chính sách này giải quyết sự cần thiết phải có quan sát chi tiết và phân tích về mức sử dụng mã thông báo các ứng dụng sử dụng các mô hình Azure OpenAI.
Bằng cách cung cấp các số liệu toàn diện, nó giúp các tổ chức:
- tối ưu hóa phân bổ tài nguyên: Hiểu và quản lý việc sử dụng mã thông báo hiệu quả.
- thiện khả năng ra quyết định: Có được thông tin chuyên sâu về các mẫu hình sử dụng để đưa ra quyết định sáng suốt về việc xác định tỷ lệ và quản lý tài nguyên.
- tăng cường giám sát hiệu: Theo dõi và phân tích việc sử dụng mã thông báo để xác định và giải quyết các vấn đề tiềm ẩn một cách chủ động
Cách sử dụng Chính sách Số liệu Mã thông báo Phát ra
Để sử dụng chính sách này, bạn cần thêm nó vào quy trình xử lý đến của hoạt động API. Đây là cách bạn mã hóa nó trong XML:
<azure-openai-emit-token-metric
namespace="metric namespace" >
<dimension name="dimension name" value="dimension value" />
...additional dimensions...
</azure-openai-emit-token-metric>
Dưới đây là ví dụ về cách sử dụng một số chiều:
<policies>
<inbound>
<azure-openai-emit-token-metric
namespace="AzureOpenAI">
<dimension name="User ID" />
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" />
</azure-openai-emit-token-metric>
</inbound>
<outbound>
</outbound>
</policies>
Trong ví dụ trước:
- chính sách được đặt cấu hình để phát ra các số liệu mã thông báo vào không gian tên AzureOpenAI với các kích thước cho ID Người dùng, IP Máy khách và ID API.
- Giá trị của chiều IP Máy khách được đặt thành địa chỉ IP của máy khách thực hiện yêu cầu.
Hãy tưởng tượng bây giờ bạn có thể hiển thị các số liệu này trong bảng điều khiển và bạn có thể theo dõi việc sử dụng API của mình trong thời gian thực. Ví dụ: bạn có thể xem số lượng mã thông báo đang được sử dụng bởi một người dùng cụ thể hoặc số lượng mã thông báo đang được sử dụng bởi một API cụ thể. Tính năng mạnh mẽ này có thể giúp bạn tối ưu hóa tài nguyên của mình và đưa ra quyết định sáng suốt về việc xác định tỷ lệ và quản lý tài nguyên.
Kiểm tra kiến thức của bạn
Phản hồi
Trang này có hữu ích không?
Không
Cần trợ giúp về chủ đề này?
Bạn muốn thử sử dụng Ask Learn để làm rõ hoặc hướng dẫn bạn về chủ đề này?