Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
DOTYCZY: Wszystkie warstwy usługi API Management
Zasady azure-openai-semantic-cache-store buforuje odpowiedzi na żądania interfejsu API uzupełniania czatu usługi Azure OpenAI do skonfigurowanej zewnętrznej pamięci podręcznej. Buforowanie odpowiedzi zmniejsza wymagania dotyczące przepustowości i przetwarzania nałożone na interfejs API usługi Azure OpenAI zaplecza i zmniejsza opóźnienie postrzegane przez użytkowników interfejsu API.
Uwaga
- Te zasady muszą mieć odpowiednie odpowiedzi Get cached do zasad żądań interfejsu API usługi Azure OpenAI.
- Aby zapoznać się z wymaganiami wstępnymi i krokami dotyczącymi włączania buforowania semantycznego, zobacz Włączanie buforowania semantycznego dla interfejsów API usługi Azure OpenAI w usłudze Azure API Management.
Uwaga
Ustaw elementy zasad i elementy podrzędne w kolejności podanej w instrukcji zasad. Dowiedz się więcej na temat ustawiania lub edytowania zasad usługi API Management.
Obsługiwane modele usługi Azure OpenAI w modelach usługi Azure AI Foundry
Te zasady są używane z interfejsami API dodanymi do usługi API Management z poziomu usługi Azure OpenAI w modelach rozwiązania AI Foundry następujących typów:
| Typ API | Obsługiwane modele |
|---|---|
| Uzupełnianie czatu | gpt-3.5gpt-4gpt-4ogpt-4o-minio1o3 |
| Osadzanie | text-embedding-3-largetext-embedding-3-smalltext-embedding-ada-002 |
| Odpowiedzi (wersja zapoznawcza) |
gpt-4o(Wersje: 2024-11-20, , 2024-08-062024-05-13)gpt-4o-mini (Wersja: 2024-07-18)gpt-4.1 (Wersja: 2025-04-14)gpt-4.1-nano (Wersja: 2025-04-14)gpt-4.1-mini (Wersja: 2025-04-14)gpt-image-1 (Wersja: 2025-04-15)o3 (Wersja: 2025-04-16)o4-mini (Wersja: '2025-04-16) |
Uwaga
Tradycyjne interfejsy API uzupełniania są dostępne tylko w starszych wersjach modelu i obsługa jest ograniczona.
Aby uzyskać bieżące informacje o modelach i ich możliwościach, zobacz Artykuł Azure OpenAI in Foundry Models (Usługa Azure OpenAI w modelach usługi Foundry).
Instrukcja zasad
<azure-openai-semantic-cache-store duration="seconds"/>
Atrybuty
| Atrybut | opis | Wymagani | Wartość domyślna |
|---|---|---|---|
| czas trwania | Czas wygaśnięcia buforowanych wpisów określonych w sekundach. Wyrażenia zasad są dozwolone. | Tak | Nie dotyczy |
Użycie
- Sekcje zasad: ruch wychodzący
- Zakresy zasad: globalny, produkt, interfejs API, operacja
- Bramy: klasyczne, v2, zużycie, self-hosted
Uwagi dotyczące użycia
- Te zasady można użyć tylko raz w sekcji zasad.
- Jeśli wyszukiwanie pamięci podręcznej nie powiedzie się, wywołanie interfejsu API, które używa operacji związanej z pamięcią podręczną, nie zgłosi błędu, a operacja pamięci podręcznej zakończy się pomyślnie.
- Zalecamy skonfigurowanie zasad limitu szybkości (lub zasad rate-limit-by-key ) natychmiast po każdym wyszukiwaniu w pamięci podręcznej. Dzięki temu usługa zaplecza nie jest przeciążona, jeśli pamięć podręczna nie jest dostępna.
Przykłady
Przykład z odpowiednimi zasadami wyszukiwania azure-openai-semantic-cache-lookup
W poniższym przykładzie pokazano, jak używać azure-openai-semantic-cache-lookup zasad wraz z zasadami azure-openai-semantic-cache-store w celu pobierania semantycznie podobnych buforowanych odpowiedzi z progiem oceny podobieństwa wynoszącego 0,05. Buforowane wartości są partycjonowane według identyfikatora subskrypcji obiektu wywołującego.
Uwaga
Dodaj zasady limitu szybkości (lub zasady rate-limit-by-key ) po wyszukiwaniu pamięci podręcznej, aby pomóc ograniczyć liczbę wywołań i zapobiec przeciążeniu usługi zaplecza, jeśli pamięć podręczna nie jest dostępna.
<policies>
<inbound>
<base />
<azure-openai-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="azure-openai-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
<rate-limit calls="10" renewal-period="60" />
</inbound>
<outbound>
<azure-openai-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Powiązane zasady
Powiązana zawartość
Aby uzyskać więcej informacji na temat pracy z zasadami, zobacz:
- Samouczek: przekształcanie i ochrona interfejsu API
- Dokumentacja zasad dla pełnej listy instrukcji zasad i ich ustawień
- Wyrażenia zasad
- Ustawianie lub edytowanie zasad
- Ponowne używanie konfiguracji zasad
- Repozytorium fragmentów zasad
- Repozytorium placu zabaw zasad
- Zestaw narzędzi zasad usługi Azure API Management
- Zyskaj wsparcie Copilot w tworzeniu, wyjaśnianiu i rozwiązywaniu problemów z zasadami