İstem önbelleği, istemin başında aynı içeriğe sahip daha uzun istemler için genel istek gecikme süresini ve maliyetini azaltmanızı sağlar.
Bu bağlamdaki "İstem" , sohbet tamamlama isteğinizin bir parçası olarak modele gönderdiğiniz girişe başvurur. Hizmet, aynı giriş belirteçlerini tekrar tekrar yeniden işlemek yerine, genel performansı geliştirmek için işlenen giriş belirteci hesaplamalarının geçici önbelleğini koruyabilir. İstem önbelleğinin model yanıtında döndürülen çıkış içeriği üzerinde gecikme süresi ve maliyet azaltmanın ötesinde hiçbir etkisi yoktur. Desteklenen modeller için, önbelleğe alınan belirteçler Standart dağıtım türleri için giriş belirteci fiyatlandırmasına ve Sağlanan dağıtım türleri için giriş belirteçlerinde %100'e varan indirime göre faturalandırılır.
Önbellekler genellikle işlem yapılmadığında 5-10 dakika içinde temizlenir ve önbelleğin son kullanımından sonra her zaman bir saat içinde kaldırılır. İstem önbellekleri Azure abonelikleri arasında paylaşılmaz.
Desteklenen modeller
Şu anda yalnızca aşağıdaki modeller Azure OpenAI ile istem önbelleğe almayı destekler:
o1-2024-12-17
o1-preview-2024-09-12
o1-mini-2024-09-12
gpt-4o-2024-11-20
gpt-4o-2024-08-06
gpt-4o-mini-2024-07-18
gpt-4o-realtime-preview (sürüm 2024-12-17)
gpt-4o-mini-realtime-preview (sürüm 2024-12-17)
Not
İstem önbelleğe alma özelliği artık ve gpt-4o-miniiçin gpt-4o model ince ayarının bir parçası olarak da kullanılabilir. Ayrıntılar için fiyatlandırma sayfasının ince ayar bölümüne bakın.
API desteği
İlk olarak API sürümünde 2024-10-01-previewistem önbelleğe alma için resmi destek eklendi. Şu anda API yanıt parametresini yalnızca o1 model ailesi destekler cached_tokens .
Başlarken
bir isteğin istem önbelleğe alma avantajından yararlanması için isteğin her ikisi de olmalıdır:
En az 1.024 belirteç uzunluğunda.
İstemdeki ilk 1.024 belirteç aynı olmalıdır.
bir istemdeki belirteç hesaplamaları ile istem önbelleğinin geçerli içeriği arasında bir eşleşme bulunduğunda, buna önbellek isabeti denir. Önbellek isabetleri, sohbet tamamlama yanıtında olduğu prompt_tokens_details gibi cached_tokens görünür.
her 128 ek özdeş belirteç için ilk 1.024 belirteç önbelleği isabeti gerçekleştikten sonra.
İlk 1.024 belirteçteki tek bir karakter farkı, 0 değeriyle karakterize edilen cached_tokens bir önbellek kaçırılması ile sonuçlanır. İstem önbelleğe alma varsayılan olarak etkindir ve desteklenen modeller için ek yapılandırma gerekmez.
Kullanıcı iletilerine hem bağlantı hem de base64 ile kodlanmış veri olarak eklenen görüntüler. detail parametresi istekler arasında aynı şekilde ayarlanmalıdır.
Yapılandırılmış çıkış şeması, sistem iletisine ön ek olarak eklenir.
gpt-4o gpt-4o-mini o1 (sürüm 2024-12-17)
Önbellek isabetlerinin oluşma olasılığını geliştirmek için isteklerinizi, iletiler dizisinin başında yinelenen içerik oluşacak şekilde yapılandırmanız gerekir.
İstem önbelleğini devre dışı bırakabilir miyim?
İstem önbelleğe alma, desteklenen tüm modeller için varsayılan olarak etkindir. İstem önbelleği için geri çevirme desteği yoktur.
Bu modülde, istem mühendisliğinin doğal dil işleme modelleri için istemler oluşturmaya ve bunlara ince ayar yapmaya nasıl yardımcı olabileceğini öğrenin. İstem mühendisliği, doğru ve ilgili yanıtlar oluşturmada modelin performansını iyileştirmek için çeşitli istemler tasarlamayı ve test etmeyi içerir.