Penyimpanan sementara prompt

Penyimpanan cache prompt mengurangi latensi permintaan secara keseluruhan dan biaya untuk prompt yang lebih panjang yang memiliki konten awal yang identik. Dalam konteks ini, "prompt" mengacu pada input yang Anda kirim ke model sebagai bagian dari penyelesaian obrolan atau permintaan pembuatan respons Anda. Daripada memproses ulang token input yang sama berulang-ulang, layanan mempertahankan cache sementara komputasi token input yang diproses untuk meningkatkan performa keseluruhan. Penyimpanan sementara perintah tidak berdampak pada output yang dikembalikan dalam respons model, selain pengurangan latensi dan biaya.

Untuk model yang didukung, token yang di-cache ditagih dengan diskon harga token input untuk jenis penyebaran Standar dan diskon hingga 100% pada token input untuk jenis penyebaran Terkelola. Harga cache prompt sama untuk kedua kebijakan penyimpanan.

Meminta retensi cache

Cache prompt dapat menggunakan kebijakan retensi dalam memori maupun kebijakan retensi yang diperpanjang. Jika tersedia, caching prompt yang diperluas bertujuan untuk menyimpan cache lebih lama, sehingga permintaan berikutnya lebih mungkin cocok dengan cache yang ada.

Untuk mengonfigurasi kebijakan retensi cache prompt, atur parameter prompt_cache_retention pada API Respons atau Chat Completions.

Retensi cache prompt dalam memori

Sistem biasanya menghapus cache dalam waktu 5 hingga 10 menit setelah tidak aktif dan selalu menghapusnya dalam satu jam dari penggunaan terakhir cache. Sistem tidak berbagi cache perintah antara langganan Azure.

Semua model Azure OpenAI GPT-4o atau yang lebih baru mendukung penyimpanan cache prompt di memori. Ini berlaku untuk model yang memiliki penyelesaian obrolan, penyelesaian otomatis, respons, atau operasi waktu nyata. Untuk model yang tidak memiliki operasi ini, fitur ini tidak tersedia.

Retensi cache permintaan yang diperluas

Retensi cache prompt yang diperluas membuat awalan cache tetap aktif lebih lama, hingga maksimum 24 jam. Cache prompt yang diperluas bekerja dengan memindahkan tensor kunci/nilai ke penyimpanan lokal GPU saat memori penuh, yang secara signifikan meningkatkan kapasitas penyimpanan yang tersedia untuk cache.

Retensi cache prompt yang diperpanjang tersedia untuk model berikut:

  • gpt-5.4
  • gpt-5.3-codex
  • gpt-5.2
  • gp5-5.1-codex-max
  • gpt-5.1
  • gpt-5.1-codex
  • gpt-5.1-codex-mini
  • gpt-5.1-chat
  • gpt-5
  • gpt-5-codex
  • gpt-4.1

Mengonfigurasi per permintaan

Untuk gpt-5.4 dan model yang lebih lama, jika Anda tidak menentukan kebijakan retensi, nilai defaultnya adalah in_memory. Nilai yang diizinkan adalah in_memory dan 24h. Untuk semua model yang lebih baru, defaultnya adalah 24h dan in_memory tidak didukung.

{
  "model": "gpt-5.4",
  "input": "Your prompt goes here...",
  "prompt_cache_retention": "24h"
}

Memulai

Untuk memanfaatkan prompt caching, permintaan harus memenuhi kedua persyaratan ini:

  • Panjang minimal 1.024 token.
  • 1.024 token pertama dalam prompt harus identik.

Permintaan dialihkan berdasarkan hash dari awalan pertama suatu prompt. Hash biasanya menggunakan 256 token pertama, meskipun panjang yang tepat bervariasi tergantung pada model.

Ketika kecocokan ditemukan antara komputasi token dalam prompt dan konten cache prompt saat ini, itu disebut sebagai cache hit. Temuan cache muncul seperti cached_tokens di bawah prompt_tokens_details dalam respons penyelesaian obrolan.

{
  "created": 1729227448,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Setelah 1.024 token pertama, hit cache terjadi untuk setiap 128 token identik tambahan.

Perbedaan karakter tunggal dalam 1.024 token pertama menghasilkan kesalahan cache, yang ditandai dengan cached_tokens nilai 0. Penyimpanan perintah diaktifkan secara bawaan tanpa konfigurasi tambahan yang diperlukan untuk model yang didukung.

Jika Anda memberikan parameter prompt_cache_key, parameter tersebut akan digabungkan dengan awalan hash, sehingga Anda dapat memengaruhi perutean dan meningkatkan rasio hit cache. Manfaat ini sangat berguna saat banyak permintaan memiliki prefiks umum yang panjang. Jika permintaan untuk prefiks dan kombinasi prompt_cache_key yang sama melebihi tingkat tertentu (sekitar 15 permintaan per menit), sebagian permintaan akan dialihkan ke mesin tambahan, sehingga mengurangi efektivitas cache.

Tanya jawab umum

Apa itu cache?

Dukungan fitur untuk model seri o1 bervariasi menurut model. Untuk informasi selengkapnya, lihat panduan model penalaran khusus.

Prompt caching mendukung:

Cache didukung Deskripsi
Pesan Array pesan lengkap: konten sistem, pengembang, pengguna, dan asisten
Gambar Gambar yang disertakan dalam pesan pengguna, baik sebagai tautan atau sebagai data yang dikodekan base64. Parameter detail harus diatur sama di seluruh permintaan.
Penggunaan alat Baik array pesan maupun definisi alat.
Output terstruktur Skema output terstruktur ditambahkan sebagai awalan ke pesan sistem.

Untuk meningkatkan kemungkinan hit cache, susun permintaan Anda sehingga konten berulang terjadi di awal array pesan.

Bisakah saya menonaktifkan penyimpanan sementara prompt?

Penyimpanan sementara prompt diaktifkan secara default untuk semua model yang didukung. Tidak ada dukungan untuk membatalkan partisipasi dalam caching prompt.

Apakah cache prompt berfungsi dengan residensi data?

Penyimpanan cache prompt di memori kompatibel dengan semua wilayah residensi data. Cache prompt lanjutan untuk sementara menyimpan data di mesin GPU dan menjaga data tetap berada di region hanya saat menggunakan jenis deployment Regional Standard atau Regional Terprovisi.