Yüksek QPS ile uç nokta aktarım hızını ölçeklendirme (Beta)

Önemli

Bu özellik Beta sürümündedir. Çalışma alanı yöneticileri Bu özelliğe erişimi Önizlemeler sayfasından denetleyebilir. Bkz. Azure Databricks önizlemelerini yönetme.

Varsayılan olarak, standart uç noktalar dizin boyutuna bağlı olarak 20-200 QPS'yi destekler. Arama çubukları, öneri sistemleri ve varlık eşleştirme gibi gerçek zamanlı uygulamalar genellikle 100-1000+QPS gerektirir. Yalnızca standart uç noktalarda en düşük QPS'yi ayarlayabilirsiniz. Databricks, dizinler oluşturulduğunda veya eşitlendiğinde bu aktarım hızı düzeyini desteklemek için altyapıyı sağlar.

Önemli

En düşük QPS'nin ayarlanması ek kapasite sağlar ve bu da uç noktanın maliyetini artırır. Gerçek sorgu trafiğinden bağımsız olarak bu ek kapasite için ücretlendirilirsiniz. Bu ücretleri durdurmak için uç noktayı min_qps=-1 kullanarak varsayılan yapılandırmaya sıfırlayın. Aktarım hızı ölçeklendirmesi en iyi çabayı gösterir ve Beta sırasında garanti edilmez.

Aşağıdaki durumlarda yüksek QPS kullanın:

  • Uygulamanız için 50 QPS'den fazla sürekli aktarım hızı gerekiyor.
  • Normal yük altında 429 (Çok Fazla İstek) hatası alıyorsunuz.
  • Ortalama kullanım düşük görünse bile trafik artışları azaldıkça gecikme süresi düşer.

Gereksinimler

  • Yüksek QPS yalnızca standart uç noktalar için kullanılabilir. Depolama için iyileştirilmiş uç noktalar desteklenmez.
  • 70-100 QPS'den fazlasını işleyen uç noktalar için OAuth kimlik doğrulaması gereklidir. Kişisel erişim belirteçleri (PAT) hız sınırı 70-100 QPS ile sınırlıdır. Bkz. OAuth belirteçleriyle hizmet ilkesellerini kullanma.

En düşük QPS'yi yapılandırma

Yeni bir uç nokta oluştururken veya mevcut bir uç noktayı güncelleştirirken en düşük QPS'yi ayarlayın. Hedef aktarım hızına ulaşmak için gereken ek kapasite, uç noktada bir dizin oluşturulduğunda veya bir sonraki kez eşitlendiğinde otomatik olarak hesaplanır. Beta'da aktarım hızı ölçeklendirmesi en iyi çabadır ve garanti edilmemektedir: gerçek QPS dizin boyutunuz, vektör boyutsallığınız, sorgu karmaşıklığınız ve filtre kullanımınıza bağlıdır.

Databricks kullanıcı arabirimi

Yeni uç nokta oluştururken:

  1. Sol kenar çubuğunda İşlemöğesine tıklayın.

  2. Vektör Arama sekmesine ve uç nokta oluştur'a tıklayın.

    Vektör arama işlemini oluşturun.

  3. Gelişmiş Ayarlar'ın altında En Düşük QPS değerini girin.

    Vektör arama uç noktası oluşturma iletişim kutusu.

Mevcut bir uç noktayı güncelleştirirken:

  1. Uç nokta ayrıntı sayfasına gidin.

  2. Sağ panelde, Pencil icon.Min QPS yanındaki tıklayın.

    En düşük QPS'yi düzenleyin.

  3. Yeni değeri girin ve Kaydet'e tıklayın.

    En düşük QPS değerini girin.

En düşük QPS'yi değiştirdikten sonra yeni yapılandırmayı uygulamak için dizinlerinizi eşitleyin.

Python SDK'sı

from databricks.vector_search.client import VectorSearchClient, MIN_QPS_RESET_TO_DEFAULT

client = VectorSearchClient()

# Create a new endpoint with minimum QPS
endpoint = client.create_endpoint(
    name="my-high-qps-endpoint",
    endpoint_type="STANDARD",
    min_qps=500,
)

# Update an existing endpoint's minimum QPS
response = client.update_endpoint(name="my-endpoint", min_qps=500)

# Check scaling status
scaling_info = response.get("endpoint", {}).get("scaling_info", {})
print(f"Requested min QPS: {scaling_info.get('requested_min_qps')}")
print(f"State: {scaling_info.get('state')}")
# State is "SCALING_CHANGE_IN_PROGRESS" until the next index sync,
# then transitions to "SCALING_CHANGE_APPLIED"

# Reset to default (remove high QPS configuration)
client.update_endpoint(name="my-endpoint", min_qps=MIN_QPS_RESET_TO_DEFAULT)

REST API

En düşük QPS ile uç nokta oluşturma:

POST /api/2.0/vector-search/endpoints
{
  "name": "my-high-qps-endpoint",
  "endpoint_type": "STANDARD",
  "min_qps": 500
}

Mevcut bir uç noktada en düşük QPS'yi güncelleştirin:

PATCH /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
{
  "min_qps": 500
}

Ölçeklendirme durumunu denetleyin:

GET /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>

Yanıt scaling_info alanında istenen en düşük QPS ve ölçeklendirme stategösterilir. Durum, bir sonraki dizin eşitlemesi tamamlanana kadardır SCALING_CHANGE_IN_PROGRESS ve sonra öğesine SCALING_CHANGE_APPLIEDgeçirilir.

Varsayılana sıfırla (yüksek QPS'yi kaldır):

PATCH /api/2.0/vector-search/endpoints/<ENDPOINT_NAME>
{
  "min_qps": -1
}

Ölçeklendirme nasıl uygulanır?

Minimum QPS ayarladıktan sonra, bu uç noktada bir dizin oluşturulduğunda veya eşitlendiğinde gerekli kapasite sağlanır. Değişikliği hemen uygulamak için uç noktada barındırılan her dizinde bir eşitleme tetikleyin.

Uyarı

Ölçeklendirme işlemi devam ederken en düşük QPS'yi güncelleştirme girişimi bir RESOURCE_CONFLICT hata döndürür. Yeniden denemeden önce geçerli işlemin tamamlanmasını bekleyin.

Sınırlamalar

  • Otomatik ölçeklendirme yok: Beklenen trafiğe göre en düşük QPS'yi el ile ayarlamanız gerekir. Trafik sağlanan düzeyi aşarsa 429 hatası oluşur. Bkz. Sorgu ani artışlarını planlama.
  • Yalnızca standart uç noktalar: Depolama için iyileştirilmiş uç noktalar desteklemez min_qps.