Azure yapay zeka iş yükleri için maliyeti iyileştirme

Bu makalede, ilk aşama başlangıç ekipleri Microsoft Azure yapay zeka iş yüklerindeki maliyetleri belirleme ve azaltma işlemleri gösterilmektedir. Bulut faturasından ve aynı zamanda değerlendirme (eval) veri kümesinden sorumlu olan kurucu, CTO veya ilk mühendis için yazılmıştır. Etiketleme ve bütçe hijyenini, istek yolundaki dört kaldıracı (önbelleğe alma, toplu işleme, yönlendirme ve model seçimi), kurum içi çıkarım için GPU’nun doğru boyutlandırılmasını, çok kiracılı getirme kalıplarını ve özel bir platform ekibi olmadan uygulayabileceğiniz güvenli bir değişiklik döngüsünü kapsar. Her bölüm, geçerli olduğu startup'lar için Azure mimarisi kılavuzundaki aşamayla (Keşfet, Büyüt veya Değer Elde Et) etiketlenmiştir; böylece henüz karşılaşmadığınız sorunlara göre optimizasyon yapmaktan kaçınabilirsiniz.

Bu makalede şunları nasıl yapacağınızı öğreneceksiniz:

  • Azure yapay zeka iş yükündeki en yüksek maliyet sürücülerini belirleme.
  • Maliyet iyileştirme kaldıraçlarını başlangıç aşamanızla eşleştirin.
  • İstem önbelleğe alma, anlamsal önbelleğe alma, toplu işleme, model yönlendirme ve uygun boyutlandırma uygulayın.
  • Kullanıma göre değil, gelire göre doğrusal ölçeklenen çok kiracılı veri erişimi ve veritabanı mimarileri tasarlayın.
  • Maliyet değişikliklerini bir değerlendirme denetimi, bütçe uyarıları ve kiracı başına oran sınırları içine alın.
  • Maliyet yönetiminde kendin yap yaklaşımını aştığınızı gösteren ilk işaretleri fark edin.

Prerequisites

  • Üretimde, hazırlamada veya çalışan bir prototipte çalışan en az bir yapay zeka iş yüküne sahip bir Azure aboneliği.
  • Ölçmek istediğiniz kaynaklarda Sahip veya Katkıda Bulunan izinleri.
  • Azure portalını rahatça açın. Maliyet Yönetimi veya Azure İzleyici ile ilgili önceden deneyim gerekmez. Bu makale sizi ilgili sayfalara işaret eder.
  • Yapay zeka özelliğiniz için 10 ile 50 arasında temsili istem ve beklenen davranışlar içeren küçük bir değerlendirme kümesi. Henüz bir makaleniz yoksa İlgili makaleler bölümüne bakın. bir öğleden sonra ilk sürümü oluşturabilirsiniz.

Bu durum startup'lar için neden önemlidir?

Erken aşamadaki bir başlangıç için yapay zeka maliyeti operasyonel risktir. Daha düşük çıkarım maliyeti, mühendislik ekiplerine bir sonraki deneme için zaman kazandırır; aktif kullanıcı başına istikrarlı bir maliyet ise bir sonraki faturayı değil, bir sonraki yatırım dönüm noktasını düşünerek plan yapmanızı sağlar. Bu makaledeki desenler kasıtlı olarak küçüktür. Platform veya FinOps ekibine gerek olmadan her birine bir hafta sonu boyunca kurucu mühendis tarafından ulaşılabilir.

Important

Başlamak için ayrılmış bir FinOps ekibine ihtiyacınız yoktur. Maliyet kazançlarının ilk yüzde 80'i ilk günden itibaren her şeyi etiketlemek, bir kişiyi haftalık Maliyet Yönetimi gözden geçirmesinden sorumlu yapmak ve bu makaledeki kaldıraçları aşama sırasına uygulamaktan gelir. Resmî FinOps araç ve süreçlerini, ancak aylık harcama yaklaşık 50.000 ABD dolarını aştığında veya beşten fazla farklı iş yükünü kapsadığında devreye alın.

Yapay zeka maliyeti neden geleneksel bulut maliyetinden farklı görünüyor?

Geleneksel bir web uygulamasında aylık faturanız esas olarak VM'ler, veritabanları ve çıkış trafiği tarafından belirlenir. Kaç kullanıcıya hizmet ettiğinizi bilerek genellikle yüzde 10'lar içinde tahminde bulunabilirsiniz. Yapay zeka iş yükleri bu sezgiyi bozar. Aynı kullanıcı bağlam uzunluğuna, alma derinliğine ve isteğin hangi modele yönlendirildiğine bağlı olarak bir dakika 0,001 ABD doları ve sonrakinde 0,40 ABD doları maliyete mal olabilir.

Azure'da çoğu yapay zeka ürününde dört maliyet şekli yinelenir:

  • Token tüketimi, kullanıcı sayısıyla değil, bağlam uzunluğuyla ölçeklenir. Naif bir geri getirme destekli üretim (RAG) istemi, tek bir ürün değişikliğinden sonra 800 tokendan 12.000 tokene şişebilir.
  • GPU boşta kalma süresi, kurum içinde barındırılan çıkarımda en büyük gizli maliyettir. Bir A100'ün bir gecede çalışması, küçük bir Postgres veritabanının bir aydan fazla maliyetine mal olur.
  • Arama ve vektör veritabanlarından geri getirme yayılımı katlanarak artar. Her sohbet dönüşü, günlüklerinizde hiç görmediğiniz üç ile sekiz gizli sorgu verebilir.
  • Çıkış ve depolama, model artefaktları, gömmeler, denetim günlükleri ve kiracı bazlı dizinler aracılığıyla yavaş yavaş ortaya çıkar.

Her maliyet sürücüsünün bilinen bir kaldıraç kümesi vardır. Kalan bölümlerde bunlar, öncelik sırasına göre ve kaldıracın geçerli olduğu başlangıç aşamasıyla etiketlenerek açıklanır; böylece ekipler henüz karşılaşmadıkları sorunlar için gereğinden karmaşık çözümler tasarlamasın.

Tip

Yatırım getirinizi (ROI) sürdürmek ve iyileştirmek için mimarinizdeki Azure Well-Architected Framework maliyet iyileştirme kılavuzunu kullanın.

Aşama haritası: hangi kollar nereye aittir?

Startup'lar için Azure mimari kılavuzu ürün geliştirmenin üç aşamasını açıklar: Keşfet, Genişlet ve Ayıkla. Bu makaledeki maliyet iyileştirme kaldıraçları bu aşamalarla uyumlu. Bugün ekibinize hangi bölümlerin uygulanacağını ve hangi bölümlerin erteleneceğini kapsamak için aşağıdaki tabloyu kullanın.

Stage Çalışan sayısı Birincil maliyet hedefi Karşılığını veren unsurlar
Araştırın 1-10 mühendis İsteğe bağlılık ve hız Etiketleme, istem önbelleğe alma, ucuz varsayılan model
Genişlet 10-50 mühendis Maliyetlerin gelirle birlikte doğrusal artmasına son verin Anlamsal önbellek, sıfıra ölçeklendirme, yönlendirme, Batch API
Extract 50'den fazla mühendis Kenar boşluğu, öngörülebilirlik, FinOps Rezervasyonlar, ayrılmış dizinler, niceleme, kiracı başına fiyatlandırma

En yüksek maliyet sürücülerinizi belirleme

Herhangi bir şeyi optimize etmeden önce, paranın aslında nereye gittiğine dair net bir görünüm edinin. Azure'da en hızlı yol, son 30 gün boyunca hizmet ve etikete göre gruplandırılmış Maliyet Yönetimi'dir.

Birinci günden itibaren her şeyi etiketleme

Etiketleme, maliyet görünürlüğü için en yüksek kaldıraçlı uygulamadır. Tutarlı etiketler olmadan harcamayı bir kiracıya, özelliğe veya ortama bağlayamazsınız. Startup Scale İniş Bölgesi (SSLZ) referansı, etiketlemeyi iniş bölgesi ilkesi düzeyinde zorunlu kılar. Yapay zeka kaynakları için de aynı yaklaşımı kullanın.

costCenter = product | platform | research
tenant     = <customer-id> | shared
workload   = inference | embedding | training | eval
env        = prod | staging | dev
team       = <owning-team>

İlk olarak nereye bakılır?

Maliyet belirleyicisi Nerede bulunur? Normal fatura payı
Belirteçler (LLM API) Azure OpenAI ölçümleri > İşlenen İstem/Tamamlama Belirteçleri 30-60%
GPUs SKU'ya göre VM/AKS düğümü saatleri (ND, NC ve NV aileleri) 20-50%
Vektör/arama AI Arama sorgu birimleri, Cosmos DB RU/sn 5-20%
Depolama Model yapıtları için Blob Depolama, Azure Dosyalar ve Azure Container Registry 3-10%
Egress Bölge dışında, özellikle bulutlar arası çağrılarda bant genişliği 2-15%

Maliyet Yönetimi'ni her gün bir depolama hesabına aktarın ve mevcut analiz altyapınıza bağlayın. Haftalık etkin kullanıcı başına maliyet grafiği, iyileştirmenin hedeflenen etkiye sahip olduğuna dair güvenilir bir sinyaldir.

1. Kaldıraç: Önbelleğe alma, toplu işlem, yönlendirme ve model seçimi

Aşama: Extract aracılığıyla keşfedin. Keşfet'te önbelleğe almayla başlayın, Genişlet'e yönlendirme ve toplu işlem ekleyin ve Ayıkla'da her kiracı için ayrıntılı model seçimi ekleyin.

Tip

Gömmeleri, kaynak içeriğin karmasıyla anahtarlanan şekilde önbelleğe alın ve ilk geçişte sınıflandırma veya çıkarım için GPT-4o mini ya da açık ağırlıklı 7B ila 13B model gibi daha küçük ve daha ucuz bir model kullanın. Yalnızca küçük modelin belirsiz olduğu isteklerde bir sınır modeline yükseltin. Bu desen tek başına genellikle rutin sorgularda ölçülebilir kalite kaybı olmadan çıkarım maliyetini yüzde 60 ile 80 oranında düşürür.

Caching

  • İstem önbelleğe alma: Azure OpenAI, GPT-4o ve daha yeni modellerde desteklenen, en az 1.024 belirteç içeren istemlerde yinelenen ön ekler için otomatik olarak indirim uygular. İlk 1.024 belirtecin önbelleğe isabet etmesi için aynı olması gerekir, bu nedenle sistem istemlerini ve araç tanımlarını kararlı tutun.
  • Semantic cache: Ekleme ve yanıt çiftlerini Redis için Azure Önbellek veya Cosmos DB'de depolayın. Yeni bir sorgu yaklaşık 0,95'in üzerinde kosinüs benzerliğine sahip olduğunda önbelleğe alınmış yanıtı döndürür.
  • Çıktı önbelleği: SSS ve belirlenimci araçlar gibi kişiselleştirilmiş olmayan uç noktalar için basit bir yaşam süresi (TTL) önbelleği trafiği yüzde 30 ile 80 arasında keser.

Toplu işleme

Yerleştirme ve sınıflandırma görevleri en açık adaylardır. Azure OpenAI Batch API, gecelik dizin yenilemeleri, değerlendirici çalıştırmaları ve eşzamansız özetleme gibi 24 saate kadar bekleyebilen işler için gerçek zamanlı işlemeye kıyasla yüzde 50 indirim sunar.

Routing

Çoğu ürünün her aramada en pahalı modele ihtiyacı yoktur. Kural tabanlı veya öğrenilmiş bir yönlendirici, ölçülebilir kalite düşüşü olmadan trafiğin yüzde 60-80'ini daha ucuz bir modele gönderebilir.

Pattern Ucuz yol Pahalı yol
Amaç sınıflandırması GPT-4o mini veya Phi-4 Belirsiz istekler için GPT-4o
Araç kullanımı veya işlev çağrısı Orta katman modeli Yeniden denemede en üst düzey model
Uzun bağlamlı özetleme Orta seviye model ile kayan pencere Tam bağlamlı üst düzey model
Kod oluşturma Şablon için orta seviye model Yeniden düzenleme için üst katman modeli

Model seçimi

Model seçimini her çeyrekte yeniden değerlendirin. Fiyatlar ve kalite hızlı hareket eder. Altı ay önce tek seçeneğiniz olan bir model, değerlendirmelerinizde bir ile iki puan arasında puan alan daha yeni bir SKU'dan beş kat daha pahalı olabilir.

Lever 2: Otomatik ölçeklendirme ile doğru boyutlu altyapı

Aşama: Genişlet ve Çıkar. Keşfet bölümünde App Service, Container Apps tüketimi veya Azure OpenAI Service gibi sunucusuz ya da hizmet olarak platform (PaaS) kullanın ve bu ayarı atlayın.

Azure Kubernetes Service (AKS) veya Container Apps'te vLLM, Triton veya Metin Oluşturma Çıkarımı (TGI) ile kendi kendine çıkarım yapıyorsanız, en büyük ikinci kaldıracınız GPU'ların boşta olmadığından emin olmaktır.

Boştaki iş yüklerini sıfıra kadar ölçeklendirin

GPU iş yükü profiline sahip Container Apps’te minReplicas: 0 ayarlayın ya da devam eden istek yokken düğüm havuzlarını sıfıra kadar ölçeklendirmek için AKS üzerinde Yatay Pod Otomatik Ölçeklendirme’yi (HPA) veya KEDA’yı kullanın. Soğuk başlangıçlar genellikle on saniyedir. Modelinizle kıyaslama yapın ve kullanıcıya dönük gecikme önemliyse iş saatleri boyunca hazır durumda bir replika bulundurun.

Model boyutuna göre GPU SKU’sunu uygun şekilde boyutlandırın

GPU sınıfını parametre sayısıyla eşleştirin. T4 veya L4, yaklaşık 13B parametrelerin altındaki modeller için yeterlidir. A100 veya H100, yalnızca yaklaşık 34 milyar parametrenin üzerindeki modellerde ya da kalıcı olarak yüksek sorgu/saniye (QPS) yüklerinde karşılığını verir. Container Apps sunucusuz GPU şu anda T4 ve A100'i desteklemektedir. L4 ve H100, AKS gerektirir.

Saptamak için ani eğitim ve toplu işler

Gecelik değerlendirmeleri, gömme yenilemelerini ve çevrimdışı özetlemeyi, genellikle isteğe bağlı havuzlardan yüzde 60 ila 80 daha ucuz olan spot düğüm havuzlarında çalıştırın. Üretim çıkarımlarını ayrılmış kapasitede tutun. Aşağıdaki tabloda otomatik ölçeklendirme stratejileri ve bunların tipik tasarrufları özetlemektedir.

Caution

Spot kapasite, yalnızca 30 saniye önceden bildirimle geri alınabilir. Spot kapasiteyi yalnızca denetim noktaları alınabilen veya sorunsuzca yeniden başlatılabilen işler için kullanın; örneğin toplu değerlendirmeler, gömme yenilemeleri, çevrimdışı özetleme ve sık denetim noktaları alınarak yapılan ince ayar. Yeniden başlatma mantığı olmadan hiçbir zaman kullanıcıya yönelik çıkarım veya işler yerleştirmeyin.

Strateji Nasıl? Tipik tasarruflar
Sıfıra ölçeklendirin minReplicas: 0 GPU iş yükü profiline sahip Container Apps üzerinde. Soğuk başlangıçlar genellikle on saniyedir. Modelinizle karşılaştırma. En fazla 90%
Kuyruk derinliğine göre KEDA CPU'ya değil Service Bus veya kuyruk iletilerine göre ölçeklendirin. 30-60%
SKU'yu doğru boyutlandır 13B'den az parametreye sahip modeller için T4 veya L4. A100 veya H100 yalnızca 34B'den fazla parametreye veya yüksek QPS'ye sahip modeller için. Container Apps sunucusuz GPU şu anda yalnızca T4 ve A100'leri desteklemektedir. L4 ve H100, AKS gerektirir. 40-70%
Spot kapasite Toplu işlem ve değerlendirme için spot düğüm havuzları. Üretim için isteğe bağlı kapasite. 40-80%
Kuantizasyon Daha büyük modelleri daha küçük GPU'lara sığdırmak için AWQ veya GPTQ 4 bit niceleme. 30B'ı 16 GB'a sığdır

Note

Sohbet arayüzünde ölçeği sıfıra indirmek, fark edilir bir soğuk başlangıç gecikmesine neden olur. Yaygın bir yaklaşım, iş saatleri boyunca hazır durumda bir ila iki replika tutmak ve gece boyunca ölçeği sıfıra indirmektir.

Kaldıraç 3: Geri getirme maliyetlerinde ani artışlar olmadan çok kiracılı kalıplar

Aşama: Geç Genişletme ve Ayıklama. Keşfet'te, neredeyse kesinlikle tek bir kiracınız vardır: kendiniz. En az üç gerçek müşteriniz olana kadar bu bölümü atlayın.

Tek kiracılı prototip için alma ve veritabanı desenleri seçildiğinde çok kiracılı yapay zeka ürünleri büyük ölçekte başarısız olur. Üç desen yinelenir.

Kiracı başına bir dizin ve filtrelerle paylaşılan dizin karşılaştırması

Her kiracı için ayrılmış bir AI Search dizini net bir yalıtım sağlar, ancak boşta olsa bile her dizin için ücret alınır. Kiracı filtresine sahip paylaşılan dizin, küçük ve orta ölçekli olarak çok daha ucuzdur. Yalnızca kurumsal katman için veya bir kiracı tanımlı bir boyut eşiğini aştığında özel seçeneğine geçin.

Vektör veritabanı seçimi

Mevcut altyapıya ve ölçeklendirmeye göre vektör deponuzu seçin. Aşağıdaki tabloda her seçeneğin ne zaman sığdığını özetlemektedir.

Warning

Bir vektör dizinini veya onun temel veri deposunu silmek geri alınamaz; ayrıca büyük bir veri kümesi için yeniden gömme işlemi, model çağrılarında yüzlerce ila binlerce dolara ek olarak saatler süren mühendislik çalışmasına mal olabilir. Vektör deposunda herhangi bir yıkıcı değişiklik yapmadan önce kaynak belgelerin anlık görüntüsünü alın ve yeniden ekleme işlem hattınızın küçük bir alt kümede uçtan uca çalıştığını doğrulayın.

Seçenek En iyisi Maliyet şekli
Azure Yapay Zeka Arama (vektör) Hibrit arama ve yönler Replika başına, öngörülebilir
Cosmos DB (vektör) Teams zaten uygulama verileri için Cosmos DB kullanıyor RU/sn, QPS ile ölçeklenir
Postgres'te pgvector Küçük veya orta düzeyde corpora, basit operasyonlar VM başına, çok ucuz
Ayrılmış vektör veritabanı 100M+ vektör, yüksek geri çağırma gereksinimleri Düğüm başına, pahalı

Gizli N+1 almalarından kaçının

search öğesini çağıran her aracı adımı, ücretlendirilebilir bir sorgudur. Her kullanıcı etkileşim adımı için kayıt alma çağrılarının sayısını kaydedin ve medyan bütçenizi aştığında uyarı verin. İyi bir başlangıç hedefi, her dönüşte iki veya daha az geri getirme işlemidir. Yeniden sıralama ve yeniden yazma, trafiği yanlışlıkla iki katına çıkarmanın kolayca yaşanabildiği noktalardır.

İdare: Maliyet değişikliklerini güvende tutma

Aşama: Tüm aşamalar. Bütçe, dağıtımdan önce tek satırlık bir değerlendirme denetimi ve tek bir hız sınırı içeren hafif sürüm, ilk günden itibaren Explore içinde yer alır. CI'ı bloke eden değerlendirme kapıları ve API Management içinde kiracı başına oran sınırlamaları içeren daha ağır sürüm, Expand ve ötesine aittir.

Kaliteyi bozan bir iyileştirme, iyileştirme değildir. Bu bir kesinti. Her maliyet değişikliğini üç koruma mekanizmasıyla güvence altına alın. Her koruma tek bir mühendis tarafından bir saatten daha küçük bir süre içinde ayarlanabilir.

  1. Değerlendirme denetimi: Herhangi bir istem, model veya yönlendirme değişikliği dağıtmadan önce değerlendirme kümenizi çalıştırın. İlk aşamada bu kontrol, manuel olarak çalıştırdığınız bir betik olabilir. Puan, örneğin 100 puanlık bir ölçekte 1 puan olmak üzere, toleransınızı aşacak kadar düşerse dağıtımı engelleyin veya geri döndürün.
  2. Bütçe uyarıları: Kaynak grubu başına, yüzde 50, yüzde 80 ve yüzde 100 düzeylerinde uyarılar içeren Azure Maliyet Yönetimi bütçeleri ayarlayın. Bunları hata bildirimlerinizi alan aynı Slack veya Teams kanalına yönlendirin; böylece harcamalar ve olaylar aynı yere gelir.
  3. İstek hızı sınırı: API Management, NGINX veya ağ geçidinizdeki tek bir IP başına veya API başına anahtar üst sınırı bile, bir kaçak istemcinin gece boyunca kredi bakiyenizi boşaltmasını engeller. Daha sonra ödeme yapan müşterileriniz olduğunda kiracı başına üst sınır ekleyin.

Çeşitli maliyet iyileştirmelerini tek bir sürümde paketleme konusunda dikkatli olun. Değişiklik kümesi bir araya geldiğinde ilişkilendirme zorlaşır ve herhangi bir regresyonun kesilmesi pahalıya patlar.

İki kollu deney: öncesi ve sonrasının nasıl karşılaştırılacağı

Nereden başlayacağınıza karar verirken, önceki bölümlerden iki kaldıraç seçin, bunları bir özellik bayrağının arkasına gönderin ve 7 ila 14 gün boyunca ölçün. Anlamlı hareketleri algılamak için iki kol yeterlidir. İkiden fazlası atfı güvenilmez kılar.

Aşamaya göre önerilen ilk çift

Stage Kol A Kaldıraç B
Lansman Öncesi (<100 DAU) Komut önbelleğe alma Ucuz varsayılan modelle model yönlendirme
Erken çekiş (100-10k DAU) Anlamsal önbellek Çıkarım için sıfıra ölçekleme
Ölçek (10k+ DAU) Eşzamansız işlemler için Batch API'si Kiracı başına dizin stratejisi
Kurumsal katman En çok kullanılan hesaplar için ayrılmış dizinler L4 veya H100 üzerinde kuantize edilmiş modeller
Baseline window:   2026-04-15 to 2026-04-28 (14 days)
Treatment window:  2026-05-01 to 2026-05-14 (14 days)
Levers shipped:    1) semantic cache on /chat
                   2) scale-to-zero on vLLM

Metrics:
  cost_per_active_user   (target: down 30%)
  p95_latency_ms         (guardrail: +<= 150 ms)
  eval_score_delta       (guardrail: >= -1.0)

Decision rule: Keep both if all guardrails hold. Otherwise, revert and ship one at a time.

Bu makalenin kapsadıkları ve kapsamadıkları

Bu makalenin kapsamı kasıtlı olarak belirlenmiştir. Aşağıdaki bölümlerde kapsam dahilindeki konular, kapsamı dışında olan konular ve bunların ne zaman ekleneceğini belirten sinyaller listelenir.

Kapsam içinde

  • Herhangi bir başlangıç için uygun etiketleme, bütçeler ve Maliyet Yönetimi uygulamaları.
  • Dört istek yolu kolu: önbelleğe alma, toplu işlem, yönlendirme ve model seçimi.
  • Kurum içi barındırılan çıkarım için GPU’nun ihtiyaca göre boyutlandırılması ve sıfıra ölçeklendirme.
  • 3 ila 100 ücretli kiracısı olan ürünler için çok kiracılı veri getirme desenleri.
  • Güvenli değişiklikler için bir yönetişim döngüsü: değerlendirme eşiği, bütçe uyarıları ve kiracı bazında hız sınırları.

Kapsam dışı

Başlık Ne zaman eklenir?
Yapay zeka işlem için rezervasyonlar ve tasarruf planları Çıkarım faturası 90 gün boyunca sabit kalır; bu genellikle Expand’in ortalarına denk gelir.
Apptio Cloudability, Vantage ve benzeri araçlar gibi ayrılmış FinOps araçları Bulut harcaması ayda yaklaşık 50.000 ABD dolarını aşıyor veya çok bulutlu bir işletmeniz var. Çoğu erken aşamadaki startup'ların buna ihtiyacı yoktur.
Her bir son müşteri için özelleştirilmiş belirteç tabanlı faturalama Kullanıma dayalı fiyatlandırma satarsınız ya da bir tenant faturanın yüzde 25’ini aşar.
DeepSpeed ve FSDP ayarlaması gibi eğitim maliyeti iyileştirmesi Modelleri şirket içinde eğitebilirsiniz. Çıkarım odaklı ürünler buna ihtiyaç duymaz.
Bölgeler arası veya çok bulutlu maliyet arbitrajı Kanıtlanmış tek bölge ekonomik modeliyle Extract aşamasındasınız.

Bu yaklaşım artık yeterli olmadığında

Bu makaledeki uygulamalar kendi bulutlarını çalıştıran küçük ekipler için tasarlanmıştır. Bir noktada işletmeniz bunları aşıyor. Aşağıdaki sinyaller hata değildir. Onlar büyümedir. İki veya daha fazlası geçerliyse, özel araçları veya yarı zamanlı bir platform sorumlusunu devreye almayı planlayın.

  • Aylık Azure harcaması yaklaşık 50.000 ABD dolarını aşıyor ve yapay zeka bunun yüzde 30'undan fazla.
  • Maliyeti yüzde 5 veya daha fazla değiştiren değişiklikleri 10'dan fazla mühendis gönderebiliyor.
  • En az bir müşteri ayda 10.000 ABD dolarının üzerinde kullanım yapıyor ve size sabit bir ücret ödüyor.
  • Yatırımcılarınız veya finans ortağınız aylık maliyet tahmini istemeye başladı.
  • Ürün birden fazla Azure bölgesinde veya bulutta çalışır.

O zamana kadar etiketler, bütçeler, değerlendirme kapısı ve aylık inceleme içeren bu makaledeki basit döngü doğru araçtır. Kurumsal FinOps araçlarını erken benimsemenin cazibesine karşı direnin. Değer eklemeden önce işlem yükü ekler.

Referans kontrol listesi

Aşağıdaki öğeleri aylık gözden geçirme denetim listesi olarak kullanın. Her öğe, bu makaledeki bir bölümle eşleşir.

  • Tüm yapay zeka kaynakları , , costCentertenantve workloadile envetiketlenir.
  • Maliyet Yönetimi panosu vardır, etikete göre gruplandırılır ve haftalık olarak gözden geçirilir.
  • Sistem istemleri, istem önbelleği isabetleri için yeterince kararlıdır.
  • Gömlemeler, değerlendirmeler ve özetler gibi eşzamansız işler Batch API üzerinde çalışır.
  • Yönlendirici, trafiğin en az yüzde 60'ını değerlendirme regresyonu olmadan daha ucuz bir modele gönderir.
  • GPU iş yükleri, iş saatleri dışında sıfıra kadar ölçeklenebilir veya toplu işler için spot kullanılabilir.
  • Tur başına medyan geri getirme sayısı iki veya daha azdır.
  • Çok kiracılı strateji açık olarak seçilir: filtreli paylaşımlı veya adanmış.
  • Bütçeler ve kiracı başına fiyat sınırları uygulanır.
  • Her istem, model veya yönlendirme değişikliği birleştirmeden önce değerlendirme geçidini çalıştırır.