Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede, ilk aşama başlangıç ekipleri Microsoft Azure yapay zeka iş yüklerindeki maliyetleri belirleme ve azaltma işlemleri gösterilmektedir. Bulut faturasından ve aynı zamanda değerlendirme (eval) veri kümesinden sorumlu olan kurucu, CTO veya ilk mühendis için yazılmıştır. Etiketleme ve bütçe hijyenini, istek yolundaki dört kaldıracı (önbelleğe alma, toplu işleme, yönlendirme ve model seçimi), kurum içi çıkarım için GPU’nun doğru boyutlandırılmasını, çok kiracılı getirme kalıplarını ve özel bir platform ekibi olmadan uygulayabileceğiniz güvenli bir değişiklik döngüsünü kapsar. Her bölüm, geçerli olduğu startup'lar için Azure mimarisi kılavuzundaki aşamayla (Keşfet, Büyüt veya Değer Elde Et) etiketlenmiştir; böylece henüz karşılaşmadığınız sorunlara göre optimizasyon yapmaktan kaçınabilirsiniz.
Bu makalede şunları nasıl yapacağınızı öğreneceksiniz:
- Azure yapay zeka iş yükündeki en yüksek maliyet sürücülerini belirleme.
- Maliyet iyileştirme kaldıraçlarını başlangıç aşamanızla eşleştirin.
- İstem önbelleğe alma, anlamsal önbelleğe alma, toplu işleme, model yönlendirme ve uygun boyutlandırma uygulayın.
- Kullanıma göre değil, gelire göre doğrusal ölçeklenen çok kiracılı veri erişimi ve veritabanı mimarileri tasarlayın.
- Maliyet değişikliklerini bir değerlendirme denetimi, bütçe uyarıları ve kiracı başına oran sınırları içine alın.
- Maliyet yönetiminde kendin yap yaklaşımını aştığınızı gösteren ilk işaretleri fark edin.
Prerequisites
- Üretimde, hazırlamada veya çalışan bir prototipte çalışan en az bir yapay zeka iş yüküne sahip bir Azure aboneliği.
- Ölçmek istediğiniz kaynaklarda Sahip veya Katkıda Bulunan izinleri.
- Azure portalını rahatça açın. Maliyet Yönetimi veya Azure İzleyici ile ilgili önceden deneyim gerekmez. Bu makale sizi ilgili sayfalara işaret eder.
- Yapay zeka özelliğiniz için 10 ile 50 arasında temsili istem ve beklenen davranışlar içeren küçük bir değerlendirme kümesi. Henüz bir makaleniz yoksa İlgili makaleler bölümüne bakın. bir öğleden sonra ilk sürümü oluşturabilirsiniz.
Bu durum startup'lar için neden önemlidir?
Erken aşamadaki bir başlangıç için yapay zeka maliyeti operasyonel risktir. Daha düşük çıkarım maliyeti, mühendislik ekiplerine bir sonraki deneme için zaman kazandırır; aktif kullanıcı başına istikrarlı bir maliyet ise bir sonraki faturayı değil, bir sonraki yatırım dönüm noktasını düşünerek plan yapmanızı sağlar. Bu makaledeki desenler kasıtlı olarak küçüktür. Platform veya FinOps ekibine gerek olmadan her birine bir hafta sonu boyunca kurucu mühendis tarafından ulaşılabilir.
Important
Başlamak için ayrılmış bir FinOps ekibine ihtiyacınız yoktur. Maliyet kazançlarının ilk yüzde 80'i ilk günden itibaren her şeyi etiketlemek, bir kişiyi haftalık Maliyet Yönetimi gözden geçirmesinden sorumlu yapmak ve bu makaledeki kaldıraçları aşama sırasına uygulamaktan gelir. Resmî FinOps araç ve süreçlerini, ancak aylık harcama yaklaşık 50.000 ABD dolarını aştığında veya beşten fazla farklı iş yükünü kapsadığında devreye alın.
Yapay zeka maliyeti neden geleneksel bulut maliyetinden farklı görünüyor?
Geleneksel bir web uygulamasında aylık faturanız esas olarak VM'ler, veritabanları ve çıkış trafiği tarafından belirlenir. Kaç kullanıcıya hizmet ettiğinizi bilerek genellikle yüzde 10'lar içinde tahminde bulunabilirsiniz. Yapay zeka iş yükleri bu sezgiyi bozar. Aynı kullanıcı bağlam uzunluğuna, alma derinliğine ve isteğin hangi modele yönlendirildiğine bağlı olarak bir dakika 0,001 ABD doları ve sonrakinde 0,40 ABD doları maliyete mal olabilir.
Azure'da çoğu yapay zeka ürününde dört maliyet şekli yinelenir:
- Token tüketimi, kullanıcı sayısıyla değil, bağlam uzunluğuyla ölçeklenir. Naif bir geri getirme destekli üretim (RAG) istemi, tek bir ürün değişikliğinden sonra 800 tokendan 12.000 tokene şişebilir.
- GPU boşta kalma süresi, kurum içinde barındırılan çıkarımda en büyük gizli maliyettir. Bir A100'ün bir gecede çalışması, küçük bir Postgres veritabanının bir aydan fazla maliyetine mal olur.
- Arama ve vektör veritabanlarından geri getirme yayılımı katlanarak artar. Her sohbet dönüşü, günlüklerinizde hiç görmediğiniz üç ile sekiz gizli sorgu verebilir.
- Çıkış ve depolama, model artefaktları, gömmeler, denetim günlükleri ve kiracı bazlı dizinler aracılığıyla yavaş yavaş ortaya çıkar.
Her maliyet sürücüsünün bilinen bir kaldıraç kümesi vardır. Kalan bölümlerde bunlar, öncelik sırasına göre ve kaldıracın geçerli olduğu başlangıç aşamasıyla etiketlenerek açıklanır; böylece ekipler henüz karşılaşmadıkları sorunlar için gereğinden karmaşık çözümler tasarlamasın.
Tip
Yatırım getirinizi (ROI) sürdürmek ve iyileştirmek için mimarinizdeki Azure Well-Architected Framework maliyet iyileştirme kılavuzunu kullanın.
Aşama haritası: hangi kollar nereye aittir?
Startup'lar için Azure mimari kılavuzu ürün geliştirmenin üç aşamasını açıklar: Keşfet, Genişlet ve Ayıkla. Bu makaledeki maliyet iyileştirme kaldıraçları bu aşamalarla uyumlu. Bugün ekibinize hangi bölümlerin uygulanacağını ve hangi bölümlerin erteleneceğini kapsamak için aşağıdaki tabloyu kullanın.
| Stage | Çalışan sayısı | Birincil maliyet hedefi | Karşılığını veren unsurlar |
|---|---|---|---|
| Araştırın | 1-10 mühendis | İsteğe bağlılık ve hız | Etiketleme, istem önbelleğe alma, ucuz varsayılan model |
| Genişlet | 10-50 mühendis | Maliyetlerin gelirle birlikte doğrusal artmasına son verin | Anlamsal önbellek, sıfıra ölçeklendirme, yönlendirme, Batch API |
| Extract | 50'den fazla mühendis | Kenar boşluğu, öngörülebilirlik, FinOps | Rezervasyonlar, ayrılmış dizinler, niceleme, kiracı başına fiyatlandırma |
En yüksek maliyet sürücülerinizi belirleme
Herhangi bir şeyi optimize etmeden önce, paranın aslında nereye gittiğine dair net bir görünüm edinin. Azure'da en hızlı yol, son 30 gün boyunca hizmet ve etikete göre gruplandırılmış Maliyet Yönetimi'dir.
Birinci günden itibaren her şeyi etiketleme
Etiketleme, maliyet görünürlüğü için en yüksek kaldıraçlı uygulamadır. Tutarlı etiketler olmadan harcamayı bir kiracıya, özelliğe veya ortama bağlayamazsınız. Startup Scale İniş Bölgesi (SSLZ) referansı, etiketlemeyi iniş bölgesi ilkesi düzeyinde zorunlu kılar. Yapay zeka kaynakları için de aynı yaklaşımı kullanın.
costCenter = product | platform | research
tenant = <customer-id> | shared
workload = inference | embedding | training | eval
env = prod | staging | dev
team = <owning-team>
İlk olarak nereye bakılır?
| Maliyet belirleyicisi | Nerede bulunur? | Normal fatura payı |
|---|---|---|
| Belirteçler (LLM API) | Azure OpenAI ölçümleri > İşlenen İstem/Tamamlama Belirteçleri | 30-60% |
| GPUs | SKU'ya göre VM/AKS düğümü saatleri (ND, NC ve NV aileleri) | 20-50% |
| Vektör/arama | AI Arama sorgu birimleri, Cosmos DB RU/sn | 5-20% |
| Depolama | Model yapıtları için Blob Depolama, Azure Dosyalar ve Azure Container Registry | 3-10% |
| Egress | Bölge dışında, özellikle bulutlar arası çağrılarda bant genişliği | 2-15% |
Maliyet Yönetimi'ni her gün bir depolama hesabına aktarın ve mevcut analiz altyapınıza bağlayın. Haftalık etkin kullanıcı başına maliyet grafiği, iyileştirmenin hedeflenen etkiye sahip olduğuna dair güvenilir bir sinyaldir.
1. Kaldıraç: Önbelleğe alma, toplu işlem, yönlendirme ve model seçimi
Aşama: Extract aracılığıyla keşfedin. Keşfet'te önbelleğe almayla başlayın, Genişlet'e yönlendirme ve toplu işlem ekleyin ve Ayıkla'da her kiracı için ayrıntılı model seçimi ekleyin.
Tip
Gömmeleri, kaynak içeriğin karmasıyla anahtarlanan şekilde önbelleğe alın ve ilk geçişte sınıflandırma veya çıkarım için GPT-4o mini ya da açık ağırlıklı 7B ila 13B model gibi daha küçük ve daha ucuz bir model kullanın. Yalnızca küçük modelin belirsiz olduğu isteklerde bir sınır modeline yükseltin. Bu desen tek başına genellikle rutin sorgularda ölçülebilir kalite kaybı olmadan çıkarım maliyetini yüzde 60 ile 80 oranında düşürür.
Caching
- İstem önbelleğe alma: Azure OpenAI, GPT-4o ve daha yeni modellerde desteklenen, en az 1.024 belirteç içeren istemlerde yinelenen ön ekler için otomatik olarak indirim uygular. İlk 1.024 belirtecin önbelleğe isabet etmesi için aynı olması gerekir, bu nedenle sistem istemlerini ve araç tanımlarını kararlı tutun.
- Semantic cache: Ekleme ve yanıt çiftlerini Redis için Azure Önbellek veya Cosmos DB'de depolayın. Yeni bir sorgu yaklaşık 0,95'in üzerinde kosinüs benzerliğine sahip olduğunda önbelleğe alınmış yanıtı döndürür.
- Çıktı önbelleği: SSS ve belirlenimci araçlar gibi kişiselleştirilmiş olmayan uç noktalar için basit bir yaşam süresi (TTL) önbelleği trafiği yüzde 30 ile 80 arasında keser.
Toplu işleme
Yerleştirme ve sınıflandırma görevleri en açık adaylardır. Azure OpenAI Batch API, gecelik dizin yenilemeleri, değerlendirici çalıştırmaları ve eşzamansız özetleme gibi 24 saate kadar bekleyebilen işler için gerçek zamanlı işlemeye kıyasla yüzde 50 indirim sunar.
Routing
Çoğu ürünün her aramada en pahalı modele ihtiyacı yoktur. Kural tabanlı veya öğrenilmiş bir yönlendirici, ölçülebilir kalite düşüşü olmadan trafiğin yüzde 60-80'ini daha ucuz bir modele gönderebilir.
| Pattern | Ucuz yol | Pahalı yol |
|---|---|---|
| Amaç sınıflandırması | GPT-4o mini veya Phi-4 | Belirsiz istekler için GPT-4o |
| Araç kullanımı veya işlev çağrısı | Orta katman modeli | Yeniden denemede en üst düzey model |
| Uzun bağlamlı özetleme | Orta seviye model ile kayan pencere | Tam bağlamlı üst düzey model |
| Kod oluşturma | Şablon için orta seviye model | Yeniden düzenleme için üst katman modeli |
Model seçimi
Model seçimini her çeyrekte yeniden değerlendirin. Fiyatlar ve kalite hızlı hareket eder. Altı ay önce tek seçeneğiniz olan bir model, değerlendirmelerinizde bir ile iki puan arasında puan alan daha yeni bir SKU'dan beş kat daha pahalı olabilir.
Lever 2: Otomatik ölçeklendirme ile doğru boyutlu altyapı
Aşama: Genişlet ve Çıkar. Keşfet bölümünde App Service, Container Apps tüketimi veya Azure OpenAI Service gibi sunucusuz ya da hizmet olarak platform (PaaS) kullanın ve bu ayarı atlayın.
Azure Kubernetes Service (AKS) veya Container Apps'te vLLM, Triton veya Metin Oluşturma Çıkarımı (TGI) ile kendi kendine çıkarım yapıyorsanız, en büyük ikinci kaldıracınız GPU'ların boşta olmadığından emin olmaktır.
Boştaki iş yüklerini sıfıra kadar ölçeklendirin
GPU iş yükü profiline sahip Container Apps’te minReplicas: 0 ayarlayın ya da devam eden istek yokken düğüm havuzlarını sıfıra kadar ölçeklendirmek için AKS üzerinde Yatay Pod Otomatik Ölçeklendirme’yi (HPA) veya KEDA’yı kullanın. Soğuk başlangıçlar genellikle on saniyedir. Modelinizle kıyaslama yapın ve kullanıcıya dönük gecikme önemliyse iş saatleri boyunca hazır durumda bir replika bulundurun.
Model boyutuna göre GPU SKU’sunu uygun şekilde boyutlandırın
GPU sınıfını parametre sayısıyla eşleştirin. T4 veya L4, yaklaşık 13B parametrelerin altındaki modeller için yeterlidir. A100 veya H100, yalnızca yaklaşık 34 milyar parametrenin üzerindeki modellerde ya da kalıcı olarak yüksek sorgu/saniye (QPS) yüklerinde karşılığını verir. Container Apps sunucusuz GPU şu anda T4 ve A100'i desteklemektedir. L4 ve H100, AKS gerektirir.
Saptamak için ani eğitim ve toplu işler
Gecelik değerlendirmeleri, gömme yenilemelerini ve çevrimdışı özetlemeyi, genellikle isteğe bağlı havuzlardan yüzde 60 ila 80 daha ucuz olan spot düğüm havuzlarında çalıştırın. Üretim çıkarımlarını ayrılmış kapasitede tutun. Aşağıdaki tabloda otomatik ölçeklendirme stratejileri ve bunların tipik tasarrufları özetlemektedir.
Caution
Spot kapasite, yalnızca 30 saniye önceden bildirimle geri alınabilir. Spot kapasiteyi yalnızca denetim noktaları alınabilen veya sorunsuzca yeniden başlatılabilen işler için kullanın; örneğin toplu değerlendirmeler, gömme yenilemeleri, çevrimdışı özetleme ve sık denetim noktaları alınarak yapılan ince ayar. Yeniden başlatma mantığı olmadan hiçbir zaman kullanıcıya yönelik çıkarım veya işler yerleştirmeyin.
| Strateji | Nasıl? | Tipik tasarruflar |
|---|---|---|
| Sıfıra ölçeklendirin |
minReplicas: 0 GPU iş yükü profiline sahip Container Apps üzerinde. Soğuk başlangıçlar genellikle on saniyedir. Modelinizle karşılaştırma. |
En fazla 90% |
| Kuyruk derinliğine göre KEDA | CPU'ya değil Service Bus veya kuyruk iletilerine göre ölçeklendirin. | 30-60% |
| SKU'yu doğru boyutlandır | 13B'den az parametreye sahip modeller için T4 veya L4. A100 veya H100 yalnızca 34B'den fazla parametreye veya yüksek QPS'ye sahip modeller için. Container Apps sunucusuz GPU şu anda yalnızca T4 ve A100'leri desteklemektedir. L4 ve H100, AKS gerektirir. | 40-70% |
| Spot kapasite | Toplu işlem ve değerlendirme için spot düğüm havuzları. Üretim için isteğe bağlı kapasite. | 40-80% |
| Kuantizasyon | Daha büyük modelleri daha küçük GPU'lara sığdırmak için AWQ veya GPTQ 4 bit niceleme. | 30B'ı 16 GB'a sığdır |
Note
Sohbet arayüzünde ölçeği sıfıra indirmek, fark edilir bir soğuk başlangıç gecikmesine neden olur. Yaygın bir yaklaşım, iş saatleri boyunca hazır durumda bir ila iki replika tutmak ve gece boyunca ölçeği sıfıra indirmektir.
Kaldıraç 3: Geri getirme maliyetlerinde ani artışlar olmadan çok kiracılı kalıplar
Aşama: Geç Genişletme ve Ayıklama. Keşfet'te, neredeyse kesinlikle tek bir kiracınız vardır: kendiniz. En az üç gerçek müşteriniz olana kadar bu bölümü atlayın.
Tek kiracılı prototip için alma ve veritabanı desenleri seçildiğinde çok kiracılı yapay zeka ürünleri büyük ölçekte başarısız olur. Üç desen yinelenir.
Kiracı başına bir dizin ve filtrelerle paylaşılan dizin karşılaştırması
Her kiracı için ayrılmış bir AI Search dizini net bir yalıtım sağlar, ancak boşta olsa bile her dizin için ücret alınır. Kiracı filtresine sahip paylaşılan dizin, küçük ve orta ölçekli olarak çok daha ucuzdur. Yalnızca kurumsal katman için veya bir kiracı tanımlı bir boyut eşiğini aştığında özel seçeneğine geçin.
Vektör veritabanı seçimi
Mevcut altyapıya ve ölçeklendirmeye göre vektör deponuzu seçin. Aşağıdaki tabloda her seçeneğin ne zaman sığdığını özetlemektedir.
Warning
Bir vektör dizinini veya onun temel veri deposunu silmek geri alınamaz; ayrıca büyük bir veri kümesi için yeniden gömme işlemi, model çağrılarında yüzlerce ila binlerce dolara ek olarak saatler süren mühendislik çalışmasına mal olabilir. Vektör deposunda herhangi bir yıkıcı değişiklik yapmadan önce kaynak belgelerin anlık görüntüsünü alın ve yeniden ekleme işlem hattınızın küçük bir alt kümede uçtan uca çalıştığını doğrulayın.
| Seçenek | En iyisi | Maliyet şekli |
|---|---|---|
| Azure Yapay Zeka Arama (vektör) | Hibrit arama ve yönler | Replika başına, öngörülebilir |
| Cosmos DB (vektör) | Teams zaten uygulama verileri için Cosmos DB kullanıyor | RU/sn, QPS ile ölçeklenir |
| Postgres'te pgvector | Küçük veya orta düzeyde corpora, basit operasyonlar | VM başına, çok ucuz |
| Ayrılmış vektör veritabanı | 100M+ vektör, yüksek geri çağırma gereksinimleri | Düğüm başına, pahalı |
Gizli N+1 almalarından kaçının
search öğesini çağıran her aracı adımı, ücretlendirilebilir bir sorgudur. Her kullanıcı etkileşim adımı için kayıt alma çağrılarının sayısını kaydedin ve medyan bütçenizi aştığında uyarı verin. İyi bir başlangıç hedefi, her dönüşte iki veya daha az geri getirme işlemidir. Yeniden sıralama ve yeniden yazma, trafiği yanlışlıkla iki katına çıkarmanın kolayca yaşanabildiği noktalardır.
İdare: Maliyet değişikliklerini güvende tutma
Aşama: Tüm aşamalar. Bütçe, dağıtımdan önce tek satırlık bir değerlendirme denetimi ve tek bir hız sınırı içeren hafif sürüm, ilk günden itibaren Explore içinde yer alır. CI'ı bloke eden değerlendirme kapıları ve API Management içinde kiracı başına oran sınırlamaları içeren daha ağır sürüm, Expand ve ötesine aittir.
Kaliteyi bozan bir iyileştirme, iyileştirme değildir. Bu bir kesinti. Her maliyet değişikliğini üç koruma mekanizmasıyla güvence altına alın. Her koruma tek bir mühendis tarafından bir saatten daha küçük bir süre içinde ayarlanabilir.
- Değerlendirme denetimi: Herhangi bir istem, model veya yönlendirme değişikliği dağıtmadan önce değerlendirme kümenizi çalıştırın. İlk aşamada bu kontrol, manuel olarak çalıştırdığınız bir betik olabilir. Puan, örneğin 100 puanlık bir ölçekte 1 puan olmak üzere, toleransınızı aşacak kadar düşerse dağıtımı engelleyin veya geri döndürün.
- Bütçe uyarıları: Kaynak grubu başına, yüzde 50, yüzde 80 ve yüzde 100 düzeylerinde uyarılar içeren Azure Maliyet Yönetimi bütçeleri ayarlayın. Bunları hata bildirimlerinizi alan aynı Slack veya Teams kanalına yönlendirin; böylece harcamalar ve olaylar aynı yere gelir.
- İstek hızı sınırı: API Management, NGINX veya ağ geçidinizdeki tek bir IP başına veya API başına anahtar üst sınırı bile, bir kaçak istemcinin gece boyunca kredi bakiyenizi boşaltmasını engeller. Daha sonra ödeme yapan müşterileriniz olduğunda kiracı başına üst sınır ekleyin.
Çeşitli maliyet iyileştirmelerini tek bir sürümde paketleme konusunda dikkatli olun. Değişiklik kümesi bir araya geldiğinde ilişkilendirme zorlaşır ve herhangi bir regresyonun kesilmesi pahalıya patlar.
İki kollu deney: öncesi ve sonrasının nasıl karşılaştırılacağı
Nereden başlayacağınıza karar verirken, önceki bölümlerden iki kaldıraç seçin, bunları bir özellik bayrağının arkasına gönderin ve 7 ila 14 gün boyunca ölçün. Anlamlı hareketleri algılamak için iki kol yeterlidir. İkiden fazlası atfı güvenilmez kılar.
Aşamaya göre önerilen ilk çift
| Stage | Kol A | Kaldıraç B |
|---|---|---|
| Lansman Öncesi (<100 DAU) | Komut önbelleğe alma | Ucuz varsayılan modelle model yönlendirme |
| Erken çekiş (100-10k DAU) | Anlamsal önbellek | Çıkarım için sıfıra ölçekleme |
| Ölçek (10k+ DAU) | Eşzamansız işlemler için Batch API'si | Kiracı başına dizin stratejisi |
| Kurumsal katman | En çok kullanılan hesaplar için ayrılmış dizinler | L4 veya H100 üzerinde kuantize edilmiş modeller |
Baseline window: 2026-04-15 to 2026-04-28 (14 days)
Treatment window: 2026-05-01 to 2026-05-14 (14 days)
Levers shipped: 1) semantic cache on /chat
2) scale-to-zero on vLLM
Metrics:
cost_per_active_user (target: down 30%)
p95_latency_ms (guardrail: +<= 150 ms)
eval_score_delta (guardrail: >= -1.0)
Decision rule: Keep both if all guardrails hold. Otherwise, revert and ship one at a time.
Bu makalenin kapsadıkları ve kapsamadıkları
Bu makalenin kapsamı kasıtlı olarak belirlenmiştir. Aşağıdaki bölümlerde kapsam dahilindeki konular, kapsamı dışında olan konular ve bunların ne zaman ekleneceğini belirten sinyaller listelenir.
Kapsam içinde
- Herhangi bir başlangıç için uygun etiketleme, bütçeler ve Maliyet Yönetimi uygulamaları.
- Dört istek yolu kolu: önbelleğe alma, toplu işlem, yönlendirme ve model seçimi.
- Kurum içi barındırılan çıkarım için GPU’nun ihtiyaca göre boyutlandırılması ve sıfıra ölçeklendirme.
- 3 ila 100 ücretli kiracısı olan ürünler için çok kiracılı veri getirme desenleri.
- Güvenli değişiklikler için bir yönetişim döngüsü: değerlendirme eşiği, bütçe uyarıları ve kiracı bazında hız sınırları.
Kapsam dışı
| Başlık | Ne zaman eklenir? |
|---|---|
| Yapay zeka işlem için rezervasyonlar ve tasarruf planları | Çıkarım faturası 90 gün boyunca sabit kalır; bu genellikle Expand’in ortalarına denk gelir. |
| Apptio Cloudability, Vantage ve benzeri araçlar gibi ayrılmış FinOps araçları | Bulut harcaması ayda yaklaşık 50.000 ABD dolarını aşıyor veya çok bulutlu bir işletmeniz var. Çoğu erken aşamadaki startup'ların buna ihtiyacı yoktur. |
| Her bir son müşteri için özelleştirilmiş belirteç tabanlı faturalama | Kullanıma dayalı fiyatlandırma satarsınız ya da bir tenant faturanın yüzde 25’ini aşar. |
| DeepSpeed ve FSDP ayarlaması gibi eğitim maliyeti iyileştirmesi | Modelleri şirket içinde eğitebilirsiniz. Çıkarım odaklı ürünler buna ihtiyaç duymaz. |
| Bölgeler arası veya çok bulutlu maliyet arbitrajı | Kanıtlanmış tek bölge ekonomik modeliyle Extract aşamasındasınız. |
Bu yaklaşım artık yeterli olmadığında
Bu makaledeki uygulamalar kendi bulutlarını çalıştıran küçük ekipler için tasarlanmıştır. Bir noktada işletmeniz bunları aşıyor. Aşağıdaki sinyaller hata değildir. Onlar büyümedir. İki veya daha fazlası geçerliyse, özel araçları veya yarı zamanlı bir platform sorumlusunu devreye almayı planlayın.
- Aylık Azure harcaması yaklaşık 50.000 ABD dolarını aşıyor ve yapay zeka bunun yüzde 30'undan fazla.
- Maliyeti yüzde 5 veya daha fazla değiştiren değişiklikleri 10'dan fazla mühendis gönderebiliyor.
- En az bir müşteri ayda 10.000 ABD dolarının üzerinde kullanım yapıyor ve size sabit bir ücret ödüyor.
- Yatırımcılarınız veya finans ortağınız aylık maliyet tahmini istemeye başladı.
- Ürün birden fazla Azure bölgesinde veya bulutta çalışır.
O zamana kadar etiketler, bütçeler, değerlendirme kapısı ve aylık inceleme içeren bu makaledeki basit döngü doğru araçtır. Kurumsal FinOps araçlarını erken benimsemenin cazibesine karşı direnin. Değer eklemeden önce işlem yükü ekler.
Referans kontrol listesi
Aşağıdaki öğeleri aylık gözden geçirme denetim listesi olarak kullanın. Her öğe, bu makaledeki bir bölümle eşleşir.
- Tüm yapay zeka kaynakları , ,
costCentertenantveworkloadileenvetiketlenir. - Maliyet Yönetimi panosu vardır, etikete göre gruplandırılır ve haftalık olarak gözden geçirilir.
- Sistem istemleri, istem önbelleği isabetleri için yeterince kararlıdır.
- Gömlemeler, değerlendirmeler ve özetler gibi eşzamansız işler Batch API üzerinde çalışır.
- Yönlendirici, trafiğin en az yüzde 60'ını değerlendirme regresyonu olmadan daha ucuz bir modele gönderir.
- GPU iş yükleri, iş saatleri dışında sıfıra kadar ölçeklenebilir veya toplu işler için spot kullanılabilir.
- Tur başına medyan geri getirme sayısı iki veya daha azdır.
- Çok kiracılı strateji açık olarak seçilir: filtreli paylaşımlı veya adanmış.
- Bütçeler ve kiracı başına fiyat sınırları uygulanır.
- Her istem, model veya yönlendirme değişikliği birleştirmeden önce değerlendirme geçidini çalıştırır.