Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Veri platformu seçmek, bu çözümlerin getirdiği benzersiz veri zorluklarını anlamaktır. Özellikle temel modellerle oluşturulan GenAI çözümleri, vektör aramasını destekleyen ölçeklenebilir veri depolarına hızlı erişim sağlayan çeşitli, yüksek kaliteli verilere bağlıdır. Amaç, mimarinize gereksiz karmaşıklık eklemeden bu ihtiyaçları karşılamaktır. Platform seçeneklerini değerlendirmeden önce etkili veri işlem hattı tasarımının ilkelerini anlamak önemlidir.
Platform seçimlerini değerlendirirken, gerçekten ek bileşenlere ihtiyacınız olup olmadığını sorarak başlayın. Daha basit mimariler genellikle daha hızlı dağıtılır, daha kolay yönetilir ve daha uygun maliyetli olur. Kendinize sorun:
- Model, tek bir kaynaktan alınan verileri kullanarak beklenen performansı elde edebilir mi?
- Kaynak veri deposu ihtiyacınız olan analiz veya arama özelliklerini zaten sağlıyor mu?
- Kaynak veriler yapay zeka veya vektör araması için zaten yapılandırılmış ve dizine alınmış mı?
Bu soruların çoğuna yanıt evet ise karmaşık bir mimari gerekli olmayabilir. Örneğin, Azure Cosmos DB ve Azure SQL Veritabanı gibi veritabanları vektör veri türlerini ve vektör aramasını yerel olarak zaten destekler, ancak etkinleştirilmeleri ve yapılandırılmaları gerekir. Bu özellikler ayrı dizin oluşturma veya özel vektör veritabanları gereksinimini azaltarak performansı artırırken veri hareketini en aza indirir.
İş yükünüz büyüdükçe ve veriler birden fazla kaynaktan geldikçe platform kararı daha karmaşık hale gelir. ETL veya ELT işlem hatlarını, özel arama dizinlerini ve büyük veri kümeleri için ölçeklenebilir depolamayı destekleyen çözümleri göz önünde bulundurmanız gerekebilir. Eklenen her özellik, yalnızca teknoloji yığınını genişletmek yerine net bir amaca hizmet etmelidir.
Bu makalede, verilerin depolanması, işlenmesi veya analiz edilmesi gereken iş yükleri için bir veri platformu seçme konusunda rehberlik sağlanır. Odak, üretken yapay zekayı (GenAI) destekleyen çözümlerdir. Bu makalede açıklanan teknolojik özellikleri keşfetmeden önce iyi veri işlem hattı tasarımının ilkelerini anlamanız kesinlikle önerilir. Daha fazla bilgi için Veri Tasarımının Temellendirilmesi bölümüne bakın.
Ayrımcı model eğitimine ve ince ayarlamaya özgü öneriler için bkz. Eğitim verisi platformu üzerinde dikkat edilmesi gerekenler.
Veri depolama platformuyla ilgili dikkat edilmesi gerekenler
Yapay zeka iş yüklerinde veriler genellikle her adımı bağlayan işlem hatları tarafından yönlendirilen birkaç depolama ve işleme aşamasında ilerler. Önemli bir aşama, birden çok kaynaktan toplanan ve birleştirilen bilgileri barındıran veri deposudur. Bu mağaza, verileri bir sonraki aşamaya hazır olana kadar işlemenize ve rafine etmenize olanak tanır.
Not
Mimarinizde bu bileşene ihtiyacınız olmayabilir. Bazı durumlarda verilere doğrudan kaynak sistemlerden erişebilirsiniz. Ancak bunu yapmak performans sorunlarına yol açabilir ve yapay zeka sorgularıyla bu sistemleri aşırı yükleyebilir. Ayrıca erişim veya güvenilirlik sorunlarına da neden olabilir. Bu sorunları önlemek için verileri toplama ve işleme için ayrılmış bir depoya kopyalamak genellikle daha iyidir.
Bu mağaza için bir platform seçtiğinizde kaynak sistemlerinizle aynı güvenlik standartlarına uyduğundan, uygun maliyetli olduğundan ve ETL, ELT veya EL işleme görevleriyle iyi çalıştığından emin olun. Seçenekleriniz, veri hacminize ve performans gereksinimlerinize bağlı olarak basit depolama çözümlerinden büyük ölçekli veri platformlarına kadar değişebilir. Güvenilir, ölçeklenebilir ve iş yükünüz için iyi bir değer sağlayan bir depolama seçeneği arayın.
Veri deposu teknolojisi seçiminize yardımcı olacak birkaç soru aşağıdadır.
Platform farklı veri biçimlerini işleyebilir mi?
Veri deponuz çeşitli veri biçimlerini depolayabilmeli ve gerektiğinde verileri bunlar arasında dönüştürebilmelidir.
Örneğin, alma işlem hattınız hem ilişkisel veritabanından hem de JSON dosyasından veri getiriyorsa, yapılandırılmış ve yarı yapılandırılmış verileri desteklemelidir. Delta Lake teknolojisinin sağladığı daha zengin işlevselliği sağlamak için verilerinizi Delta biçimine dönüştürmek isteyebilirsiniz. Platform, özel kod yazmanız gerekmemesi için bu tür bir dönüştürme için yerleşik araçlar sağlamalıdır.
Verilerin birden çok sürümünü depolamayı bekliyor musunuz?
Veriler hem değerlerde hem de yapıda zaman içinde değişir ve kaynak sistemler genellikle yalnızca geçerli durumu depolar. Geçmiş bağlama ihtiyacınız varsa sürüm oluşturmayı destekleyen bir veri platformu seçin. Bu olmadan veri kümelerini çoğaltmanız gerekebilir ve bu da karmaşıklığı artırır.
Sürüm oluşturmanın başka avantajları da vardır. Bazı durumlarda, farklı kullanım örnekleri için verilerin ayrı kopyalarına ihtiyacınız olabilir. Her kopya bağımsız olarak geliştirilebilir ve platform, yapay zeka modellerinizin bağlamını korumak için tüm kopyalarda sürüm oluşturmayı yönetmelidir.
Platform yerleşik veri yaşam döngüsü yönetimi özelliklerine sahip mi?
Veri yaşam döngüsü yönetimi (DLM), oluşturmadan silmeye kadar büyümeyi denetlemeye yardımcı olur. Platformunuzun ara kopyaları otomatik olarak kaldırması, arşivlenen verileri yönetmesi ve gerektiğinde yasal saklamayı desteklemesi gerekir. Bu olmadan, veriler kontrolsüz bir şekilde büyüyebilir ve gereksiz hacim işlemeyi zorlaştırabilir. Örneğin, veri kalitesini artırmak için ön işleme adımlarını birkaç kez yeniden çalıştırmanız gerekebilir. Platform, artık gerekli olmadığında ara kopyaları otomatik olarak kaldırmalıdır.
Diğer durumlarda, uyumluluk veya denetim için verileri saklamanız gerekebilir. Seyrek erişilen veriler için daha düşük maliyetle soğuk veya arşivlenmiş katmanları destekleyen depolama seçeneklerini arayın.
Platform veri idaresi özelliklerini destekliyor mu?
Denetlenebilirlik, yapay zeka iş yükleri için önemli bir unsurdur. Platformunuzun veri erişimini izlemek, gizliliği sağlamak ve veri çıkışlarını belgelemesi için denetim izleri tutması gerekir. Ayrıca, özellikle birden çok kaynaktan veri geldiğinde meta verileri, veri türlerini, amacı ve kökeni yöneten bir veri sözlüğü veya kataloğu da desteklemelidir.
Ne kadar veri depolamayı bekliyorsunuz?
Yapay zeka iş yükleri, birden çok sürüm ve ek meta verilerle daha da büyüyebilen büyük hacimlerde veri oluşturur. Veri platformunuzun hem depolama hem de aktarım hızı için verimli bir şekilde ölçeklendirilmesi, yüksek alım hızlarını, eşzamanlı yazma işlemlerini ve performans düşüşü olmadan yoğun işlemeyi işlemesi gerekir.
Bir platform seçerken, alım ve işleme genellikle aynı anda gerçekleştiğinden iş akışının tamamını göz önünde bulundurun. Sistem paralel işlemeyi ve sık veri taşımayı desteklemeli ve okuma ve yazma performansı hakkında net içgörüler sağlamak için telemetri sağlamalıdır.
Bu veri deposu iş yükünüzün güvenilirliği açısından kritik mi?
Çoğaltma veya birden çok örnek aracılığıyla güvenilirlik ve ölçeklenebilirliği destekleyen bir platform seçin. Birçok büyük veri deposu, işlemeyi otomatik olarak dağıtan ve bir örnek kullanılamaz duruma geldiğinde yük devretme sağlayan denetleyiciler kullanır.
Verilerin hem dayanıklı hem de erişilebilir olması gerekir. Platformun veri bütünlüğünü garantilediğinden, erişilebilir API'ler sağladığından ve verileri sıfırdan yeniden oluşturmak pahalıya mal olacaksa yedekleme veya geri yükleme özelliklerini desteklediğinden emin olun.
Maliyet kısıtlamalarınız var mı?
Güvenilirlik ve performans gereksinimleri karşılandığında maliyetleri iyileştirmeyi göz önünde bulundurun. Birçok yapay zeka iş yükü için bir kez yazma, çok okuma deseni yeterlidir ve giderleri denetlemeye yardımcı olur. Topraklama verileri, üretim veritabanıyla aynı yanıt düzeyini gerektirmese bile depolamak ve almak için uygun maliyetli olmalıdır. Amaç maliyet, verimlilik ve performansı dengelemektir.
Veri hakimiyeti veya bölgesel uyumluluk gereksinimlerini desteklemeniz gerekiyor mu?
Düzenlenen veya hassas verileri işleyen iş yükleri için Azure Kamu, 21Vianet tarafından sağlanan Microsoft Azure veya diğer Ulusal İş Ortağı Bulutları gibi bağımsız bir bulutta dağıtım yapmayı göz önünde bulundurun. Bu ortamlar, veri depolama, işleme ve erişimin belirli yargı alanlarında kalmasını sağlayarak katı veri yerleşimi, gizlilik ve uyumluluk gereksinimlerini karşılayacak şekilde tasarlanmıştır.
Bağımsız bulutlar verileriniz üzerinde daha fazla denetim ve bağımsızlık sağlar. Bu genellikle kamu, savunma veya bankacılık gibi sektörler için bir gereksinimdir. Ancak bazı gelişmiş yapay zeka ve veri platformu özelliklerinin henüz bu bölgelerde kullanılamayabileceğini unutmayın. Mimarinizi tasarlamadan önce hizmet kullanılabilirliğini gözden geçirin.
Bu ortamlarda veri kataloğu, sınıflandırma ve köken izleme sağlamak için Microsoft Purview'u kullanın. Çok gizli iş yükleri için, veri korumayı güçlendirmek için gizli bilgi işlem ve müşteri tarafından yönetilen anahtarları kullanmayı göz önünde bulundurun. Dağıtımınızın bölgesel düzenlemelere uygun olduğunu doğrulamanız gerekir.
Teknoloji seçenekleri
| Function | Önerilen Teknolojiler | Alternatifler / Tamamlayıcı Araçlar |
|---|---|---|
| Çok biçimli veri depolama | Azure Data Lake Storage Gen2, Microsoft Fabric Lakehouse, Azure Databricks Lakehouse | Azure Blob Depolama, Azure Synapse Analytics, şirket içi veri ambarı |
| Veri sürümlendirme ve köken izleme | Microsoft Fabric Lakehouse, Azure Data Lake Storage 2. Nesil (Delta Lake ile), Azure Databricks (Delta Lake) | Git LFS, DVC (Veri Sürümü Denetimi), Apache Iceberg |
| Veri yaşam döngüsü yönetimi (DLM) | Azure Data Lake Storage 2. Nesil (yaşam döngüsü ilkeleri), Azure Blob Depolama (katmanlama), Azure Databricks (tablo iyileştirme) | Amazon S3 (yaşam döngüsü ilkeleri), Google Cloud Storage |
| Veri idaresi ve kataloglama | Microsoft Purview, Azure Databricks Unity Kataloğu | Apache Atlas, DataHub, Collibra |
| Yüksek hacimli veri depolama | Azure Data Lake Storage Gen2, Azure Synapse Analytics, Azure Databricks Lakehouse | Azure Blob Depolama, Hadoop HDFS, Amazon S3 |
Veri işleme platformu için dikkat edilmesi gerekenler
Veri işleme platformu, verileri hazırlama ve dönüştürme konusunda önemli bir rol oynar ve bu sayede RAG dizin oluşturma, analiz veya diğer kullanım örneği gibi aşağı akış kullanımına hazır olur.
Not
GenAI ve bilgi alma ile artırılmış üretim (RAG) için, ETL, ELT ve EL süreçleri arasındaki farkı anlamak yararlıdır.
- ETL: Geleneksel veri ambarı için tipik olan ayıklama, dönüştürme ve yükleme.
- ELT: Veri gölleri ve PySpark gibi büyük veri araçları için yaygın olarak kullanılan verileri ayıklayın, yükleyin, sonra dönüştürün.
- EL: Önce belgeleri depoladığınız, ardından metin öbekleme veya görüntü ayıklama gibi dönüştürmeleri daha sonra gerçekleştirdiğiniz RAG senaryolarında kullanılan ayıklama ve yükleme.
İşlemenin gerçekleşebileceği iki yer vardır:
Alım Katmanı. Alma işlem hattı çeşitli kaynaklardan veri toplar ve bunları toplama veri deponuza taşır. Bu arada genellikle temel ön işleme veya biçimlendirme gerçekleştirerek verilerin sorgulanabilir olmasını sağlar. Özel kod gereksinimini azaltmak için, en iyisi bunun mümkün olduğunca çoğunu işleyen bir veri platformu kullanmaktır. Araçları değerlendirirken, veri artırma gibi yapay zeka iş yüklerinizi desteklemek için gereken ETL veya ELT özelliklerini göz önünde bulundurun.
İşleme Katmanı. Veriler toplama deposuna geldikten sonra, yapay zeka modellerinde dizin oluşturmaya veya kullanıma hazır olmadan önce genellikle daha derin işlemeye ihtiyaç duyar. Bu işlem hatları, alım katmanınızla benzer güvenilirlik ve ölçeklenebilirlik düzeyleri sunmalıdır, ancak odak verileri dönüştürmeye ve yeniden şekillendirmeye geçer.
Tipik görevler şunlardır:
- Varlık tanıma ve zenginleştirme
- Ek veri kaynaklarını tümleştirme
- Arama ve dönüştürme işlemleri gerçekleştirme
- Ilgisiz verileri temizleme veya silme
Güçlü bir veri platformu, bu işlemleri verimli bir şekilde otomatikleştirmeye ve düzenlemeye yardımcı olur.
Veri kaynaklarına bağlanma desteği nedir?
Platform, ister ilişkisel veritabanları, ister büyük veri kaynakları veya blob depolama olsun, almayı beklediğiniz veri kaynaklarına kolayca bağlanmalıdır.
Önceden oluşturulmuş bağlayıcıları ve düşük kodlu tümleştirmeleri arayın. İdeal olarak, arama, veri kopyalama ve idareyi destekleyen sürükleyip bırakma veya yapılandırma tabanlı bağlayıcılar isteyebilirsiniz.
Platform çeşitli veri biçimlerini işleyebilir mi?
Veriler birçok şekilde gelir: yapılandırılmış (SQL, ilişkisel tablolar), yarı yapılandırılmış (JSON, XML, Parquet) ve yapılandırılmamış (belgeler, görüntüler) ve akış (IoT verileri). Kullanım örneğinizin gerektirdiği biçimleri hemen ve daha uzun vadeli gereksinimleri dikkate alarak işleyebilen bir platform seçin.
Platform, veri hazırlama ve kapsam belirleme özellikleri sunuyor mu?
Verilerinizin dizin oluşturmaya veya model tüketimine hazır olması için önce temizlenmesi, zenginleştirilmesi ve yeniden şekillendirilmesi gerekir. Veri tasarım stratejilerinizin gereksinimleri açıkça özetlemesi gerekir. İyi bir platform olmalıdır:
- Yinelenenleri kaldırma ve eksik değerleri doldurma
- Anahtar sözcük veya karma (anahtar sözcük+vektör) aramasını desteklemeyi planlarken kelime köküne indirgeme, normalleştirme ve diğer temel temizleme görevlerini yerine getirme
- Öbekleme, zenginleştirme ve belge analizi gibi gelişmiş dönüştürmeleri destekleme
Veri deponuz bu işlemleri yerel olarak destekliyorsa verileri taşımadan yerinde işleyebilirsiniz. Aksi takdirde, ağır dönüşümler için Azure Databricks veya Azure Data Factory gibi dış araçları kullanın.
Bazı durumlarda, bu sorumluluğun bir kısmını bir sonraki aşamayı destekleyen platforma dışlamayı seçebilirsiniz. Bu yaklaşımın yaygın bir örneği RAG uygulamasıdır. İşleme sırasında belgeler daha küçük öbeklere bölünür ve her öbek dizinde ayrı bir satır olarak depolanır. Bu öbekler daha sonra genellikle openAI hizmeti aracılığıyla oluşturulan eklemelerle eşleştirilir. Azure AI Search'te bu işlem, dizin oluşturma sırasında zenginleştirme işlem hattının bir parçası olarak düzenlenerek belgelerin daha sonra dizinde depolanan vektör gösterimleri oluşturmak için bir ekleme modeli (OpenAI ekleme modeli gibi) tarafından işlenmesini sağlar.
İş akışlarını yönetmek için yerleşik bir düzenleyici var mı?
Veri işleme genellikle karmaşık koordinasyon gerektiren modüler işler olarak gerçekleşir. Platformunuzda bu iş akışlarını tanımlamak, zamanlamak ve izlemek için bir düzenleyici bulunmalıdır. Şunu arayın:
- İş bağımlılıkları desteği ve yürütme sırasını doğrulayan denetimler
- Kodun büyük bölümlerini yeniden yazmadan kolay ayarlamalar yapılmasını sağlayan iş akışlarında esnek değişiklik.
- İzleme ve günlüğe kaydetme özellikleri
Popüler araçlar arasında iş akışı yönetimi için zengin özellik kümesi için Azure Data Factory veya daha karmaşık düzenleme için Azure Databricks bulunur. Maliyet önemliyse Apache NiFi veya Airflow daha ekonomik alternatifler olabilir.
Ne kadar veri almayı bekliyorsunuz?
Ne kadar veri alabileceğinizi ve alma sıklığını tahmin edin. Örneğin, bir dizine günlük 10 terabayt veri yüklemeyi bekliyorsanız, platform güçlü paralelleştirmeyi ve dağıtılmış yürütmeyi desteklemelidir. Daha küçük iş yükleri için Logic Apps gibi daha basit araçlar çalışabilir, ancak daha yüksek birimler için Data Factory veya Databricks daha uygundur. Ölçeklenebilirlik ve aktarım hızı için şunları göz önünde bulundurun:
- Veri hacmi ve sıklığı
- Dayanıklı gecikme süresi gereksinimleri
- İş karmaşıklığı
Örneğin veri temizleme, geçersiz alanların doğrulanması ve değiştirilmesi veya hassas bilgilerin maskelenmesi gibi işlemleri kapsar. Bu görevler temel olsa da önemli kaynaklar gerektirir çünkü her satır tek tek işlenir ve bu da genel süreye eklenir.
Hangi izleme özelliklerine ihtiyacınız var?
Veri işleme işlem hatları izleme özelliklerine sahip olmalı ve işlem hattının performansı ve işlerin durumu hakkında içgörüler sağlamalıdır. Platformunuz şu bilgileri sağlamalıdır:
- İş ilerleme durumunu izleme
- İşlem hattı davranışını anlamak için günlükler, ölçümler ve uyarılar
- Daha geniş izleme yığınınızla tümleştirme
Yerleşik telemetrideki boşlukları belirleyin ve hangi ek izlemeyi uygulamanız gerektiğini belirleyin. Bu izleme, iş adımlarıyla ilgili belirli ayrıntıları yakalamak için özel günlük veya ölçümler eklemeyi içerebilir.
Veri işleme platformundan ne kadar güvenilirlik bekliyorsunuz?
Tek hata noktalarını en aza indiren ve başarısız görevler için yeniden denemeleri destekleyen bir platform seçin. Örneğin, Azure Kubernetes Service'te (AKS) Data Factory'den çağrılan özel işleme mantığını barındırmak genellikle Azure Logic Apps'te barındırmaktan daha güçlü güvenilirlik sunar.
Verileriniz seyrek güncelleştirilir ve işlemeyi haftalık toplu işlem aracılığıyla yapıyorsanız, ara sıra hatalar kabul edilebilir olabilir. Ancak gerçek zamanlı yapay zeka senaryoları için daha yüksek güvenilirlik gerekir.
Herhangi bir maliyet kısıtlaması var mı?
Amaç, aşırı mühendislikten kaçınmak ve ölçeklendirilecek yer bırakırken gereksinimlerinize uygun bir platform seçmektir. Örneğin, Databricks'in gelişmiş özelliklerine ihtiyacınız yoksa Data Factory daha uygun fiyatlı bir seçenek sunabilir. Airflow veya NiFi gibi açık kaynak araçlar maliyetleri daha da azaltabilir.
İş akışlarında ve işlediğiniz verilerde güvenlik gereksinimleri nelerdir?
Güvenlik, gizlilik ve veri yerleşimi gereksinimleri seçiminize yol göstermelidir. İdeal olarak platform, verimli ve güvenli veri yönetimi sağlayan bu tür yalıtımlar için yerleşik destek sağlamalıdır. En azından platformun şöyle olmasını sağlayın:
- Bölgesel veri yerleşimi yasalarını karşılar. Yerel uyumluluk düzenlemelerini karşılamak için biri Avrupa, diğeri Amerika için olmak üzere farklı bölgeler için ayrı işlem hatları çalıştırmanız gerekebilir.
- Yalnızca yetkili kimliklerin iş akışları içindeki belirli işlere veya adımlara erişimi olduğundan emin olmak için kimlik ve erişim yönetimini (IAM) destekler.
- İş akışı veya adım düzeyinde ayrıntılı erişim denetimine izin verir.
Teknoloji seçenekleri
| Function | Önerilen Teknolojiler | Alternatifler / Tamamlayıcı Araçlar |
|---|---|---|
| Veri temizleme | Azure Data Factory, Azure Databricks, Microsoft Fabric Veri Akışları | Apache NiFi, Apache Airflow |
| Veri dönüştürme | Azure Databricks, Azure Synapse Analytics, Microsoft Fabric Veri Mühendisliği | Azure Data Factory İşlem Hatları |
| Veri zenginleştirme | Azure AI Belge Zekası, Azure OpenAI Hizmeti, Azure AI Arama | Özel Python API'leri veya üçüncü taraf yapay zeka hizmetleri |
| İş akışı düzenleme | Azure Data Factory İşlem Hatları, Databricks İşleri | Apache Airflow, Apache NiFi |
| RAG İş Akışları | Azure OpenAI Hizmeti, Azure AI Arama, Azure Databricks | Microsoft Fabric Veri Bilimi |
Arama diziniyle ilgili dikkat edilmesi gerekenler
Arama dizini, istemle birlikte modelin çıkarım uç noktasına gönderilen bağlamsal veya temel verileri depolar. Dizin sorguları, çıkarım isteklerinde modele gönderilen verilerin hazırlanmasında kritik bir bileşendir ve düşük gecikme süresine sahip performans sunmalıdır.
Toplu iş odaklı ETL işlem hatlarından farklı olarak, bu dizin gerçek zamanlı çıkarımı desteklemelidir, yani yüksek performans ve güvenilirlik tartışılamaz. Yapay zeka iş yükleri için tasarlanmıştır ve geleneksel veri depolarının sağladığının ötesine geçerek anahtar sözcük dizin oluşturma, filtreleme ve vektör tabanlı arama gibi özellikleri destekler.
İdeal tasarım, okumalar için optimize edilmiş ve kesin olmayan veya bulanık sorguları işleyebilmesine rağmen ilgili sonuçlar döndüren yüksek performanslı bir veri deposudur. Bu noktaları göz önünde bulundurarak dizin teknolojisini seçin.
Arama dizini hangi arama türlerini destekler?
Sisteme yapılan her istek dizinde bir veya daha fazla sorguya neden olabilir. Bilgi alma artırılmış üretim (RAG) ve diğer yapay zeka odaklı iş yükleri için vektör aramaları gereklidir. Vektör araması, sistemin tam anahtar sözcük eşleşmeleri yerine eklemeleri kullanarak benzer veri noktaları bulmasını sağlar.
Ancak vektör aramasını tam metin arama, filtreleme ve özel veri türleri (coğrafi konum gibi) ile birleştirmek dizini çok daha güçlü hale getirir.
Veri tasarımınız hangi arama türlerinin gerekli olduğunu ve birlikte nasıl çalışması gerektiğini açıkça belirtmelidir. Daha fazla bilgi için bkz . Veri tasarımında verimli sorgulama.
Dizin çok modüllü verileri nasıl işler?
Yapay zeka iş yükleri genellikle yalnızca metinleri değil aynı zamanda resimleri, sesleri veya videoları da içeren verilerle ilgilenir. Dizinin kendisi görüntüleri doğrudan anlayamaz. Bu nedenle, dizine görüntü eklemeden önce, eklemelerin oluşturulduğu metin tabanlı bir gösterime (OCR veya resim yazısı kullanılarak) dönüştürülmesi veya görüntü modelleri kullanılarak doğrudan görüntüden vektör eklemelerinin oluşturulabilmesi gerekir. Dizin daha sonra vektör araması gerçekleştirerek anlamsal sorgulara izin verebilir.
Bu kullanım örneğinde, arama dizininde aşağıdakiler olmalıdır:
- Görüntüden türetilen eklemeleri (sayısal vektörler) depolamak ve sorgulamak için vektör arama desteği.
- Dizin oluşturma işlemi sırasında verileri ayıklamak veya zenginleştirmek için dış API'ler ve yapay zeka hizmetleriyle tümleştirme.
- Çıkarılan alanları (metin, etiketler, altyazılar, gömüler) arama ve filtreleme için meta veri olarak uygun şema alanlarında depolama olanağı.
Dizin, veri kaynaklarındaki veriler değiştiğinde otomatik güncelleştirme özelliklerini destekliyor mu?
Otomasyon, veri güncelliğini korumak için önemlidir. Temel alınan veriler değiştiğinde otomatik güncelleştirmeleri veya artımlı yenilemeleri destekleyen bir dizin seçin.
Platform bunu yerel olarak sunmuyorsa güncelleştirmeleri algılamak ve göndermek için özel bir işlem uygulamanız gerekir. Bu sorumluluğun platforma devredilmesi, özellikle veri hacimleri arttıkça operasyonel ek yükü azaltabilir ve bakımı basitleştirebilir.
Dizin büyük hacimli verilerle performans sergileyebilir mi?
Veri hacmi arttıkça dizinin verimli bir şekilde ölçeklendirilmesi gerekir. RAG uygulayan iş yükleri için her belge genellikle birden çok öbeklere bölünür ve bu da depolanan veri miktarını önemli ölçüde artırır.
Seçtiğiniz platformun yapabilecekleri:
- Veriler büyüdükçe yatay olarak ölçeklendirme
- Yoğun yük altında sorgu performansını koruma
- Hem ham verileri hem de ilgili meta verileri, zenginleştirmeleri ve varlıkları depolama
Dizin yerleşik güvenilirlik özelliklerine sahip mi?
Her ikisi de aynı gerçek zamanlı işleme yolunun parçası olduğundan, arama dizininin güvenilirliği çıkarım uç noktanızın güvenilirliğini yansıtmalıdır.
Her adımın benzer çalışma süresi ve performans beklentilerini karşılaması gerekir. Bunu başarmak için veri platformunu seçtiğinizde şunları arayın:
- Bölgesel ve zonal kesintilere dayanabilmek için yüksek erişilebilirlik ve bölge yedekliliği özellikleri.
- Çıkarım için bozuk dizin kullanımını önlemek için otomatik kurtarma ve kolay dizin yeniden oluşturma.
- Sıfır kapalı kalma süresiyle güncellemeleri etkinleştirmek için dizin takma adı oluşturma veya değiştirme yeteneği.
Sistemin hata modlarını veya kısma gibi stres göstergelerini de anlayın. Örneğin, arka plan yeniden dizinleme sırasında aktarım hızı düşebilir. Sistem normalde 50 eşzamanlı kullanıcıyı işleyebilir, ancak bu iş sırasında yalnızca 30 kullanıcı işleyebilir. Hem ön uç sorgularını hem de arka uç bakım görevlerini hesaplayarak iş zamanlamasını ve kapasitesini buna göre planlayın.
Bu teknolojinin başlıca maliyet etmenleri nelerdir?
Arama dizini maliyetleri genellikle kullanım tabanlıdır, bu nedenle beklenen veri hacminizi, sorgu hızınızı ve aktarım hızınızı modellemek önemlidir.
Azure AI Search gibi dizin platformlarının çoğu, fiyatlandırmanın soyutlandığı ve kapasite, depolama ve özellik kullanımı birimlerinde sunulduğu Hizmet Olarak Platform (PaaS) teklifleridir.
Dikkat edin:
- Katman fiyatlandırması ve ölçeklendirme sınırları
- Gelişmiş özelliklerden ek maliyetler (örneğin, görüntü ayıklama veya beceri kümesi zenginleştirme)
- Fazla sağlanan katmanlarda kullanılmayan kapasite
- Dizin karmaşıklığı (dizin sayısı ve eşzamanlı sorgu sınırları)
AI Search ile ilişkili maliyetleri anlamak için bkz. Yapay zeka Arama hizmeti maliyetlerini planlama ve yönetme.
Dizinin güvenlik özellikleri güvenlik verileri tasarımınızı karşılar mı?
Veri tasarımınız güvenlik ve gizlilik gereksinimlerini açıkça belirtmelidir ve dizininizin bunları tam olarak desteklemesi gerekir. Gerçek veri kullanan geliştirme veya test ortamlarında çalışırken, dizinin erişim denetimi ve izlenebilirlik ilkeleriyle uyumlu olduğundan emin olun. Aşağıdaki gibi özellikleri arayın:
- Veri maskeleme ve PII kaldırma
- Microsoft Entra Id aracılığıyla istemci kimliği yönetimi
- Kullanıcı kimliğine göre sonuçları filtrelemek için belge düzeyi erişim denetimleri
Platform bunları yerel olarak desteklemiyorsa, sorgu düzeyi filtreleri geri dönüş olarak uygulamayı göz önünde bulundurun. Daha fazla bilgi için bkz . AI Search'te sonuçları kırpmak için güvenlik filtreleri.
Ağ güvenliği açısından dizin şunları yapmalıdır:
- Ağ çıkış denetimi ve segmentasyonunun desteklenmesi
- Sanal ağda işlem çalıştığında, özel ağlarla tümleştirin.
- Microsoft Entra Id aracılığıyla kimlik doğrulaması için yönetilen kimlikleri kullanma
- Bileşenleri doğrudan genel İnternet'e açmaktan kaçının
Eklemeler, düzgün bir şekilde güvenli hale getirilmemesi durumunda hassas bilgileri kullanıma sunmaya devam edebilir. Riskler arasında gömme ters çevirme (vektörlerden özgün metni yeniden oluşturma), veri zehirlenmesi (kötü amaçlı vektörlerin eklenmesi) ve gömme depolarına veya yedeklerine yetkisiz erişim yer alır. Bu riskleri azaltmak için aşağıdaki gibi güvenlik önlemleri uygulayın:
- Dinlenme halindeki ve aktarımdaki şifreleme
- Katı erişim denetimleri
- Yukarıda açıklanan özel ağ bağlantısı
- Anomaliler veya kurcalama için ekleme uç noktalarını izleme
Diğer veri türlerine benzer şekilde, hassas veya kişisel verileri kaldırmaya yönelik süreçlere sahiptir. Vektör dizinlerini, diğer üretim sistemleriyle aynı düzeyde güvenlik ve idare gerektiren hassas veri depoları olarak değerlendirin.
Teknoloji seçenekleri
| Function | Önerilen Teknolojiler | Alternatifler / Tamamlayıcı Araçlar |
|---|---|---|
| Vektör araması ve anlamsal arama | Azure AI Search, Azure Cosmos DB (vektör araması), PostgreSQL için Azure Veritabanı (pgvector) | Pinecone, Weaviate, Chroma, Qdrant |
| Tam metin arama ve anahtar sözcük dizin oluşturma | Azure Yapay Zeka Arama | Elasticsearch, Apache Solr, Azure SQL Veritabanı Full-Text Arama |
| Çok modüllü veri işleme | Azure AI Search (beceri kümeleriyle), Azure AI Belge Zekası, Azure AI Vision | OpenAI API'leri ile özel işleme, Amazon Textract |
| Otomatik veri yenileme ve dizin oluşturma | Azure AI Search (dizin oluşturucularla), Azure Data Factory tetikleyicileri | Özel yoklama çözümleri, Apache NiFi, değişiklik verisi yakalama |
| Yüksek kullanılabilirlik ve güvenilirlik | Azure AI Search (alanlar arası yedeklilik), Azure Cosmos DB (genel dağıtım) | Çok bölgeli dağıtımlar, yük dengeleyiciler, Azure Traffic Manager |
| Dizin takma adı ve kesintisiz güncellemeler | Azure AI Search (indeks takma adlar), Azure Cosmos DB | Mavi-yeşil dağıtım desenleri, özel yönlendirme mantığı |
| Belge düzeyi güvenlik ve erişim denetimi | Azure AI Search (güvenlik filtreleri), Microsoft Entra ID tümleştirmesi | Özel yetkilendirme katmanları, veritabanlarında satır düzeyi güvenlik |
| Ağ güvenliği ve özel erişim | Azure Özel Bağlantı, Sanal Ağ tümleştirmesi, Yönetilen Kimlikler | VPN ağ geçitleri, Azure Güvenlik Duvarı, özel ağ güvenlik grupları |
Eğitim ve ince ayarlama ile ilgili dikkat edilmesi gerekenler
Veri platformunuzu geleneksel makine öğrenmesi (ML) veya GenAI olmayan iş yükleri için tasarlarken, odağınız gerçek zamanlı çıkarımdan veri kalitesine, yeniden üretilebilirliğe ve ortam ayrımlarına geçer. Bu iş yükleri iyi yapılandırılmış toplu verilere dayanır ve genellikle model performansını ve maliyet verimliliğini iyileştirmek için özellik depoları ve toplu çıkarım veri depoları gibi ek katmanlar içerir.
Bu makalede açıklanan teknolojik özellikleri keşfetmeden önce iyi veri işlem hattı tasarımının ilkelerini anlamanız kesinlikle önerilir. Daha fazla bilgi için bkz . Eğitim veri tasarımı.
Üretim verileriyle eğitim yapmayı planlıyor musunuz?
Modellerinizi nasıl dağıttığınız, üretim verilerinin geliştirme ortamınızla ne kadar sıkı bir şekilde birleştirileceğini belirler. İki ana dağıtım yaklaşımı vardır:
Model dağıtımı. Model, geliştirme sırasında üretim verileri kullanılarak eğitilir veya ayarlanır. Bu yaklaşım modelin ilgi düzeyini artırabilir ancak hassas veriler üretim dışında kullanıldığından güçlü güvenlik denetimleri gerektirebilir.
Kod dağıtımı. Model, geliştirme aşamasında üretim dışı veriler kullanılarak eğitilir ve yalnızca üretime dağıtıldıktan sonra gerçek verilerle etkileşim kurar. Bu yöntem geliştirme güvenliğini basitleştirir, ancak eğitimin birden çok ortamda tekrarlanması gerekebileceğinden işlem ve depolama maliyetlerini artırabilir.
Yaklaşımdan bağımsız olarak, veri platformunuzun geliştirme ve üretim ortamlarını net bir şekilde ayırarak düzgün yalıtım ve erişim denetimi sağlaması gerekir.
İşlevselliğe göre kolaylık önceliğini mi gösteriyorsunuz?
ML için bir veri platformu seçerken, kararı yalnızca not defteri desteğine göre yapmayın.
Not defterleri keşif veri analizi için idealdir, ancak üretim sınıfı bir veri platformu seçmek için belirleyici bir faktör değildir. Not defteri işlem kaynakları genellikle toplama veri deposunun dışında yer alır ve Azure Machine Learning veya Databricks Çalışma Alanları gibi dış araçlarla tümleştirilir.
Kolaylık özelliklerine göre veri sürümü oluşturma, idare, ölçeklenebilirlik ve güvenlik gibi temel özelliklerin önceliklerini belirleyin.
Verilerinizi nasıl işleyecek ve hazırlayacaksınız?
ML iş yüklerinde, seçtiğiniz veri işleme düzeni esneklik ve performans üzerinde büyük bir etkiye sahiptir.
- ETL (Ayıklama, Dönüştürme, Yükleme) – Şema kısıtlamalarının verileri hedef sisteme yüklemeden önce dönüştürmenizi gerektirdiği geleneksel veri ambarında yaygındır.
- ELT (Ayıklama, Yükleme, Dönüştürme) – Ham verilerin önce yüklendiği, daha sonra Python veya PySpark gibi araçlar kullanılarak dönüştürüldüğü veri gölleri veya lakehouse mimarisi için tipiktir.
- EL (Ayıkla, Yükle) – Önce belgeleri veya medyayı depoladığınız ve aşağı akış dönüşümleri (metin öbekleme veya görüntü ayıklama gibi) gerçekleştirdiğiniz GenAI ve RAG desenlerinde ortaktır.
ELT genellikle ham verileri koruduğundan ve model hazırlığı sırasında daha esnek dönüşümlere izin verdiğinden tercih edilir.
Bir özellik mağazasına ihtiyacınız var mı?
Bir özellik deposunu toplanmış veri deponuzla eğitim ortamınız arasında ara veri katmanı olarak tanıtmak genellikle yararlı olur.
Özellik deposu, özellik kökeni, oluşturma zamanı ve kaynak gibi meta verilerle birlikte seçilmiş özellikler kataloğu görevi görür. Birden çok modelde veya denemede yeniden kullanılabilecek "altın" eğitim verilerini korumak için mükemmel bir yerdir.
Azure Machine Learning'deki gibi yönetilen özellik depoları doğrudan MLflow ve diğer ML yaşam döngüsü araçlarıyla tümleştirilir. Bunlar, özellikleriniz için yeniden üretilebilirlik, idare ve sürüm denetimi sağlar.
Uygun erişim denetimleri, şifreleme ve denetim ile özellik deposunu kendi başına hassas bir veri deposu olarak değerlendirin.
Toplu çıkarım veri deposu kullanmanız gerekir mi?
Bazı durumlarda, toplu olarak çıkarım yaparak, yani hesaplama öncesi çıkarım sonuçlarını gerçekleştirerek ve modeli gerçek zamanlı olarak çağırmak yerine daha sonra kullanmak üzere depolayarak performansı geliştirebilir ve maliyetleri düşürebilirsiniz.
Aynı sorgular veya tahminler tekrar tekrar istendiğinde (örneğin, SSS veya standart öneriler oluşturma) bu yaklaşım son derece etkili olabilir.
Başlıca avantajlar şunlardır:
- Düşük gecikme süresi ve geliştirilmiş kullanıcı deneyimi sayesinde sonuçlar anında sunulur.
- Makine öğrenimi çıkarımı toplu işlenip çevrimdışı olarak dağıtılabildiği için daha kolay ölçeklenebilirlik.
- Çıkarım uç noktasına gerçek zamanlı yük yerleştirmekten kaçınan gelişmiş güvenilirlik.
- Toplu işlemden kaynaklanan daha düşük işlem maliyetleri, daha alt seviye donanımların kullanılmasına olanak tanır.
- Kullanıcıların kullanımına sunulmadan önce sonuçların doğruluk açısından doğrulandığı yerleşik ön doğrulama.
Ancak, tahminlerin önemli bir yüzdesi yeniden kullanıldığında bu yaklaşım en iyi şekilde çalışır. İş yükünüz çoğunlukla benzersiz sorgular içeriyorsa, toplu çıkarım deposunun bakımının yapılması karmaşıklığa değmeyebilir.
Toplu çıkarım veri deponuz okuma işlemleri için iyileştirilmeli, büyük veri kümelerini işleyecek kadar ölçeklenebilir olmalı ve toplam veri deponuzla tümleştirilmelidir.
Bu desene uyan teknolojiler arasında hızlı, genel olarak dağıtılmış erişim için Azure Cosmos DB veya daha basit, daha düşük maliyetli okuma ağırlıklı iş yükleri için Azure Tablo Depolama yer alır.
Teknoloji seçenekleri
| Function | Önerilen teknolojiler | Alternatifler / tamamlayıcı araçlar |
|---|---|---|
| Toplanan veri depolama | Azure Data Lake Storage Gen2, Microsoft Fabric Lakehouse, Azure Synapse Analytics | Azure Blob Depolama, SQL Veritabanı, şirket içi veri ambarı |
| Veri işleme ve dönüştürme (ETL/ELT) | Azure Data Factory, Azure Databricks (PySpark, SQL), Microsoft Fabric Veri Mühendisliği | Apache Airflow, Apache NiFi, Synapse Pipelines |
| Geliştirme ve eğitim ortamı | Azure Machine Learning (MLflow tümleştirmesi ile), Azure Databricks Çalışma Alanları | JupyterHub, Kubeflow, Amazon SageMaker |
| Özellik deposu | Azure Machine Learning Özellik Deposu, Databricks Özellik Deposu | Ziyafet (açık kaynak), Tecton |
| Toplu çıkarım | Azure Cosmos DB, Azure Table Storage | Azure SQL Veritabanı, PostgreSQL, Redis Cache |
| Model kayıt defteri ve deneme izleme | MLflow (Azure Machine Learning veya Databricks ile tümleşik) | Ağırlıklar ve Sapmalar, Neptune.ai, DVC |
| Düzenleme ve otomasyon | Azure Data Factory İşlem Hatları, Azure Machine Learning İşlem Hatları | Apache Airflow, Prefect |
| Güvenlik ve erişim denetimi | Microsoft Entra Id (Azure AD), Azure Key Vault, Yönetilen Kimlikler | HashiCorp Vault, AWS IAM |