Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Azure Databricks, veri ekiplerinin verimli bir şekilde işbirliği yapmak için kullanabileceği Apache Spark tabanlı bir analiz platformudur. Büyük ölçekte veri mühendisliği, makine öğrenmesi ve analiz iş yükleri oluşturmak ve dağıtmak için bunu kullanın. Bu makale, Azure Databricks için yaygın konuları ve en iyi yöntemleri kapsar ve Azure Well-Architected Framework sütunlarına eşlenen mimari öneriler sunar.
Bir mimar olarak Analiz veri deposu seçin'i gözden geçirip iş yükünüz için analiz platformu olarak Azure Databricks'i seçtiğiniz varsayılır.
Teknoloji kapsamı
Bu gözden geçirme, aşağıdaki Azure kaynakları için birbiriyle ilişkili kararlara odaklanır:
- Azure Databricks
- Spark
- Delta Gölü
- Unity Kataloğu
- MLflow
Reliability
Güvenilirlik sütununun amacı, yeterli dayanıklılık ve hatalardan hızlı kurtarma olanağı oluşturarak sürekli işlevsellik sağlamaktır.
Güvenilirlik tasarım ilkeleri , tek tek bileşenler, sistem akışları ve bir bütün olarak sistem için uygulanan üst düzey bir tasarım stratejisi sağlar.
İş yükü tasarımı denetim listesi
Güvenilirlikiçin
Hizmet sınırlarını ve kotalarını anlama. Azure Databricks hizmeti , işlem kümeleri, çalışma alanı kapasitesi, depolama aktarım hızı ve ağ bant genişliği kısıtlamaları aracılığıyla iş yükü güvenilirliğini doğrudan kısıtlar. Mimari tasarımınızın, talebin en yoğun olduğu sırada ölçeklendirme işlemlerini durdurabilecek beklenmeyen hizmet kesintilerini önlemek için proaktif olarak kotalar içermesi gerekir. Bu kotalar arasında 1000 düğümlü küme sınırı, çalışma alanı kümesi üst sınırları ve bölgesel kapasite kısıtlamaları bulunur.
Olası hataları tahmin etmek için hata modu analizini (FMA) kullanın. Sistematik FMA , olası sistem hatalarını belirler ve dağıtılmış bilgi işlem dayanıklılığını korumak için ilgili risk azaltma stratejilerini oluşturur.
Aşağıdaki tabloda yaygın hata senaryoları ve kanıtlanmış risk azaltma yaklaşımları yer almaktadır.
Failure Mitigation Küme kontrol düğümü hatası Küme otomatik yeniden başlatma ilkelerini kullanın ve Spark uygulamaları için denetim noktası oluşturmayı uygulayın. Hataya dayanıklı durum yönetimi ile yapılandırılmış akış kullanın. İş yürütme hataları Üstel geri alma ile yeniden deneme ilkeleri uygulayın. Hata işleme ile Azure Databricks iş orkestrasyonunu kullanın. Uygun zaman aşımı ayarlarını yapın. Veri bozulması veya tutarsızlık Lakeflow Spark Tanımlayıcı İşlem Hatlarında Delta Lake bölünmezliği, tutarlılığı, yalıtımı ve dayanıklılık (ACID) işlemlerini, zaman yolculuğu özelliklerini ve veri beklentilerini kullanın. Veri doğrulama denetimleri ve izleme uygulama. Çalışma alanı veya bölge erişilemez Çok bölgeli dağıtım stratejileri uygulayın. Çalışma alanı yedekleme ve geri yükleme yordamlarını kullanın. Bölgeler arası veri çoğaltmayı ayarlayın. Bu azaltma stratejileri, hataya dayanıklılık için otomatik yeniden başlatma, otomatik ölçeklendirme, Delta Lake tutarlılık garantileri ve Unity Kataloğu güvenlik özellikleri gibi yerel Azure Databricks özelliklerini kullanır.
Kritik katmanlar arasında yedekliliği destekleyecek şekilde tasarla. Kritik mimari katmanlarında yedeklilik, iş yükü sürekliliğini korumak için önemlidir.
Örneğin, farklı örnek türlerini ve küme havuzlarını kullanarak ve otomatik düğüm değiştirme ilkeleri uygulayarak kümeleri kullanılabilirlik alanları arasında dağıtın. Güvenilir ağ tasarımı, denetim düzlemi erişilebilirliğini, veri erişimini ve bağımlılıklarla iletişimi kesintiye uğratabilecek bağlantı hatalarına karşı da koruma sağlar. Ağ dayanıklılığını sağlamak için yedekli ağ yollarını, çeşitli özel uç nokta yapılandırmalarını, Etki Alanı Adı Sistemi (DNS) yük devretme mekanizmalarını ve sanal ağ eklemeyi kullanın. İdare hataları veri erişimini durdurabileceğinden ve uyumluluk gereksinimlerini tehlikeye atabileceğinden, hizmet kesintileri sırasında uyumluluk ve veri erişilebilirliğini korumak için meta veri dayanıklılığı önemlidir.
Daha yüksek kullanılabilirlik için coğrafi yedeklilik için çok bölgeli Azure Databricks dağıtımlarını kullanmayı göz önünde bulundurun. Bu yaklaşım bölgesel kesintilere karşı korunmaya yardımcı olur ve genişletilmiş hizmet kesintileri sırasında iş sürekliliği (BC) sağlar. Çoklu bölge kurulumu, olağanüstü durum kurtarma (DR) için de uygun bir çözümdür.
Ölçeklendirme stratejileri uygulayın. Tutarlı performansı korurken talep dalgalanmalarını işlemek için otomatik ölçeklendirmeyi kullanın. Kaynak sağlama gecikmelerini ve bölgesel kapasite sınırlarını planlayın. Yoğun talep sırasında yanıt hızını ölçeklendirme ve küme başlatma gecikme süresi arasındaki dengeyi sağlayın.
Geliştirilmiş güvenilirlik için sunucusuz işlem benimseyin. Sunucusuz işlem seçenekleri, altyapı yönetimini Microsoft'a kaydırarak operasyonel karmaşıklığı azaltır ve güvenilirliği artırır. Bu yaklaşım, küme yaşam döngüsü yönetimi ek yükü olmadan otomatik ölçeklendirme, yerleşik hataya dayanıklılık ve tutarlı kullanılabilirlik sağlar.
Kapsamlı sağlık izleme ve uyarı uygulama. Sorunları proaktif olarak algılamak ve kullanılabilirliği etkilemeden önce yanıt vermek için tüm Azure Databricks bileşenlerinde kapsamlı izleme kullanın. Çalışma alanı durumu, küme durumu, iş yürütme desenleri ve veri işlem hattı performansı için otomatik yükseltme iş akışlarını uygulayın.
Delta Lake güvenilirlik özelliklerini kullanarak verileri koruyun. Delta Lake, ACID işlemleri, otomatik sürüm oluşturma, geçmişe dönük veri erişimi ve şema zorlama aracılığıyla temel veri koruması sağlar. Bu özellikler bozulmayı önler ve veri sorunlarından kurtarmanıza yardımcı olur.
İş güvenilirliğini ve yeniden deneme mekanizmalarını ayarlayın. İş güvenilirliği yapılandırmaları, akıllı yeniden deneme ilkeleri, zaman aşımı yönetimi ve geçici sorunlar ile kalıcı hataları birbirinden ayıran hata işleme mekanizmaları kullanarak dayanıklı veri işlemeyi sağlar.
Veri işlem hattı dayanıklılığı ve hataya dayanıklılık oluşturma. Veri işlem hattı dayanıklılığı, hataların birbirine bağlı veri sistemlerinde art arda ilerleyebileceği ve iş analizi iş akışlarını kesintiye uğratabileceği dağıtılmış veri işlemenin kritik güvenilirlik zorluklarını giderir.
Gelişmiş dayanıklılık stratejileri, altyapı kesintileri sırasında otomatik hata işleme, veri kalitesi zorlama ve düzgün bir şekilde düşüş sağlamak için Lakeflow Spark Bildirimli İşlem Hatları, yapılandırılmış akış denetim noktaları, Otomatik Yükleyici kurtarılan veri özellikleri ve Lakeflow Spark Bildirimli İşlem Hatları kalite kısıtlamalarını kullanır.
Yedekleme ve Felaket Kurtarma prosedürleri oluşturun. Etkin DR , kurtarma süresi hedeflerini (GPO) iş gereksinimleriyle uyumlu hale getirmenizi ve çalışma alanı meta verileri, not defteri depoları, iş tanımları, küme yapılandırmaları ve tümleşik veri depolama sistemleri için otomatik yedekleme işlemleri oluşturmanızı gerektirir.
Kurtarma için ikincil bir bölge kullanıyorsanız, coğrafi sınırlar arasında işlem sürekliliğini korumak için çalışma alanı meta veri eşitlemesi, kod deposu çoğaltması ve bağımlı Azure hizmetleriyle eşgüdümlü tümleştirmeyi hesaplayın.
Güvenilirlik testi ve kaos mühendisliği uygulama. Sistematik güvenilirlik testi, hata kurtarma mekanizmalarının gerçek dünya senaryolarında düzgün çalıştığını doğrular. Üretim ortamlarını etkilemeden önce dayanıklılık boşluklarını belirlemek için testlerinizde kaos mühendisliği ilkelerini uygulayın.
Recommendations
| Tavsiye | Fayda |
|---|---|
| En az iki düğüm sayısı ve çalışma alanı kota sınırlarıyla uyumlu en yüksek düğüm sayısı ile küme otomatik ölçeklendirmesini ayarlayın. Maliyet verimliliğini performansı artırma özelliğiyle dengelemek için 70% ile 80% arasında hedef kullanım eşiklerini ayarlayın. | Otomatik ölçeklendirme, maliyet verimliliğini korurken küme kaynağı tükenmesini önlemek için dinamik düğüm ayırmayı kullanır. İş yüklerinin hizmet kotaları içinde kaldığından emin olmak için uygun sınırları ayarlayın. Bu yaklaşım, çalışma alanı kapasitesi kısıtlamalarını aştıkları için başarısız olan işleri önlemenize yardımcı olur. |
| Görev açısından kritik iş yükleri için Azure Databricks çalışma alanlarını birden çok Azure bölgesine dağıtın. Databricks Varlık Paketleri ve Azure DevOps veya Azure Data Factory işlem hatlarını kullanarak kaynak kodun, iş tanımlarının ve küme yapılandırmalarının otomatik yedeklemesiyle çalışma alanı çoğaltmasını ayarlayın. | Çoklu bölge dağıtımları, bölgesel kesintiler veya olağanüstü durumlar sırasında veri işleme özelliklerini koruyan coğrafi yedeklilik sağlar. Otomatik çalışma alanı çoğaltması, bölgeler arasında tutarlı yapılandırmalar sağlayarak RTO'ları saatlerden dakikalara düşürür. Bu yaklaşım BCuity gereksinimlerini destekler ve genişletilmiş bölgesel hizmet kesintileri sırasında operasyonel etkileri en aza indirir. |
| Aynı aile içinde farklı sanal makine (VM) boyutları kullanarak önceden başlatılmış VM örneklerine sahip küme havuzları oluşturun. Tipik iş yükü gereksinimlerine göre 20% ile 30% daha fazla ek yük kapasitesi sağlamak için havuz boyutlarını ayarlayın. | Önceden uyarılan küme havuzları, küme başlatma süresini 5 ila 10 dakikadan 60 saniyenin altına düşürerek iş yükünüzün düğüm hatalarından daha hızlı kurtarılmasına yardımcı olur. Havuzlar içindeki farklı VM boyutlandırması, belirli örnek türleri kapasite kısıtlamalarıyla karşılaşsa bile küme sağlamanın başarılı olmasını sağlar. |
| Otomatik tablo sürüm oluşturma ve bekletme ilkeleri ayarlayarak Delta Lake zaman yolculuğu özelliklerini etkinleştirin. Saklama sürelerini, genellikle üretim tabloları için 7-30 gün olan kurtarma gereksinimlerine göre ayarlayın. | Zaman yolculuğu özellikleri, dış yedekleme sistemleri veya karmaşık geri yükleme yordamları gerektirmeden belirli bir noktaya kurtarma (PITR) sağlar. Otomatik sürüm oluşturma, uyumluluk ve hata ayıklama amacıyla tam veri kökenini korurken veri bozulmasına ve yanlışlıkla yapılan değişikliklere karşı koruma sağlar. Bu yaklaşım, veri sorunlarından hızlı kurtarma sağlarken ayrı yedekleme altyapısı gereksinimini ortadan kaldırır. |
| Küme olayları, iş yürütme ve veri analizi için tanılama günlüklerini etkinleştirerek Azure Databricks'i Azure İzleyici ile tümleştirin. Küme durumu, iş hatası oranları ve kaynak kullanım eşikleri için özel ölçümler ve uyarılar ayarlayın. | Merkezi izleme, üretim iş yüklerini etkilemeden önce sorunları proaktif olarak algılayabilmek için tüm Azure Databricks bileşenlerinde birleştirilmiş gözlemlenebilirlik sağlar. Özel uyarı, kümelerde performans düşüşü veya iş hataları kabul edilebilir eşikleri aştığında takımlara otomatik olarak bildirim göndererek ortalama çözüm süresini (MTTR) azaltır. |
| Küme yönetimi ek yükü olmadan tutarlı kullanılabilirlik gerektiren planlanmamış analiz ve raporlama iş yükleri için sunucusuz SQL ambarları dağıtın. | Sunucusuz altyapı, küme sağlama gecikmelerini ortadan kaldırır ve yerleşik yüksek kullanılabilirlik garantileriyle otomatik ölçeklendirme sağlar. Microsoft tüm altyapı düzeltme eklerini, güncelleştirmeleri ve hata kurtarmayı yönetir ve bu da operasyonel karmaşıklığı azaltır ve tutarlı performans sağlamaya yardımcı olur. |
| Üstel geri alma işlemini 30 saniyede başlatmak için Azure Databricks iş yeniden deneme ilkelerini ayarlayın ve yeniden deneme sayısı üst sınırını 3 olarak ayarlayın. Gereksiz kaynak tüketimini önlemek için geçici hatalar ve yapılandırma hataları için farklı yeniden deneme stratejileri ayarlayın. | Akıllı yeniden deneme mekanizmaları, el ile müdahale olmadan ağ zaman aşımları veya geçici kaynak kullanılamazlığı gibi geçici hatalardan otomatik olarak kurtarılır. Üstel geri çekilme, kesintiler sırasında aşağı akış hizmetlerinin aşırı yüklenmesini önler. Ayrıca, kurtarılabilir geçici sorunlar ile kalıcı yapılandırma sorunları arasında ayrım da vardır. Bu yaklaşım, işletim yükünü azaltır ve otomatik hata kurtarma yoluyla genel sistem dayanıklılığını artırır. |
| Azure Databricks çalışma alanları için özel ağ yönlendirme ve özel bağlantıya izin vermek amacıyla sanal ağ enjeksiyonu uygulayın. Trafik akışını denetlemek ve mevcut kurumsal ağ altyapısıyla tümleştirmek için ağ güvenlik gruplarını (NSG) ve Azure Güvenlik Duvarı kurallarını ayarlayın. | Sanal ağ ekleme, özel yönlendirme seçenekleri aracılığıyla ağ düzeyinde yedeklilik sağlar ve varsayılan Azure ağ yollarına bağımlılığı ortadan kaldırır. Özel bağlantı, güvenlik yalıtımını korurken şirket içi ağlarla ve diğer Azure hizmetleriyle tümleştirmeye olanak tanır. Bu yapılandırma, ağ güvenilirliğini artıran birden çok kullanılabilirlik alanını ve özel yük dengeleme stratejilerini destekler. |
| Unity Kataloğu'nu otomatik meta veri deposu yedeklemesi ve bölgeler arası meta veri eşitlemesi ile etkinleştirin. Çalışma alanı hataları sırasında meta veri kalıcılığını sağlamak için ayrı depolama hesaplarında dış meta veri deposu konumlarını ayarlayın. | Unity Kataloğu yedeklemesi, çalışma alanı olağanüstü durumlarında idare ilkelerini ve veri kökeni bilgilerini korur. Bölgeler arası eşitleme, tüm ortamlarda merkezi erişim denetimi ilkelerini korurken meta veri kurtarma süresini saatlerden dakikalara azaltır. |
| Otomatik kalite uygulama ve hataya dayanıklılık gerektiren üretim veri işlem hatları için Lakeflow Spark Bildirimli İşlem Hatlarını dağıtın. Veri kalitesini sağlamak ve işleme sürekliliğini korumak için işlem hattı yeniden başlatma ilkelerini ve beklenti işlemeyi ayarlayın. | Lakeflow Spark Bildirimli İşlem Hatları, el ile müdahale olmadan geçici hataları, veri kalitesi ihlallerini ve altyapı sorunlarını otomatik olarak işler. Yerleşik kalite zorlaması bozuk verilerin aşağı akış yaymasını önler ve otomatik yeniden deneme özellikleri geçici kaynak kısıtlamaları sırasında işlem hattının tamamlanmasını sağlar. Bu yönetilen yaklaşım, veri bütünlüğü standartlarını korurken operasyonel ek yükü azaltır. |
| Kaynak kodu, iş ve işlem hattı yapılandırmalarını, küme ayarlarını ve çalışma alanı meta verilerini dışarı aktarmak için Azure REST API'lerini veya Databricks CLI'yı kullanarak otomatik çalışma alanı yedekleme yordamları oluşturun. Bölgeler arası çoğaltma açıkken Azure Depolama hesaplarına düzenli yedeklemeler zamanlayın. | Kapsamlı çalışma alanı yedeklemeleri, olağanüstü durum senaryoları sırasında tüm geliştirme çalışmalarını ve işletimsel yapılandırmaları koruyan tam ortam geri yüklemesine olanak tanır. Otomatik yordamlar insan hatasını ortadan kaldırır ve yedekleme tutarlılığını sağlar. Bölgeler arası depolama çoğaltması bölgesel kesintilere karşı koruma sağlar. Bu yaklaşımlar RTO'ları azaltır ve veri ekipleri ve analiz iş akışları için BCuity'i korur. |
| Bölge yedekli depolamaya (ZRS) sahip yüksek oranda kullanılabilir Depolama hesaplarında yapılandırılmış akışı uygulayın ve denetim noktası konumlarını saklayın. Aktarım hızı gereksinimlerine ve hata kurtarma hedeflerine göre denetim noktası aralıklarını 10 ile 60 saniye arasında ayarlayın. | Denetim noktası oluşturma, tam olarak bir kez işleme garantisi sağlar ve veri kaybı veya yinelenen işleme olmadan küme hatalarından otomatik kurtarma sağlar. ZRS, altyapı kesintileri sırasında akış uygulamalarının sürekliliğini sağlamak için kullanılabilirlik alanı arızalarına karşı denetim noktası kalıcılığını garanti eder. |
| Sürekli işlem iş yükleri için otomatik küme yeniden başlatma ilkelerini etkinleştirin. Uygun yeniden başlatma zaman aşımlarını ve en fazla yeniden başlatma denemelerini ayarlayın. Görev açısından kritik veri işleme iş akışları için küme sonlandırma algılamasını ve otomatik iş yeniden zamanlama özelliğini açın. | Otomatik yeniden başlatma ilkeleri, el ile müdahaleye gerek kalmadan planlı bakım olayları ve beklenmeyen küme hataları sırasında iş yükü sürekliliğini güvence altına alır. Akıllı yeniden başlatma mantığı, kritik veri işleme görevleri için hizmet kullanılabilirliğini korurken sonsuz yeniden başlatma döngülerini önlemek için kurtarılabilir hatalarla kalıcı sorunları birbirinden ayırır. |
| Kapasite kısıtlamaları sırasında ayırma esnekliği sağlamak için aynı işlem kategorisinde birden çok VM ailesi ve boyutu olan örnek havuzları ayarlayın. | Çeşitli örnek türü yapılandırmaları, belirli VM boyutları bölgesel kapasite sınırlamalarıyla karşılaşsa bile küme sağlamanın başarılı olmasını sağlar. Havuzlar içindeki karma VM aileleri, maliyet iyileştirme fırsatları sağlar ve iş yükü gereksinimleri için performansı korur. Bu yaklaşım yoğun talep dönemlerinde sağlama hatası riskini azaltır. |
| Üretim dışı ortamlarda küme hatalarını, ağ bölümlerini ve kaynak kısıtlamalarını bilerek tanıtarak kaos mühendisliği uygulamaları oluşturun. Hata senaryosu ekleme işlemini otomatikleştirmek için Azure Chaos Studio'yu kullanarak kurtarma prosedürlerini doğrulayın ve dayanıklılık boşluklarını belirleyin. | Proaktif hata testi, üretim olayları gerçekleşmeden önce DR yordamlarını ve otomatik kurtarma özelliklerini doğrular. Sistematik kaos mühendisliği işlem hattı bağımlılıklarında, küme yapılandırmalarında ve izleme sistemlerinde normal işlemler sırasında görünür olmayabilecek zayıf noktaları tanımlar. Bu yaklaşım, gerçek kesintiler sırasında kurtarma yordamlarının tasarlandığı gibi çalıştığından emin olurken sistem dayanıklılığında güven oluşturur. |
Security
Güvenlik sütununun amacı iş yüküne gizlilik, bütünlük ve kullanılabilirlik garantileri sağlamaktır.
Güvenlik tasarımı ilkeleri, Azure Databricks'in teknik tasarımına yaklaşımlar uygulayarak bu hedeflere ulaşmak için üst düzey bir tasarım stratejisi sağlar.
İş yükü tasarımı denetim listesi
Güvenlik için tasarım gözden geçirme denetim listesini temel alarak tasarım stratejinizi başlatın ve güvenlik duruşunu geliştirmek için güvenlik açıklarını ve denetimleri belirleyin. Gerektiğinde daha fazla yaklaşım içerecek şekilde stratejiyi genişletin.
Güvenlik temellerini gözden geçirin. Azure Databricks güvenlik temeli, Microsoft bulut güvenlik karşılaştırmasında belirtilen güvenlik önerilerini uygulamak için yordamsal rehberlik ve kaynaklar sağlar.
Güvenli geliştirme yaşam döngüsünü (SLC) tümleştirin. Geliştirme yaşam döngüsünün başlarındaki güvenlik açıklarını belirlemek için kaynak kodu ve MLflow modeli güvenlik doğrulaması için güvenlik kodu taraması uygulayın.
Azure Databricks kaynaklarının güvenli yapılandırmalarını zorunlu kılmak için kod olarak altyapı (IaC) doğrulamasını kullanın.
Güvenli kaynak kodu yönetimi uygulayarak, kimlik bilgilerini geliştirme iş akışlarında güvenli bir şekilde yöneterek ve otomatik güvenlik testlerini veri işleme ve makine öğrenmesi modeli dağıtımı için kullandığınız sürekli tümleştirme ve sürekli teslim (CI/CD) işlem hatlarıyla tümleştirerek geliştirme ortamını koruyun.
Merkezi idare sağlayın. Azure Databricks işlem hatları aracılığıyla veri kaynakları için izlenebilirlik ve denetim ekleyin. Unity Kataloğu, ayrıntılı erişim denetimleri ve doğrulama ile çalışma alanları arasında veri bulma ve köken izlemeyi destekleyen merkezi bir meta veri kataloğu sağlar.
Unity Kataloğu dış veri kaynaklarıyla tümleştirebilir.
Kasıtlı kaynak segmentasyonu başlatın. Ayrı çalışma alanları ve abonelikler kullanarak farklı kapsamlarda segmentlere ayırmayı zorunlu kılma. Olası ihlallerin etkisini sınırlamak için üretim, geliştirme ve korumalı alan ortamları için ayrı segmentler kullanın.
Segmentasyon uygulamak için aşağıdaki eylemleri gerçekleştirin:
Daha katı erişim denetimlerine sahip ayrılmış çalışma alanlarındaki hassas veri iş yüklerini yalıtma.
Keşif çalışmaları için sınırlı ayrıcalıklara sahip ve üretim verileri erişimi olmayan korumalı alan ortamlarını kullanın.
Güvenli ağ erişimi uygulayın. Spark kümeleri ve VM'ler gibi Azure Databricks veri düzlemi kaynakları, sanal ağ ekleme yoluyla Azure Sanal Ağ içindeki alt ağlara dağıtılır. Databricks platformunun yönettiği kontrol düzlemi, yetkisiz erişimi engelleyen veri düzleminden yalıtılır. Denetim düzlemi, iş yükünü yönetmek için veri düzlemiyle güvenli bir şekilde iletişim kurarken, tüm veri işleme işlemleri ağınızda kalır.
Sanal ağ ekleme, Azure'da özel ağ özelliklerini kullanarak yapılandırma, yönlendirme ve güvenlik üzerinde denetim sağlar. Örneğin, genel İnternet'i kullanmadan denetim düzlemine bağlantının güvenliğini sağlamak için Azure Özel Bağlantı'yı kullanabilirsiniz. NSG'leri kullanarak alt ağlar arasındaki çıkış ve giriş trafiğini denetleyebilir ve trafiği denetim ve denetim için Azure Güvenlik Duvarı, NAT Ağ Geçidi veya ağ sanal gereçleri aracılığıyla yönlendirebilirsiniz. Gerekirse, sanal ağı şirket içi ağınızla da eşleyebilirsiniz.
Yetkilendirme ve kimlik doğrulama mekanizmaları uygulayın. Hem denetim hem de veri düzlemleri arasında kimlik ve erişim yönetimini göz önünde bulundurun. Azure Databricks çalışma zamanı, işler çalışırken kendi güvenlik özelliklerini ve erişim denetimlerini zorunlu kılarak katmanlı bir güvenlik modeli oluşturur. Unity Kataloğu ve Spark kümeleri gibi Azure Databricks bileşenleri Microsoft Entra Id ile tümleştirildiğinden, Azure rol tabanlı erişim denetimi (Azure RBAC) ilkelerini kullanarak erişimi yönetebilirsiniz. Bu tümleştirme ayrıca çoklu oturum açma (SSO), çok faktörlü kimlik doğrulaması ve koşullu erişim ilkeleri aracılığıyla kurumsal kimlik doğrulaması sağlar.
Mimarinizin Databricks'e özgü güvenliğe nerede güvendiğini ve Microsoft Entra ID ile nerede kesiştiğini öğrenin. Bu katmanlı yaklaşım ayrı kimlik yönetimi ve bakım stratejileri gerektirebilir.
Dinlenimdeki verileri şifreleyin. Azure Databricks, şifreleme anahtarlarını yönetmek için Azure Key Vault ile tümleşir. Bu tümleştirme müşteri tarafından yönetilen anahtarları desteklediğinden, iptal etme, denetim ve güvenlik ilkeleriyle uyumluluk gibi şifreleme anahtarlarınızın çalışmasını denetleyebilirsiniz.
İş yükü gizli bilgilerini koruma. Veri iş akışlarını çalıştırmak için genellikle veritabanı bağlantı dizeleri, API anahtarları ve diğer hassas bilgiler gibi gizli dizileri depolamanız gerekir. Azure Databricks, gizli kapsamları yerel olarak destekler ve bu sayede bir çalışma alanında gizlilikleri depolayarak, bunlara kaynak kodundan ve işlerden güvenli bir şekilde erişebilirsiniz.
Gizli dizin kapsamları Key Vault ile entegre edilerek gizli verilere başvurabilir ve bunları merkezi olarak yönetebilirsiniz. Kurumsal ekipler genellikle uyumluluk, güvenlik ve ilke zorlama için Key Vault tarafından desteklenen gizli kapsamlarına ihtiyaç duyar.
Güvenlik izleme uygulayın. Azure Databricks oturum açma girişimleri, not defteri erişimi ve izinlerdeki değişiklikler gibi denetim günlüğünü yerel olarak destekler. Çalışma alanında yönetici etkinliklerini görmek için bu günlükleri kullanın. Ayrıca Unity Kataloğu erişim günlükleri, kimlerin hangi verilere eriştiği, ne zaman eriştiği ve bunlara nasıl eriştiği de izler.
Azure İzleyici'deki günlükleri görüntülemek için Azure Databricks'i kullanın.
Databricks Güvenlik Çözümleme Aracı (SAT), Azure Databricks çalışma alanlarıyla da uyumludur.
Recommendations
| Tavsiye | Fayda |
|---|---|
| Ağ yalıtımı oluşturmak ve kurumsal ağ altyapısıyla tümleştirmeye izin vermek için sanal ağ ekleme kullanarak Azure Databricks çalışma alanlarını dağıtın. Trafik akışını denetlemek ve kurumsal güvenlik ilkelerini zorunlu kılmak için özel ağ güvenlik grupları, yönlendirme tabloları ve alt ağ temsilcisi ayarlayın. | Sanal ağ ekleme, küme düğümleri için genel İnternet'e maruz kalma durumunu ortadan kaldırır ve özel yönlendirme ve güvenlik duvarı kuralları aracılığıyla ayrıntılı ağ denetimi sağlar. Şirket içi ağlarla tümleştirme, kurumsal güvenlik standartlarıyla uyumluluğu korurken güvenli karma bağlantıya olanak tanır. |
| Çalışma alanı erişimi için çok faktörlü kimlik doğrulaması ve koşullu erişim ilkeleriyleMicrosoft Entra ID SSO tümleştirmesini ayarlayın. Kimlik yönetimini kolaylaştırmak ve kurumsal kimlik doğrulama standartlarını zorlamak için otomatik kullanıcı sağlamayı ve grup eşitlemesini açın. | SSO tümleştirmesi, parolayla ilgili güvenlik risklerini ortadan kaldırır ve kurumsal kimlik doğrulama sistemleri aracılığıyla merkezi kimlik yönetimi sağlar. Koşullu erişim ilkeleri, çalışma alanı erişimi vermeden önce kullanıcı konumunu, cihaz uyumluluğunu ve risk faktörlerini değerlendiren bağlama duyarlı güvenlik denetimleri ekler. Bu katmanlı yaklaşım, kimlik doğrulamasıyla ilgili güvenlik açıklarını önemli ölçüde azaltır ve kullanıcı deneyimini geliştirir. |
| Tüm Azure Databricks çalışma alanlarında birleşik veri idaresi oluşturmak için Unity Kataloğu'nu merkezi meta veri deposu yapılandırmasıyla dağıtın. Düzenli izin denetimlerine sahip kataloglar, şemalar ve tablo düzeyinde erişim denetimleri kullanarak hiyerarşik izin yapıları ayarlayın. | Unity Kataloğu, tutarsız erişim denetimlerini ortadan kaldıran ve birden çok çalışma alanında güvenlik boşluklarını azaltan merkezi veri idaresi sağlar. Ayrıntılı izinler en az ayrıcalıklı erişime izin verirken, denetim günlüğü uyumluluk gereksinimlerini ve güvenlik araştırmalarını destekler. |
| Otomatik anahtar döndürme ilkeleriyle Key Vault tümleştirmesini kullanarak çalışma alanı depolama şifrelemesi için müşteri tarafından yönetilen anahtarları etkinleştirin. Farklı ortamlar için ayrı şifreleme anahtarları ayarlayın ve anahtar yönetimi işlemleri için uygun erişim denetimlerini uygulayın. | Müşteri tarafından yönetilen anahtarlar, şifreleme anahtarı yaşam döngüsü yönetimi üzerinde tam denetim sağlar ve veri hakimiyeti için mevzuat uyumluluğu gereksinimlerini destekler. Ortamlar arasında anahtar ayrımı güvenlik açığını azaltır. Otomatik döndürme ilkeleri, operasyonel ek yük olmadan şifreleme hijyenini korur. Bu yaklaşım, FIPS 140-2 Düzey 3 veya Ortak Ölçüt standartları gibi sıkı uyumluluk gereksinimlerini karşılamanıza yardımcı olur. |
| RBAC ile merkezi kimlik bilgileri yönetimi için Key Vault tarafından desteklenen gizli kapsamlar oluşturun. Gizli dizi döndürme ilkeleri uygulayın ve kimlik bilgilerini kaynak kodunda veya küme yapılandırmalarında depolamaktan kaçının. | Key Vault tümleştirmesi, gizli bilgi yönetimini merkezileştirir ve erişim günlüğü ve otomatik yenileme özellikleri gibi kurumsal düzeyde güvenlik denetimleri sağlar. Bu yaklaşım, dış sistemlere ve veritabanlarına güvenli erişim sağlarken kod ve yapılandırma dosyalarında kimlik bilgilerinin açığa çıkarmasını ortadan kaldırır. |
| Güvenilen kurumsal ağlar için yalnızca izin verme ilkelerine ve bilinen tehdit kaynakları için reddetme kurallarına sahip IP erişim listeleri oluşturun. Güvenlik gereksinimlerine göre üretim ve geliştirme ortamları için farklı erişim ilkeleri ayarlayın. | IP adresi tabanlı erişim denetimleri, güvenilmeyen ağlardan yetkisiz erişimi engelleyen ek bir güvenlik katmanı sağlar ve bu da saldırı yüzeyini azaltır. Ortama özgü ilkeler, ağ tabanlı erişim kısıtlamaları için uyumluluk gereksinimlerini desteklerken uygun güvenlik düzeylerini zorunlu kılar. |
| Genel IP adreslerinin bunlara erişememesini sağlamak için tüm kümeleri güvenli küme bağlantısı kullanacak şekilde ayarlayın ve küme düğümlerine Secure Shell (SSH) erişimini kapatın. Yetkisiz kod yürütülmesini önlemek için küme erişim modlarını ve çalışma zamanı güvenlik özelliklerini uygulayın. | Güvenli küme bağlantısı, işlem düğümleri için genel İnternet erişimini ortadan kaldırırken, küme güvenliğini tehlikeye atabilecek doğrudan SSH erişimini engeller. Çalışma zamanı güvenlik özellikleri, küme ortamında kötü amaçlı kod yürütme ve yanal hareket saldırılarına karşı ek koruma sağlar. |
| Çalışma alanı bağlantısı için genel İnternet geçişini ortadan kaldırmak için denetim düzlemi erişimi için Özel Bağlantı uç noktalarını dağıtın. Özel DNS bölgeleri ayarlayın ve sorunsuz özel bağlantı tümleştirmesi için doğru ağ yönlendirmesini sağlayın. | Özel Bağlantı, çalışma alanı erişiminin genel İnternet'e açık olmasını ortadan kaldırır ve tüm yönetim trafiğinin Azure'daki omurga ağı içinde kalmasını sağlar. Özel bağlantı, hassas iş yükleri için gelişmiş güvenlik sağlar ve özel ağ erişimini zorunlu hale getiren uyumluluk gereksinimlerini destekler. Bu yapılandırma, tam çalışma alanı işlevselliğini korurken İnternet tabanlı tehditlere maruz kalma olasılığını azaltır. |
| Sağlık Sigortası Taşınabilirlik ve Sorumluluk Yasası (HIPAA), Ödeme Kartı Endüstri Veri Güvenliği Standardı (PCI DSS) veya Sistemler ve Kuruluş Denetimleri 2 (SOC 2) uyumluluğu gerektiren düzenlenmiş ortamlar için gelişmiş güvenlik ve uyumluluk ayarlarını etkinleştirin. Otomatik güvenlik güncelleştirmelerini ayarlayın ve belirli mevzuat çerçeveleri için uyumluluk güvenlik profillerini açın. | Gelişmiş güvenlik ve uyumluluk özellikleri uyumluluk güvenlik profilleri, otomatik güvenlik güncelleştirmeleri ve gelişmiş izleme özellikleri dahil olmak üzere özel güvenlik denetimleri sağlar. Bu yönetilen yaklaşım, güvenlik yönetimi için operasyonel ek yükü azaltırken mevzuat gereksinimleriyle sürekli uyumluluk sağlar. Otomatik güncelleştirmeler, iş operasyonlarını kesintiye uğratmadan veya el ile müdahale gerektirmeden güvenlik duruşunu korur. |
| Unity Kataloğu sistem tablolarını ve otomatik analiz ve uyarı içeren çalışma alanı denetim günlüklerini kullanarak denetim günlüğünü açın. Günlük saklama ilkelerini ayarlayın ve merkezi güvenlik izleme ve olay yanıtı için Güvenlik Bilgileri ve Olay Yönetimi (SIEM) sistemleriyle tümleştirin. | Denetim günlüğü, güvenlik izleme ve uyumluluk raporlaması için kullanıcı etkinliklerine, veri erişim düzenlerine ve sistem değişikliklerine görünürlük sağlar. SIEM sistemleriyle tümleştirme, merkezi günlük analizi aracılığıyla otomatik tehdit algılama ve hızlı olay yanıtı özellikleri sağlar. |
| API erişimi ve kişisel erişim belirteçleri (PAT) yerine otomatik iş yükleri için OAuth 2.0 makineden makineye kimlik doğrulamasını ayarlayın. Güvenli programlanabilir erişim sağlamak için uygun belirteç kapsamını belirleme ve yaşam döngüsü yönetimi uygulayın. | OAuth kimlik doğrulaması, ayrıntılı izin kapsamı ve gelişmiş belirteç yaşam döngüsü yönetimi ile kişisel erişim belirteçlerine (PAT'ler) kıyasla gelişmiş güvenlik sağlar. Bu yaklaşım, programlı çalışma alanı etkileşimleri için uygun erişim denetimlerini ve denetim izlerini korurken güvenli otomasyon sağlar. |
| Farklı ortamlar için ayrı çalışma alanları dağıtarak ve ağ kesimleme denetimleri oluşturarak çalışma alanı yalıtım stratejilerini uygulayın. Ortamlar arası veri erişimini önlemek için ortama özgü erişim ilkeleri ve veri sınırları ayarlayın. | Çalışma alanı yalıtımı, ortamlar arasında veri sızıntısını önler ve veri ayrıştırma ve erişim denetimleri için uyumluluk gereksinimlerini destekler. Bu mimari, güvenlik olaylarının etkilerini azaltır ve risk profilleriyle eşleşen ortama özgü güvenlik ilkelerini uygular. |
| Otomatik düzeltme önerileri sağlayan sürekli güvenlik yapılandırma değerlendirmeleri için SAT'yi dağıtın. Düzenli güvenlik taramaları zamanlayın ve taramaların bulmalarını proaktif güvenlik yönetimi için CI/CD işlem hatlarıyla tümleştirin. | Otomatik güvenlik değerlendirmesi, en iyi güvenlik yöntemlerine ve uyumluluk gereksinimlerine karşı çalışma alanı yapılandırmalarının sürekli izlenmesini sağlar. Geliştirme iş akışlarıyla entegrasyon, yanlış yapılandırmaları üretim ortamlarına ulaşmadan önce tanımlayan ve ele alan shift-left güvenlik uygulamalarını hayata geçirir. Bu proaktif yaklaşım, güvenlik risklerini azaltırken, düzeltme maliyetlerini ve operasyonel kesintileri en aza indirir. |
| Minimum gerekli izinlere sahip otomatik iş akışları ve CI/CD işlem hatları için hizmet sorumlusu kimlik doğrulamasını ayarlayın. Key Vault aracılığıyla kimlik bilgileri yönetimini uygulayın ve gelişmiş güvenlik için sertifika tabanlı kimlik doğrulamasını açın. | Hizmet sorumlusu kimlik doğrulaması, uygun erişim denetimleri ve denetim izleri sağlarken otomatik işlemler için kullanıcı kimlik bilgilerine bağımlılıkları ortadan kaldırır. Sertifika tabanlı kimlik doğrulaması, istemci gizli dizileriyle karşılaştırıldığında güvenliği artırırken, üretim otomasyonu senaryoları için uygun kimlik bilgisi yaşam döngüsü yönetimini destekler. |
| Veri aktarımını izlemek ve kısıtlamak için özel yol tablolarını ve ağ güvenlik gruplarını kullanarak sanal ağ ekleme yoluyla ağ çıkış denetimleri oluşturun. Giden trafik desenlerini incelemek ve denetlemek için Azure Güvenlik Duvarı'nı veya ağ sanal gereçlerini ayarlayın. | Ağ çıkış denetimleri, yetkisiz veri sızdırmayı engellerken, trafik izleme ve analiz yoluyla veri taşıma desenlerine görünürlük sağlar. Özel yönlendirme ve güvenlik duvarı denetimi, güvenlik ihlallerini veya içeriden gelen tehditleri gösteren olağan dışı veri aktarımı etkinliklerini algılar. |
| Hizmet sorumlusu bağımlılıklarını ortadan kaldırmak için Azure Data Lake Storage erişimi için Microsoft Entra Id kimlik bilgisi geçişini etkinleştirin. Kullanıcıya özgü erişim denetimlerini ayarlayın ve Unity Kataloğu idare ilkelerinden uygun izin devralmayı sağlayın. | Kimlik bilgisi geçişi, veri erişimi için hizmet sorumlusu yönetimini basitleştirir ve kuruluş kimlik sistemleriyle entegre olur. Kullanıcıya özgü erişim denetimleri, veri erişim izinlerinin kuruluş ilkeleri ve iş işlevleriyle uyumlu olmasını sağlar. Bu yaklaşım, data lake görevleri için güçlü güvenlik denetimleri ve denetim özelliklerini korurken kimlik bilgisi yönetimini basitleştirir. |
| SSH kısıtlaması, özel görüntü tarama ve çalışma zamanı güvenlik denetimleri dahil olmak üzere küme sağlamlaştırma uygulamaları uygulayın. Küme ilkelerini ve başlatma betiklerini doğrulamayı kullanarak onaylı temel görüntüleri kullanın ve yetkisiz yazılım yüklemesini önleyin. | Küme sağlamlaştırma, saldırı yüzeylerini azaltmak için SSH kısıtlamalarını kullanır ve küme güvenliğini tehlikeye atabilecek yetkisiz yazılım yüklemesini önler. Özel görüntü tarama, temel görüntülerin güvenlik standartlarına uygun olmasını sağlar ve çalışma zamanı denetimleri küme ortamında kötü amaçlı kodu ve yanal hareketi engeller. |
| Statik analiz araçları ve güvenlik açığı tarayıcılarıyla CI/CD işlem hattı tümleştirmesi aracılığıyla kaynak kod ve kod yapıtları için otomatik güvenlik taraması uygulayın. | Otomatik güvenlik taraması, analiz kodu ve altyapı yapılandırmalarındaki güvenlik açıklarını üretim ortamlarına ulaşmadan önce algılamanıza yardımcı olur. |
Maliyet İyileştirme
Maliyet Optimizasyonu, kuruluşun bütçesini karşılarken iş gereksinimlerini de karşılamak amacıyla harcama düzenlerini tespit etmeye, kritik alanlardaki yatırımlara öncelik vermeye ve diğer yerlerde optimizasyon yapmaya odaklanır.
Maliyet İyileştirme tasarım ilkeleri, Bu hedeflere ulaşmak ve Azure Databricks ve ortamıyla ilgili teknik tasarımda gerekli olan dengeleri sağlamak için üst düzey bir tasarım stratejisi sağlar.
İş yükü tasarımı denetim listesi
Maliyet İyileştirme için tasarım gözden geçirme denetim listesini temel alarak tasarım stratejinizi başlatın. İş yükünün iş yükü için ayrılan bütçeyle uyumlu olması için tasarımda ince ayarlamalar yapın. Tasarımınız doğru Azure özelliklerini kullanmalı, yatırımları izlemeli ve zaman içinde iyileştirme fırsatları bulmalıdır. Performans gereksinimlerinizi karşılarken maliyetleri sürekli izlemek ve iyileştirmek için ilkeler ve yordamlar tanımlayın.
Maliyet sürücülerinizi belirleyin. Teorik kapasite planlaması genellikle fazla sağlama ve harcama harcamalarının boşa harcanmasına neden olur. Yeterli kaynağa yatırım yapılmaması da risklidir.
Maliyetleri tahmin edin ve iş yükü davranışına göre iyileştirme fırsatları arayın. Pilot iş yüklerini çalıştırma, küme performansını karşılaştırma ve otomatik ölçeklendirme davranışını analiz etme. Gerçek kullanım verileri, kümeyi doğru boyutlandırmanıza, ölçeklendirme kuralları ayarlamanıza ve doğru kaynakları tahsis etmenize yardımcı olabilir.
Harcama için net bir sorumluluk ayarlayın. Birden çok Azure Databricks çalışma alanı kullandığınızda belirli maliyetlerden hangi ekiplerin veya projelerin sorumlu olduğunu izleyin. Bu görev için kümeler veya işler gibi kaynakların proje veya maliyet merkezi bilgileriyle etiketlenmesi, takımlara kullanım tabanlı maliyetler atamak için geri ödeme modellerinin kullanılması ve harcamaları izlemek ve sınırlandırmak için bütçe denetimleri ayarlanması gerekir.
Uygun katmanları seçin. Geliştirme ve temel üretim iş yükleri için Standart katmanı kullanmanızı öneririz. Çoğu analiz iş yükü için gerekli olan Unity Kataloğu gibi güvenlik özellikleri sağladığından üretim iş yükleri için Premium katmanını kullanın.
Sunucusuz işlem ile VM'ler arasında seçim yapın. Sunucusuz işlem tüketim tabanlı fiyatlandırmayı kullandığı için yalnızca kullandığınız kadar ödersiniz. Etkinlik artışları veya isteğe bağlı işleri olan iş yükleri için sunucusuz işlem kullanmanızı öneririz çünkü otomatik olarak ölçeklendirilir ve işlem yükünü azaltır. Altyapıyı yönetmeniz veya boşta kalma süresi için ödeme yapmanız gerekmez.
Öngörülebilir veya kararlı kullanım için VM tabanlı kümeler'i seçin. Bu yaklaşım size daha fazla denetim sağlar, ancak fazla sağlamayı önlemek için operasyonel yönetim ve ayarlama gerektirir. Uzun süreli kullanımdan eminseniz ayrılmış kapasiteyi kullanın. Databricks İşleme Birimleri (DBCU), kullanım taahhütleri karşılığında indirimler veren ön ödemeli kullanım sözleşmeleridir.
En iyi seçimi yapmak için geçmiş eğilimleri analiz edip gelecekteki talepleri yansıttığınızdan emin olun.
Küme kullanımını iyileştirme. İhtiyacınız olmadığında kümeleri otomatik olarak ölçeklendirip kapatarak Azure Databricks maliyetlerini azaltın.
Bütçenizin küme havuzları için izin verip vermeyeceğini değerlendirin. Küme havuzları küme başlangıç sürelerini azaltabilir, ancak siz kullanmadığınız sırada altyapı maliyetlerini tahakkuk ettiren boşta kaynaklardır.
Geliştirme ve test ortamlarında ölçeği azaltılmış yapılandırmalar kullanarak maliyetlerde tasarruf sağlayın. Gereksiz kaynakları kullanmaktan kaçınmak için ekipler arasında küme paylaşımını teşvik edin. Otomatik sonlandırma politikalarının uygulanmasını zorunlu kılarak boşta kalan kümeleri devre dışı bırakmak.
Her iş yükü için hesaplamayı optimize et. Farklı iş yükleri farklı işlem yapılandırmaları gerektirir. Bazı işlerde daha yüksek bellek ve işlem gücü gerekebilirken, diğer iş yükleri daha düşük maliyetlere neden olan hafif işler çalıştırabilir.
Her iş için aynı büyük kümeyi kullanmak yerine her işe doğru kümeyi atayın. İşlem kaynaklarını her iş yüküyle eşleşecek şekilde uyarlamak için Azure Databricks'i kullanın. Bu yaklaşım maliyetleri azaltmanıza ve performansı geliştirmenize yardımcı olur.
Depolama maliyetlerini iyileştirme. Büyük hacimli verileri depolamak pahalıya patlayabilir. Delta Lake özelliklerini kullanarak maliyetleri azaltın. Örneğin, depolama ek yükünü azaltmak ve sorguları hızlandırmak için çok sayıda küçük dosyayı daha az büyük dosyayla birleştirmek için veri sıkıştırmayı kullanın.
Eski verileri özenle yönetin. Eski sürümleri kaldırmak için bekletme ilkelerini kullanabilirsiniz. Ayrıca eski ve seyrek erişilen verileri daha ucuz depolama katmanlarına taşıyabilirsiniz. Varsa, zamana bağlı silme veya katmanlama kuralları gibi otomatik yaşam döngüsü ilkeleri, daha az yararlı hale geldiğinde verilerin arşivlenmesine veya silinmesine yardımcı olur.
Farklı depolama biçimleri ve sıkıştırma ayarları da kullandığınız alan miktarını azaltabilir.
Veri işleme tekniklerini iyileştirme. Büyük hacimli veri işlerken, hesaplama, ağ ve sorgulama maliyetler birikir. Bu maliyetleri azaltmak için sorgu ayarlama, veri biçimi seçimi ve Delta Lake ile kod iyileştirmelerine yönelik stratejilerin bir bileşimini kullanın.
Veri taşımayı en aza indirin. Gereksiz veri taşıma ve bant genişliği maliyetlerini azaltmak için veri işleme işlem hattını değerlendirin. Değişmeyen verilerin yeniden işlenmesini önlemek için artımlı işleme uygulayın ve sık erişilen verileri işlem kaynaklarına daha yakın bir şekilde depolamak için önbelleğe almayı kullanın. Bağlayıcılar dış veri kaynaklarına eriştiğinde veya dış veri kaynaklarıyla tümleştirildiğinde ek yükü azaltın.
Verimli dosya biçimlerini kullanın. Parquet gibi biçimler ve Databricks'e özgü Zstandard gibi sıkıştırma algoritmaları, daha az verinin taşınması gerektiğinden daha hızlı okuma sürelerine ve daha düşük veri maliyetlerine yol açar.
Sorgularınızı verimli hale getirin. İşlem maliyetlerini azaltmak için tam tablo taramalarından kaçının. Bunun yerine Delta tablolarınızı yaygın filtre sütunlarına göre bölümleyin. İşlem süresini kısaltmak için yerel özellikleri kullanın. Örneğin, Catalyst optimzer ve uyarlamalı sorgu yürütme (AQE) gibi yerel Spark özellikleri, çalışma zamanında birleştirmeleri ve bölümlemeleri dinamik olarak iyileştirir. Databricks Photon altyapısı sorguları daha hızlı çalıştırır.
Kod iyileştirme tasarım desenleri uygulayın. Azure Databricks ortamlarında Rakip Tüketiciler, Queue-Based Yük Dengeleme ve İşlem Kaynağı Birleştirme gibi desenleri kullanın.
Tüketimi izleme. Databricks Unit (DBU), işlem kullanımına göre soyutlanmış bir faturalama modelidir. Azure Databricks; kümeler, çalışma zamanı saatleri ve diğer bileşenler hakkındaki kullanım ölçümlerine görünürlük sağlayan ayrıntılı bilgiler sağlar. Bütçe planlaması ve maliyet denetimi için bu verileri kullanın.
Otomatik harcama korumaları uygulayın. Fazla harcamayı önlemek ve kaynakların verimli bir şekilde kullanılmasını sağlamak için kaynak kullanımını düzenleyen ilkeleri zorunlu kılın. Örneğin, oluşturulabilecek küme türleri üzerinde denetimler yapın ve küme boyutunu veya kullanım ömrünü sınırlayın. Kaynak kullanımı izin verilen bütçe sınırlarına yaklaştığında sizi bilgilendirmek için uyarılar ayarlayın. Örneğin, bir iş aniden belirli sayıda DBU'yu tüketmeye başlarsa, betik yöneticiyi uyarabilir veya işi kapatabilir.
Küme kullanımını ve DBU tüketimini izlemek için Databricks sistem tablolarından yararlanın. Maliyet anomalilerini algılamak için tabloyu sorgulayabilirsiniz.
Recommendations
| Tavsiye | Fayda |
|---|---|
| Boşta kalan işlem maliyetlerini ortadan kaldırmak için genel amaçlı kümeler yerine zamanlanmış iş yükleri için iş kümeleri kullanın. İşleri bittiğinde otomatik olarak sona erecek şekilde ayarlayın. | İş kümeleri, işleri bitirdiklerinde otomatik olarak sonlandırarak ve işlem süresini gerçek işleme gereksinimleriyle tam olarak eşleştirerek DBU tüketimini iyileştirerek maliyetleri azaltır. |
| Temel yükleri ve en yüksek talep gereksinimlerini işlemek için küme otomatik ölçeklendirmesini açın ve iş yükü analizine göre en düşük ve en yüksek düğüm sınırlarını ayarlayın. İş yükü değişikliklerine hızlı bir şekilde yanıt vermek ve maliyetleri gereksiz yere artırabilecek gereksiz ölçeklendirme salınımlarından kaçınmak için ölçeklendirme ilkeleri ayarlayın. |
Otomatik ölçeklendirme, sabit boyutlu kümelere kıyasla fazla sağlama maliyetlerini daha da azaltır. Yoğun dönemlerde performans düzeylerini korur ve düşük talep dönemlerinde kaynakları otomatik olarak azaltır. |
| Kullanım desenlerine göre uygun zaman aşımı dönemlerine sahip tüm etkileşimli kümeler için otomatik sonlandırmayı ayarlayın. Bu süreler genellikle geliştirme ortamları için 30 ile 60 dakika arasındadır. | Otomatik sonlandırma, kullanıcı üretkenliğini etkilemeden etkileşimli küme maliyetlerini azaltır. Bu yaklaşım, bir gecede veya hafta sonlarında çalışan kümelerden maliyetleri ortadan kaldırır. |
| Altyapı yönetimi ek yükünü ortadan kaldırmak ve tüketim tabanlı faturalama yoluyla maliyetleri iyileştirmek için etkileşimli SQL iş yükleri için sunucusuz SQL ambarlarını benimseyin. Eşzamanlılık gereksinimlerine göre uygun boyutlandırmayı ayarlayın ve etkin olmayan dönemlerde maliyetleri en aza indirmek için otomatik durdurma işlevini açın. Daha iyi performans ve maliyet verimliliği için klasik SQL uç noktalarından sunucusuz SQL ambarlarına geçiş yapın. Yerleşik Foton hızlandırma özelliklerini kullanın. |
Sunucusuz SQL ambarları, boşta kalma süresi maliyetlerini ortadan kaldıran kullanım tabanlı faturalama uygulayarak sql iş yükü giderlerini her zaman açık kümelere kıyasla daha da azaltır. Yerleşik Foton hızlandırma, etkileşimli analiz senaryoları için her sorgu için tahmin edilebilir maliyetler sağlarken performansı artırır. |
| Sık kullanılan yapılandırmalar için küme havuzlarını uygulayarak başlangıç sürelerini kısaltın ve kullanım desenlerine ve talep tahminlerine göre kaynak ayırmayı iyileştirin. | Küme havuzları, boşta havuz örnekleri için DBU ücretlerini ortadan kaldırırken başlatma süresini dakikalardan saniyelere düşürür. |
Depolama maliyetlerini azaltmak ve sorgu performansını geliştirmek için komutlar, kümeleme ve OPTIMIZE işlemler de dahil olmak üzere Z-ORDERVACUUM kullanın. Küçük dosyaları sıkıştırmak, veri saklama ilkeleri uygulamak ve veri erişim desenlerine göre sıkıştırma ayarları ayarlamak için düzenli iyileştirme işleri zamanlayın. |
Delta Lake iyileştirmesi, veri sıkıştırma ve verimli sıkıştırma sayesinde depolama maliyetlerini azaltır. Dosya tarama gereksinimlerini azaltarak sorgu performansını artırır. |
| Örnek türlerini kısıtlayarak ve otomatik sonlandırma ayarlarını zorunlu kılarak tüm çalışma alanlarında ve ekiplerde uygun maliyetli yapılandırmaları zorunlu kılmak için işlem ilkeleri uygulayın. Farklı kısıtlama düzeylerine ve maliyet atfı için uygun etiketlere sahip geliştirme, hazırlama ve üretim ortamları için farklı ilke şablonları oluşturun. |
İşlem ilkeleri, fazla sağlamayı önleyerek ve idareyi korurken maliyet iyileştirme standartlarına uyduğundan emin olarak ortalama küme maliyetlerini azaltır. |
| DBU tüketim düzenlerini ve harcama eğilimlerini görmek için Databricks sistem tablolarını ve Microsoft Maliyet Yönetimi tümleştirmesini kullanarak maliyetleri izleyin. Çalışma alanı, kullanıcı, iş ve küme türüne göre kullanımı izleyen otomatik maliyet raporlama panoları uygulayın. Proaktif yönetim için maliyet uyarıları ayarlayın. Unity Kataloğu sistem tablolarını kullanarak ayrıntılı kullanım düzenlerini analiz edin ve gerçek kaynak tüketimine göre farklı ekipler ve projeler için geri ödeme modelleri oluşturun. |
Ayrıntılı kullanım analizi ve etiketleme stratejileri aracılığıyla DBU tüketim desenlerini görmek ve maliyetleri doğru bir şekilde özniteliklendirmek için kapsamlı maliyet izleme özelliğini kullanın. Kuruluş genelinde maliyet idaresini kullanmak ve ekipler arasında sorumlu kaynak kullanımı desenleri oluşturmak için Maliyet Yönetimi ile tümleştirin. |
| Kararlı kullanım desenleri ve en uygun taahhüt koşullarına sahip öngörülebilir iş yükleri için Databricks İşleme Birimleri (DBCU) aracılığıyla Databricks ayrılmış kapasitesi satın alın. | Ayrılmış kapasite, DBCU aracılığıyla kullandıkça öde fiyatlandırmasına kıyasla daha fazla maliyet tasarrufu sağlarken, kararlı üretim iş yükleri için bir ila üç yıllık dönemler boyunca maliyet öngörülebilirliği sunar. |
| Ayıklama, dönüştürme, yükleme (ETL) işlem hatları için iş kümeleri ve makine öğrenmesi eğitimi için grafik işleme birimi (GPU) örnekleri gibi farklı kullanım örnekleri için uygun işlem türlerini seçerek iş yüküne özgü işlem yapılandırmalarını iyileştirin. Tüm senaryolarda genel yapılandırmaları kullanmak yerine örnek türlerini ve küme yapılandırmalarını belirli iş yükü gereksinimleriyle eşleştirin. |
İş yüküne özgü optimizasyon, fazla sağlamayı ortadan kaldırarak ve belirli kullanım örnekleri için optimize edilmiş özel işlem türlerini kullanarak herkese uyan yaklaşımlara kıyasla maliyetleri daha da azaltır. |
| İş gereksinimlerine göre VACUUM komutları, günlük dosyası saklama ve denetim noktası yönetimi gibi zamanlanmış temizleme işlemleriyle otomatik veri yaşam döngüsü ilkeleri uygulayın. | Otomatik yaşam döngüsü yönetimi, gereksiz veri sürümlerini, günlükleri ve geçici dosyaları sistematik olarak kaldırarak ve zaman içinde depolamanın şişmesini önleyerek depolama maliyetlerini azaltır. |
| Geliştirme ve test ortamları için Standart katmanı kullanın. Premium katmanını yalnızca gelişmiş güvenlik özellikleri ve uyumluluk sertifikaları gerektiren üretim iş yükleri için kullanın. | Stratejik katman seçimi, gelişmiş güvenlik özelliklerinin gerekli olmadığı üretim dışı iş yükleri için Standart katmanını kullanarak lisanslama maliyetlerini iyileştirir. RBAC ve denetim günlüğü gibi premium katman özellikleri yalnızca iş gereksinimleri ve güvenlik ilkeleri ek maliyet yatırımını haklı gösterdiğinde uygulanır. |
| Planlanmamış analizler ve deneysel iş yükleri için öngörülemeyen zamanlama desenleri veya kaynak gereksinimleri olan değişken ve aralıklı iş yükleri için sunucusuz işler uygulayın. Kullanım desenlerinin tahmin edilmesinin zor olduğu ve otomatik iyileştirme özelliklerinin kullanılabileceği toplu işleme işleri için sunucusuz bilgi işlem ayarlayın. Kaynak kullanımını iyileştirmek için kullanım analizine ve maliyet avantajı değerlendirmesine göre uygun iş yüklerini geleneksel kümelerden sunucusuz işlem ortamına geçirin. |
Sunucusuz işler boşta kalma süresi maliyetlerini ortadan kaldırır ve değişken kaynak gereksinimleri için otomatik iyileştirme sağlayarak öngörülemeyen iş yüklerinin maliyetlerini azaltır. Tüketim tabanlı faturalama modeli, yalnızca kullandığınız işlem süresi için ödeme yapmanıza olanak tanır ve bu sayede geliştirme ortamları ve otomatik kaynak iyileştirmesi gerektiren düzensiz üretim iş yükleri için idealdir. |
| Maliyet Yönetimi ve Databricks kullanım izlemesini kullanarak maliyetleri birden çok uyarı eşiğiyle proaktif olarak yöneterek maliyet uyarılarını ve bütçelerini ayarlayın. Farklı paydaş grupları için yükseltme yordamları ayarlayın ve kritik maliyet aşımları için otomatik yanıtlar uygulayın. Bütçeleri düzenli olarak gözden geçirin. |
Proaktif maliyet izleme, maliyet anomalilerini ve bütçe taşmalarını erken algılamanıza yardımcı olur, böylece sürpriz giderleri önleyebilir ve maliyetler bütçeleri önemli ölçüde etkilemeden harekete geçebilirsiniz. |
| Sütunlu depolama biçimleri ve sıkıştırma algoritmaları ile verimli veri işleme aracılığıyla işlem süresini kısaltmak için veri biçimlerini iyileştirin ve Foton hızlandırmayı açın. Vektörleştirilmiş sorgu yürütmeden yararlanmak için veri tarama gereksinimlerini en aza indiren ve desteklenen iş yükleri için Foton hızlandırmayı kullanan bölümleme stratejileri uygulayın. |
Veri biçimi iyileştirmesi ve Foton hızlandırma, sütunlu depolama iyileştirmeleri ve vektörleştirilmiş sorgu yürütme özellikleri aracılığıyla işlem süresini ve maliyetlerini azaltır. Bu iyileştirmeler, veri hacimleri büyüdükçe zaman içinde birleşerek mimari değişikliklere gerek kalmadan analitik iş yükleri ve karmaşık veri işleme işlem hatları için artan maliyet avantajları sağlar. |
Operasyonel Mükemmellik
Operasyonel Mükemmellik öncelikli olarak geliştirme uygulamaları, gözlemlenebilirlik ve sürüm yönetimiyordamlarına odaklanır.
operasyonel mükemmellik tasarım ilkeleri iş yükünün operasyonel gereksinimleri için bu hedeflere ulaşmak için üst düzey bir tasarım stratejisi sağlar.
İş yükü tasarımı denetim listesi
Azure Databricks ile ilgili gözlemlenebilirlik, test ve dağıtım süreçlerini tanımlamaya yönelik Operasyonel Mükemmellik için tasarım gözden geçirme denetim listesini temel alarak tasarım stratejinizi başlatın.
İzleme verilerini toplayın. Azure Databricks iş yükünüz için küme durumu, kaynak kullanımı, işler ve işlem hatları, veri kalitesi ve erişim etkinliği gibi önemli alanları izlemeye odaklanın. Sistemin beklendiği gibi davrandığını onaylamak için bu ölçümleri kullanın. Ayrıca bunları, veri ve kaynaklara nasıl erişilip kullanıldığını denetlemek ve idareyi zorunlu kılmak için de kullanabilirsiniz.
Kümeyi izleyin. Azure Databricks kümelerini izlerken performans ve verimliliği yansıtan göstergelere odaklanın. Kümenin genel durumunu izleyin ve düğümlerin merkezi işlem birimi (CPU), bellek ve diskler gibi kaynakları nasıl kullandığını gözlemleyin.
İşleri ve işlem hatlarını izleyin. İşlerin çalıştırıldığında nasıl aktığını gösteren ölçümleri yakalayın. Bu ölçümler iş başarısını ve başarısızlık oranlarını ve çalıştırma sürelerini içerir. İşlerin neden çalıştığını öğrenmek için nasıl tetiklendikleri hakkında bilgi toplayın.
İş durumunu, bağımlılık zincirlerini ve aktarım hızını yerel olarak yakalamak için Databricks Sistem tablolarını kullanın.
Veri kaynağı bağlantısını izleyin. Dış sistemlerle tümleştirmeleri ve bağımlılıkları izleme. Bu veriler kaynak bağlantı durumunu, API bağımlılıklarını ve hizmet sorumlusu kimlik doğrulama davranışını içerir. Unity Kataloğu'nu kullanarak dış konumları yönetebilir ve izleyebilirsiniz. Bu yaklaşım, olası erişim veya yapılandırma sorunlarını belirlemenize yardımcı olur.
Veri kalitesini izleme. Verilerinizin hem bütünlüğünü hem de güncelliğini doğrulayan sinyalleri toplayın. Otomatik Yükleyici gibi araçları kullanarak şema evrimi sorunlarını izleyin. Tamlık denetimleri, null değer algılama ve anomali tanımlaması uygulayan kurallar uygulayın. Veri işleme sırasında yerleşik kalite kısıtlamaları uygulamak için Lakeflow Spark Bildirimli İşlem Hatlarını kullanabilirsiniz.
Unity Kataloğu aracılığıyla veri kökenini yakalamak, verilerin sistemler arasında nasıl aktığını ve dönüştürüldüğünü izlemenize yardımcı olur ve böylece işlem hatlarınıza daha fazla saydamlık ve sorumluluk sağlar.
Azure Databricks'teki yerleşik izleme araçları Azure İzleyici ile tümleştirilir.
Otomatik ve yinelenebilir dağıtım varlıklarını ayarlayın. Azure Databricks kaynaklarını tanımlamak ve yönetmek için IaC kullanın.
Ortamlar arasında tutarlılık sağlamak için bölge seçimi, ağ ve erişim denetimi dahil olmak üzere çalışma alanlarının sağlanmasını otomatikleştirin. İşlem yapılandırmalarını standartlaştırmak için küme şablonlarını kullanın. Bu yaklaşım, yanlış yapılandırma riskini azaltır ve maliyet tahmin edilebilirliğini artırır. JSON Azure Resource Manager şablonları (ARM şablonları) gibi biçimleri kullanarak iş ve işlem hatlarını kod olarak tanımlayın; böylece bunlar sürüm denetimine sahip olur ve yeniden üretilebilir.
Git depolarındaki not defteri kaynak kodunu, iş yapılandırmalarını, işlem hattı tanımlarını ve altyapı ayarlarını sürüm denetimi için Databricks Varlık Paketlerinde dallanma stratejilerini ve geri alma yordamlarını kullanın.
Dağıtımları otomatikleştirme. İşlem hatlarının, iş yapılandırmalarının, küme ayarlarının ve Unity Kataloğu varlıklarının dağıtımını otomatikleştirmek için Azure Databricks'te CI/CD işlem hatlarını kullanın. Değişiklikleri el ile göndermek yerine sürüm denetimi için Databricks Repos, işlem hattı otomasyonu için Azure DevOps veya GitHub Actions ve paketleme kodu ve yapılandırmaları için Databricks Varlık Paketleri gibi araçları göz önünde bulundurun.
Rutin görevleri otomatikleştirme. Genellikle otomatikleştirilmiş görevler, zamanlanmış başlangıçlar ve duraklar gibi küme yaşam döngülerini yönetmeyi, günlükleri temizlemeyi ve işlem hattı durumunu doğrulamayı içerir. Ekipler, Azure Logic Apps veya Azure İşlevleri gibi Azure araçlarıyla tümleştirerek başarısız işleri yeniden başlatma veya kümeleri ölçeklendirme gibi sorunlara otomatik olarak yanıt veren kendi kendini iyileştiren iş akışları oluşturabilir. Bu otomasyon türü, iş yükleri büyüdükçe güvenilir ve verimli Azure Databricks işlemlerinin sürdürülmesini sağlar.
Güçlü test uygulamalarına sahip olun. Azure Databricks'e özgü stratejiler arasında not defteri kodu için birim testi, veri işlem hatları için tümleştirme testi, Lakeflow Spark Bildirimli İşlem Hatları mantığının doğrulanması, Unity Kataloğu ile izin testi ve altyapı dağıtımlarının doğrulanması yer alır. Bu uygulamalar sorunları erken yakalamaya ve üretimdeki olayları azaltmaya yardımcı olur.
Olayları işlemek için operasyonel runbook'lar geliştirin.operasyonel runbook'lar , yaygın Azure Databricks senaryolarını işlemeye yönelik yapılandırılmış, adım adım yönergeler sağlar. Bu çalışma kitapları tanılama komutlarını, günlük konumlarını, eskalasyon irtibatlarını ve tahmini çözüm sürelerine sahip kurtarma yordamlarını içerir. Ekipler arasında olaylara hızlı ve tutarlı bir şekilde yanıt vermek için runbook'ları kullanın.
Yedekleme ve kurtarma yordamları geliştirin.Yedekleme ve kurtarma yordamları çalışma alanı yapılandırmalarının , analiz kaynak kodunun, iş tanımlarının ve veri varlıklarının korunması yoluyla BCuity'yi güvence altına alır. Yedekleme ve kurtarma yordamları, RTO'ları ve kurtarma noktası hedeflerini (RPO' lar) karşılayan otomatik yedekleme zamanlamalarını ve bölgeler arası çoğaltmayı içerir.
Ekip işbirliğini ve bilgi yönetimini uygulama. Ekip işbirliği uygulamaları, paylaşılan çalışma alanı kuruluşu, not defteri işbirliği özellikleri ve bilgi aktarımını kolaylaştıran ve geliştirme ekipleri arasında proje yinelemesini azaltan belge standartları aracılığıyla Azure Databricks üretkenliğini en iyi duruma getirir.
Recommendations
| Tavsiye | Fayda |
|---|---|
| Azure Databricks çalışma alanları için tanılama ayarlarını yapılandırarak platform günlüklerini, denetim günlüklerini ve küme olaylarını Azure İzleyici Log Analytics çalışma alanına gönderin. Gözlemlenebilirlik kapsamı için çalışma alanı, kümeler, hesaplar, işler, not defteri ve Unity Kataloğu denetim günlükleri dahil tüm kullanılabilir günlük kategorilerini açın. |
Log Analytics'te tüm Azure Databricks telemetrisini merkezileştirir ve sorun giderme, kritik olaylarla ilgili otomatik uyarı ve uyumluluk raporlama için gelişmiş KQL sorgularını açar. Tanılama, proaktif işletim yönetimi için çalışma alanı etkinlikleri, küme performansı ve veri erişim desenleri arasında birleşik görünürlük sağlar. |
| Tutarlı ortam sağlama için parametreli yapılandırmalara sahip ARM şablonlarını veya Bicep dosyalarını kullanarak Azure Databricks çalışma alanlarını dağıtın. Geliştirme, test ve üretim ortamlarında standartlaştırılmış dağıtımlar sağlamak için şablon tanımlarına çalışma alanı ayarlarını, ağ yapılandırmalarını, Unity Kataloğu etkinleştirmesini ve güvenlik ilkelerini ekleyin. |
Ortamlar arasındaki yapılandırma kaymalarını ortadan kaldırır ve tutarlı, sürüm denetimli altyapı tanımları aracılığıyla dağıtım hatalarını azaltır. El ile dağıtım işlemlerine kıyasla ortam sağlamayı daha da hızlandırır ve olağanüstü durum senaryoları sırasında otomatik çalışma alanı yeniden oluşturma yoluyla hızlı kurtarma sağlar. |
| Kaynak denetimi ve işbirliğine dayalı geliştirme için Databricks Depolarını kullanarak Azure Databricks not defterlerini ve diğer kaynak kodlarını Git depolarıyla tümleştirin. Kaynak kodu değişikliklerini, iş ve işlem hattı yapılandırmalarını ve küme şablonlarını uygun test ve onay iş akışlarıyla ortamlar arasında dağıtmak için Azure DevOps veya GitHub Actions aracılığıyla otomatik CI/CD işlem hatları ayarlayın. |
Sürüm geçmişi, dal tabanlı iş akışları ve kod için birleştirme çakışması çözümü ile işbirliğine dayalı geliştirmeye olanak tanır. Tüm üretim değişikliklerinin tam denetim izlerini korurken otomatik test ve aşamalı sürümlerle dağıtım risklerini azaltır. |
| Kullanım desenlerini analiz etmek ve en uygun örnek türlerini ve boyutlarını önermek için Azure Databricks küme ölçümlerini ve Azure İzleyici verilerini kullanarak otomatik küme hakları oluşturma çözümlerini dağıtın. Küme kapasitesini iş yükü taleplerine göre otomatik olarak ayarlamak için CPU, bellek ve iş kuyruğu ölçümlerini temel alan otomatik ölçeklendirme ilkeleri ayarlayın. |
Küme kaynaklarını gerçek iş yükü gereksinimleriyle otomatik olarak eşleştirerek altyapı maliyetlerini iyileştirir. Performans hizmet düzeyi hedeflerini (SLA) korur ve akıllı kaynak ayırma ve otomatik ölçeklendirme kararları ile işlem maliyetlerini azaltır. El ile izleme ek yükünü ortadan kaldırır ve kaynak kullanım desenleri ve iyileştirme fırsatları hakkında veri odaklı içgörüler aracılığıyla proaktif kapasite yönetimi sağlar. |
| Azure Databricks çalışma alanlarındaki tüm veri erişim görevlerini, izin değişikliklerini ve idare etkinliklerini izlemek için Unity Kataloğu denetim günlüğünü etkinleştirin. Otomatik güvenlik izleme ve uyumluluk raporlaması için günlük saklama ilkelerini ayarlayın ve Microsoft Sentinel veya iş ortağı SIEM çözümleriyle tümleştirin. |
Mevzuat uyumluluğu çerçeveleri için gereken veri erişim desenleri, izin değişiklikleri ve idare görevleri için tam denetim izleri sağlar. Merkezi güvenlik izleme aracılığıyla şüpheli veri erişim davranışlarının otomatik tehdit algılamasına ve araştırılmasına olanak tanır. |
| Veri doğrulama ve işlem hattı kalite güvencesini otomatikleştirmek için veri kalitesi beklentilerine ve izleme kurallarına sahip Lakeflow Spark Bildirimli İşlem Hatlarını uygulayın. İşlem hattı güvenilirliğini ve veri bütünlüğünü korumak için veri kalitesi ihlalleri için beklenti eşiklerini, karantina ilkelerini ve otomatik uyarıları ayarlayın. |
Hatalı verilerin aşağı akışa yayılmasını engelleyen bildirim temelli kurallar kullanarak veri kalitesi doğrulamasını otomatikleştirir ve bu da el ile doğrulama çalışmalarını azaltır. İşlem hattı güvenilirliğini ve veri doğruluğunda iş güvenilirliğini koruyan saydam veri kalitesi ölçümleri ve otomatik düzeltme iş akışları sağlar. |
| Databricks REST API'sini ve Azure Otomasyonu runbook'larını kullanarak Azure Databricks çalışma alanı yapıtları için otomatik yedekleme yordamları oluşturun. Depolama hesaplarında sürümlü depolama ve bölgeler arası çoğaltma ile analiz kaynağı içeriğinin, iş tanımlarının, küme yapılandırmalarının ve çalışma alanı ayarlarının düzenli yedeklemelerini zamanlayın. |
Otomatik geri yükleme özelliklerini kullanarak yanlışlıkla silmelerden, yapılandırma değişikliklerinden veya çalışma alanı bozulmasından hızlı kurtarma sağlar. Versiyonlu yedeklemeler aracılığıyla BCuity'yi korur ve standartlaştırılmış yedekleme ve geri yükleme prosedürleri aracılığıyla RTO'ları günlerden saatlere düşürür. |
| Proje kodlarını, ortam göstergelerini ve ekip sahipliğini içeren adlandırma kurallarını kullanarak standartlaştırılmış çalışma alanı klasör hiyerarşileri oluşturun. Bilgi paylaşımını ve işbirliğini kolaylaştırmak için uygun erişim denetimleriyle ortak kitaplıklar, şablonlar ve belgeler için paylaşılan klasörler uygulayın. |
Tutarlı çalışma alanının düzenlenmesi aracılığıyla projelerin bulunabilirliğini artırır ve yeni ekip üyeleri için uyum sürecini azaltır. Paylaşılan kod kitaplıkları ve ekipler arasında efor çoğaltmayı ortadan kaldıran standartlaştırılmış proje yapıları aracılığıyla geliştirmeyi hızlandırır. |
| Azure Databricks çalışma alanları, kümeleri ve işlem kaynakları için kaynak etiketleme stratejileriyle Maliyet Yönetimi'nin kurulumunu yapın. Geri ödeme özellikleri ve iyileştirme önerileriyle projeler, ekipler ve ortamlar arasında harcamaları izlemek için maliyet uyarıları, bütçe eşikleri ve otomatik raporlama uygulayın. |
Ayrıntılı harcama analizi ve otomatik bütçe izleme aracılığıyla kuruluş birimleri genelinde ayrıntılı maliyet görünürlüğü ve sorumluluk sağlar. Bütçe taşmalarını önleyen ve iyileştirme fırsatlarını tanımlayan harcama uyarıları ve kullanım düzeni içgörüleri aracılığıyla maliyetleri proaktif olarak iyileştirin. Kaynak etiketlerine göre ayrıntılı kaynak kullanımı raporlaması ve otomatik maliyet merkezi ataması ile doğru maliyet ayırma ve geri ödeme işlemlerini destekler. |
| Dış sistemler, veri kaynakları ve Azure hizmetleriyle Azure Databricks tümleştirmeleri için hizmet sorumlusu kimlik doğrulamasını ayarlayın. Güvenli ve otomatik kimlik doğrulama yönetimi için mümkün olduğunda yönetilen kimlik uygulayın ve Key Vault entegrasyonu ile kimlik bilgisi döndürme ilkeleri oluşturun. |
Paylaşılan kimlik bilgisi güvenlik risklerini ortadan kaldırır ve el ile müdahale olmadan otomatik kimlik doğrulamasına izin verir. Denetim izleriyle merkezi kimlik bilgileri yönetimi sağlar ve en az ayrıcalıklı güvenlik ilkeleriyle uyumlu ayrıntılı erişim denetimi ilkelerini destekler. |
| Kurumsal idare standartlarını zorunlu kılmak için otomatik sonlandırma zamanlamalarına, boşta kalma zaman aşımı yapılandırmalarına ve kaynak kullanım sınırlarına sahip küme yaşam döngüsü ilkeleri oluşturun. Kaynak israflarını önlemek ve uyumluluğu sağlamak için ilke tabanlı küme oluşturma kısıtlamaları, örnek türü sınırlamaları ve maksimum çalışma zamanı denetimleri ayarlayın. |
Otomatik küme yaşam döngüsü yönetimi sayesinde işlem maliyetlerini azaltır ve kaynak israflarının boşta veya unutulmuş kümelerden oluşmasını önler. Yasal kullanım örnekleri için operasyonel esnekliği korurken kuruluş ilkelerini tüm kullanıcılar ve ekipler arasında tutarlı bir şekilde uygular. |
| Küme hataları, iş yürütme hataları, çalışma alanı kapasite sınırları ve Unity Kataloğu erişim ihlalleri gibi kritik Azure Databricks görevleri için Azure İzleyici uyarı kurallarını dağıtın. İlerletme yordamları olan ve ServiceNow veya Jira gibi olay yönetim sistemleriyle tümleşen otomatik bildirim iş akışlarını ayarlayın. |
İş operasyonlarını etkilemeden önce kritik sorunları size bildirerek olayları proaktif olarak yanıtlamanıza yardımcı olur. Ortalama algılama süresini (MTTD) saatlerden dakikalara azaltır ve önem derecelerine göre doğru ekip üyelerini bilgilendiren otomatik yükseltme yordamlarını destekler. |
| Geliştirme, test ve üretim ortamları arasında ayrımı zorunlu kılan RBAC ilkeleriyle ortama özgü çalışma alanı yapılandırmaları uygulayın. Her ortamın güvenlik ve uyumluluk gereksinimlerini karşılayan Unity Kataloğu idare kurallarını, ağ güvenlik gruplarını ve veri erişim izinlerini ayarlayın. |
Üretim verilerine yetkisiz erişimi engeller ve zorunlu güvenlik sınırları aracılığıyla kritik ortamlarda yanlışlıkla değişiklik riskini azaltır. Geliştirme etkinliklerinin üretim sistemlerini etkilememesini ve veri bütünlüğünün ortam sınırları arasında korunmasını sağlayarak mevzuat uyumluluğunu korur. |
Performans Verimliliği
Performans Verimliliği, kapasiteyi yöneterek yük artış olduğunda bile kullanıcı deneyimini korumakla ilgilidir. Strateji kaynakları ölçeklendirmeyi, olası performans sorunlarını tanımlamayı ve iyileştirmeyi ve en yüksek performans için iyileştirmeyi içerir.
Performans Verimliliği tasarım ilkeleri, beklenen kullanım seviyelerine karşı bu kapasite hedeflerine ulaşmak için üst düzey tasarım stratejileri sunar.
İş yükü tasarımı denetim listesi
Performans Verimliliğiiçin
Kapasiteyi planlayın. İş yüklerinizin gerçekte ne kadar işlem ve depolamaya ihtiyacı olduğunu belirlemek için iş yüklerini analiz edin ve kaynak kullanımını izleyin. Kümeleri uygun boyutlandırmak, iş zamanlamalarını iyileştirmek ve depolama büyümesini tahmin etmek için bu bilgileri kullanın. Bu yaklaşım, kaynak kısıtlamalarına yol açan yetersiz sağlamayı önlemenize yardımcı olur.
İş yükü özellikleri için en uygun işlem yapılandırmalarını seçin. Daha iyi otomatik ölçeklendirme ve daha hızlı başlangıç süreleri sağlayabilecek sunucusuz seçenekleri değerlendirin. En uygun olanı seçmek için bunları geleneksel kümelerle karşılaştırın.
Kümeler için, veri hacmine ve işleme desenlerine göre örnek türleri, boyutlar ve ölçeklendirme ayarları dahil olmak üzere yapılandırmaları iyileştirin. Belirli kullanım örnekleri için örnek aileleri arasındaki dengeleri analiz etmeye özen gösterin. Örneğin, performans gereksinimlerini karşılamak için bellek için iyileştirilmiş örneklerle işlem için iyileştirilmiş örnekleri ve yerel katı hal sürücülerini (SSD) ve standart depolama seçeneklerini değerlendirin.
Spark kümeleri, benzersiz performans ayarlamalarını gerektiren farklı iş yükü türlerini çalıştırabilir. Genel olarak, işleri daha hızlı çalıştırmanız ve işlem performans sorunlarını önlemeniz gerekir. Bu hedeflere ulaşmak için yürütücü belleği, paralellik ve çöp toplama gibi ayarlarda ince ayar yapın.
İş yükünüz için doğru hizmetleri seçme hakkında daha fazla bilgi için bkz. Doğru hizmetleri seçmek için mimari stratejileri.
Kritik iş yükleri için kaynak ayırma önceliklerini belirleme. Aynı anda çalışan iş yüklerini ayırın ve önceliklerini belirleyin. İşler arasında girişimi önlemek için kaynak havuzları, küme havuzları, yalıtım modları ve iş kuyrukları gibi özellikleri kullanın. Arka plan veya düşük öncelikli işlemlerin yüksek öncelikli görevleri yavaşlatmamasını sağlamaya yardımcı olmak için kaynak kotaları ve zamanlama kuralları ayarlayın.
Değişken iş yükleri için otomatik ölçeklendirmeyi ayarlayın. Kümenin ölçeklendirilmesine neden olan ölçeklendirme tetikleyicilerini tanımlayarak, düğümleri ne kadar hızlı ekleyip kaldırdığını belirleyerek ve kaynak sınırlarını ayarlayarak Azure Databricks'te otomatik ölçeklendirme ilkeleri ayarlayın. Bu ayarlar Azure Databricks'in değişen iş yüklerine verimli bir şekilde yanıt vermesine, kaynak kullanımını iyileştirmesine ve ölçeklendirme olayları sırasında performans sorunlarından kaçınmasına yardımcı olur.
Verimli veri depolama ve alma mekanizmaları tasarlama. Yoğun veri gerektiren görevler için performans geliştirmeleri için dikkatli bir planlama ve ayarlama gerekir.
Verileri stratejik olarak düzenleyin. Delta Lake tablolarını düzenlerken sorgu performansını en iyi duruma getiren veri bölümleme düzenleri tasarla. İyi bölümleme, Spark'ın tüm tabloyu taramak yerine sorgu sırasında yalnızca ilgili veri alt kümelerini okuması için bölümleri ayıklamasına olanak tanır.
Dosya boyutlandırma önemli bir rol oynar. Çok küçük dosyalar aşırı meta veri yükü oluşturur ve Spark işlerini yavaşlatırken, çok büyük dosyalar bellek ve performans sorunlarına neden olabilir.
Veri düzeninizi kullanıcıların veya işlerin normalde verileri sorgulama şekliyle uyumlu hale getirme. Aksi takdirde, tam tablo taramaları performansı düşürebilir.
Etkili önbelleğe alma uygulayın. Sık erişimli veri kümeleri için önbelleğe alma özelliğini kullanın ve gereksiz yere bellek kullanmadığınızdan emin olmak için önbellek isabet oranlarını izleyin. Spark yerleşik önbelleğe alma mekanizmaları sağlar ve Azure Databricks, Delta Cache'i sağlayarak verileri düğümler arasında disk düzeyinde önbelleğe alarak optimizasyonu daha da artırır.
Verimli sorgular yazın. Verimsiz performansa katkıda bulunan gereksiz veri taramalarından, aşırı karıştırmadan ve uzun çalışma sürelerinden kaçının.
SQL sorgularını ve Spark işlemlerini iyileştirmek için işleri daha verimli bir şekilde çalıştırmak için sorgu planı analizini kullanan dizin oluşturma, koşul gönderimi, projeksiyon gönderme ve birleştirme iyileştirme tekniklerini kullanın.
Azure Databricks yerleşik iyileştirmeler sağlar. Catalyst iyileştiricisi, verimlilik için sorguları yeniden yazar. AQE, veri dengesizliğini işlemek ve birleştirmeleri iyileştirmek için çalışma zamanında planları ayarlar. Tablo istatistikleri, Z sıralı kümeleme ve Bloom filtreleri gibi Delta Lake özellikleri taranan verileri daha hızlı ve daha uygun maliyetli sorgular için daha da azaltır.
Doğru veri biçimlerini ve sıkıştırmayı seçin. Parquet gibi biçimler ve Zstandard (zstd) gibi akıllı sıkıştırma algoritmaları, performanstan ödün vermeden depolamayı azaltır ve okumaları hızlandırabilir.
Ağ ve giriş/çıkış (G/Ç) performansını iyileştirin. Premium veya SSD destekli depolama gibi yüksek performanslı depolama seçeneklerini belirleyin ve depolandığı yere yakın verileri işleyerek veri taşımayı en aza indirmek için mimarinizi tasarlayın.
Ayrıca aktarım hızını en üst düzeye çıkarmak ve gecikme süresini azaltmak için yazma işlemlerini toplu işleme ve gereksiz karıştırmalardan kaçınma gibi verimli veri aktarım stratejilerini kullanın.
İş yükünün türüne göre iş yürütmeyi iyileştirin. İyileştirme stratejilerini belirli gereksinimlere göre uyarlar.
Akış işleme: Gerçek zamanlı veri işlem hatları düşük gecikme süresi ve yüksek aktarım hızı performansı gerektirir. Azure Databricks'te bu gereksinimleri karşılamak için tetikleyici aralıkları, mikro toplu iş boyutları, filigran ve denetim noktası oluşturma gibi parametreleri ayarlamanız gerekir. Farklı yükler altında tutarlı işleme sağlamak için şema evrimi ve tam olarak bir kez teslim gibi Yapılandırılmış Akış ve Delta Lake özelliklerini kullanın.
Makine öğrenmesi: Makine öğrenmesi eğitimi ve çıkarım işleri genellikle yoğun işlem gücü kullanır. Dağıtılmış eğitim, GPU hızlandırma ve verimli özellik mühendisliği işlem hatlarını kullanarak performansı artırabilirsiniz. Azure Databricks, MLflow aracılığıyla makine öğrenmesi performansını ayarlamayı, makine öğrenimi için Databricks Runtime'ı ve Horovod gibi araçlarla tümleştirmeleri destekler. Eğitim süresini ve çıkarım gecikme süresini önemli ölçüde azaltmak için kaynak yapılandırmalarını ayarlayın ve veri ön işleme iyileştirmeleri uygulayın.
Bu iyileştirme önerilerinin uygulanmasını basitleştirmek ve otomatikleştirmek için Lakeflow Spark Bildirimli İşlem Hatlarını kullanın.
Performans sorunlarını belirlemek için izleme sisteminizi kullanın. maliyetleri artıran ve iş yüklerini yavaşlatan performans sorunlarını veya verimsizliklerini belirleyebilmeniz için işlerin, kümelerin ve sorguların nasıl davrandığını öğrenmek için kapsamlı performans izleme uygulayın.
CPU ve bellek kullanımı, iş çalışma süreleri, sorgu gecikme süreleri ve küme durumu gibi önemli ölçümlerdeki anomalileri analiz edin. Bu bilgiler zayıf Spark yapılandırmalarının, iyileştirilmemiş sorguların veya yetersiz sağlanmış ve fazla sağlanan kümelerin neden olabileceği yavaşlamaları saptamanıza yardımcı olur.
Sorgu planlarını ve iş aşamalarını analiz etmek için Spark kullanıcı arabirimi gibi yerleşik araçları, altyapı düzeyindeki ölçümleri izlemek için Azure İzleyici'yi ve daha ayrıntılı içgörüler için özel ölçümleri veya günlükleri kullanın. Bu araçlar, kullanıcıları veya kritik işlem hatlarını etkilemeden önce sorunları çözebilmeniz için proaktif ayarlamayı destekler.
Sistematik performans testi gerçekleştirin. Çalışma sürelerini, kaynak kullanımını ve sistem yanıt hızını doğrulamak için yük testi, stres testi ve karşılaştırma kullanın. Yavaşlamaları erken algılamak ve iyileştirmelerin etkilerini ölçmek için performans temelleri oluşturun ve otomatikleştirilmiş testleri CI/CD işlem hatlarınıza ekleyin.
Recommendations
| Tavsiye | Fayda |
|---|---|
| Kapsamlı bellek içi önbelleğe alma, makine öğrenmesi modeli eğitimi veya karmaşık analiz görevleri gerektiren büyük veri kümelerini işlerken E serisi veya M serisi VM'ler gibi bellek için iyileştirilmiş örnek türlerini kullanmak için Azure Databricks kümeleri ayarlayın. Veri kümesi boyutuna ve işleme desenlerine göre bellek gereksinimlerini değerlendirin ve ardından en iyi performans için yeterli bellek kapasitesi ve yüksek bellek-CPU oranları sağlayan VM boyutlarını seçin. |
İş hatalarına veya ciddi performans düşüşlerine neden olabilecek bellek performans sorunlarını ortadan kaldırır. Büyük ölçekli makine öğrenmesi eğitimi ve karmaşık analiz iş yükleri gibi yoğun bellek kullanan işlemlerin sorunsuz çalışmasına yardımcı olur. |
| İş yükü desenlerine ve performans gereksinimlerine göre uygun en düşük ve en yüksek düğüm sınırlarını kullanmak için küme otomatik ölçeklendirme ilkelerini ayarlayın. Minimum düğüm sayısını temel iş yüklerini verimli bir şekilde işleyecek şekilde ayarlarken, kaçak maliyetlerden kaçınmak amacıyla en yüksek sınırlar belirleyin. CPU kullanımına, bellek kullanımına veya iş kuyruğu derinliğine göre ölçeklendirme tetikleyicileri tanımlayın ve yanıt hızını maliyet iyileştirmesi ile dengelemek için ölçeklendirme hızını yapılandırın. |
Yoğun dönemlerde ölçeği artırıp düşük kullanım dönemlerinde ölçeği azaltan otomatik kaynak ayarlaması ile maliyetleri iyileştirerek talep dalgalanmaları sırasında tutarlı performansı korur. |
Veri kümelemesi ve sorgu performansını geliştirmek için Delta Lake tablolarında Z sıralama ile OPTIMIZE komutlarını çalıştırın. Sorgularınızdaki sık kullanılan filtre ve birleştirme koşullarına göre Z sırası sütunlarını seçin. Bu koşullar genellikle WHERE yan tümcelerde, GROUP BY işlemlerde ve JOIN koşullarda kullanılan sütunları içerir. Veriler büyüdükçe en iyi performansı korumak için Azure Databricks işlerini veya Lakeflow Spark Bildirimli İşlem Hatlarını kullanarak düzenli iyileştirme görevleri zamanlayın. |
Geliştirilmiş veri atlama ve en aza indirgenmiş G/Ç işlemleri aracılığıyla sorgu çalışma süresini kısaltırken, ilgili verileri birlikte kümeleyerek elde edilen daha iyi sıkıştırma oranlarıyla depolama maliyetlerini azaltır. Düzenli bakım ve gerçek sorgu desenleriyle uyumlu akıllı veri düzenlemesi ile zaman içinde iyileştirme avantajları bileşik olarak birikmeli performans iyileştirmeleri sağlar. |
| Birden çok sorgu veya işte aynı veri kümelerine sık sık eriştiğiniz küme yapılandırmaları için Delta Önbelleği'ni açın. Veri kümesi özelliklerinize ve erişim desenlerinize göre yeterli önbellek boyutu ayırmak için önbellek ayarlarını düzenleyerek yerel geçici olmayan bellek express (NVMe) SSD depolama alanını etkili bir şekilde kullanın. Önbellek isabet oranlarını izleyin ve önbellek yapılandırmalarını ayarlayarak belirli iş yüklerinizin performans avantajlarını en üst düzeye çıkarın. |
Yavaş ağ depolamayı atlayan akıllı SSD tabanlı önbelleğe alma sayesinde sık erişilen veriler için sorgu performansını hızlandırır. Bu yaklaşım yinelemeli analiz ve makine öğrenmesi iş yükleri için gecikme süresini önemli ölçüde azaltır. |
| Vektörleştirilmiş yürütme aracılığıyla SQL sorgularını ve DataFrame işlemlerini hızlandırmak için küme yapılandırmaları ve SQL ambarları için Photon altyapısını açın. Foton, toplamalar, birleştirmeler ve karmaşık SQL görevlerine sahip analitik iş yükleri için en önemli avantajları sağlar. Veri mühendisliği işlem hatları, iş zekası (BI) iş yükleri ve büyük veri kümelerini işleyen analitik uygulamalar için Foton özellikli işlem kaynaklarını ayarlayın. |
Yerel vektörleştirilmiş yürütme aracılığıyla SQL ve DataFrame işlemlerinin performansını artırır. İşlem verimliliğini artırarak ve çalışma süresini azaltarak işlem maliyetlerini azaltır. Daha büyük veri kümelerini aynı zaman kısıtlamaları içinde işlemenize olanak tanır ve genel sistem aktarım hızını iyileştirerek performansı düşürmeden daha fazla eşzamanlı kullanıcıyı destekler. |
En büyük veri kümesi boyutunuz ve işleme karmaşıklığınız temelinde her yürütücü ve sürücü belleği için Spark yürütücüsü bellek ayarlarını 2 ile 8 gigabayt (GB) arasında ayarlayın. Paralellik ve kaynak verimliliğini dengelemek için her yürütücü için iki ile beş çekirdek arasında bir değere ayarlayın spark.executor.cores . Kaynak kullanımını en üst düzeye çıkarırken bellek yetersiz hatalarını önlemek için bu ayarları belirli iş yükü özelliklerinize, veri hacminize ve küme boyutuna göre ayarlayın. |
Bellek sorunlarının neden olduğu iş hatalarını önler ve çalışma süresini ve kaynak israfını azaltmak için kaynak ayırma verimliliğini iyileştirir. |
| Azure Databricks iş yükleri için saniyede yüksek giriş/çıkış işlemleri (IOPS) ve düşük gecikme süresi gerektiren Premium SSD performans katmanlarıyla Depolama hesapları ayarlayın. Yoğun okuma ve yazma görevlerine sahip data lake senaryoları için Premium blok blob depolamayı kullanın. Ağ gecikme süresini en aza indirmek için depolama hesaplarının Azure Databricks çalışma alanınızla aynı bölgede olduğundan emin olun. |
Depolama işlemleri için en fazla 20.000 IOPS ve milisaniyenin altında gecikme süresi sağlar. Yoğun veri gerektiren iş yüklerinin performansını artırır ve depolama G/Ç performans sorunlarını ortadan kaldırarak iş çalışma sürelerini azaltır. |
| Sorgularınızda yaygın olarak kullanılan filtre sütunlarını temel alan veri bölümleme stratejileri tasarlar. Bu filtreler, zaman serisi verileri için tarih sütunlarını veya boyutsal veriler için kategorik sütunları içerir. Bölümleri 10.000'den azla sınırlayarak ve her bölümde en az 1 GB veri olduğundan emin olarak fazla bölümleme yapmaktan kaçının. Bölüm ayıklamayı kolaylaştıran sorgu desenlerini kullanın ve birden çok bölüm adayına sahip tablolar için esnek kümelemeyi göz önünde bulundurun. |
Etkili bölüm ayıklama yoluyla veri taramasını azaltır. Sorgu performansını artırır ve yalnızca ilgili veri bölümlerini işleyerek işlem maliyetlerini azaltır. Sorgular tahmin edilebilir şekilde davranır ve toplam tablo boyutu yerine filtrelenmiş veri boyutuyla doğrusal olarak ölçeklendirilir. Veri kümeleri petabayt (PB) ölçeğine büyüdükçe tutarlı yanıt sürelerini korur. |
| Depolama verimliliğini ve sorgu performansını iyileştirmek için analitik iş yükleri için zstd veya Snappy sıkıştırması ile Parquet dosya biçimini kullanın. Zstd, soğuk veriler için daha iyi sıkıştırma oranları sağlar. Snappy, sık erişilen veri kümeleri için daha hızlı bir şekilde sıkıştırmayı kaldırma olanağı sağlar. Uygun sıkıştırma düzeylerini ayarlayın ve erişim desenlerinize ve depolama maliyetlerinize göre sıkıştırma dengelerini değerlendirin. |
Sütunlu depolama verimliliği ve iyileştirilmiş sıkıştırma aracılığıyla sorgu performansını artırırken depolama maliyetlerini azaltır. Verileri daha hızlı tarar ve ağ G/Ç'sini azaltır. |
| Planlanmamış sorgulama ve etkileşimli analiz gerektiren BI ve analitik iş yükleri için sunucusuz SQL ambarları dağıtın. Eşzamanlılık gereksinimlerine ve sorgu karmaşıklığı temelinde 2X-Small - 4X-Large gibi uygun ambar boyutlarını ayarlayın. Maliyetleri iyileştirmek ve kullanıcılar için hızlı sorgu yanıt hızını sağlamak için otomatik durdurma ve otomatik yanıt verme özelliklerini açın. |
Anlık ölçeklendirme ve Foton hızlandırmalı performans sağlarken küme yönetimi ek yükünü ortadan kaldırır. SQL iş yükleri için geleneksel kümelere kıyasla daha iyi fiyat performansı sunar. El ile müdahale veya yapılandırma ayarlaması olmadan değişen iş yükü desenlerine uyum sağlayan tutarlı bir altsaniyelik sorgu başlatma süreleri ve otomatik iyileştirme sağlar. |
| Spark yapılandırmalarında çalışma zamanı optimizasyon yeteneklerini kullanmak için AQE'yi etkinleştirin; bu, karıştırma bölümlerinin dinamik bir araya getirilmesini, dinamik birleştirme stratejisinin değiştirilmesini ve çarpık birleştirmelerin optimizasyonunu içerir. Tipik veri hacimlerinize ve küme özelliklerinize göre hedef karıştırma bölüm boyutu ve birleştirme eşikleri gibi AQE parametrelerini ayarlayın. |
Gerçek veri özelliklerine ve çalıştırma desenlerine uyum sağlayan akıllı çalışma zamanı iyileştirmeleri sayesinde sorgu performansını geliştirir. Küçük dosyalar ve veri dengesizliği gibi yaygın performans sorunlarını otomatik olarak giderir. |
| Etkileşimli kümelerin ve iş kümelerinin başlangıç sürelerini azaltmak için en yaygın küme yapılandırmalarınızla eşleşen önceden hazır örnekleri olan küme havuzları oluşturun. Geliştirme ekipleri ve zamanlanmış işler için anında kullanılabilirlik sağlamak için havuz boyutlarını beklenen eşzamanlı kullanım desenlerine göre ayarlayın ve yoğun saatlerde boşta kalan örnekleri koruyun. |
Küme başlatma süresini 5'ten 10 dakikaya 30 saniyeden kısar. Geliştirici üretkenliğini artırır ve zamana duyarlı veri işleme iş akışları için işleri daha hızlı çalıştırır. |
Küçük dosyaları sıkıştırmak ve sorgu performansını geliştirmek için Azure Databricks işlerini kullanarak düzenli iyileştirme görevleri zamanlayın. Süresi dolan işlem günlüklerini ve silinen dosyaları temizlemek için komutları çalıştırın VACUUM . Genellikle yüksek hacimli tablolar için günlük ve daha az sık güncelleştirilen tablolar için haftalık olan veri alımı desenlerine göre iyileştirme sıklığını ayarlayın. En iyi bakım zamanlamalarını belirlemek için tablo istatistiklerini ve dosya sayılarını izleyin. |
Dosya çoğalmasını ve veri parçalanmasını önleyerek veri birimleri büyüdükçe tutarlı sorgu performansını korur. Gereksiz dosyaları temizleyerek ve sıkıştırma oranlarını iyileştirerek depolama maliyetlerini azaltır. Uygun bakım yapılmadan veri göllerinde sık görülen zaman içinde performans düşüşü önler. Tahmin edilebilir sorgu yanıt sürelerini ve en uygun kaynak kullanımını sağlar. |
| Yapılandırılmış akış tetikleyici aralıklarını gecikme süresi gereksinimlerine ve veri varış desenlerine göre yapılandırın. Saniye altı gecikme süresi gereksinimleri için sürekli tetikleyiciler veya dengeli performans için 1 saniye ile 10 saniye arası aralıklarla mikro toplu iş tetikleyicileri kullanın. Hızlı depolamayı kullanarak denetim noktası konumlarını iyileştirin ve hataya dayanıklılık ile performans ek yükünü dengelemek için uygun denetim noktası aralıklarını yapılandırın. | Gerçek zamanlı veri işleme için gecikme süresi ve aktarım hızı arasında en iyi dengeyi sağlar. Düşük uçtan uca gecikme süresini korurken farklı veri varış oranlarını işleyebilen tutarlı akış işleme performansına izin verir. |
| Derin öğrenme modeli eğitimi ve çıkarım iş yükleri için NC, ND veya NV serisi VM'leri kullanarak GPU özellikli kümeleri dağıtın. Uygun GPU bellek ayırmayı yapılandırın ve dağıtılmış eğitim düzenlemesi için MLflow kullanın. Model karmaşıklığı ve eğitim veri kümesi boyutuna göre GPU örneği türlerini seçin. Belirli makine öğrenmesi iş yükleriniz için hem bellek kapasitesi hem de işlem performansı gereksinimlerini göz önünde bulundurun. |
Makine öğrenmesi işlemleri için tasarlanmış paralel işleme özelliklerini kullanarak model eğitimini yalnızca CPU kümelerine kıyasla 10 ile 100 kat hızlandırır. Eğitim süresini kısaltır ve daha hızlı model yineleme döngülerine olanak tanır. |
Azure ilkeleri
Azure, Azure Databricks ve bağımlılıklarıyla ilgili kapsamlı bir yerleşik ilke kümesi sağlar. Önceki önerilerden bazıları Azure İlkesi aracılığıyla denetlenebilir. Örneğin, şunları denetleyebilirsiniz:
- Azure Databricks çalışma alanları, gelişmiş ağ güvenliği ve yalıtımı için sanal ağ ekleme özelliğini kullanır.
- Azure Databricks çalışma alanları, özel uç noktaları kullandığınızda genel ağ erişimini engeller.
- Azure Databricks kümelerinde bekleyen verileri korumak için disk şifrelemesi açıktır.
- Azure Databricks çalışma alanları, gelişmiş şifreleme denetimi için müşteri tarafından yönetilen anahtarları kullanır.
- Azure Databricks çalışma alanlarında izleme ve uyumluluk için tanılama günlüğü etkinleştirilmiştir.
- Azure Databricks çalışma alanları yalnızca uyumluluk için onaylanmış coğrafi bölgelerde dağıtılır.
- Kurumsal iş yükleri, gelişmiş güvenlik ve uyumluluk özellikleri için Azure Databricks Premium katmanını kullanır.
- Azure Databricks çalışma alanları, merkezi veri idaresi için Unity Kataloğu'nu kullanır.
Kapsamlı idare için Azure Databricks için Azure İlkesi yerleşik tanımlarını ve analiz platformunun güvenliğini etkileyebilecek diğer ilkeleri gözden geçirin.
Azure Danışmanı önerileri
Azure Danışmanı, Azure dağıtımlarınızı iyileştirmek için en iyi yöntemleri izlemenize yardımcı olan kişiselleştirilmiş bir bulut danışmanıdır.
Daha fazla bilgi için bkz. Azure Danışmanı.
Dengelemeler
Sütun denetim listelerindeki yaklaşımları kullanıyorsanız tasarımda dengeler oluşturmanız gerekebilir.
Performans ve maliyet dengelerini analiz etme
İş yüklerinizden en yüksek değeri elde etmek için performansı ve maliyeti dengeleyin. Fazla sağlama boşa harcanırken, yetersiz sağlama iş yüklerini yavaşlatabilir veya hatalara yol açabilir. Seçimlerinizi yönlendirmek için farklı yapılandırmaları test edin, performans karşılaştırmalarını kullanın ve maliyetleri analiz edin.
Senaryo mimarisi
Azure Databricks kullanarak akış işleme , bu makalede açıklanan önemli önerileri gösteren temel bir mimari gösterir.