Aracılığıyla paylaş


Azure'da bulut ölçeğinde analizde Azure Databricks'i kullanma

Azure Databricks, Microsoft Azure Cloud Services platformu için iyileştirilmiş bir veri analizi platformudur. Azure Databricks, yoğun veri gerektiren uygulamalar geliştirmek için iki ortam sunar:

  • Data Lake'inizde hızlı geçici SQL sorguları çalıştırmanıza olanak tanıyan Azure Databricks SQL.

  • Azure Databricks Veri Bilimi & Mühendislik ("Çalışma Alanı" olarak da adlandırılır) Apache Spark tabanlı bir analiz platformudur. Tek tıklamayla kurulum, kolaylaştırılmış iş akışları ve veri mühendisleri, veri bilimciler ve makine öğrenmesi mühendisleri arasında işbirliği sağlayan etkileşimli bir çalışma alanı sağlamak için Azure ile tümleşiktir.

Bulut ölçeğinde analiz için Azure Databricks Veri Bilimi ve Mühendislik'e odaklanacağız.

Genel Bakış

Dağıttığınız her veri giriş bölgesi için iki paylaşılan çalışma alanı dağıtma seçeneğiniz vardır. Biri veri agnostik alımı, diğeri analiz için.

  • Alma ve işleme için Azure Databricks mühendislik çalışma alanı, Azure hizmet sorumluları aracılığıyla Azure Data Lake'e bağlanır. Veri agnostik alımı tarafından çağrılır.
  • Azure Databricks analiz çalışma alanı tüm veri bilimciler ve veri operasyonları ekipleri için sağlanabilir. Bu çalışma alanı, Microsoft Entra doğrudan kimlik doğrulamasını kullanarak Azure Data Lake'e bağlanır. Azure Databricks analiz ve veri bilimi çalışma alanını veri giriş bölgesi genelinde çalışma alanına erişimi olan tüm kullanıcılarla paylaşırsınız.

Otomatik veri alma altyapınız varsa, Azure Databricks mühendislik çalışma alanı ham veri alımı işlem hatlarını zenginleştirilmiş olarak çalıştırmak için Azure meta veri hizmeti kaynak grubunda oluşturulmuş bir Azure Key Vault örneğini kullanır.

Azure Databricks analiz çalışma alanında yüksek eşzamanlılık kümeleri oluşturmanızı gerektiren küme ilkeleri olmalıdır. Bu küme türü, Data Lake'in Microsoft Entra kimlik bilgisi geçişi kullanılarak keşfedilmesine olanak tanır. Daha fazla bilgi için bkz. Azure Data Lake Depolama'de erişim denetimi ve veri gölü yapılandırmaları.

Azure Databricks'i yapılandırma

Azure Databricks dağıtımı bir Azure Resource Manager şablonu ve YAML betikleri aracılığıyla kısmen parametre tabanlıdır, ancak tüm çalışma alanlarını yapılandırmak için el ile müdahale gerektirir.

Tüm Azure Databricks çalışma alanları, aşağıdaki gerekli özellikleri sağlayan premium planı kullanmalıdır:

  • İyileştirilmiş otomatik işlem ölçeklendirme
  • Microsoft Entra kimlik bilgisi doğrudan kimlik doğrulaması
  • Koşullu kimlik doğrulaması
  • Not defterleri için rol tabanlı erişim denetimi, kümeler, işler ve tablolar
  • Denetim günlükleri

Bulut ölçeğinde analize uyum sağlamak için tüm çalışma alanlarında aşağıdaki varsayılan dağıtım seçeneklerinin yapılandırılmasını öneririz:

  • Azure Databricks çalışma alanları, veri giriş bölgesindeki bir dış Apache Hive meta veri deposu örneğine bağlanır.
  • Her çalışma alanını databricks-monitoring-rg içinde Azure Log Analytics'e Databricks tanılama günlüğü gönderecek şekilde yapılandırın
  • Bir dizi kurala göre küme oluşturma özelliğini sınırlamak için küme ilkeleri uygulayın. Daha fazla bilgi için bkz . Küme ilkelerini yönetme.
    • Birden çok küme ilkesi tanımlayın. Ekleme işleminin bir parçası olarak, veri giriş bölgesi operasyon ekibi tarafından kullanılacak her hedef grup iznini atayın. Varsayılan olarak, küme oluşturma izni yalnızca operasyon ekibine verilir. Farklı takımlara veya gruplara küme ilkelerini kullanma izni verilir.
    • Bir dizi boşta, kullanıma hazır örneği koruyarak küme başlangıç ve otomatik ölçeklendirme sürelerini azaltmak için Azure Databricks havuzlarıyla birlikte küme ilkelerini kullanın. Daha fazla bilgi için bkz . Havuzlar.
  • Azure Key Vault örneğinden SPN kimlik bilgileri ve bağlantı dizesi gibi tüm Azure Databricks işlem gizli dizilerini alın.
  • SCIM (etki alanları arası kimlik yönetimi için sistem) ile kullanmak üzere çalışma alanı başına ayrı bir kurumsal uygulama yapılandırın. Her çalışma alanına erişimi ve izinleri denetlemek için Azure Databricks çalışma alanına bağlantı verin. Daha fazla bilgi için bkz . SCIM kullanarak kullanıcı ve grup sağlama ve Microsoft Entra Id için SCIM sağlamayı yapılandırma.

Uyarı

Azure Databricks çalışma alanının Azure Databricks SCIM arabirimini kullanacak şekilde yapılandırılmaması, güvenlik denetimlerini sağlama yönteminizi etkiler. Otomatikleştirilmiş işlemden el ile işleme geçer ve tüm dağıtım CI/CD işlem hatlarını keser.

Tüm Databricks çalışma alanları için aşağıdaki erişim denetimi seçenekleri ayarlanır:

  • Çalışma alanı görünürlük denetimi: etkin (varsayılan: devre dışı)
  • Küme görünürlüğü denetimi: etkin (varsayılan: devre dışı)
  • İş görünürlüğü denetimi: etkin (varsayılan: devre dışı)

Azure Databricks analiz çalışma alanı için aşağıdaki seçenekleri etkinleştirmek isteyebilirsiniz:

  • Not defteri dışarı aktarma: devre dışı (varsayılan: etkin)
  • Not defteri tablosu pano özellikleri: devre dışı (varsayılan: etkin)
  • Tablo erişim denetimi: etkin (varsayılan: devre dışı)
  • Microsoft Entra Koşullu Erişim

Azure Databricks'i dağıtma

Azure Databricks çalışma alanlarını yeni bir veri giriş bölgesi dağıtımının parçası olarak dağıtırsanız. Aşağıdaki görüntüde, bulut ölçeğinde analizde Azure Databricks ortamını dağıtmaya yönelik örnek bir iş akışı gösterilmektedir.

Diagram of an Azure Databricks deployment into a data landing zone.

  1. Sağlama işlemi ilk olarak veri giriş bölgesinde bir Apache Hive meta veri deposu örneğinin bulunduğundan emin olur. Apache Hive meta veri deposu bulunamıyorsa, çıkar ve bir hata oluşturur.
  2. Apache Hive meta veri deposu başarıyla bulunduktan sonra bir çalışma alanı oluşturulur.
  3. İşlem, veri giriş bölgesinde Log Analytics çalışma alanını denetler. Log Analytics çalışma alanını bulamazsa, çıkar ve bir hata oluşturur.
  4. Her çalışma alanı için bir Microsoft Entra uygulaması oluşturur ve SCIM'yi yapılandırılır.

Azure Databricks alma çalışma alanı için:

  1. İşlem, çalışma alanını hizmet sorumlusu erişimiyle yapılandırıyor.
  2. Veri platformu operasyon ekibi tarafından tanımlanan veri mühendisliği ilkeleri dağıtılır.
  3. Veri giriş bölgesi operasyon ekibi Databricks havuzlarını veya kümelerini istediyse, bunlar dağıtım işlemiyle tümleştirilebilir.
  4. Azure Databricks mühendislik çalışma alanına özgü çalışma alanı seçeneklerini etkinleştirir.

Azure Databricks analiz çalışma alanı için:

  1. bu işlem, veri platformu operasyon ekibi tarafından tanımlanan veri analizi ilkelerini dağıtır.
  2. Veri giriş bölgesi operasyon ekibi Databricks havuzlarını veya kümelerini istediyse, bunlar dağıtım işlemiyle tümleştirilebilir.
  3. Azure Databricks mühendislik çalışma alanına özgü çalışma alanı seçeneklerini etkinleştirir.

Dış Hive meta veri deposu

Azure Databricks çalışma alanı dağıtımında:

  • Yeni bir genel başlatma betiği, tüm kümeler için Apache Hive meta veri deposu ayarlarını yapılandırıyor. Bu betik, yeni genel başlatma betikleri API'si tarafından yönetilir.

Yeni genel başlatma betikleri API'si genel önizleme aşamasındadır. Azure Databricks'teki genel önizleme özellikleri üretim ortamları için hazırdır ve destek ekibi tarafından desteklenir. Daha fazla bilgi için bkz . Azure Databricks önizleme sürümleri.

  • Bu çözüm, Apache Hive meta veri deposu örneğini depolamak için MySQL için Azure Veritabanı kullanır. Bu veritabanı, maliyet verimliliği ve Apache Hive ile yüksek uyumluluğu için seçildi.

Sonraki adımlar

Bulut ölçeğinde analiz, Azure Databricks'i tümleştirmek için aşağıdaki yönergeleri dikkate alır: