Veri giriş bölgeleri
Veri giriş bölgeleri, sanal ağ (VNet) eşlemesi ile veri yönetimi giriş bölgenize bağlanır. Her veri giriş bölgesi, Azure giriş bölgesi mimarisiyle ilgili bir giriş bölgesi olarak kabul edilir.
Önemli
Veri giriş bölgesi sağlamadan önce DevOps ve CI/CD işletim modelinizin yerinde olduğundan ve bir veri yönetimi giriş bölgesinin dağıtıldığından emin olun.
Her veri giriş bölgesi, hizmet veri tümleştirmeleri ve içerdiği veri ürünleri için çevikliği sağlayan çeşitli katmanlara sahiptir. Veri giriş bölgesinin verileri alıp çözümlemeye başlamasını sağlayan standart bir hizmet kümesiyle yeni bir veri giriş bölgesi dağıtabilirsiniz.
Veri giriş bölgenizle ilişkili Azure aboneliğiniz aşağıdaki yapıya sahiptir:
Katman | Zorunlu | Kaynak grupları |
---|---|---|
Temel hizmetler | Yes |
|
Veri uygulaması | İsteğe bağlı |
|
Görsel -leştirme | İsteğe bağlı |
Not
Veri uygulaması bir veya daha fazla veri ürünü üretir.
Veri giriş bölgesi mimarisi
Veri giriş bölgesi mimarisi, her kaynak grubunun içerdiği katmanları, kaynak gruplarını ve hizmetleri gösterir. Mimari ayrıca veri giriş bölgenizle ilişkili tüm gruplara ve rollere ve bunların denetim ve veri düzlemlerinize erişiminin kapsamına genel bir bakış sağlar.
İpucu
Veri giriş bölgesini dağıtmadan önce, dağıtmak istediğiniz ilk veri giriş bölgelerinin sayısını dikkate almayı unutmayın.
Bu mimariyi başlangıç noktası olarak kullanın. Visio dosyasını indirin ve veri giriş bölgesi uygulamanızı planlarken belirli iş ve teknik gereksinimlerinize uyacak şekilde değiştirin.
Temel hizmetler katmanı
Temel hizmetler katmanı, bulut ölçeğinde analiz bağlamında veri giriş bölgenizi etkinleştirmek için gereken tüm hizmetleri içerir. Aşağıdaki tabloda, dağıttığınız her veri giriş bölgesinde standart kullanılabilir hizmet paketini sağlayan kaynak grupları listelenmektedir.
Kaynak Grubu | Zorunlu | Veri Akışı Açıklaması |
---|---|---|
network-rg |
Yes | Ağ |
databricks-monitoring-rg |
İsteğe bağlı | Azure Databricks çalışma alanlarını izleme |
hive-rg |
İsteğe bağlı | Azure Databricks için Hive meta veri deposu |
storage-rg |
Yes | Data lakes hizmetleri |
external-data-rg |
Yes | Alma depolama alanını karşıya yükleme |
runtimes-rg |
Yes | Paylaşılan tümleştirme çalışma zamanları |
mgmt-rg |
Yes | CI/CD Aracıları |
metadata-ingestion-rg |
İsteğe bağlı | Veri agnostik alımı |
databricks-monitoring-rg |
İsteğe bağlı | Giriş bölgesindeki databricks çalışma alanları için Log Analytics çalışma alanı |
shared-synapse-rg |
İsteğe bağlı | Paylaşılan Azure Synapse |
shared-databricks-rg |
İsteğe bağlı | Paylaşılan Azure Databricks çalışma alanı |
Ağ
Ağ kaynak grubu Azure Ağ İzleyicisi, ağ güvenlik grupları (NSG) ve sanal ağ gibi temel bileşenleri içerir. Bu hizmetlerin tümü tek bir kaynak grubuna dağıtılır.
Veri giriş bölgenizin sanal ağı, veri yönetimi giriş bölgenizin sanal ağı ve bağlantı aboneliğinizin sanal ağıyla otomatik olarak eşlenmiştir.
Azure Databricks çalışma alanlarını izleme
Bu kaynak grubu isteğe bağlıdır ve yalnızca Azure Databricks ile dağıtılır.
Azure giriş bölgesi düzeni, tüm günlükleri merkezi bir Log Analytics çalışma alanına göndermenizi önerir. Ancak her veri giriş bölgesi, Databricks'ten Spark günlüklerini yakalamak için bir izleme kaynak grubu da içerir. Her kaynak grubu, Log Analytics anahtarlarını depolamak için paylaşılan bir Log Analytics çalışma alanı ve Azure Key Vault içerir.
Önemli
Azure Databricks Spark günlüklerini yakalamak için yalnızca Databricks izleme kaynak grubunuzdaki Log Analytics çalışma alanını kullanın.
Daha fazla bilgi için bkz . Azure Databricks'i izleme.
Azure Databricks için Hive meta veri deposu
Bu kaynak grubu isteğe bağlıdır ve yalnızca Azure Databricks ile dağıtılmalıdır.
Azure Databricks için Hive meta veri deposu bir MySQL için Azure Veritabanı veritabanı ve bir anahtar kasası sağlar. Veri giriş bölgenizdeki tüm Azure Databricks çalışma alanları, dış Apache Hive meta veri deposu olarak bu meta veri depolarını kullanır.
Daha fazla bilgi için bkz . Dış Apache Hive meta veri deposu.
Data lake hizmetleri
Önceki diyagramda gösterildiği gibi, tek bir data lake services kaynak grubunda üç Azure Data Lake Storage 2. Nesil hesabı sağlanır. Farklı aşamalarda dönüştürülen veriler, veri giriş bölgenizin veri göllerinden birine kaydedilir. Veriler analiz, veri bilimi ve görselleştirme ekipleriniz tarafından kullanılabilir.
Data lake katmanları, teknolojiye ve satıcıya bağlı olarak farklı terminoloji kullanır. Bu tablo, bulut ölçeğinde analiz için terimlerin nasıl uygulanacağı konusunda rehberlik sağlar:
Bulut ölçeğinde analiz | Delta Lake | Diğer terimler | Açıklama |
---|---|---|---|
Ham | Bronze | İniş ve Uygunluk | Alım Tabloları |
Zengin -leştirilmiş | Silver | Standartlaştırma Bölgesi | Rafine Tablolar. Kayıt sistemlerinden tüketime hazır kayıt kümeleri olan tam varlık depolandı. |
Oluşturuldu | Gold | Ürün Bölgesi | Özellik veya toplu tablolar. Uygulamaların, ekiplerin ve kullanıcıların veri ürünlerini tüketmesi için birincil bölge. |
Geliştirme | -- | Geliştirme Bölgesi | Hem analiz korumalı alanını hem de ürün geliştirme bölgesini içeren veri mühendisleri ve bilim adamları için konum. |
Not
Önceki diyagramda, her veri giriş bölgesi üç veri gölüne sahiptir. Ancak, gereksinimlerinize bağlı olarak ham, zenginleştirilmiş ve seçilmiş katmanlarınızı bir depolama hesabında birleştirmek ve veri tüketicilerinin diğer yararlı veri ürünlerini getirmesi için 'geliştirme' adlı başka bir depolama hesabı tutmak isteyebilirsiniz.
Daha fazla bilgi için bkz.
- Bulut ölçeğinde analiz için Azure Data Lake Storage'a genel bakış
- Veri Standardizasyonu
- Her veri giriş bölgesi için Azure Data Lake Storage 2. Nesil hesapları sağlama
- Azure Data Lake Storage ile ilgili önemli noktalar
- Azure Data Lake Storage'da erişim denetimi ve data lake yapılandırmaları
Alma depolama alanını karşıya yükleme
Veri uygulama ekiplerinizin veri göllerine çekebilmesi için üçüncü taraf veri yayımcılarının verileri platformunuza aktarması gerekir. Aşağıdaki diyagramda görüldüğü gibi, karşıya yükleme alma depolama kaynak grubunuz üçüncü taraflar için blob depoları sağlamanızı sağlar.
Veri uygulama ekipleriniz bu depolama bloblarını istemektedir. İstekleri daha sonra veri giriş bölgesi operasyon ekibiniz tarafından onaylanmıştır. Veriler, depolama blobundan ham bloba çekildikten sonra kaynak depolama blobundan kaldırılmalıdır.
Önemli
Azure Depolama blobları gerektiği gibi sağlandığından, başlangıçta her veri giriş bölgesine boş bir depolama hizmetleri kaynak grubu dağıtmanız gerekir.
Paylaşılan tümleştirme çalışma zamanları
Şirket içinde barındırılan tümleştirme çalışma zamanlarına sahip bir sanal makineyi veri giriş bölgenize dağıtın. Paylaşılan tümleştirme kaynak grubunda barındırın. Bu dağıtım, veri ürünlerini veri giriş bölgenize hızla eklemenizi sağlar.
Kaynak grubunu etkinleştirmek için:
- Veri giriş bölgenizin paylaşılan tümleştirme kaynak grubunda en az bir Azure Data Factory oluşturun. Veri işlem hatları için değil, yalnızca paylaşılan şirket içinde barındırılan tümleştirme çalışma zamanını bağlamak için kullanın.
- Sanal makinede şirket içinde barındırılan bir tümleştirme çalışma zamanı oluşturun ve yapılandırın.
- Şirket içinde barındırılan tümleştirme çalışma zamanını veri giriş bölgenizdeki Azure veri fabrikalarıyla ilişkilendirin.
- Şirket içinde barındırılan tümleştirme çalışma zamanını düzenli aralıklarla güncelleştirmek için Azure Otomasyonu ayarlayın.
Not
Yukarıdaki dağıtım, şirket içinde barındırılan tümleştirme çalışma zamanları ile tek bir sanal makine dağıtımı sağlar. Şirket içinde barındırılan tümleştirme çalışma zamanını Azure'daki birden çok şirket içi makine veya sanal makineyle ilişkilendirebilirsiniz. Bu makineler düğüm olarak adlandırılır. Şirket içinde barındırılan tümleştirme çalışma zamanıyla ilişkili en fazla dört düğüm olabilir. Mantıksal ağ geçidi için bir ağ geçidi yüklü olan şirket içi makinelerde birden çok düğüme sahip olmanın avantajları şunlardır:
- Şirket içinde barındırılan tümleştirme çalışma zamanının daha yüksek kullanılabilirliği sayesinde büyük veri çözümünüzde veya bulut veri tümleştirmesinde tek bir hata noktası kalmaz. Bu kullanılabilirlik, en fazla dört düğüm kullandığınızda sürekliliği sağlamaya yardımcı olur.
- Şirket içi ve bulut veri depoları arasında veri taşıma sırasında iyileştirilmiş performans ve aktarım hızı. Performans karşılaştırmaları hakkında daha fazla bilgi edinin.
İndirme Merkezi'nden şirket içinde barındırılan tümleştirme çalışma zamanı yazılımını yükleyerek birden çok düğümü ilişkilendirebilirsiniz. Ardından, öğreticide açıklandığı gibi New-AzDataFactoryV2IntegrationRuntimeKey cmdlet'inden alınan kimlik doğrulama anahtarlarından birini kullanarak kaydedin.
Diğer bilgiler Azure Datafactory Yüksek kullanılabilirlik ve ölçeklenebilirlik bölümünde ayrıntılı olarak açıklanmaktadır.
Önemli
Paylaşılan tümleştirme çalışma zamanlarını mümkün olduğunca veri kaynağına yakın bir şekilde dağıtın. Dağıtımları, tümleştirme çalışma zamanlarını bir veri giriş bölgesinde veya üçüncü taraf bulutlara dağıtmanızı kısıtlamaz. Bunun yerine buluta özel, bölge içi veri kaynakları için bir geri dönüş sağlar.
CI/CD Aracıları
CI/CD Aracıları, veri uygulamalarını ve değişiklikleri veri giriş bölgesine dağıtmanıza yardımcı olur.
Daha fazla bilgi için bkz . Azure Pipeline aracıları.
Veri agnostik alımı
Bu kaynak grubu isteğe bağlıdır ve giriş bölgenizi dağıtmanızı yasaklamaz.
Bu kaynak grubu, verileri kaydetme meta verileri (bağlantı dizesi, veri kopyalama yolu ve veri alma zamanlaması dahil) temelinde otomatik olarak almak için veri belirsiz bir veri alma altyapınız varsa (veya geliştiriyorsanız) geçerlidir. Alma ve işleme kaynak grubu, bu tür bir çerçeve için temel hizmetlere sahiptir.
Azure Data Factory tarafından kullanılan meta verileri tutmak için bir Azure SQL Veritabanı örneği dağıtın. Otomatik alma hizmetleriyle ilgili gizli dizileri depolamak için bir Azure Key Vault sağlayın. Bu gizli diziler şunları içerebilir:
- Azure Data Factory meta veri deposu kimlik bilgileri
- Otomatik alma işleminiz için hizmet sorumlusu kimlik bilgileri
Daha fazla bilgi için bkz . Otomatik alma çerçeveleri Azure'da bulut ölçeğinde analizi nasıl destekler?
Bu kaynak grubuna dahil edilen hizmetler şunlardır:
Hizmet | Zorunlu | Yönergeler |
---|---|---|
Azure Data Factory | Yes | Azure Data Factory, veri alımı için düzenleme altyapınızdır. |
Azure SQL DB | Yes | Azure SQL DB, Azure Data Factory için meta veri deposudur. |
Event Hubs veya IoT Hub | İsteğe bağlı | Event Hubs veya IoT Hub, Event Hubs'a gerçek zamanlı akış ve databricks mühendislik çalışma alanı aracılığıyla toplu iş ve akış işleme sağlayabilir. |
Azure Databricks | İsteğe bağlı | Azure Databricks veya Azure Synapse Spark'ı veri agnostic alma altyapınızla kullanmak üzere dağıtabilirsiniz. |
Azure Synapse | İsteğe bağlı | Azure Databricks veya Azure Synapse Spark'ı veri agnostic alma altyapısıyla kullanmak üzere dağıtabilirsiniz. |
Paylaşılan Databricks
Bu kaynak grubu isteğe bağlıdır ve yalnızca Azure Databricks ile dağıtılır. Veri giriş bölgenizdeki herkes Databricks çalışma alanını kullanabilir.
Azure Databricks, Azure Data Lake Storage hizmetinin önemli bir tüketicisidir. Atomik dosya işlemleri Spark analiz altyapıları için iyileştirilmiştir. Bu iyileştirme, Azure Databricks hizmetinin karşılaştığı Spark işlerinin tamamlanmasını hızlandırır.
Önemli
Azure Databricks (analiz) adlı bir Azure Databricks çalışma alanı, paylaşılan ürünler kaynak grubunda gösterildiği gibi tüm veri bilimciler ve DataOps için sağlanır.
Bu çalışma alanını Microsoft Entra geçişini veya tablo erişim denetimini kullanarak Azure Data Lake'inize bağlanacak şekilde yapılandırabilirsiniz. Kullanım örneğine bağlı olarak, koşullu erişimi başka bir güvenlik önlemi olarak yapılandırabilirsiniz.
Azure Databricks'i tümleştirmek için bulut ölçeğinde analiz en iyi yöntemlerini izleyin:
Azure giriş bölgesi düzeni, tüm günlükleri merkezi bir Log Analytics çalışma alanına göndermenizi önerir. Ancak her veri giriş bölgesi, Databricks'ten Spark günlüklerini yakalamak için bir izleme kaynak grubu da içerir.
Paylaşılan Azure Synapse Analytics
Bu kaynak grubu isteğe bağlıdır.
İlk veri giriş bölgesi kurulumunuz sırasında, paylaşılan ürünler kaynak grubunuzdaki tüm veri analistleri ve bilim adamları tarafından kullanılmak üzere tek bir Azure Synapse Analytics çalışma alanı dağıtılır.
Maliyet yönetimi ve yeniden yükleme gerekiyorsa veri ürünleri için daha fazla synapse çalışma alanı ayarlayabilirsiniz. Veri uygulama ekipleriniz, görselleştirme katmanınız tarafından kullanılan bir okuma veri deposu olarak ayrılmış Azure SQL Veritabanı havuzları oluşturmak için ayrılmış Azure Synapse Analytics çalışma alanlarını kullanabilir.
Önemli
Çalışma alanını yalnızca isteğe bağlı SQL sorgularına izin verecek şekilde kilitleyerek veri ürünü oluşturmak için paylaşılan Azure Synapse çalışma alanınızın kullanılmasını önleyin. Sadece sömürü amaçlıdır.
Veri uygulaması
Her veri giriş bölgesi birden çok veri ürününe sahip olabilir. Bu veri ürünlerini kaynaktan veri alarak oluşturabilirsiniz. Aynı veri giriş bölgesi içindeki diğer veri ürünlerinden veya diğer veri giriş bölgelerinden de veri ürünleri oluşturabilirsiniz. Veri ürünlerinin veri ürünü oluşturulması, veri temsilcisi onayına tabidir.
Veri ürünü kaynak grubu
Veri ürünü kaynak grubu ürününüz, bu veri ürününü yapmak için gereken tüm hizmetleri içerir. Örneğin, bir görselleştirme aracı tarafından kullanılan MySQL için Azure Veritabanı gereklidir. Verilerin MySQL veritabanına gelmeden önce alınması ve dönüştürülmesi gerekir. Bu durumda MySQL için Azure Veritabanı ve Azure Data Factory'yi veri ürünü kaynak grubuna dağıtabilirsiniz.
İpucu
İşletimsel kaynaklardan bir kez almak için veri agnostics altyapısı uygulamamayı seçerseniz veya veri agnostics altyapınızda karmaşık bağlantılar kolaylaştırılmıyorsa, kaynakla hizalanmış bir veri uygulaması oluşturun. Daha fazla bilgi için bkz . Veri uygulamaları (kaynakla hizalanmış)
Veri ürünlerini ekleme hakkında daha fazla bilgi için bkz . Azure'da bulut ölçeğinde analiz veri ürünleri.
Görselleştirme
Her veri giriş bölgesi için boş bir görselleştirme kaynak grubu oluşturulur. Bu kaynak grubunu görselleştirme çözümünüzü uygulamak için ihtiyacınız olan hizmetlerle doldurun. Mevcut sanal ağınızı kullanmak çözümünüzün veri ürünlerine bağlanmasını sağlar.
Bu kaynak grubu, üçüncü taraf görselleştirme hizmetleri için sanal makineler barındırabilir.
İpucu
Lisanslama maliyetleri nedeniyle, üçüncü taraf görselleştirme ürünlerini veri yönetimi giriş bölgenize dağıtmak ve bu ürünlerin verileri geri çekmek için veri giriş bölgeleri arasında bağlanması daha ekonomik olabilir.