Azure'a Hadoop geçişi
Apache Hadoop, çok büyük veri kümelerini analiz etmek ve dönüştürmek için MapReduce tekniklerini kullanmaya yönelik bir dağıtılmış dosya sistemi ve çerçeve sağlar. Hadoop'un önemli bir özelliği, verilerin ve hesaplamaların çok sayıda (binlerce) konakta bölümlenmesidir. Hesaplamalar verilere paralel olarak yapılır. Hadoop kümesi yalnızca ticari donanım ekleyerek hesaplama kapasitesini, depolama kapasitesini ve G/Ç bant genişliğini ölçeklendirir.
Bu makale, Hadoop'un Azure'a geçirilmesine genel bir bakıştır. Bu bölümdeki diğer makaleler, belirli Hadoop bileşenleri için geçiş kılavuzu sağlar. Bunlar:
- Azure'a Apache HDFS geçişi
- Azure'a Apache HBase geçişi
- Azure'a Apache Kafka geçişi
- Azure'a Apache Sqoop geçişi
Hadoop, kapsamlı bir hizmet ve çerçeve ekosistemi sağlar. Bu makaleler Hadoop bileşenlerini ve Bunların Azure uygulamalarını ayrıntılı olarak açıklamaz. Bunun yerine, şirket içi ve bulut Hadoop uygulamalarınızı Azure'a geçirmeniz için başlangıç noktası olarak kullanılacak üst düzey rehberlik ve önemli noktalar sağlar.
Apache, Apache Spark®, Apache Hadoop®, Apache HBase, Apache Hive, Apache Ranger®, Apache Sentry®, Apache ZooKeeper®, Apache Storm®, Apache Sqoop®, Apache Flink®, Apache Kafka® ve alev logosu, Apache Software Foundation'ın Birleşik Devletler® ve/veya diğer ülkeler. Bu işaretlerin kullanılması Apache Software Foundation tarafından onaylanmamaktadır.
Hadoop bileşenleri
Hadoop sisteminin temel bileşenleri aşağıdaki tabloda listelenmiştir. Her bileşen için kısa bir açıklama ve aşağıdaki gibi geçiş bilgileri bulunur:
- Geçiş stratejilerine karar vermek için karar akış çizelgelerine bağlantılar
- Olası Azure hedef hizmetlerinin listesi
Bileşen | Veri Akışı Açıklaması | Karar akış çizelgeleri | Hedeflenen Azure hizmetleri |
---|---|---|---|
Apache HDFS | Dağıtılmış dosya sistemi | Veri geçişini planlama, veri geçişi öncesinde ön denetimler | Azure Data Lake Storage |
Apache HBase | Sütun odaklı tablo hizmeti | Apache HBase için giriş hedefi seçme, Azure'da Apache HBase için depolama alanı seçme | Sanal makinede HBase (VM), Azure HDInsight'ta HBase, Azure Cosmos DB |
Apache Spark | Veri işleme çerçevesi | Azure'da Apache Spark için giriş hedefi seçme | HDInsight'ta Spark, Azure Synapse Analytics, Azure Databricks |
Apache Hive | Veri ambarı altyapısı | Hive için giriş hedefi seçme, Hive meta verileri için hedef veritabanı seçme | VM'de Hive, HDInsight'ta Hive, Azure Synapse Analytics |
Apache Ranger | Veri güvenliğini izleme ve yönetme çerçevesi | VM üzerinde HDInsight, Microsoft Entra Id, Ranger için Kurumsal Güvenlik Paketi | |
Apache Sentry | Veri güvenliğini izleme ve yönetme çerçevesi | Azure'da Apache Sentry için giriş hedeflerini seçme | Vm'de Sentry ve Ranger, HDInsight için Kurumsal Güvenlik Paketi, Microsoft Entra Kimliği |
Apache MapReduce | Dağıtılmış hesaplama çerçevesi | MapReduce, Spark | |
Apache Zookeeper | Dağıtılmış koordinasyon hizmeti | Vm'de ZooKeeper, hizmet olarak platformda yerleşik çözüm (PaaS) | |
Apache YARN | Hadoop ekosistemi için kaynak yöneticisi | Vm'de YARN, PaaS'ta yerleşik çözüm | |
Apache Sqoop | Apache Hadoop kümeleri ve ilişkisel veritabanları arasında veri aktarmak için komut satırı arabirim aracı | Azure'da Apache Sqoop için giriş hedeflerini seçme | VM üzerinde Sqoop, HDInsight'ta Sqoop, Azure Data Factory |
Apache Kafka | Yüksek oranda ölçeklenebilir hataya dayanıklı dağıtılmış mesajlaşma sistemi | Azure'da Apache Kafka için giriş hedeflerini seçme | VM'de Kafka, Kafka için Event Hubs, HDInsight'ta Kafka |
Apache Atlas | Veri idaresi ve meta veri yönetimi için açık kaynak çerçevesi | Azure Purview |
Geçiş yaklaşımları
Aşağıdaki diyagramda Hadoop uygulamalarını geçirmeye yönelik üç yaklaşım gösterilmektedir:
Bu mimarinin bir Visio dosyasını indirin.
Yaklaşımlar şunlardır:
- Azure PaaS kullanarak yeniden platform oluşturma: Daha fazla bilgi için bkz . Azure Synapse Analytics ve Databricks kullanarak modernleştirme.
- HDInsight'a kaldırma ve kaydırma: Daha fazla bilgi için bkz . HDInsight'a kaldırma ve hdinsight'a geçiş.
- IaaS'ye geçiş ve kaldırma: Daha fazla bilgi için bkz . Hizmet olarak Azure altyapısını (IaaS) kaldırma ve geçiş yapma.
Azure Synapse Analytics ve Databricks kullanarak modernleştirme
Aşağıdaki diyagramda bu yaklaşım gösterilmektedir:
Bu mimarinin bir Visio dosyasını indirin.
HDInsight'a kaldırma ve kaydırma
Aşağıdaki diyagramda bu yaklaşım gösterilmektedir:
Bu mimarinin bir Visio dosyasını indirin.
Daha fazla bilgi için bkz . Şirket içi Apache Hadoop kümelerini Azure HDInsight'a geçirme.
Hizmet olarak Azure altyapısını (IaaS) kaldırma ve bu altyapıya geçiş
Aşağıdaki desen, Active Directory, Etki Alanı Denetleyicisi ve DNS gibi şirket içi sistemlere sıkı bir tümleştirme ile Azure IaaS'de işletim sisteminin nasıl dağıtılacağına ilişkin bir bakış açısı sunar. Dağıtım, Microsoft'un kurumsal ölçekli giriş bölgesi yönergelerini izler. İzleme, güvenlik, idare ve ağ gibi yönetim özellikleri bir yönetim aboneliğinde barındırılır. Tüm IaaS tabanlı iş yükleri ayrı bir abonelikte barındırılır. Kurumsal ölçekli giriş bölgeleri hakkında daha fazla bilgi için bkz . Azure giriş bölgesi nedir?.
Bu mimarinin bir Visio dosyasını indirin.
- Şirket içi Active Directory, şirket içinde barındırılan Microsoft Entra Connect'i kullanarak Microsoft Entra Id ile eşitlenir.
- Azure ExpressRoute, şirket içi ile Azure arasında güvenli ve özel ağ bağlantısı sağlar.
- Yönetim (veya hub) aboneliği, dağıtım için ağ ve yönetim özellikleri sağlar. Bu düzen, Microsoft'un kurumsal ölçekli giriş bölgesi yönergeleriyle aynıdır.
- Hub aboneliğinde barındırılan hizmetler, ağ bağlantısı ve yönetim özellikleri sağlar.
- NtP (Azure VM'de barındırılan) tüm sanal makineler arasında eşitlenmiş saatleri tutmak için gereklidir. HBase ve ZooKeeper gibi birden çok uygulama çalıştırdığınızda, kümenizde bir Ağ Zaman Protokolü (NTP) hizmeti veya başka bir zaman eşitleme mekanizması çalıştırmanız gerekir. Tüm düğümler zaman eşitlemesi için aynı hizmeti kullanmalıdır. Linux'ta NTP'yi ayarlama yönergeleri için bkz . 14.6. Temel NTP yapılandırması.
- Azure Ağ İzleyicisi, Bir Azure sanal ağındaki kaynakları izlemek, tanılamak ve yönetmek için araçlar sağlar. Ağ İzleyicisi VM'ler, sanal ağlar, uygulama ağ geçitleri ve yük dengeleyiciler dahil olmak üzere IaaS ürünlerinin ağ durumunu izlemek ve onarmak için tasarlanmıştır.
- Azure Danışmanı , kaynak yapılandırmanızı ve kullanım telemetrinizi analiz eder ve ardından Azure kaynaklarınızın maliyet verimliliğini, performansını, güvenilirliğini ve güvenliğini geliştirmek için çözümler önerir.
- Azure İzleyici , bulut ve şirket içi ortamlarınızdan telemetri verilerini toplamak, analiz etmek ve üzerinde işlem gerçekleştirmek için kapsamlı bir çözüm sağlar. Uygulamalarınızı ve bağımlı oldukları kaynakları etkileyen sorunları proaktif olarak belirleyebilmeniz için uygulamalarınızın performansını anlamanıza yardımcı olur.
- Log Analytics Çalışma Alanı , Azure İzleyici günlük verileri için benzersiz bir ortamdır. Her çalışma alanının kendi veri deposu ve yapılandırması vardır. Veri kaynakları ve çözümleri, verilerini belirli bir çalışma alanında depolamak için yapılandırılır. Aşağıdaki kaynaklardan veri toplamak istiyorsanız log analytics çalışma alanına ihtiyacınız vardır:
- Aboneliğinizdeki Azure kaynakları
- System Center Operations Manager tarafından izlenen şirket içi bilgisayarlar
- System Center Configuration Manager'dan cihaz koleksiyonları
- Azure Depolama'dan tanılama veya günlük verileri
- Azure sanal Makine Ölçek Kümelerinde barındırılan Azure DevOps Şirket İçinde Barındırılan Aracı , aracıların üzerinde çalıştığı makinelerin boyutu ve görüntüsü üzerinde esneklik sağlar. Bir sanal makine ölçek kümesi, beklemede tutulacak bir dizi aracı, ölçek kümesinde en fazla sayıda sanal makine belirtirsiniz. Azure Pipelines, aracılarınızın ölçeklendirmesini sizin yerinize yönetir.
- Microsoft Entra Id kiracısı, Microsoft Entra Connect eşitleme hizmetleri aracılığıyla şirket içi Active Directory ile eşitlenir. Daha fazla bilgi için bkz . Microsoft Entra Connect Sync: Eşitlemeyi anlama ve özelleştirme.
- Microsoft Entra Domain Services (Microsoft Entra Domain Services), Azure'da LDAP ve Kerberos özellikleri sağlar. Microsoft Entra Domain Services'ı ilk kez dağıttığınızda, nesneleri Microsoft Entra Id'den çoğaltmak için otomatik bir tek yönlü eşitleme yapılandırılır ve başlatılır. Bu tek yönlü eşitleme, Microsoft Entra Domain Services yönetilen etki alanını Microsoft Entra ID'deki değişikliklerle güncel tutmak için arka planda çalışmaya devam eder. Microsoft Entra Domain Services'dan Microsoft Entra Kimliği'ne geri eşitleme gerçekleşmez.
- Azure DNS, Bulut için Microsoft Defender ve Azure Key Vault gibi hizmetler yönetim aboneliğinin içinde yer alır ve sırasıyla hizmet/IP adresi çözümlemesi, birleşik altyapı güvenlik yönetimi ve sertifika ve anahtar yönetimi özellikleri sağlar.
- Sanal Ağ Eşlemesi iki abonelikte dağıtılan sanal ağlar arasında bağlantı sağlar: yönetim (merkez) ve iş yükü (uç).
- Kurumsal ölçekli giriş bölgelerine uygun olarak, iş yükü abonelikleri uygulama iş yüklerini barındırmak için kullanılır.
- Azure Data Lake Storage, büyük veri analizi yapmak için Azure Blob Depolama üzerine oluşturulmuş bir özellik kümesidir. Büyük veri iş yükleri bağlamında Data Lake Storage, Hadoop için ikincil depolama alanı olarak kullanılabilir. Data Lake Storage'a yazılan veriler, Hadoop çerçevesinin dışındaki diğer Azure hizmetleri tarafından kullanılabilir.
- Büyük veri iş yükleri bir dizi bağımsız Azure sanal makinesinde barındırılır. Daha fazla bilgi için Azure IaaS'de HDFS, HBase, Hive, Ranger ve Spark yönergelerine bakın.
- Azure DevOps , planlama ve geliştirmeden test ve dağıtıma kadar yazılım projelerinizi yönetmek için tümleşik bir hizmet ve araç kümesi sağlayan bir hizmet olarak yazılım (SaaS) teklifidir.
Bitiş durumu başvuru mimarisi
İş yüklerini şirket içi Hadoop'tan Azure'a geçirmenin zorluklarından biri, istenen son durum mimarisine ve uygulamasına ulaşmak için dağıtım yapmaktır. Azure PaaS üzerinde Hadoop Geçişi'nde açıklanan proje, PaaS hizmetlerini ve uygulamayı dağıtmak için genellikle gereken önemli çabayı azaltmaya yöneliktir.
Bu projede, Azure'daki büyük veri iş yükleri için son durum mimarisine göz atacak ve bicep şablonu dağıtımında kullanılan bileşenleri listeleyeceğiz. Bicep ile yalnızca mimari dağıtmamız gereken modülleri dağıtırız. Şablonun önkoşullarını ve Kaynakları Azure'a dağıtmanın Tek tıklama, Azure CLI, GitHub Actions ve Azure DevOps İşlem Hattı gibi çeşitli yöntemlerini ele alacağız.
Katkıda Bulunanlar
Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.
Asıl yazarlar:
- Namrata Maheshwary | Üst Düzey Bulut Çözümü Mimarı
- Raja N | Müdür, Müşteri Başarısı
- Hideo Takagi | Bulut Çözümü Mimarı
- Ram Yerrabotu | Üst Düzey Bulut Çözümü Mimarı
Diğer katkıda bulunanlar:
- Ram Başkaran | Üst Düzey Bulut Çözümü Mimarı
- Jason Bouska | Kıdemli Yazılım Mühendisi
- Eugene Chung | Üst Düzey Bulut Çözümü Mimarı
- Pawan Hosatti | Üst Düzey Bulut Çözümü Mimarı - Mühendislik
- Daman Kaur | Bulut Çözümü Mimarı
- Danny Liu | Üst Düzey Bulut Çözümü Mimarı - Mühendislik
- Jose Mendez Kıdemli Bulut Çözümü Mimarı
- Ben Sadeghi | Kıdemli Uzman
- Sunil Sattiraju | Üst Düzey Bulut Çözümü Mimarı
- Amanjeet Singh | Asıl Program Yöneticisi
- Nagaraj Seeplapudur Venkatesan | Üst Düzey Bulut Çözümü Mimarı - Mühendislik
Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.
Sonraki adımlar
Azure ürün tanıtımları
- Azure Data Lake Storage 2. Nesil'e giriş
- Azure HDInsight'ta Apache Spark nedir?
- Azure HDInsight'ta Apache Hadoop nedir?
- Azure HDInsight'ta Apache HBase nedir?
- Azure HDInsight'ta Apache Kafka nedir?
- Azure HDInsight'ta kurumsal güvenliğe genel bakış
Azure ürün başvurusu
- Microsoft Entra belgeleri
- Azure Cosmos DB belgeleri
- Azure Data Factory belgeleri
- Azure Databricks belgeleri
- Azure Event Hubs belgeleri
- Azure İşlevleri belgeleri
- Azure HDInsight belgeleri
- Microsoft Purview veri idaresi belgeleri
- Azure Stream Analytics belgeleri
- Azure Synapse Analytics
Diğer
- Azure HDInsight için Kurumsal Güvenlik Paketi
- HDInsight üzerinde Apache Hadoop için Java MapReduce programları geliştirme
- HDInsight'ta Hadoop ile Apache Sqoop'u kullanma
- Apache Spark Akışına Genel Bakış
- Yapılandırılmış Akış öğreticisi
- Apache Kafka uygulamalarından Azure Event Hubs kullanma
İlgili kaynaklar
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin