Aracılığıyla paylaş


Azure'a Hadoop geçişi

Apache Hadoop, çok büyük veri kümelerini analiz etmek ve dönüştürmek için MapReduce tekniklerini kullanmaya yönelik bir dağıtılmış dosya sistemi ve çerçeve sağlar. Hadoop'un önemli bir özelliği, verilerin ve hesaplamaların çok sayıda (binlerce) konakta bölümlenmesidir. Hesaplamalar verilere paralel olarak yapılır. Hadoop kümesi yalnızca ticari donanım ekleyerek hesaplama kapasitesini, depolama kapasitesini ve G/Ç bant genişliğini ölçeklendirir.

Bu makale, Hadoop'un Azure'a geçirilmesine genel bir bakıştır. Bu bölümdeki diğer makaleler, belirli Hadoop bileşenleri için geçiş kılavuzu sağlar. Bunlar:

Hadoop, kapsamlı bir hizmet ve çerçeve ekosistemi sağlar. Bu makaleler Hadoop bileşenlerini ve Bunların Azure uygulamalarını ayrıntılı olarak açıklamaz. Bunun yerine, şirket içi ve bulut Hadoop uygulamalarınızı Azure'a geçirmeniz için başlangıç noktası olarak kullanılacak üst düzey rehberlik ve önemli noktalar sağlar.

Apache, Apache Spark®, Apache Hadoop®, Apache HBase, Apache Hive, Apache Ranger®, Apache Sentry®, Apache ZooKeeper®, Apache Storm®, Apache Sqoop®, Apache Flink®, Apache Kafka® ve alev logosu, Apache Software Foundation'ın Birleşik Devletler® ve/veya diğer ülkeler. Bu işaretlerin kullanılması Apache Software Foundation tarafından onaylanmamaktadır.

Hadoop bileşenleri

Hadoop sisteminin temel bileşenleri aşağıdaki tabloda listelenmiştir. Her bileşen için kısa bir açıklama ve aşağıdaki gibi geçiş bilgileri bulunur:

  • Geçiş stratejilerine karar vermek için karar akış çizelgelerine bağlantılar
  • Olası Azure hedef hizmetlerinin listesi
Bileşen Veri Akışı Açıklaması Karar akış çizelgeleri Hedeflenen Azure hizmetleri
Apache HDFS Dağıtılmış dosya sistemi Veri geçişini planlama, veri geçişi öncesinde ön denetimler Azure Data Lake Storage
Apache HBase Sütun odaklı tablo hizmeti Apache HBase için giriş hedefi seçme, Azure'da Apache HBase için depolama alanı seçme Sanal makinede HBase (VM), Azure HDInsight'ta HBase, Azure Cosmos DB
Apache Spark Veri işleme çerçevesi Azure'da Apache Spark için giriş hedefi seçme HDInsight'ta Spark, Azure Synapse Analytics, Azure Databricks
Apache Hive Veri ambarı altyapısı Hive için giriş hedefi seçme, Hive meta verileri için hedef veritabanı seçme VM'de Hive, HDInsight'ta Hive, Azure Synapse Analytics
Apache Ranger Veri güvenliğini izleme ve yönetme çerçevesi VM üzerinde HDInsight, Microsoft Entra Id, Ranger için Kurumsal Güvenlik Paketi
Apache Sentry Veri güvenliğini izleme ve yönetme çerçevesi Azure'da Apache Sentry için giriş hedeflerini seçme Vm'de Sentry ve Ranger, HDInsight için Kurumsal Güvenlik Paketi, Microsoft Entra Kimliği
Apache MapReduce Dağıtılmış hesaplama çerçevesi MapReduce, Spark
Apache Zookeeper Dağıtılmış koordinasyon hizmeti Vm'de ZooKeeper, hizmet olarak platformda yerleşik çözüm (PaaS)
Apache YARN Hadoop ekosistemi için kaynak yöneticisi Vm'de YARN, PaaS'ta yerleşik çözüm
Apache Sqoop Apache Hadoop kümeleri ve ilişkisel veritabanları arasında veri aktarmak için komut satırı arabirim aracı Azure'da Apache Sqoop için giriş hedeflerini seçme VM üzerinde Sqoop, HDInsight'ta Sqoop, Azure Data Factory
Apache Kafka Yüksek oranda ölçeklenebilir hataya dayanıklı dağıtılmış mesajlaşma sistemi Azure'da Apache Kafka için giriş hedeflerini seçme VM'de Kafka, Kafka için Event Hubs, HDInsight'ta Kafka
Apache Atlas Veri idaresi ve meta veri yönetimi için açık kaynak çerçevesi Azure Purview

Geçiş yaklaşımları

Aşağıdaki diyagramda Hadoop uygulamalarını geçirmeye yönelik üç yaklaşım gösterilmektedir:

Hadoop uygulamalarını geçirmenin üç yolunu gösteren diyagram.

Bu mimarinin bir Visio dosyasını indirin.

Yaklaşımlar şunlardır:

Azure Synapse Analytics ve Databricks kullanarak modernleştirme

Aşağıdaki diyagramda bu yaklaşım gösterilmektedir:

Azure Synapse Analytics ve Databricks kullanarak modernleştirmeye yönelik mimari diyagramı.

Bu mimarinin bir Visio dosyasını indirin.

HDInsight'a kaldırma ve kaydırma

Aşağıdaki diyagramda bu yaklaşım gösterilmektedir:

HDInsight'a lift-and shift yaparak modernleştirmeye yönelik mimari diyagramı.

Bu mimarinin bir Visio dosyasını indirin.

Daha fazla bilgi için bkz . Şirket içi Apache Hadoop kümelerini Azure HDInsight'a geçirme.

Hizmet olarak Azure altyapısını (IaaS) kaldırma ve bu altyapıya geçiş

Aşağıdaki desen, Active Directory, Etki Alanı Denetleyicisi ve DNS gibi şirket içi sistemlere sıkı bir tümleştirme ile Azure IaaS'de işletim sisteminin nasıl dağıtılacağına ilişkin bir bakış açısı sunar. Dağıtım, Microsoft'un kurumsal ölçekli giriş bölgesi yönergelerini izler. İzleme, güvenlik, idare ve ağ gibi yönetim özellikleri bir yönetim aboneliğinde barındırılır. Tüm IaaS tabanlı iş yükleri ayrı bir abonelikte barındırılır. Kurumsal ölçekli giriş bölgeleri hakkında daha fazla bilgi için bkz . Azure giriş bölgesi nedir?.

Azure IaaS'ye geçiş ve kaldırma mimarisi diyagramı.

Bu mimarinin bir Visio dosyasını indirin.

  1. Şirket içi Active Directory, şirket içinde barındırılan Microsoft Entra Connect'i kullanarak Microsoft Entra Id ile eşitlenir.
  2. Azure ExpressRoute, şirket içi ile Azure arasında güvenli ve özel ağ bağlantısı sağlar.
  3. Yönetim (veya hub) aboneliği, dağıtım için ağ ve yönetim özellikleri sağlar. Bu düzen, Microsoft'un kurumsal ölçekli giriş bölgesi yönergeleriyle aynıdır.
  4. Hub aboneliğinde barındırılan hizmetler, ağ bağlantısı ve yönetim özellikleri sağlar.
    • NtP (Azure VM'de barındırılan) tüm sanal makineler arasında eşitlenmiş saatleri tutmak için gereklidir. HBase ve ZooKeeper gibi birden çok uygulama çalıştırdığınızda, kümenizde bir Ağ Zaman Protokolü (NTP) hizmeti veya başka bir zaman eşitleme mekanizması çalıştırmanız gerekir. Tüm düğümler zaman eşitlemesi için aynı hizmeti kullanmalıdır. Linux'ta NTP'yi ayarlama yönergeleri için bkz . 14.6. Temel NTP yapılandırması.
    • Azure Ağ İzleyicisi, Bir Azure sanal ağındaki kaynakları izlemek, tanılamak ve yönetmek için araçlar sağlar. Ağ İzleyicisi VM'ler, sanal ağlar, uygulama ağ geçitleri ve yük dengeleyiciler dahil olmak üzere IaaS ürünlerinin ağ durumunu izlemek ve onarmak için tasarlanmıştır.
    • Azure Danışmanı , kaynak yapılandırmanızı ve kullanım telemetrinizi analiz eder ve ardından Azure kaynaklarınızın maliyet verimliliğini, performansını, güvenilirliğini ve güvenliğini geliştirmek için çözümler önerir.
    • Azure İzleyici , bulut ve şirket içi ortamlarınızdan telemetri verilerini toplamak, analiz etmek ve üzerinde işlem gerçekleştirmek için kapsamlı bir çözüm sağlar. Uygulamalarınızı ve bağımlı oldukları kaynakları etkileyen sorunları proaktif olarak belirleyebilmeniz için uygulamalarınızın performansını anlamanıza yardımcı olur.
    • Log Analytics Çalışma Alanı , Azure İzleyici günlük verileri için benzersiz bir ortamdır. Her çalışma alanının kendi veri deposu ve yapılandırması vardır. Veri kaynakları ve çözümleri, verilerini belirli bir çalışma alanında depolamak için yapılandırılır. Aşağıdaki kaynaklardan veri toplamak istiyorsanız log analytics çalışma alanına ihtiyacınız vardır:
      • Aboneliğinizdeki Azure kaynakları
      • System Center Operations Manager tarafından izlenen şirket içi bilgisayarlar
      • System Center Configuration Manager'dan cihaz koleksiyonları
      • Azure Depolama'dan tanılama veya günlük verileri
    • Azure sanal Makine Ölçek Kümelerinde barındırılan Azure DevOps Şirket İçinde Barındırılan Aracı , aracıların üzerinde çalıştığı makinelerin boyutu ve görüntüsü üzerinde esneklik sağlar. Bir sanal makine ölçek kümesi, beklemede tutulacak bir dizi aracı, ölçek kümesinde en fazla sayıda sanal makine belirtirsiniz. Azure Pipelines, aracılarınızın ölçeklendirmesini sizin yerinize yönetir.
  5. Microsoft Entra Id kiracısı, Microsoft Entra Connect eşitleme hizmetleri aracılığıyla şirket içi Active Directory ile eşitlenir. Daha fazla bilgi için bkz . Microsoft Entra Connect Sync: Eşitlemeyi anlama ve özelleştirme.
  6. Microsoft Entra Domain Services (Microsoft Entra Domain Services), Azure'da LDAP ve Kerberos özellikleri sağlar. Microsoft Entra Domain Services'ı ilk kez dağıttığınızda, nesneleri Microsoft Entra Id'den çoğaltmak için otomatik bir tek yönlü eşitleme yapılandırılır ve başlatılır. Bu tek yönlü eşitleme, Microsoft Entra Domain Services yönetilen etki alanını Microsoft Entra ID'deki değişikliklerle güncel tutmak için arka planda çalışmaya devam eder. Microsoft Entra Domain Services'dan Microsoft Entra Kimliği'ne geri eşitleme gerçekleşmez.
  7. Azure DNS, Bulut için Microsoft Defender ve Azure Key Vault gibi hizmetler yönetim aboneliğinin içinde yer alır ve sırasıyla hizmet/IP adresi çözümlemesi, birleşik altyapı güvenlik yönetimi ve sertifika ve anahtar yönetimi özellikleri sağlar.
  8. Sanal Ağ Eşlemesi iki abonelikte dağıtılan sanal ağlar arasında bağlantı sağlar: yönetim (merkez) ve iş yükü (uç).
  9. Kurumsal ölçekli giriş bölgelerine uygun olarak, iş yükü abonelikleri uygulama iş yüklerini barındırmak için kullanılır.
  10. Azure Data Lake Storage, büyük veri analizi yapmak için Azure Blob Depolama üzerine oluşturulmuş bir özellik kümesidir. Büyük veri iş yükleri bağlamında Data Lake Storage, Hadoop için ikincil depolama alanı olarak kullanılabilir. Data Lake Storage'a yazılan veriler, Hadoop çerçevesinin dışındaki diğer Azure hizmetleri tarafından kullanılabilir.
  11. Büyük veri iş yükleri bir dizi bağımsız Azure sanal makinesinde barındırılır. Daha fazla bilgi için Azure IaaS'de HDFS, HBase, Hive, Ranger ve Spark yönergelerine bakın.
  12. Azure DevOps , planlama ve geliştirmeden test ve dağıtıma kadar yazılım projelerinizi yönetmek için tümleşik bir hizmet ve araç kümesi sağlayan bir hizmet olarak yazılım (SaaS) teklifidir.

Bitiş durumu başvuru mimarisi

İş yüklerini şirket içi Hadoop'tan Azure'a geçirmenin zorluklarından biri, istenen son durum mimarisine ve uygulamasına ulaşmak için dağıtım yapmaktır. Azure PaaS üzerinde Hadoop Geçişi'nde açıklanan proje, PaaS hizmetlerini ve uygulamayı dağıtmak için genellikle gereken önemli çabayı azaltmaya yöneliktir.

Bu projede, Azure'daki büyük veri iş yükleri için son durum mimarisine göz atacak ve bicep şablonu dağıtımında kullanılan bileşenleri listeleyeceğiz. Bicep ile yalnızca mimari dağıtmamız gereken modülleri dağıtırız. Şablonun önkoşullarını ve Kaynakları Azure'a dağıtmanın Tek tıklama, Azure CLI, GitHub Actions ve Azure DevOps İşlem Hattı gibi çeşitli yöntemlerini ele alacağız.

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazarlar:

Diğer katkıda bulunanlar:

Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Sonraki adımlar

Azure ürün tanıtımları

Azure ürün başvurusu

Diğer