Aracılığıyla paylaş


Şirket içi Hadoop kümesindeki verileri Azure Depolama'ya geçirmek için Azure Data Factory'yi kullanma

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Azure Data Factory, verileri büyük ölçekte şirket içi HDFS'den Azure Blob depolama alanına veya Azure Data Lake Storage 2. Nesil geçirmek için yüksek performanslı, sağlam ve uygun maliyetli bir mekanizma sağlar.

Data Factory, verileri şirket içi HDFS'den Azure'a geçirmek için iki temel yaklaşım sunar. Senaryonuza göre yaklaşımı seçebilirsiniz.

  • Data Factory DistCp modu (önerilir): Data Factory'de, dosyaları olduğu gibi Azure Blob depolamaya (aşamalı kopya dahil) veya Azure Data Lake Store 2. Nesil'e kopyalamak için DistCp (dağıtılmış kopya) kullanabilirsiniz. En iyi kopyalama aktarım hızını elde etmek için mevcut güçlü kümeden yararlanmak için DistCp ile tümleştirilmiş Data Factory'yi kullanın. Ayrıca Data Factory'den esnek zamanlama ve birleşik izleme deneyimi avantajından da yararlanabilirsiniz. Data Factory yapılandırmanıza bağlı olarak kopyalama etkinliği otomatik olarak bir DistCp komutu oluşturur, verileri Hadoop kümenize gönderir ve ardından kopyalama durumunu izler. Verileri şirket içi Hadoop kümesinden Azure'a geçirmek için Data Factory DistCp modunu öneririz.
  • Data Factory yerel tümleştirme çalışma zamanı modu: DistCp tüm senaryolarda bir seçenek değildir. Örneğin, Bir Azure Sanal Ağ s ortamında, DistCp aracı Azure Depolama sanal ağ uç noktasıyla Azure ExpressRoute özel eşlemesini desteklemez. Ayrıca, bazı durumlarda mevcut Hadoop kümenizi verileri geçirmek için bir altyapı olarak kullanmak istemezsiniz, bu nedenle kümenize ağır yükler yüklemezsiniz ve bu da mevcut ETL işlerinin performansını etkileyebilir. Bunun yerine, data Factory tümleştirme çalışma zamanının yerel özelliğini şirket içi HDFS'den Azure'a veri kopyalayan altyapı olarak kullanabilirsiniz.

Bu makalede her iki yaklaşım hakkında da aşağıdaki bilgiler sağlanır:

  • Performans
  • Dayanıklılığı kopyalama
  • Ağ güvenliği
  • Üst düzey çözüm mimarisi
  • Uygulama için en iyi yöntemler

Performans

Data Factory DistCp modunda aktarım hızı, DistCp aracını bağımsız olarak kullanmanızla aynıdır. Data Factory DistCp modu, mevcut Hadoop kümenizin kapasitesini en üst düzeye çıkarır. Büyük kümeler arası veya küme içi kopyalama için DistCp kullanabilirsiniz.

DistCp, dağılımını, hata işlemesini ve kurtarmasını ve raporlamasını etkilemek için MapReduce kullanır. Görev eşlemesi için bir dosya ve dizin listesini girişe genişletir. Her görev, kaynak listede belirtilen bir dosya bölümünü kopyalar. Ortamınız için veri taşıma aktarım hızını en üst düzeye çıkarmak üzere ağ bant genişliğinizi, depolama IOPS'nizi ve bant genişliğinizi tam olarak kullanmak üzere işlem hatları oluşturmak için DistCp ile tümleşik Data Factory'yi kullanabilirsiniz.

Data Factory yerel tümleştirme çalışma zamanı modu da farklı düzeylerde paralellik sağlar. Veri taşıma aktarım hızını en üst düzeye çıkarmak için ağ bant genişliğinizi, depolama IOPS'nizi ve bant genişliğinizi tam olarak kullanmak için paralellik kullanabilirsiniz:

  • Tek bir kopyalama etkinliği ölçeklenebilir işlem kaynaklarından yararlanabilir. Şirket içinde barındırılan tümleştirme çalışma zamanıyla, makinenin ölçeğini el ile artırabilir veya ölçeği birden çok makineye (en fazla dört düğüm) genişletebilirsiniz. Tek bir kopyalama etkinliği, dosya kümesini tüm düğümler arasında bölümlere ayırır.
  • Tek bir kopyalama etkinliği birden çok iş parçacığı kullanarak veri deposundan okur ve veri deposuna yazar.
  • Data Factory denetim akışı birden çok kopyalama etkinliğini paralel olarak başlatabilir. Örneğin, Her İçin döngüsü kullanabilirsiniz.

Daha fazla bilgi için kopyalama etkinliği performans kılavuzuna bakın.

Dayanıklılık

Data Factory DistCp modunda, farklı dayanıklılık düzeyleri için farklı DistCp komut satırı parametreleri (örneğin, , -ihataları yoksay veya -update, kaynak dosya ve hedef dosya farklı boyutta olduğunda veri yaz) kullanabilirsiniz.

Data Factory yerel tümleştirme çalışma zamanı modunda, tek bir kopyalama etkinliği çalıştırmasında Data Factory'nin yerleşik bir yeniden deneme mekanizması vardır. Veri depolarındaki veya temel alınan ağdaki belirli bir geçici hata düzeyini işleyebilir.

Şirket içi HDFS'den Blob depolamaya ve şirket içi HDFS'den Data Lake Store 2. Nesil'e ikili kopyalama yaparken, Data Factory büyük ölçüde otomatik olarak denetim noktası oluşturma gerçekleştirir. Kopyalama etkinliği çalıştırması başarısız olursa veya zaman aşımına ularsa, sonraki bir yeniden denemede (yeniden deneme sayısının 1 olduğundan > emin olun), kopyalama işlemi en baştan başlamak yerine son hata noktasından devam eder.

Ağ güvenliği

Varsayılan olarak Data Factory, HTTPS protokolü üzerinden şifrelenmiş bir bağlantı kullanarak verileri şirket içi HDFS'den Blob depolamaya veya Azure Data Lake Storage 2. Nesil aktarır. HTTPS aktarım sırasında veri şifrelemesi sağlar ve gizlice dinleme ve ortadaki adam saldırılarını önler.

Alternatif olarak, verilerin genel İnternet üzerinden aktarılmasını istemiyorsanız, daha yüksek güvenlik için ExpressRoute aracılığıyla özel eşleme bağlantısı üzerinden veri aktarabilirsiniz.

Çözüm mimarisi

Bu görüntüde verileri genel İnternet üzerinden geçirme gösterilir:

Verileri genel ağ üzerinden geçirmek için çözüm mimarisini gösteren diyagram

  • Bu mimaride veriler, genel İnternet üzerinden HTTPS kullanılarak güvenli bir şekilde aktarılır.
  • Data Factory DistCp modunu genel ağ ortamında kullanmanızı öneririz. En iyi kopyalama aktarım hızını elde etmek için güçlü bir mevcut kümeden yararlanabilirsiniz. Data Factory'den esnek zamanlama ve birleşik izleme deneyiminden de yararlanabilirsiniz.
  • Bu mimaride, DistCp komutunu Hadoop kümenize göndermek ve kopyalama durumunu izlemek için şirket güvenlik duvarının arkasındaki bir Windows makinesine Data Factory şirket içinde barındırılan tümleştirme çalışma zamanını yüklemeniz gerekir. Makine verileri taşıyacak altyapı olmadığından (yalnızca denetim amacıyla), makinenin kapasitesi veri taşımanın aktarım hızını etkilemez.
  • DistCp komutundaki mevcut parametreler desteklenir.

Bu görüntüde özel bir bağlantı üzerinden veri geçişi yer aldı:

Verileri özel ağ üzerinden geçirmek için çözüm mimarisini gösteren diyagram

  • Bu mimaride veriler Azure ExpressRoute aracılığıyla özel eşleme bağlantısı üzerinden geçirilir. Veriler hiçbir zaman genel İnternet üzerinden dolaşmaz.
  • DistCp aracı, Azure Depolama sanal ağ uç noktasıyla ExpressRoute özel eşlemesini desteklemez. Verileri geçirmek için tümleştirme çalışma zamanı aracılığıyla Data Factory'nin yerel özelliğini kullanmanızı öneririz.
  • Bu mimari için Data Factory şirket içinde barındırılan tümleştirme çalışma zamanını Azure sanal ağınızdaki bir Windows VM'sine yüklemeniz gerekir. Ağ ve depolama IOPS'nizi veya bant genişliğinizi tam olarak kullanmak için VM'nizin ölçeğini el ile artırabilir veya ölçeği birden çok VM'ye genişletebilirsiniz.
  • Her Azure VM için (Data Factory şirket içinde barındırılan tümleştirme çalışma zamanı yüklü) ile başlamak için önerilen yapılandırma, 32 vCPU ve 128 GB belleğe sahip Standard_D32s_v3. Daha iyi performans için VM'nin ölçeğini artırmanız mı yoksa maliyeti azaltmak için mi ölçeği azaltmanız gerektiğini görmek için veri geçişi sırasında VM'nin CPU ve bellek kullanımını izleyebilirsiniz.
  • Ayrıca, şirket içinde barındırılan tek bir tümleştirme çalışma zamanıyla en fazla dört VM düğümü ilişkilendirerek ölçeği genişletebilirsiniz. Şirket içinde barındırılan tümleştirme çalışma zamanında çalışan tek bir kopyalama işi, dosya kümesini otomatik olarak bölümler ve dosyaları paralel olarak kopyalamak için tüm VM düğümlerini kullanır. Yüksek kullanılabilirlik için, veri geçişi sırasında tek hata noktası senaryosundan kaçınmak için iki VM düğümüyle başlamanızı öneririz.
  • Bu mimariyi kullandığınızda, ilk anlık görüntü veri geçişi ve delta veri geçişi sizin için kullanılabilir.

Uygulama için en iyi yöntemler

Veri geçişinizi uygularken bu en iyi yöntemleri izlemenizi öneririz.

Kimlik doğrulaması ve kimlik bilgisi yönetimi

İlk anlık görüntü veri geçişi

Data Factory DistCp modunda, DistCp komutunu göndermek için bir kopyalama etkinliği oluşturabilir ve ilk veri geçiş davranışını denetlemek için farklı parametreler kullanabilirsiniz.

Data Factory yerel tümleştirme çalışma zamanı modunda, özellikle 10 TB'tan fazla veri geçirirken veri bölümü önerilir. Verileri bölümlendirmek için HDFS'de klasör adlarını kullanın. Ardından, her Data Factory kopyalama işi aynı anda bir klasör bölümünü kopyalayabilir. Daha iyi aktarım hızı için birden çok Data Factory kopyalama işini eşzamanlı olarak çalıştırabilirsiniz.

Ağ veya veri deposu geçici sorunlarından dolayı kopyalama işlerinden herhangi biri başarısız olursa, ilgili bölümü HDFS'den yeniden yüklemek için başarısız kopyalama işini yeniden çalıştırabilirsiniz. Diğer bölümleri yükleyen diğer kopyalama işleri etkilenmez.

Delta veri geçişi

Data Factory DistCp modunda DistCp komut satırı parametresini -updatekullanabilir, delta veri geçişi için kaynak dosya ve hedef dosyanın boyutu farklı olduğunda veri yazabilirsiniz.

Data Factory yerel tümleştirme modunda, HDFS'den yeni veya değiştirilmiş dosyaları tanımlamanın en performanslı yolu, zaman bölümlenmiş adlandırma kuralı kullanmaktır. HDFS'deki verileriniz dosya veya klasör adında zaman dilimi bilgileriyle (örneğin, /yy/aa/gg/file.csv) zaman bölümlendiğinde, işlem hattınız hangi dosya ve klasörlerin artımlı olarak kopyalandığını kolayca belirleyebilir.

Alternatif olarak, HDFS'deki verileriniz zaman bölümlenmemişse Data Factory, LastModifiedDate değerlerini kullanarak yeni veya değiştirilmiş dosyaları tanımlayabilir. Data Factory, HDFS'den tüm dosyaları tarar ve yalnızca ayarlanmış bir değerden daha büyük son değiştirilmiş zaman damgasına sahip yeni ve güncelleştirilmiş dosyaları kopyalar.

HDFS'de çok sayıda dosyanız varsa, filtre koşuluyla eşleşen dosya sayısına bakılmaksızın ilk dosya taraması uzun sürebilir. Bu senaryoda, ilk anlık görüntü geçişi için kullandığınız bölümü kullanarak verileri bölümlemenizi öneririz. Ardından, dosya tarama paralel olarak gerçekleşebilir.

Tahmini fiyat

VERILERI HDFS'den Azure Blob depolamaya geçirmek için aşağıdaki işlem hattını göz önünde bulundurun:

Fiyatlandırma işlem hattını gösteren diyagram

Aşağıdaki bilgileri varsayalım:

  • Toplam veri hacmi 1 PB'dir.
  • Data Factory yerel tümleştirme çalışma zamanı modunu kullanarak verileri geçirirsiniz.
  • 1 PB, 1.000 bölüme ayrılır ve her kopya bir bölüm taşır.
  • Her kopyalama etkinliği, dört makineyle ilişkili ve 500 MB/sn aktarım hızına ulaşan şirket içinde barındırılan bir tümleştirme çalışma zamanıyla yapılandırılır.
  • ForEach eşzamanlılığı 4 ve toplam aktarım hızı 2 GBps olarak ayarlanır.
  • Geçişin tamamlanması toplamda 146 saat sürer.

Varsayımlarımıza göre tahmini fiyat aşağıda belirtilmiştir:

Fiyatlandırma hesaplamalarını gösteren tablo

Not

Bu, varsayımsal bir fiyatlandırma örneğidir. Gerçek fiyatlandırmanız ortamınızdaki gerçek aktarım hızına bağlıdır. Azure Windows VM'sinin fiyatı (şirket içinde barındırılan tümleştirme çalışma zamanı yüklü) dahil değildir.

Ek başvurular