Kopyalama etkinliği performans ve ölçeklenebilirlik kılavuzu

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bazen veri gölünden veya kurumsal veri ambarından (EDW) Azure'a büyük ölçekli bir veri geçişi gerçekleştirmek isteyebilirsiniz. Diğer zamanlarda büyük veri analizi için farklı kaynaklardan Azure'a büyük miktarlarda veri almak istersiniz. Her durumda, en iyi performans ve ölçeklenebilirlik elde etmek kritik önem taşır.

Azure Data Factory ve Azure Synapse Analytics işlem hatları, verileri almak için aşağıdaki avantajlara sahip bir mekanizma sağlar:

  • Büyük miktarda veriyi işler
  • Yüksek performanslıdır
  • Uygun maliyetlidir

Bu avantajlar, yüksek performanslı ölçeklenebilir veri alımı işlem hatları oluşturmak isteyen veri mühendisleri için mükemmel bir uyum sağlar.

Bu makaleyi okuduktan sonra aşağıdaki soruları yanıtlayabileceksiniz:

  • Veri geçişi ve veri alımı senaryoları için kopyalama etkinliğini kullanarak hangi performans ve ölçeklenebilirlik düzeyini elde ederim?
  • Kopyalama etkinliğinin performansını ayarlamak için hangi adımları atmalıyım?
  • Tek bir kopyalama etkinliği çalıştırması için hangi performans iyileştirmelerini kullanabilirim?
  • Kopyalama performansını iyileştirirken dikkate alınması gereken başka hangi dış faktörler var?

Dekont

Kopyalama etkinliğini genel olarak bilmiyorsanız, bu makaleyi okumadan önce kopyalama etkinliğine genel bakış konusuna bakın.

Azure Data Factory ve Synapse işlem hatlarını kullanarak kopyalama performansı ve ölçeklenebilirlik

Azure Data Factory ve Synapse işlem hatları, farklı düzeylerde paralelliğe olanak tanıyan sunucusuz bir mimari sunar.

Bu mimari, ortamınız için veri taşıma aktarım hızını en üst düzeye çıkaran işlem hatları geliştirmenizi sağlar. Bu işlem hatları aşağıdaki kaynakları tam olarak kullanır:

  • Kaynak ve hedef veri depoları arasındaki ağ bant genişliği
  • Saniye başına kaynak veya hedef veri deposu giriş/çıkış işlemleri (IOPS) ve bant genişliği

Bu tam kullanım, aşağıdaki kaynaklarla sağlanan en düşük aktarım hızını ölçerek genel aktarım hızını tahmin ettiğiniz anlamına gelir:

  • Kaynak veri deposu
  • Hedef veri deposu
  • Kaynak ve hedef veri depoları arasındaki ağ bant genişliği

Aşağıdaki tabloda veri taşıma süresinin hesaplanması gösterilmektedir. Her hücredeki süre, belirli bir ağ ve veri deposu bant genişliğine ve belirli bir veri yükü boyutuna göre hesaplanır.

Dekont

Aşağıda sağlanan süre, Birden çok eşzamanlı kopyalama etkinliğini bölümleyip oluşturmak için ForEach kullanma dahil olmak üzere Kopyalama performansı iyileştirme özellikleri bölümünde açıklanan bir veya daha fazla performans iyileştirme tekniği kullanılarak uçtan uca veri tümleştirme çözümünde ulaşılabilir performansı temsil etmek için hazırlanmıştır. Belirli veri kümeniz ve sistem yapılandırmanız için kopyalama performansını iyileştirmek için Performans ayarlama adımları bölümünde düzenlenmiş adımları izlemenizi öneririz. Üretim dağıtım planlaması, kapasite planlaması ve faturalama projeksiyonu için performans ayarlama testlerinizde elde edilen sayıları kullanmanız gerekir.

 

Veri boyutu /
bandwidth
50 Mb/sn 100 Mbps 500 Mbps 1 Gbps 5 Gbps 10 Gbps 50 Gb/s
1GB 2,7 dk 1,4 dk 0,3 dk 0,1 dk 0,03 dk 0,01 dk 0,0 dk
10 GB 27,3 dk 13,7 dk 2,7 dk 1,3 dk 0,3 dk 0,1 dk 0,03 dk
100 GB 4,6 sa 2,3 sa 0,5 sa 0,2 sa 0,05 sa 0,02 sa 0,0 sa
1TB 46,6 sa 23.3 sa 4,7 sa 2,3 sa 0,5 sa 0,2 sa 0,05 sa
10 TB 19,4 gün 9,7 gün 1,9 gün 0,9 gün 0,2 gün 0,1 gün 0,02 gün
100 TB 194,2 gün 97,1 gün 19,4 gün 9,7 gün 1,9 gün 1 gün 0,2 gün
1 PB 64,7 mo 32,4 mo 6,5 mo 3,2 mo 0,6 mo 0,3 mo 0,06 mo
10 PB 647,3 mo 323,6 mo 64,7 mo 31,6 mo 6,5 mo 3,2 mo 0,6 mo

Kopyalama farklı düzeylerde ölçeklenebilir:

How copy scales

  • Denetim akışı, birden çok kopyalama etkinliğini paralel olarak başlatabilir, örneğin For Each döngüsünü kullanabilir.

  • Tek bir kopyalama etkinliği ölçeklenebilir işlem kaynaklarından yararlanabilir.

    • Azure tümleştirme çalışma zamanını (IR) kullanırken, her kopyalama etkinliği için sunucusuz bir şekilde en fazla 256 veri tümleştirme birimi (DIU) belirtebilirsiniz.
    • Şirket içinde barındırılan IR kullanırken aşağıdaki yaklaşımlardan birini kullanabilirsiniz:
      • Makinenin ölçeğini el ile büyütün.
      • Ölçeği birden çok makineye (en çok 4 düğüm) genişleterek tek bir kopyalama etkinliği, dosya kümesini tüm düğümler arasında bölümlendirir.
  • Tek bir kopyalama etkinliği, birden çok iş parçacığını paralel olarak kullanarak veri deposundan okur ve veri deposuna yazar.

Performans ayarlama adımları

Kopyalama etkinliğiyle hizmetinizin performansını ayarlamak için aşağıdaki adımları izleyin:

  1. Bir test veri kümesi alın ve bir temel oluşturun.

    Geliştirme sırasında kopyalama etkinliğini temsili bir veri örneğinde kullanarak işlem hattınızı test edin. Seçtiğiniz veri kümesi, aşağıdaki öznitelikler boyunca tipik veri desenlerinizi temsil etmelidir:

    • Klasör yapısı
    • Dosya düzeni
    • Veri şeması

    Ayrıca veri kümeniz kopyalama performansını değerlendirecek kadar büyük olmalıdır. Kopyalama etkinliğinin tamamlanması için iyi bir boyut en az 10 dakika sürer. Kopyalama etkinliği izleme sonrasında yürütme ayrıntılarını ve performans özelliklerini toplayın.

  2. Tek bir kopyalama etkinliğinin performansını en üst düzeye çıkarma:

    Öncelikle tek bir kopyalama etkinliği kullanarak performansı en üst düzeye çıkarmanızı öneririz.

    • Kopyalama etkinliği bir Azure tümleştirme çalışma zamanında yürütülüyorsa:

      Veri Entegrasyonu Birimleri (DIU) ve paralel kopyalama ayarları için varsayılan değerlerle başlayın.

    • Kopyalama etkinliği şirket içinde barındırılan tümleştirme çalışma zamanında yürütülüyorsa:

      IR barındırmak için ayrılmış bir makine kullanmanızı öneririz. Makine, veri depoyu barındıran sunucudan ayrı olmalıdır. Paralel kopyalama ayarı için varsayılan değerlerle başlayın ve şirket içinde barındırılan IR için tek bir düğüm kullanın.

    Performans testi çalıştırması yapın. Elde edilen performansı not alın. DIU'lar ve paralel kopyalar gibi kullanılan gerçek değerleri ekleyin. Çalıştırma sonuçlarını ve kullanılan performans ayarlarını toplama hakkında kopyalama etkinliği izleme bölümüne bakın. Performans sorununu belirlemek ve çözmek için kopyalama etkinliği performansı sorunlarını gidermeyi öğrenin.

    Sorun giderme ve ayarlama yönergelerini izleyerek ek performans testi çalıştırmaları gerçekleştirmeyi yineleyin. Tek kopyalama etkinliği çalıştırmaları daha iyi aktarım hızı elde edemedikten sonra, birden çok kopyayı eşzamanlı olarak çalıştırarak toplam aktarım hızını en üst düzeye çıkarmanız gerekip gerekmediğini göz önünde bulundurun. Bu seçenek bir sonraki numaralandırılmış madde işaretinde ele alınmıştı.

  3. Birden çok kopyayı eşzamanlı olarak çalıştırarak toplam aktarım hızını en üst düzeye çıkarma:

    Şimdiye kadar tek bir kopyalama etkinliğinin performansını en üst düzeye çıkarmış oldunuz. Ortamınızın aktarım hızı üst sınırlarına henüz ulaşmadıysanız, birden çok kopyalama etkinliğini paralel olarak çalıştırabilirsiniz. Denetim akışı yapılarını kullanarak paralel olarak çalıştırabilirsiniz. Bu tür yapılardan biri For Each döngüsüdür. Daha fazla bilgi için çözüm şablonları hakkında aşağıdaki makalelere bakın:

  4. Yapılandırmayı veri kümenizin tamamına genişletin.

    Yürütme sonuçlarından ve performansından memnun olduğunuzda, tanımı ve işlem hattını tüm veri kümenizi kapsayacak şekilde genişletebilirsiniz.

Kopyalama etkinliği performansı sorunlarını giderme

Senaryonuz için performans testini planlamak ve yürütmek için Performans ayarlama adımlarını izleyin. Kopyalama etkinliği performansını giderme makalesinden kopyalama etkinliği çalıştırmalarının performans sorunlarını nasıl gidereceğinizi öğrenin.

Kopyalama performansı iyileştirme özellikleri

Hizmet aşağıdaki performans iyileştirme özelliklerini sağlar:

Veri Tümleştirme Birimleri

Veri Entegrasyonu Birimi (DIU), Azure Data Factory ve Synapse işlem hatlarındaki tek bir birimin gücünü temsil eden bir ölçüdür. Güç, CPU, bellek ve ağ kaynağı ayırmanın bir birleşimidir. DIU yalnızca Azure tümleştirme çalışma zamanı için geçerlidir. DIU, şirket içinde barındırılan tümleştirme çalışma zamanı için geçerli değildir. Burada daha fazla bilgi edinebilirsiniz.

Şirket içinde barındırılan tümleştirme çalışma zamanı ölçeklenebilirliği

Artan bir eşzamanlı iş yükü barındırmak isteyebilirsiniz. Veya mevcut iş yükü düzeyinizde daha yüksek performans elde etmek isteyebilirsiniz. aşağıdaki yaklaşımlarla işleme ölçeğini geliştirebilirsiniz:

  • Bir düğümde çalıştırabilecek eşzamanlı iş sayısını artırarak şirket içinde barındırılan IR'nin ölçeğini artırabilirsiniz.
    Ölçeği artırma yalnızca düğümün işlemcisi ve belleği tam olarak kullanılmamışsa çalışır.
  • Daha fazla düğüm (makine) ekleyerek şirket içinde barındırılan IR'nin ölçeğini genişletebilirsiniz.

Daha fazla bilgi için bkz.

Paralel kopyalama

kopyalama etkinliğinin parallelCopies kullanmasını istediğiniz paralelliği belirtmek için özelliğini ayarlayabilirsiniz. Bu özelliği kopyalama etkinliği içindeki en fazla iş parçacığı sayısı olarak düşünün. İş parçacıkları paralel çalışır. İş parçacıkları kaynağınızdan okur veya havuz veri depolarınıza yazar. Daha fazla bilgi edinin.

Aşamalı kopya

Veri kopyalama işlemi, verileri doğrudan havuz veri deposuna gönderebilir. Alternatif olarak, Blob depolamayı geçici bir hazırlama deposu olarak kullanmayı seçebilirsiniz. Daha fazla bilgi edinin.

Diğer kopyalama etkinliği makalelerine bakın: