Kopyalama etkinliği performansı ve ölçeklenebilirlik kılavuzu

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

Tip

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız Fabric Data Factory ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

Bazen veri gölünden veya kurumsal veri ambarından (EDW) Azure büyük ölçekli bir veri geçişi gerçekleştirmek isteyebilirsiniz. Diğer zamanlarda büyük veri analizi için farklı kaynaklardan Azure büyük miktarlarda veri almak istersiniz. Her durumda, en iyi performans ve ölçeklenebilirlik elde etmek kritik önem taşır.

Azure Data Factory ve Azure Synapse Analytics işlem hatları, verileri almak için aşağıdaki avantajlara sahip bir mekanizma sağlar:

  • Büyük miktarda veriyi işler
  • Yüksek performanslıdır
  • Uygun maliyetlidir

Bu avantajlar, yüksek performanslı ölçeklenebilir veri alımı işlem hatları oluşturmak isteyen veri mühendisleri için mükemmel bir uyum sağlar.

Bu makaleyi okuduktan sonra aşağıdaki soruları yanıtlayabileceksiniz:

  • Veri geçişi ve veri alımı senaryoları için kopyalama etkinliğini kullanarak hangi performans ve ölçeklenebilirlik düzeyini elde ederim?
  • Kopyalama etkinliğinin performansını ayarlamak için hangi adımları atmalıyım?
  • Tek bir kopyalama işlemi için hangi performans optimizasyonlarını kullanabilirim?
  • Kopyalama performansını iyileştirirken dikkate alınması gereken başka hangi dış faktörler var?

Note

Kopyalama etkinliğini genel olarak bilmiyorsanız, bu makaleyi okumadan önce kopyalama etkinliğine genel bakış konusuna bakın.

Azure Data Factory ve Synapse işlem hatlarını kullanarak elde edilebilecek kopyalama performansı ve ölçeklenebilirlik

Azure Data Factory ve Synapse işlem hatları, farklı düzeylerde paralelliğe olanak tanıyan sunucusuz bir mimari sunar.

Bu mimari, ortamınız için veri taşıma aktarım hızını en üst düzeye çıkaran işlem hatları geliştirmenizi sağlar. Bu işlem hatları aşağıdaki kaynakları tam olarak kullanır:

  • Kaynak ve hedef veri depoları arasındaki ağ bant genişliği
  • Saniye başına kaynak veya hedef veri deposu giriş/çıkış işlemleri (IOPS) ve bant genişliği

Bu tam kullanım, aşağıdaki kaynaklarla sağlanan en düşük aktarım hızını ölçerek genel aktarım hızını tahmin ettiğiniz anlamına gelir:

  • Kaynak veri deposu
  • Hedef veri deposu
  • Kaynak ve hedef veri depoları arasındaki ağ bant genişliği

Aşağıdaki tabloda veri taşıma süresinin hesaplanması gösterilmektedir. Her hücredeki süre, belirli bir ağ ve veri deposu bant genişliğine ve belirli bir veri yükü boyutuna göre hesaplanır.

Note

Uçtan uca bir veri tümleştirme çözümünde ulaşılabilir performansı temsil etmek için, aşağıda sağlanan süreler, Kopyalama performansı iyileştirme özellikleri bölümünde açıklanan bir veya daha fazla performans iyileştirme tekniği — ForEach kullanarak birden çok eşzamanlı kopyalama etkinliğini bölümleme ve başlatma dahil — kullanılarak hazırlanmıştır. Belirli veri kümeniz ve sistem yapılandırmanız için kopyalama performansını iyileştirmek için Performans ayarlama adımları bölümünde düzenlenmiş adımları izlemenizi öneririz. Üretim dağıtım planlaması, kapasite planlaması ve faturalama projeksiyonu için performans ayarlama testlerinizde elde edilen sayıları kullanmanız gerekir.

 

Veri boyutu /
bandwidth
50 Mb/sn 100 Mb/sn 500 Mb/sn 1 Gb/sn 5 Gb/sn 10 Gbps 50 Gb/sn
1GB 2,7 dk 1,4 dk 0,3 dk 0,1 dk 0,03 dk 0,01 dk 0,0 dk
10 GB 27,3 dk 13,7 dk 2,7 dk 1,3 dk 0,3 dk 0,1 dk 0,03 dk
100 GB 4,6 saat 2,3 sa 0,5 saat 0,2 sa 0,05 sa 0,02 saat 0,0 sa.
1TB 46,6 saat 23,3 sa. 4,7 saat 2,3 sa 0,5 saat 0,2 sa 0,05 sa
10 TB 19,4 gün 9,7 gün 1,9 gün 0,9 gün 0,2 gün 0,1 gün 0,02 gün
100 TB 194,2 gün 97,1 gün 19,4 gün 9,7 gün 1,9 gün 1 gün 0,2 gün
1 PB 64,7 mo 32,4 mo 6,5 mo 3,2 mo 0,6 mo 0,3 mo 0,06 mo
10 PB 647,3 mo 323,6 mo 64,7 mo 31,6 mo 6,5 mo 3,2 mo 0,6 mo

Kopyalama farklı düzeylerde ölçeklenebilir:

Kopyalama nasıl ölçeklenir

  • Denetim akışı, birden çok kopyalama etkinliğini paralel olarak başlatabilir, örneğin For Each döngüsünü kullanabilir.

  • Tek bir kopyalama etkinliği ölçeklenebilir işlem kaynaklarından yararlanabilir.

    • Azure tümleştirme çalışma zamanını (IR) kullanırken, her kopyalama etkinliği için sunucusuz bir şekilde a kadar 256 veri tümleştirme birimi (DIU) belirtebilirsiniz.
    • Şirket içinde barındırılan IR kullanırken aşağıdaki yaklaşımlardan birini kullanabilirsiniz:
      • Makineyi elle büyütün.
      • Kapasiteyi birden fazla makineye (en çok 4 düğüm) genişletin; böylece tek bir kopyalama işlemi, dosya kümesini tüm düğümler arasında paylaştırır.
  • Tek bir kopyalama etkinliği, birden çok iş parçacığını paralel olarak kullanarak veri deposundan okuma ve yazma işlemi yapar.

Performans ayarlama adımları

Kopyalama etkinliğiyle hizmetinizin performansını ayarlamak için aşağıdaki adımları izleyin:

  1. Bir test veri kümesi alın ve bir temel oluşturun.

    Geliştirme sırasında kopyalama etkinliğini temsili bir veri örneğinde kullanarak işlem hattınızı test edin. Seçtiğiniz veri kümesi, aşağıdaki öznitelikler boyunca tipik veri desenlerinizi temsil etmelidir:

    • Klasör yapısı
    • Dosya düzeni
    • Veri şeması

    Ayrıca veri kümeniz kopyalama performansını değerlendirecek kadar büyük olmalıdır. Kopyalama işleminin tamamlanması için uygun bir boyut en az 10 dakika sürer. Kopyalama etkinliği izlemesi sonrasında yürütme ayrıntılarını ve performans özelliklerini toplayın.

  2. Tek bir kopyalama etkinliğinin performansını en üst düzeye çıkarma:

    Öncelikle tek bir kopyalama etkinliği kullanarak performansı en üst düzeye çıkarmanızı öneririz.

    • Kopyalama etkinliği bir Azure tümleştirme çalışma zamanında yürütülüyorsa:

      Veri Entegrasyonu Birimleri (DIU) ve paralel kopyalama ayarları için varsayılan değerlerle başlayın.

    • Kopyalama etkinliği şirket içinde barındırılan tümleştirme çalışma zamanında yürütülüyorsa:

      IR barındırmak için ayrılmış bir makine kullanmanızı öneririz. Makine, veri depoyu barındıran sunucudan ayrı olmalıdır. Paralel kopyalama ayarı için varsayılan değerler ile başlayın ve yerel olarak barındırılan IR için tek bir düğüm kullanın.

    Performans testi yapın. Elde edilen performansı not alın. DIU'lar ve paralel kopyalar gibi kullanılan gerçek değerleri ekleyin. Kopyalama etkinliği izlemesi sırasında kullanılan çalıştırma sonuçlarını ve performans ayarlarını toplama hakkında bilgi için ilgili bölüme bakın. Performans darboğazını belirlemek ve çözmek için kopyalama işlemi performans sorunlarına çözüm üretmeyi öğrenin.

    Sorun giderme ve ayarlama yönergelerini izleyerek daha fazla performans testi gerçekleştirmeyi yineleyin. Tek bir kopyalama etkinliği çalıştırması daha iyi bir aktarım hızı sağlayamıyorsa, birden fazla kopyayı eşzamanlı çalıştırarak toplam aktarım hızını en üst düzeye çıkarmayı düşünün. Bu seçenek bir sonraki numaralandırılmış madde işaretinde ele alınacaktır.

  3. Birden çok kopyayı eşzamanlı olarak çalıştırarak toplam aktarım hızını en üst düzeye çıkarma:

    Şimdiye kadar tek bir kopyalama etkinliğinin performansını en üst düzeye çıkarmış oldunuz. Ortamınızın aktarım hızı üst sınırlarına henüz ulaşmadıysanız, birden çok kopyalama etkinliğini paralel olarak çalıştırabilirsiniz. Denetim akışı yapılarını kullanarak paralel olarak çalıştırabilirsiniz. Bu tür yapılardan biri For Each döngüsüdür. Daha fazla bilgi için çözüm şablonları hakkında aşağıdaki makalelere bakın:

  4. Yapılandırmayı veri kümenizin tamamına genişletin.

    Yürütme sonuçlarından ve performansından memnun olduğunuzda, tanımı ve işlem hattını tüm veri kümenizi kapsayacak şekilde genişletebilirsiniz.

Kopyalama etkinliğinin performansıyla ilgili sorunları giderme

Senaryonuz için performans testini planlamak ve yürütmek için Performans ayarlama adımlarını izleyin. Her bir kopyalama etkinliği çalıştırmasının performans sorunlarını nasıl gidereceğinizi Kopyalama etkinliği performansını giderme makalesi üzerinden öğrenin.

Kopyalama performansı iyileştirme özellikleri

Hizmet aşağıdaki performans iyileştirme özelliklerini sağlar:

Veri Tümleştirme Birimleri

Veri Tümleştirme Birimi (DIU), Azure Data Factory ve Synapse işlem hatlarındaki tek bir birimin gücünü temsil eden bir ölçüdür. Güç, CPU, bellek ve ağ kaynağı ayırmanın bir birleşimidir. DIU yalnızca Azure tümleştirme çalışma zamanı için geçerlidir. DIU, kendi kendine barındırılan tümleştirme çalışma zamanı için geçerli değildir. Burada daha fazla bilgi edinebilirsiniz.

Yerel barındırılan tümleştirme çalışma zamanı ölçeklenebilirliği

Artan bir eşzamanlı iş yükü barındırmak isteyebilirsiniz. Veya mevcut iş yükü düzeyinizde daha yüksek performans elde etmek isteyebilirsiniz. aşağıdaki yaklaşımlarla işleme ölçeğini geliştirebilirsiniz:

  • Bir düğümde çalıştırabileceğiniz eşzamanlı iş sayısını artırarak kendinden barındırmalı IR'nin ölçeğini artırabilirsiniz.
    Ölçeği artırma yalnızca düğümün işlemcisi ve belleği tam olarak kullanılmamışsa çalışır.
  • Daha fazla düğüm (makine) ekleyerek şirket içinde barındırılan IR'nin ölçeğini genişletebilirsiniz.

Daha fazla bilgi için bkz.

Paralel kopyalama

kopyalama etkinliğinin parallelCopies kullanmasını istediğiniz paralelliği belirtmek için özelliğini ayarlayabilirsiniz. Bu özelliği kopyalama aktivitesi içindeki maksimum iş parçacığı sayısı olarak düşünün. İş parçacıkları paralel çalışır. İş parçacıkları kaynağınızdan okur veya hedef veri depolarınıza yazar. Daha fazla bilgi edinin.

Sahnelenmiş kopya

Veri kopyalama işlemi, verileri doğrudan havuz veri deposuna gönderebilir. Alternatif olarak, Blob depolamayı geçici bir hazırlama deposu olarak kullanmayı seçebilirsiniz. Daha fazla bilgi edinin.

Diğer kopyalama etkinliği makalelerine bakın: