performans iyileştirme özelliklerini Kopyalama etkinliği

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu makalede, Azure Data Factory ve Synapse işlem hatlarında yararlanabileceğiniz kopyalama etkinliği performans iyileştirme özellikleri özetlenmiştir.

Kullanıcı arabirimiyle performans özelliklerini yapılandırma

İşlem hattı düzenleyicisi tuvalinde bir Kopyalama etkinliği seçip tuvalin altındaki etkinlik yapılandırma alanında Ayarlar sekmesini seçtiğinizde, aşağıda ayrıntılı olarak açıklanan tüm performans özelliklerini yapılandırma seçeneklerini görürsünüz.

Shows the Copy activity performance features on the Settings tab for the activity in the pipeline editor.

Veri Tümleştirme Birimleri

Veri Entegrasyonu Birimi, hizmet içindeki tek bir birimin gücünü (CPU, bellek ve ağ kaynağı ayırma birleşimi) temsil eden bir ölçüdür. Veri Entegrasyonu Birimi yalnızca Azure tümleştirme çalışma zamanı, ancak şirket içinde barındırılan tümleştirme çalışma zamanı değil.

Kopyalama etkinliği çalıştırmasını güçlendirmek için izin verilen DIU'lar 2 ile 256 arasındadır. Belirtilmezse veya kullanıcı arabiriminde "Otomatik" seçeneğini belirlerseniz, hizmet kaynak havuz çiftinize ve veri deseninize göre en uygun DIU ayarını dinamik olarak uygular. Aşağıdaki tabloda farklı kopyalama senaryolarında desteklenen DIU aralıkları ve varsayılan davranış listelenmektedir:

Kopyalama senaryosu Desteklenen DIU aralığı Hizmet tarafından belirlenen varsayılan DIU'lar
Dosya depoları arasında - Tek dosyadan veya dosyadan kopyalama: 2-4
- Birden çok dosyadan ve dosyaya kopyalama: Dosyaların sayısına ve boyutuna bağlı olarak 2-256

Örneğin, 4 büyük dosya içeren bir klasörden veri kopyalar ve hiyerarşiyi korumayı seçerseniz, en yüksek etkin DIU 16'dır; dosyayı birleştirmeyi seçtiğinizde en yüksek etkin DIU 4'dür.
Dosyaların sayısına ve boyutuna bağlı olarak 4 ile 32 arasında
Dosya deposundan dosya olmayan depoya - Tek dosyadan kopyala: 2-4
- Birden çok dosyadan kopyalama: Dosyaların sayısına ve boyutuna bağlı olarak 2-256

Örneğin, 4 büyük dosya içeren bir klasörden veri kopyalarsanız en yüksek etkin DIU 16'dır.
- havuz katmanına (DTU/RU) ve kaynak dosya desenine bağlı olarak Azure SQL Veritabanı veya Azure Cosmos DB'ye kopyalama: 4 ile 16 arasında
- PolyBase veya COPY deyimini kullanarak Azure Synapse Analytics'e kopyalama: 2
- Diğer senaryo: 4
Dosya olmayan depodan dosya deposuna - Bölüm seçeneği etkin veri depolarından (PostgreSQL için Azure Veritabanı, Azure SQL Veritabanı, Azure SQL Yönetilen Örneği, Azure Synapse Analytics, Oracle, Netezza, SQL Server ve Teradata): Bir klasöre yazarken 2-256 ve tek bir dosyaya yazarken 2-4 arası. Kaynak veri bölümü başına en fazla 4 DIU kullanabileceğini unutmayın.
- Diğer senaryolar: 2-4
- REST veya HTTP'den kopyalama: 1
- UNLOAD kullanarak Amazon Redshift'ten kopyalama: 2
- Diğer senaryo: 4
Dosya olmayan depolar arasında - Bölüm seçeneği etkin veri depolarından (PostgreSQL için Azure Veritabanı, Azure SQL Veritabanı, Azure SQL Yönetilen Örneği, Azure Synapse Analytics, Oracle, Netezza, SQL Server ve Teradata): Bir klasöre yazarken 2-256 ve tek bir dosyaya yazarken 2-4 arası. Kaynak veri bölümü başına en fazla 4 DIU kullanabileceğini unutmayın.
- Diğer senaryolar: 2-4
- REST veya HTTP'den kopyalama: 1
- Diğer senaryo: 4

Kopyalama etkinliği izleme görünümünde veya etkinlik çıkışında her kopyalama çalıştırması için kullanılan DIU'ları görebilirsiniz. Daha fazla bilgi için bkz. Kopyalama etkinliği izleme. Bu varsayılanı geçersiz kılmak için özelliği için dataIntegrationUnits aşağıdaki gibi bir değer belirtin. Kopyalama işleminin çalışma zamanında kullandığı gerçek DIU sayısı, veri deseninize bağlı olarak yapılandırılan değere eşit veya daha azdır.

Kullanılan DIU'lar * kopyalama süresi * birim fiyatı/DIU-saat için ücretlendirilirsiniz. Geçerli fiyatları burada görebilirsiniz. Abonelik türü başına yerel para birimi ve ayrı indirim uygulanabilir.

Örnek:

"activities":[
    {
        "name": "Sample copy activity",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "BlobSource",
            },
            "sink": {
                "type": "AzureDataLakeStoreSink"
            },
            "dataIntegrationUnits": 128
        }
    }
]

Şirket içinde barındırılan tümleştirme çalışma zamanı ölçeklenebilirliği

Daha yüksek aktarım hızı elde etmek istiyorsanız Şirket içinde barındırılan IR'nin ölçeğini artırabilir veya ölçeği genişletebilirsiniz:

  • Şirket içinde barındırılan IR düğümündeki CPU ve kullanılabilir bellek tam olarak kullanılmıyorsa ancak eşzamanlı işlerin yürütülmesi sınıra ulaşıyorsa, bir düğümde çalışabilecek eşzamanlı iş sayısını artırarak ölçeği artırmanız gerekir. Yönergeler için buraya bakın.
  • Öte yandan, şirket içinde barındırılan IR düğümünde CPU yüksekse veya kullanılabilir bellek düşükse, yükün ölçeğini birden çok düğümde genişletmeye yardımcı olmak için yeni bir düğüm ekleyebilirsiniz. Yönergeler için buraya bakın.

Aşağıdaki senaryolarda, tek kopyalama etkinliği yürütmesinin şirket içinde barındırılan birden çok IR düğümünden yararlanabileceğini unutmayın:

  • Dosyaların sayısına ve boyutuna bağlı olarak dosya tabanlı depolardan veri kopyalayın.
  • Bölüm seçeneği etkin veri deposundan (Azure SQL Veritabanı, Azure SQL Yönetilen Örneği, Azure Synapse Analytics, Oracle, Netezza, SAP HANA, SAP Open Hub, SAP Tablosu, SQL Server ve Teradata dahil) veri kopyalama veri bölümleri.

Paralel kopyalama

Kopyalama etkinliğinin kullanmasını istediğiniz paralelliği belirtmek için kopyalama etkinliğinde paralel kopyalamayı (parallelCopiesKopyalama etkinliği JSON tanımında özellik) veya Degree of parallelism Kopyalama etkinliği özelliklerin kullanıcı arabirimindeki Ayarlar sekmesindeki ayarı ayarlayabilirsiniz. Bu özelliği, kaynağınızdan okuyan veya havuz veri depolarınıza paralel olarak yazan kopyalama etkinliğindeki en fazla iş parçacığı sayısı olarak düşünebilirsiniz.

Paralel kopya, Veri Entegrasyonu Birimlerine veya Şirket içinde barındırılan IR düğümlerine dikgendir. Tüm DIU'lar veya Şirket içinde barındırılan IR düğümleri arasında sayılır.

Her kopyalama etkinliği çalıştırması için, varsayılan olarak hizmet kaynak havuz çiftinize ve veri deseninize göre en uygun paralel kopyalama ayarını dinamik olarak uygular.

Bahşiş

Paralel kopyalamanın varsayılan davranışı genellikle kaynak havuz çiftinize, veri deseninize ve DIU sayısına veya Şirket içinde barındırılan IR'nin CPU/bellek/düğüm sayısına göre hizmet tarafından otomatik olarak belirlenen en iyi aktarım hızını sağlar. Paralel kopyalamanın ne zaman ayarlanması gerektiğinde kopyalama etkinliği performansı sorunlarını giderme bölümüne bakın.

Aşağıdaki tabloda paralel kopyalama davranışı listelenir:

Kopyalama senaryosu Paralel kopyalama davranışı
Dosya depoları arasında parallelCopies , paralelliği dosya düzeyinde belirler. Her dosyadaki öbekleme, otomatik ve saydam olarak altında gerçekleşir. Verileri paralel olarak yüklemek üzere belirli bir veri deposu türü için en uygun öbek boyutunu kullanacak şekilde tasarlanmıştır.

Kopyalama etkinliğinin çalışma zamanında kullandığı gerçek paralel kopya sayısı, sahip olduğunuz dosya sayısından fazla değildir. Kopyalama davranışı mergeFile dosya havuzuna ise, kopyalama etkinliği dosya düzeyinde paralellikten yararlanamaz.
Dosya deposundan dosya olmayan depoya - Verileri Azure SQL Veritabanı veya Azure Cosmos DB'ye kopyalarken varsayılan paralel kopyalama, havuz katmanına (DTU/RU sayısı) da bağlıdır.
- Verileri Azure Tablosuna kopyalarken varsayılan paralel kopya 4'dür.
Dosya olmayan depodan dosya deposuna - Bölüm seçeneği etkin veri deposundan veri kopyalarken (Azure SQL Veritabanı, Azure SQL Yönetilen Örneği, Azure Synapse Analytics, Oracle, Oracle için Amazon RDS, Netezza, SAP HANA, SAP Open Hub, SAP Table, SQL Server, SQL Server ve Teradata için Amazon RDS), varsayılan paralel kopya 4'dür. Kopyalama etkinliğinin çalışma zamanında kullandığı gerçek paralel kopya sayısı, sahip olduğunuz veri bölümü sayısından fazla değildir. Şirket İçinde Barındırılan Tümleştirme Çalışma Zamanı'nı kullanırken ve Azure Blob/ADLS 2. Nesil'e kopyalarken, etkin olan en yüksek paralel kopyanın IR düğümü başına 4 veya 5 olduğuna dikkat edin.
- Diğer senaryolarda paralel kopyalama geçerli olmaz. Paralellik belirtilse bile uygulanmaz.
Dosya olmayan depolar arasında - Verileri Azure SQL Veritabanı veya Azure Cosmos DB'ye kopyalarken varsayılan paralel kopyalama, havuz katmanına (DTU/RU sayısı) da bağlıdır.
- Bölüm seçeneği etkin veri deposundan veri kopyalarken (Azure SQL Veritabanı, Azure SQL Yönetilen Örneği, Azure Synapse Analytics, Oracle, Oracle için Amazon RDS, Netezza, SAP HANA, SAP Open Hub, SAP Table, SQL Server, SQL Server ve Teradata için Amazon RDS), varsayılan paralel kopya 4'dür.
- Verileri Azure Tablosuna kopyalarken varsayılan paralel kopya 4'dür.

Veri depolarınızı barındıran makinelerdeki yükü denetlemek veya kopyalama performansını ayarlamak için varsayılan değeri geçersiz kılabilir ve özelliği için parallelCopies bir değer belirtebilirsiniz. Değer, 1'den büyük veya buna eşit bir tamsayı olmalıdır. Çalışma zamanında, en iyi performans için kopyalama etkinliği ayarladığınız değerden küçük veya buna eşit bir değer kullanır.

özelliği için bir değer belirttiğinizde parallelCopies , kaynak ve havuz veri depolarınızdaki yük artışını dikkate alın. Kopyalama etkinliği tarafından güçlendiriliyorsa şirket içinde barındırılan tümleştirme çalışma zamanına yönelik yük artışını da göz önünde bulundurun. Bu yük artışı, özellikle aynı veri deposunda çalışan aynı etkinliklerin birden çok etkinliği veya eşzamanlı çalıştırması olduğunda gerçekleşir. Veri deposunun veya şirket içinde barındırılan tümleştirme çalışma zamanının yükten bunaldığını fark ederseniz, yükü hafifletmek için değeri azaltın parallelCopies .

Örnek:

"activities":[
    {
        "name": "Sample copy activity",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "BlobSource",
            },
            "sink": {
                "type": "AzureDataLakeStoreSink"
            },
            "parallelCopies": 32
        }
    }
]

Aşamalı kopya

Bir kaynak veri deposundan havuz veri deposuna veri kopyaladığınızda, Azure Blob depolamayı kullanmayı veya geçici hazırlama deposu olarak Azure Data Lake Storage 2. Nesil seçebilirsiniz. Hazırlama özellikle aşağıdaki durumlarda yararlıdır:

  • Çeşitli veri depolarından PolyBase aracılığıyla Azure Synapse Analytics'e veri almak, Snowflake'den/Snowflake'e veri kopyalamak veya Amazon Redshift/HDFS'den yüksek performansla veri almak istiyorsunuz. Daha fazla ayrıntı için bkz:
  • Şirket BT ilkeleri nedeniyle güvenlik duvarınızda 80 numaralı bağlantı noktası ve 443 numaralı bağlantı noktası dışındaki bağlantı noktalarını açmak istemezsiniz. Örneğin, bir şirket içi veri deposundan bir Azure SQL Veritabanı veya Azure Synapse Analytics'e veri kopyaladığınızda, hem Windows güvenlik duvarı hem de şirket güvenlik duvarınız için 1433 numaralı bağlantı noktasında giden TCP iletişimini etkinleştirmeniz gerekir. Bu senaryoda, aşamalı kopyalama, verileri ilk olarak 443 numaralı bağlantı noktasında HTTP veya HTTPS üzerinden hazırlama depolamasına kopyalamak ve ardından hazırlamadaki verileri SQL Veritabanı veya Azure Synapse Analytics'e yüklemek için şirket içinde barındırılan tümleştirme çalışma zamanından yararlanabilir. Bu akışta 1433 numaralı bağlantı noktasını etkinleştirmeniz gerekmez.
  • Bazen yavaş bir ağ bağlantısı üzerinden karma veri hareketinin (şirket içi veri deposundan bulut veri deposuna kopyalanması) gerçekleştirilmesi biraz zaman alır. Performansı artırmak için, verileri buluttaki hazırlama veri deposuna taşımanın daha az zaman alması için şirket içindeki verileri sıkıştırmak için aşamalı kopyalamayı kullanabilirsiniz. Ardından, hedef veri deposuna yüklemeden önce hazırlama deposundaki verilerin sıkıştırmasını kaldırabilirsiniz.

Aşamalı kopyalama nasıl çalışır?

Hazırlama özelliğini etkinleştirdiğinizde, önce veriler kaynak veri deposundan hazırlama depolama alanına kopyalanır (kendi Azure Blobunuzu veya Azure Data Lake Storage 2. Nesil getirin). Ardından, veriler hazırlamadan havuz veri deposuna kopyalanır. Kopyalama etkinliği iki aşamalı akışı sizin için otomatik olarak yönetir ve ayrıca veri taşıma tamamlandıktan sonra hazırlama depolama alanından geçici verileri temizler.

Staged copy

Kopyalama etkinliği çalıştırıldıktan sonra geçici verilerin temizlenebilmesi için hazırlama depolama alanınızda Azure Data Factory'nize silme izni vermeniz gerekir.

Bir hazırlama deposu kullanarak veri taşımayı etkinleştirdiğinizde, verileri kaynak veri deposundan hazırlama deposuna taşımadan önce verilerin sıkıştırılmasını ve ardından bir geçici veya hazırlama veri deposundan havuz veri deposuna veri taşımadan önce sıkıştırılmasını isteyip istemediğinizi belirtebilirsiniz.

Şu anda, farklı şirket içinde barındırılan IR'ler aracılığıyla bağlanan iki veri deposu arasında, aşamalı kopyalama ile veya olmadan veri kopyalayamazsınız. Böyle bir senaryo için, kaynaktan hazırlamaya ve hazırlamadan havuza kopyalamak için açıkça zincirlenmiş iki kopyalama etkinliği yapılandırabilirsiniz.

Yapılandırma

Kopyalama etkinliğindeki enableStaging ayarını, verilerin bir hedef veri deposuna yüklenmeden önce depolamada hazırlanıp hazırlanmayacağını belirtmek için yapılandırın. enableStaging değerini olarak TRUEayarladığınızda, aşağıdaki tabloda listelenen ek özellikleri belirtin.

Özellik Description Default value Zorunlu
enableStaging Geçici bir hazırlama deposu aracılığıyla veri kopyalamak isteyip istemediğinizi belirtin. False No
linkedServiceName Ara hazırlama deposu olarak kullandığınız Depolama örneğine başvuran Azure Blob depolama veya Azure Data Lake Storage 2. Nesil bağlı hizmetin adını belirtin. Yok Evet, enableStaging TRUE olarak ayarlandığında
yol Hazırlanan verileri içermesini istediğiniz yolu belirtin. Yol sağlamazsanız hizmet, geçici verileri depolamak için bir kapsayıcı oluşturur. Yok No
enableCompression Verilerin hedefe kopyalanmadan önce sıkıştırılıp sıkıştırılmayacağını belirtir. Bu ayar, aktarılan veri hacmini azaltır. False No

Dekont

Aşamalı kopyayı sıkıştırma etkin olarak kullanırsanız, hazırlama blobu bağlı hizmeti için hizmet sorumlusu veya MSI kimlik doğrulaması desteklenmez.

Yukarıdaki tabloda açıklanan özelliklere sahip bir kopyalama etkinliğinin örnek tanımı aşağıda verilmiştir:

"activities":[
    {
        "name": "CopyActivityWithStaging",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "OracleSource",
            },
            "sink": {
                "type": "SqlDWSink"
            },
            "enableStaging": true,
            "stagingSettings": {
                "linkedServiceName": {
                    "referenceName": "MyStagingStorage",
                    "type": "LinkedServiceReference"
                },
                "path": "stagingcontainer/path"
            }
        }
    }
]

Aşamalı kopyalama faturalaması etkisi

İki adıma göre ücretlendirilirsiniz: kopyalama süresi ve kopyalama türü.

  • Hazırlamayı bir bulut veri deposundan başka bir bulut veri deposuna kopyalayan bir bulut kopyası sırasında kullandığınızda, her iki aşama da Azure tümleştirme çalışma zamanı tarafından güçlendirildiğinde, [1. adım ve 2. adım için kopyalama süresi toplamı] x [bulut kopyalama birim fiyatı] ücretlendirilirsiniz.
  • Şirket içi veri deposundan bulut veri deposuna veri kopyalayan ve şirket içinde barındırılan tümleştirme çalışma zamanı tarafından güçlendirilen bir aşama olan karma kopyalama sırasında hazırlamayı kullandığınızda, [karma kopyalama süresi] x [hibrit kopya birim fiyatı] + [bulut kopyalama süresi] x [bulut kopyalama birimi fiyatı] için ücretlendirilirsiniz.

Diğer kopyalama etkinliği makalelerine bakın: