Azure Data Factory ve Azure Synapse Analytics Veri Akışı etkinliği

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

İpucu

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız Fabric Data Factory ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

Eşleme veri akışları aracılığıyla verileri dönüştürmek ve taşımak için Data Flow etkinliğini kullanın. Veri akışlarına yeniyseniz Veri Akışı Genel Bakış bölümüne bakın.

Kullanıcı arabirimiyle Data Flow etkinliği oluşturma

İşlem hattında Data Flow etkinliği kullanmak için aşağıdaki adımları tamamlayın:

  1. İşlem hattı Etkinlikleri bölmesinde Data Flow arayın ve Data Flow etkinliğini işlem hattı tuvaline sürükleyin.

  2. Tuvalde henüz seçili değilse yeni Data Flow etkinliğini ve ayrıntılarını düzenlemek için Settings sekmesini seçin.

    Bir Veri Akışı aktivitesi için kullanıcı arabirimini gösterir.

  3. Denetim noktası anahtarı, değiştirilen veri yakalama için veri akışı kullanıldığında denetim noktasını ayarlamak için kullanılır. Üzerine yazabilirsiniz. Veri akışı etkinlikleri, "işlem hattı adı + etkinlik adı" yerine denetim noktası anahtarı olarak guid değeri kullanır, böylece yeniden adlandırma eylemleri olsa bile müşterinin değişiklik verilerini yakalama durumunu her zaman izlemeye devam edebilir. Tüm mevcut veri akışı etkinliği geriye dönük uyumluluk için eski desen anahtarını kullanır. Yeni bir veri akışı etkinliği yayımladıktan sonra, değişiklik verilerini yakalama etkinleştirilmiş veri akışı kaynağıyla ilgili denetim noktası anahtarı seçeneği aşağıda gösterilmiştir.

    Bir Veri Akışı etkinliği için kontrol noktası anahtarıyla kullanıcı arabirimini gösterir.

  4. Yeni düğmesini kullanarak mevcut bir veri akışını seçin veya yeni bir akış oluşturun. Yapılandırmanızı tamamlamak için gereken diğer seçenekleri belirleyin.

Sözdizimi

{
    "name": "MyDataFlowActivity",
    "type": "ExecuteDataFlow",
    "typeProperties": {
      "dataflow": {
         "referenceName": "MyDataFlow",
         "type": "DataFlowReference"
      },
      "compute": {
         "coreCount": 8,
         "computeType": "General"
      },
      "traceLevel": "Fine",
      "runConcurrently": true,
      "continueOnError": true,      
      "staging": {
          "linkedService": {
              "referenceName": "MyStagingLinkedService",
              "type": "LinkedServiceReference"
          },
          "folderPath": "my-container/my-folder"
      },
      "integrationRuntime": {
          "referenceName": "MyDataFlowIntegrationRuntime",
          "type": "IntegrationRuntimeReference"
      }
}

Tür özellikleri

Özellik Açıklama İzin verilen değerler Zorunlu
veri akışı Yürütülen Data Flow bağlantısı DataFlowReference Yes
entegrasyon çalıştırma zamanı Veri akışının üzerinde çalıştığı işlem ortamı. Belirtilmezse, kendi kendine çözümleyen Azure tümleştirme çalışma zamanı kullanılır. IntegrationRuntimeReference Hayır
compute.coreCount Spark kümesinde kullanılan çekirdek sayısı. Yalnızca otomatik çözümle Azure Tümleştirme çalışma zamanı kullanıldığında belirtilebilir 8, 16, 32, 48, 80, 144, 272 Hayır
compute.computeType Spark kümesinde kullanılan işlem türü. Yalnızca otomatik çözümle Azure Tümleştirme çalışma zamanı kullanıldığında belirtilebilir Genel Hayır
staging.linkedService Azure Synapse Analytics kaynağı veya havuzu kullanıyorsanız PolyBase hazırlama için kullanılan depolama hesabını belirtin.

Azure Storage sanal ağ hizmet uç noktasıyla yapılandırıldıysa, depolama hesabında "güvenilen Microsoft hizmetine izin ver" özelliği etkinleştirilmiş yönetilen kimlik doğrulamasını kullanmanız gerekir. Azure Storage ile Sanal Ağ Hizmet Uç Noktalarını Kullanmanın Etkisi bölümüne bakın. Ayrıca sırasıyla Azure Blob ve Azure Data Lake Storage Gen2 için gerekli yapılandırmaları öğrenin.
LinkedServiceReference Ancak veri akışı bir Azure Synapse Analytics'e okuma veya yazma yaparsa
staging.folderPath Azure Synapse Analytics kaynağı veya havuzu kullanıyorsanız, PolyBase hazırlama için kullanılan blob depolama hesabındaki klasör yolu String Yalnızca Azure Synapse Analytics'e veri akışı okur veya yazarsa
traceLevel Veri akışı etkinliğinin yürütmesinin günlük seviyesini ayarlayın İnce, Kalın, Yok Hayır

Veri Akışı yürütme

Çalışma zamanında veri akışı hesaplamayı dinamik olarak boyutlandırma

Çekirdek Sayısı ve İşlem Türü özellikleri, çalışma zamanında gelen kaynak verilerinizin boyutuna göre dinamik olarak ayarlanabilir. Kaynak veri kümesi verilerinin boyutunu bulmak için Arama veya Meta Verileri Al gibi işlem hattı etkinliklerini kullanın. Ardından, Data Flow etkinlik özelliklerinde Dinamik İçerik Ekle'yi kullanın. Küçük, orta veya büyük işlem boyutları seçebilirsiniz. İsteğe bağlı olarak, "Özel" öğesini seçin ve işlem türlerini ve çekirdek sayısını el ile yapılandırın.

Dinamik Veri Akışı

İşte bu tekniği açıklayan kısa bir video eğitimi

Veri Akışı entegrasyon çalışma zamanı

Data Flow etkinlik yürütmeniz için hangi Integration Runtime kullanılacağını seçin. Varsayılan olarak, hizmet dört çalışan çekirdeği ile Azure Tümleştirme çalışma zamanı için otomatik çözümlemeyi kullanır. Bu IR genel amaçlı bir işlem türüne sahiptir ve hizmet örneğiniz ile aynı bölgede çalışır. İşletimselleştirilmiş işlem hatları için veri akışı etkinliği yürütmeniz için belirli bölgeleri, işlem türünü, çekirdek sayıları ve TTL'yi tanımlayan kendi Azure Tümleştirme Çalışma Zamanlarınızı oluşturmanız kesinlikle önerilir.

8+8 (toplam 16 sanal çekirdek) yapılandırması ve 10 dakikalık Yaşam süresi (TTL) ile Genel Amaçlı en düşük işlem türü, çoğu üretim iş yükü için en düşük öneridir. Küçük bir TTL ayarlayarak Azure IR, soğuk küme için birkaç dakikalık başlangıç süresine neden olmayacak sıcak bir kümeyi koruyabilir. Daha fazla bilgi için bkz. Azure integration runtime.

Azure Integration Runtime

Önemli

Veri Akışı etkinliğindeki Integration Runtime seçimi yalnızca işlem hattınızın tetiklenmiş yürütmeleri için geçerlidir. Veri akışlarıyla işlem hattınızda hata ayıklama işlemi, hata ayıklama oturumunda belirtilen kümede çalıştırılır.

PolyBase

Bir Azure Synapse Analytics veri havuzunu havuz veya kaynak olarak kullanıyorsanız, PolyBase toplu yükünüz için bir geçici hazırlık konumu seçmeniz gerekir. PolyBase, verileri satır satır yüklemek yerine toplu olarak yüklemeye olanak tanır. PolyBase, Azure Synapse Analytics'e yükleme süresini büyük ölçüde azaltır.

Denetim noktası anahtarı

Veri akışı kaynakları için değişiklik yakalama seçeneğini kullanırken, ADF denetim noktasını sizin için otomatik olarak korur ve yönetir. Varsayılan denetim noktası anahtarı, veri akışı adının ve işlem hattı adının karmasıdır. Kaynak tablolarınız veya klasörleriniz için dinamik bir desen kullanıyorsanız, bu karmayı geçersiz kılmak ve kendi denetim noktası anahtar değerinizi burada ayarlamak isteyebilirsiniz.

Log seviyesi

Veri akışı etkinliklerinizin her bir işlem hattı yürütmesinin tüm ayrıntılı telemetri günlüklerini tamamen kaydetmesini gerektirmiyorsanız, günlüğe kaydetme seviyenizi "Temel" veya "Yok" olarak ayarlayabilirsiniz. Veri akışlarınızı "Ayrıntılı" modda çalıştırırken (varsayılan), veri dönüştürme sırasında hizmetin her bölüm düzeyinde etkinliği tam olarak günlüğe kaydetmesini istiyorsunuz. Bu pahalı bir işlem olabileceğinden, yalnızca sorun giderme sırasında ayrıntılı bir şekilde etkinleştirilmesi genel veri akışınızı ve işlem hattı performansınızı iyileştirebilir. "Temel" modu yalnızca dönüştürme sürelerini günlüğe kaydederken "Yok" yalnızca sürelerin özetini sağlar.

Log seviyesi

Havuz özellikleri

Veri akışlarındaki gruplandırma özelliği hem havuzlarınızın yürütme sırasını ayarlamanıza hem de havuzları aynı grup numarasını kullanarak birlikte gruplandırmanıza olanak tanır. Grupları yönetmeye yardımcı olmak için hizmetin, aynı grupta bulunan sink'leri paralel olarak çalıştırmasını isteyebilirsiniz. Lavabolardan biri bir hata ile karşılaştığında bile lavabo grubunu devam edecek şekilde ayarlayabilirsiniz.

Veri akışı havuzlarının varsayılan davranışı, her havuzu sırayla, seri bir şekilde yürütmek ve havuz içinde bir hatayla karşılaşıldığında veri akışının başarısız olmasıdır. Ayrıca, veri akışı özelliklerine gidip havuzlar için farklı öncelikler ayarlamadığınız sürece tüm havuzlar varsayılan olarak aynı gruba ayarlanır.

Havuz özellikleri

Yalnızca ilk satır

Bu seçenek yalnızca "Etkinlik çıkışı" için önbellek çıkışlarının etkinleştirildiği veri akışlarında kullanılabilir. doğrudan işlem hattınıza eklenen veri akışı çıkışı 2 MB ile sınırlıdır. "Yalnızca ilk satır" ayarı, veri akışı etkinlik çıkışını doğrudan işlem hattınıza eklerken veri akışından gelen veri çıkışını sınırlamanıza yardımcı olur.

Veri Akışı parametreleştirme

Parametreli veri kümeleri

Veri akışınız parametreli veri kümeleri kullanıyorsa, Ayarlar sekmesinde parametre değerlerini ayarlayın.

Veri Akışı Parametrelerini Çalıştır

Parametreli veri akışları

Veri akışınız parametreliyse, Parametreler sekmesinde veri akışı parametrelerinin dinamik değerlerini ayarlayın. Dinamik veya değişmez değer parametre değerleri atamak için işlem hattı ifade dilini veya veri akışı ifade dilini kullanabilirsiniz. Daha fazla bilgi için bkz. Data Flow Parameters.

Parametreli işlem özellikleri.

Autoresolve Azure Integration runtime kullanıyorsanız ve compute.coreCount ve compute.computeType değerlerini belirtirseniz çekirdek sayısını veya işlem türünü parametreleştirebilirsiniz.

Veri Akışı Parametresi Örneğini Çalıştır

Data Flow etkinliğinde işlem hattı hata ayıklaması

Data Flow etkinliğiyle bir hata ayıklama işlem hattı çalıştırması yürütmek için üst çubukta Data Flow Debug kaydırıcısı aracılığıyla data flow hata ayıklama modunu açmalısınız. Hata ayıklama modu, etkin bir Spark kümesinde veri akışını çalıştırmanızı sağlar. Daha fazla bilgi için Hata Ayıklama Modu'na bakın.

Hata Ayıklama düğmesinin nerede olduğunu gösteren ekran görüntüsü

Hata ayıklama işlem hattı, Data Flow etkinlik ayarlarında belirtilen tümleştirme çalışma zamanı ortamına değil etkin hata ayıklama kümesine karşı çalışır. Hata ayıklama modunu başlatırken hata ayıklama işlem ortamını seçebilirsiniz.

Data Flow etkinliğini izleme

Data Flow etkinliği bölümleme, aşama süresi ve veri kökeni bilgilerini görüntüleyebileceğiniz özel bir izleme deneyimine sahiptir. Aksiyonlar'ın altındaki gözlük simgesiyle izleme bölmesini açın. Daha fazla bilgi için bkz. İzleme Veri Akışı.

sonraki bir etkinlikte Data Flow etkinlik sonuçlarını kullanma

Veri akışı etkinliği, her havuza yazılan satır sayısı ve her kaynaktan okunan satır sayısıyla ilgili ölçümleri verir. Bu sonuçlar, output bölümündeki etkinlik çalıştırma sonucunda döndürülür. Döndürülen ölçümler aşağıdaki json biçimindedir.

{
    "runStatus": {
        "metrics": {
            "<your sink name1>": {
                "rowsWritten": <number of rows written>,
                "sinkProcessingTime": <sink processing time in ms>,
                "sources": {
                    "<your source name1>": {
                        "rowsRead": <number of rows read>
                    },
                    "<your source name2>": {
                        "rowsRead": <number of rows read>
                    },
                    ...
                }
            },
            "<your sink name2>": {
                ...
            },
            ...
        }
    }
}

Örneğin, 'dataflowActivity' adlı bir etkinlikte 'sink1' adlı havuza yazılan satır sayısına ulaşmak için kullanın @activity('dataflowActivity').output.runStatus.metrics.sink1.rowsWritten.

Bu havuz içinde kullanılan 'source1' adlı kaynaktan okunan satır sayısını almak için kullanın @activity('dataflowActivity').output.runStatus.metrics.sink1.sources.source1.rowsRead.

Not

Havuza sıfır satır yazıldıysa ölçümlerde gösterilmez. Varlık, işlevi kullanılarak contains doğrulanabilir. Örneğin, contains(activity('dataflowActivity').output.runStatus.metrics, 'sink1') herhangi bir satırın sink1'e yazılıp yazılmadığını denetler.

Desteklenen denetim akışı etkinliklerine bakın: