Azure Data Factory veya Azure Synapse Analytics kullanarak verileri Azure Data Lake Storage 2. Nesil kopyalama ve dönüştürme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Azure Data Lake Storage 2. Nesil (ADLS 2. Nesil), yerleşik olarak büyük veri analizine ayrılmış bir özellik kümesidirAzure Blob depolama. Bu hizmet sayesinde hem dosya sistemi hem de nesne depolama alanı yaklaşımlarını kullanarak verilerinize arabirim oluşturabilirsiniz.

Bu makalede, kopyalama etkinliğini kullanarak veri kopyalama ve Azure Data Lake Storage 2. Nesil ve Veri Akışı kullanarak Azure Data Lake Storage 2. Nesil'daki verileri dönüştürme adımları açıklanmıştır. Daha fazla bilgi edinmek için Azure Data Factory veya Azure Synapse Analytics ile ilgili giriş makalesini okuyun.

Bahşiş

Veri gölü veya veri ambarı geçiş senaryosu için Veri gölünüzden veya veri ambarınızdan Azure'a veri geçirme bölümünden daha fazla bilgi edinin.

Desteklenen özellikler

Bu Azure Data Lake Storage 2. Nesil bağlayıcısı aşağıdaki özellikler için desteklenir:

Desteklenen özellikler IR Yönetilen özel uç nokta
Kopyalama etkinliği (kaynak/havuz) ① ②
Eşleme veri akışı (kaynak/havuz)
Arama etkinliği ① ②
GetMetadata etkinliği ① ②
Silme etkinliği ① ②

(1) Azure tümleştirme çalışma zamanı (2) Şirket içinde barındırılan tümleştirme çalışma zamanı

Kopyalama etkinliği için, bu bağlayıcıyla şunları yapabilirsiniz:

  • Azure kaynakları kimlik doğrulamaları için hesap anahtarını, hizmet sorumlusunu veya yönetilen kimlikleri kullanarak verileri Azure Data Lake Storage 2. Nesil/Azure Data Lake Storage 2. Nesil kopyalayın.
  • Dosyaları olduğu gibi kopyalayın veya desteklenen dosya biçimlerine ve sıkıştırma codec'lerine sahip dosyaları ayrıştırma veya oluşturma.
  • Kopyalama sırasında dosya meta verilerini koruyun.
  • Azure Data Lake Storage 1. Nesil/2. Nesil'den kopyalarken ACL'leri koruyun.

Başlarken

Bahşiş

Data Lake Storage 2. Nesil bağlayıcısını kullanma hakkında ayrıntılı bilgi için bkz. Azure Data Lake Storage 2. Nesil'a veri yükleme.

İşlem hattıyla Kopyalama etkinliği gerçekleştirmek için aşağıdaki araçlardan veya SDK'lardan birini kullanabilirsiniz:

Kullanıcı arabirimini kullanarak Azure Data Lake Storage 2. Nesil bağlı hizmet oluşturma

Azure portalı kullanıcı arabiriminde Azure Data Lake Storage 2. Nesil bağlı bir hizmet oluşturmak için aşağıdaki adımları kullanın.

  1. Azure Data Factory veya Synapse çalışma alanınızda Yönet sekmesine göz atın ve Bağlı Hizmetler'i seçin, ardından Yeni'ye tıklayın:

  2. Azure Data Lake Storage 2. Nesil arayın ve Azure Data Lake Storage 2. Nesil bağlayıcısını seçin.

    Select Azure Data Lake Storage Gen2 connector.

  3. Hizmet ayrıntılarını yapılandırın, bağlantıyı test edin ve yeni bağlı hizmeti oluşturun.

    Screenshot of configuration for Azure Data Lake Storage Gen2 linked service.

Bağlan veya yapılandırma ayrıntıları

Aşağıdaki bölümlerde, Data Lake Storage 2. Nesil özgü Data Factory ve Synapse işlem hattı varlıklarını tanımlamak için kullanılan özellikler hakkında bilgi sağlanır.

Bağlı hizmet özellikleri

Azure Data Lake Storage 2. Nesil bağlayıcısı aşağıdaki kimlik doğrulama türlerini destekler. Ayrıntılar için ilgili bölümlere bakın:

Dekont

  • Azure Depolama güvenlik duvarında etkin olan Güvenilen Microsoft hizmetleri bu depolama hesabına erişmesine izin ver seçeneğinden yararlanarak Data Lake Storage 2. Nesil bağlanmak için genel Azure tümleştirme çalışma zamanını kullanmak istiyorsanız, yönetilen kimlik kimlik doğrulamasını kullanmanız gerekir. Azure Depolama güvenlik duvarları ayarları hakkında daha fazla bilgi için bkz. Azure Depolama güvenlik duvarlarını ve sanal ağları yapılandırma.
  • Azure Synapse Analytics'e veri yüklemek için PolyBase veya COPY deyimini kullandığınızda, kaynağınız veya hazırlama Data Lake Storage 2. Nesil bir Azure Sanal Ağ uç noktasıyla yapılandırılmışsa, Azure Synapse'in gerektirdiği şekilde yönetilen kimlik doğrulaması kullanmanız gerekir. Daha fazla yapılandırma önkoşulu içeren yönetilen kimlik kimlik doğrulaması bölümüne bakın.

Hesap anahtarı kimlik doğrulaması

Depolama hesabı anahtarı kimlik doğrulamasını kullanmak için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
type tür özelliği AzureBlobFS olarak ayarlanmalıdır. Evet
url deseniyle https://<accountname>.dfs.core.windows.netData Lake Storage 2. Nesil uç noktası. Evet
accountKey Data Lake Storage 2. Nesil için hesap anahtarı. Güvenli bir şekilde depolamak için bu alanı SecureString olarak işaretleyin veya Azure Key Vault'ta depolanan bir gizli diziye başvurun. Evet
connectVia Veri deposuna bağlanmak için kullanılacak tümleştirme çalışma zamanı . Veri deponuz özel bir ağdaysa Azure tümleştirme çalışma zamanını veya şirket içinde barındırılan tümleştirme çalışma zamanını kullanabilirsiniz. Bu özellik belirtilmezse, varsayılan Azure tümleştirme çalışma zamanı kullanılır. No

Dekont

Hesap anahtarı kimlik doğrulaması kullanılırken ikincil ADLS dosya sistemi uç noktası desteklenmez. Diğer kimlik doğrulama türlerini kullanabilirsiniz.

Örnek:

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "accountkey": { 
                "type": "SecureString", 
                "value": "<accountkey>" 
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Paylaşılan erişim imzası kimlik doğrulaması

Paylaşılan erişim imzası, depolama hesabınızdaki kaynaklara temsilci erişimi sağlar. İstemciye depolama hesabınızdaki nesnelere belirli bir süre için sınırlı izinler vermek için paylaşılan erişim imzası kullanabilirsiniz.

Hesap erişim anahtarlarınızı paylaşmanız gerekmez. Paylaşılan erişim imzası, bir depolama kaynağına kimliği doğrulanmış erişim için gereken tüm bilgileri sorgu parametrelerinde kapsayan bir URI'dir. Paylaşılan erişim imzasıyla depolama kaynaklarına erişmek için istemcinin yalnızca paylaşılan erişim imzasını uygun oluşturucuya veya yönteme geçirmesi gerekir.

Paylaşılan erişim imzaları hakkında daha fazla bilgi için bkz . Paylaşılan erişim imzaları: Paylaşılan erişim imzası modelini anlama.

Dekont

  • Hizmet artık hem hizmet paylaşılan erişim imzalarını hem de hesap paylaşılan erişim imzalarını destekliyor. Paylaşılan erişim imzaları hakkında daha fazla bilgi için bkz. Paylaşılan erişim imzalarını kullanarak Azure Depolama kaynaklarına sınırlı erişim verme.
  • Sonraki veri kümesi yapılandırmalarında, klasör yolu kapsayıcı düzeyinden başlayan mutlak yoldur. SAS URI'nizdeki yol ile uyumlu bir yapılandırmanız gerekir.

Paylaşılan erişim imzası kimlik doğrulamasının kullanılması için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
type type Özelliğin (önerilen) olarak ayarlanması AzureBlobFS gerekir Evet
sasUri Blob veya kapsayıcı gibi Depolama kaynakları için paylaşılan erişim imzası URI'sini belirtin.
Güvenli bir şekilde depolamak için bu alanı olarak SecureString işaretleyin. Otomatik döndürmeyi kullanmak ve belirteç bölümünü kaldırmak için SAS belirtecini Azure Key Vault'a da yerleştirebilirsiniz. Daha fazla bilgi için aşağıdaki örneklere ve Kimlik bilgilerini Azure Key Vault'ta depolama bölümüne bakın.
Evet
connectVia Veri deposuna bağlanmak için kullanılacak tümleştirme çalışma zamanı . Azure tümleştirme çalışma zamanını veya şirket içinde barındırılan tümleştirme çalışma zamanını (veri deponuz özel bir ağdaysa) kullanabilirsiniz. Bu özellik belirtilmezse, hizmet varsayılan Azure tümleştirme çalışma zamanını kullanır. No

Dekont

Bağlı tür hizmetini kullanıyorsanız AzureStorage , bu hizmet olduğu gibi yine de desteklenir. Ancak bundan sonra yeni AzureDataLakeStorageGen2 bağlı hizmet türünü kullanmanızı öneririz.

Örnek:

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "sasUri": {
                "type": "SecureString",
                "value": "<SAS URI of the Azure Storage resource e.g. https://<accountname>.blob.core.windows.net/?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Örnek: Hesap anahtarını Azure Key Vault'ta depolama

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "sasUri": {
                "type": "SecureString",
                "value": "<SAS URI of the Azure Storage resource without token e.g. https://<accountname>.blob.core.windows.net/>"
            },
            "sasToken": {
                "type": "AzureKeyVaultSecret",
                "store": {
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference"
                },
                "secretName": "<secretName with value of SAS token e.g. ?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Paylaşılan erişim imzası URI'sini oluştururken aşağıdaki noktaları göz önünde bulundurun:

  • Bağlı hizmetin (okuma, yazma, okuma/yazma) nasıl kullanıldığına bağlı olarak nesneler üzerinde uygun okuma/yazma izinlerini ayarlayın.
  • Süre sonu süresini uygun şekilde ayarlayın. Depolama nesnelere erişimin işlem hattının etkin süresi içinde dolmadığından emin olun.
  • URI, ihtiyaca göre doğru kapsayıcıda veya blobda oluşturulmalıdır. Bloba paylaşılan erişim imzası URI'si, veri fabrikasının veya Synapse işlem hattının söz konusu bloba erişmesine olanak tanır. Blob depolama kapsayıcısına paylaşılan erişim imzası URI'si, veri fabrikasının veya Synapse işlem hattının bu kapsayıcıdaki bloblar arasında yineleme yapmasına olanak tanır. Daha sonra daha fazla veya daha az nesneye erişim sağlamak veya paylaşılan erişim imzası URI'sini güncelleştirmek için bağlı hizmeti yeni URI ile güncelleştirmeyi unutmayın.

Hizmet sorumlusu kimlik doğrulaması

Hizmet sorumlusu kimlik doğrulamasını kullanmak için aşağıdaki adımları izleyin.

  1. Bir uygulamayı Microsoft kimlik platformu kaydedin. Nasıl yapılacağını öğrenmek için bkz. Hızlı Başlangıç: uygulamayı Microsoft kimlik platformu kaydetme. Bağlı hizmeti tanımlamak için kullandığınız şu değerleri not edin:

    • Uygulama Kimliği
    • Uygulama anahtarı
    • Kiracı kimliği
  2. Hizmet sorumlusuna uygun izni verin. Dosyalar ve dizinlerdeki Erişim denetim listelerinden Data Lake Storage 2. Nesil izinlerin nasıl çalıştığına ilişkin örneklere bakın

    • Kaynak olarak: Depolama Gezgini'nde TÜM yukarı akış klasörleri ve dosya sistemi için en azından Yürütme izni ve dosyaların kopyalanması için de Okuma izni verin. Alternatif olarak Erişim denetiminde (IAM) en azından Depolama Blob Verileri Okuyucusu rolü verin.
    • Havuz olarak: Depolama Gezgini'nde TÜM yukarı akış klasörleri ve dosya sistemi için en azından Yürütme izni ve havuz klasörü için de Yazma izni verin. Alternatif olarak Erişim denetiminde (IAM) en azından Depolama Blob Verileri Katkıda Bulunanı rolü verin.

Dekont

Yazmak için kullanıcı arabirimi kullanıyorsanız ve hizmet sorumlusu IAM'de "Depolama Blob Veri Okuyucusu/Katkıda Bulunan" rolüyle ayarlanmadıysa, test bağlantısı yaparken veya klasörlere göz atarken,"Dosya yoluna bağlantıyı test et" veya "Belirtilen yoldan gözat" seçeneğini belirleyin ve devam etmek için Okuma + Yürütme iznine sahip bir yol belirtin.

Bu özellikler bağlı hizmet için desteklenir:

Özellik Açıklama Gerekli
type tür özelliği AzureBlobFS olarak ayarlanmalıdır. Evet
url deseniyle https://<accountname>.dfs.core.windows.netData Lake Storage 2. Nesil uç noktası. Evet
servicePrincipalId Uygulamanın istemci kimliğini belirtin. Evet
servicePrincipalCredentialType Hizmet sorumlusu kimlik doğrulaması için kullanılacak kimlik bilgisi türü. İzin verilen değerler ServicePrincipalKey ve ServicePrincipalCert değerleridir. Evet
servicePrincipalCredential Hizmet sorumlusu kimlik bilgileri.
Kimlik bilgisi türü olarak ServicePrincipalKey kullandığınızda uygulamanın anahtarını belirtin. Güvenli bir şekilde depolamak için bu alanı SecureString olarak işaretleyin veya Azure Key Vault'ta depolanan bir gizli diziye başvurun.
Kimlik bilgisi olarak ServicePrincipalCert kullandığınızda Azure Key Vault'taki bir sertifikaya başvurun ve sertifika içerik türünün PKCS #12 olduğundan emin olun.
Evet
servicePrincipalKey Uygulamanın anahtarını belirtin. Güvenli bir şekilde depolamak için bu alanı SecureString olarak işaretleyin veya Azure Key Vault'ta depolanan bir gizli diziye başvurun.
Bu özellik için olduğu gibi servicePrincipalId + servicePrincipalKeyhala desteklenir. ADF yeni hizmet sorumlusu sertifikası kimlik doğrulaması ekledikçe, hizmet sorumlusu kimlik doğrulaması için yeni model şeklindedirservicePrincipalIdservicePrincipalCredential + servicePrincipalCredentialType + .
No
tenant Uygulamanızın bulunduğu kiracı bilgilerini (etki alanı adı veya kiracı kimliği) belirtin. Fareyi Azure portalının sağ üst köşesine getirerek alın. Evet
azureCloudType Hizmet sorumlusu kimlik doğrulaması için Microsoft Entra uygulamanızın kaydedildiği Azure bulut ortamının türünü belirtin.
İzin verilen değerler AzurePublic, AzureChina, AzureUsGovernment ve AzureGermany'dir. Varsayılan olarak, veri fabrikası veya Synapse işlem hattının bulut ortamı kullanılır.
No
connectVia Veri deposuna bağlanmak için kullanılacak tümleştirme çalışma zamanı . Veri deponuz özel bir ağdaysa Azure tümleştirme çalışma zamanını veya şirket içinde barındırılan tümleştirme çalışma zamanını kullanabilirsiniz. Belirtilmezse, varsayılan Azure tümleştirme çalışma zamanı kullanılır. No

Örnek: hizmet sorumlusu anahtarı kimlik doğrulamayı kullanma

Hizmet sorumlusu anahtarını Azure Key Vault'ta da depolayabilirsiniz.

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalKey",
            "servicePrincipalCredential": {
                "type": "SecureString",
                "value": "<service principal key>"
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Örnek: hizmet sorumlusu sertifika kimlik doğrulaması kullanma

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalCert",
            "servicePrincipalCredential": { 
                "type": "AzureKeyVaultSecret", 
                "store": { 
                    "referenceName": "<AKV reference>", 
                    "type": "LinkedServiceReference" 
                }, 
                "secretName": "<certificate name in AKV>" 
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Sistem tarafından atanan yönetilen kimlik kimlik doğrulaması

Bir veri fabrikası veya Synapse çalışma alanı, sistem tarafından atanan yönetilen kimlikle ilişkilendirilebilir. Sistem tarafından atanan bu yönetilen kimliği, kendi hizmet sorumlunuzu kullanmaya benzer şekilde Data Lake Storage 2. Nesil kimlik doğrulaması için doğrudan kullanabilirsiniz. Bu belirlenen fabrika veya çalışma alanının Data Lake Storage 2. Nesil'ınıza veya Data Lake Storage 2. Nesil verilerinize erişmesine ve verileri kopyalamasına olanak tanır.

Sistem tarafından atanan yönetilen kimlik kimlik doğrulamasını kullanmak için aşağıdaki adımları izleyin.

  1. Veri fabrikanız veya Synapse çalışma alanınızla birlikte oluşturulan yönetilen kimlik nesne kimliğinin değerini kopyalayarak sistem tarafından atanan yönetilen kimlik bilgilerini alın.

  2. Sistem tarafından atanan yönetilen kimliğe uygun izin verin. Dosyalar ve dizinlerdeki Erişim denetim listelerinden Data Lake Storage 2. Nesil izinlerin nasıl çalıştığına ilişkin örneklere bakın.

    • Kaynak olarak: Depolama Gezgini'nde TÜM yukarı akış klasörleri ve dosya sistemi için en azından Yürütme izni ve dosyaların kopyalanması için de Okuma izni verin. Alternatif olarak Erişim denetiminde (IAM) en azından Depolama Blob Verileri Okuyucusu rolü verin.
    • Havuz olarak: Depolama Gezgini'nde TÜM yukarı akış klasörleri ve dosya sistemi için en azından Yürütme izni ve havuz klasörü için de Yazma izni verin. Alternatif olarak Erişim denetiminde (IAM) en azından Depolama Blob Verileri Katkıda Bulunanı rolü verin.

Bu özellikler bağlı hizmet için desteklenir:

Özellik Açıklama Gerekli
type tür özelliği AzureBlobFS olarak ayarlanmalıdır. Evet
url deseniyle https://<accountname>.dfs.core.windows.netData Lake Storage 2. Nesil uç noktası. Evet
connectVia Veri deposuna bağlanmak için kullanılacak tümleştirme çalışma zamanı . Veri deponuz özel bir ağdaysa Azure tümleştirme çalışma zamanını veya şirket içinde barındırılan tümleştirme çalışma zamanını kullanabilirsiniz. Belirtilmezse, varsayılan Azure tümleştirme çalışma zamanı kullanılır. No

Örnek:

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Kullanıcı tarafından atanan yönetilen kimlik kimlik doğrulaması

Veri fabrikası, kullanıcı tarafından atanan bir veya birden çok yönetilen kimlikle atanabilir. Blob depolama kimlik doğrulaması için kullanıcı tarafından atanan bu yönetilen kimliği kullanabilirsiniz. Bu kimlik, Data Lake Storage 2. Nesil veya içinden verilere erişmenize ve verileri kopyalamanıza olanak tanır. Azure kaynakları için yönetilen kimlikler hakkında daha fazla bilgi edinmek için bkz. Azure kaynakları için yönetilen kimlikler

Kullanıcı tarafından atanan yönetilen kimlik kimlik doğrulamasını kullanmak için şu adımları izleyin:

  1. Kullanıcı tarafından atanan bir veya birden çok yönetilen kimlik oluşturun ve Azure Data Lake Storage 2. Nesil erişim verin. Dosyalar ve dizinlerdeki Erişim denetim listelerinden Data Lake Storage 2. Nesil izinlerin nasıl çalıştığına ilişkin örneklere bakın.

    • Kaynak olarak: Depolama Gezgini'nde TÜM yukarı akış klasörleri ve dosya sistemi için en azından Yürütme izni ve dosyaların kopyalanması için de Okuma izni verin. Alternatif olarak Erişim denetiminde (IAM) en azından Depolama Blob Verileri Okuyucusu rolü verin.
    • Havuz olarak: Depolama Gezgini'nde TÜM yukarı akış klasörleri ve dosya sistemi için en azından Yürütme izni ve havuz klasörü için de Yazma izni verin. Alternatif olarak Erişim denetiminde (IAM) en azından Depolama Blob Verileri Katkıda Bulunanı rolü verin.
  2. Veri fabrikanıza kullanıcı tarafından atanan bir veya birden çok yönetilen kimlik atayın ve kullanıcı tarafından atanan her yönetilen kimlik için kimlik bilgileri oluşturun.

Bu özellikler bağlı hizmet için desteklenir:

Özellik Açıklama Gerekli
type tür özelliği AzureBlobFS olarak ayarlanmalıdır. Evet
url deseniyle https://<accountname>.dfs.core.windows.netData Lake Storage 2. Nesil uç noktası. Evet
kimlik bilgileri Kimlik bilgisi nesnesi olarak kullanıcı tarafından atanan yönetilen kimliği belirtin. Evet
connectVia Veri deposuna bağlanmak için kullanılacak tümleştirme çalışma zamanı . Veri deponuz özel bir ağdaysa Azure tümleştirme çalışma zamanını veya şirket içinde barındırılan tümleştirme çalışma zamanını kullanabilirsiniz. Belirtilmezse, varsayılan Azure tümleştirme çalışma zamanı kullanılır. No

Örnek:

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
                }
            },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Dekont

Yazmak için Data Factory kullanıcı arabirimini kullanıyorsanız ve yönetilen kimlik IAM'de "Depolama Blob Veri Okuyucusu/Katkıda Bulunanı" rolüyle ayarlanmadıysa, test bağlantısı yaparken veya klasörlere göz atarken,"Dosya yoluna bağlantıyı test et" veya "Belirtilen yoldan gözat" seçeneğini belirleyin ve devam etmek için Okuma + Yürütme iznine sahip bir yol belirtin.

Önemli

Data Lake Storage 2. Nesil'dan Azure Synapse Analytics'e veri yüklemek için PolyBase veya COPY deyimi kullanıyorsanız, Data Lake Storage 2. Nesil için yönetilen kimlik doğrulaması kullandığınızda, bu kılavuzdaki 1 ile 3. adımları da izlediğinizden emin olun. Bu adımlar sunucunuzu Microsoft Entra Id'ye kaydeder ve sunucunuza Depolama Blob Verileri Katkıda Bulunanı rolünü atar. Data Factory gerisini işler. Blob depolamayı bir Azure Sanal Ağ uç noktasıyla yapılandırıyorsanız, Azure Synapse'in gerektirdiği şekilde Azure Depolama hesabı Güvenlik duvarları ve Sanal ağlar ayarları menüsünün altında Bu depolama hesabınaerişmeye güvenilen Microsoft hizmetleri izin ver seçeneğinin de açık olması gerekir.

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için bkz . Veri kümeleri.

Azure Data Factory aşağıdaki dosya biçimlerini destekler. Biçim tabanlı ayarlar için her makaleye bakın.

Biçim tabanlı veri kümesindeki ayarlar altında location Data Lake Storage 2. Nesil için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
type veri kümesindeki altındaki location type özelliği AzureBlobFSLocation olarak ayarlanmalıdır. Evet
fileSystem Data Lake Storage 2. Nesil dosya sistemi adı. No
folderPath Verilen dosya sistemi altındaki bir klasörün yolu. Klasörleri filtrelemek için joker karakter kullanmak istiyorsanız, bu ayarı atlayın ve etkinlik kaynağı ayarlarında belirtin. No
fileName Verilen fileSystem + folderPath altındaki dosya adı. Dosyaları filtrelemek için joker karakter kullanmak istiyorsanız, bu ayarı atlayın ve etkinlik kaynağı ayarlarında belirtin. No

Örnek:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Data Lake Storage Gen2 linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobFSLocation",
                "fileSystem": "filesystemname",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Kopyalama etkinliğinin özellikleri

Etkinlikleri tanımlamak için kullanılabilecek bölümlerin ve özelliklerin tam listesi için bkz. Kopyalama etkinliği yapılandırmaları ve İşlem hatları ve etkinlikler. Bu bölümde, Data Lake Storage 2. Nesil kaynağı ve havuzu tarafından desteklenen özelliklerin listesi sağlanır.

Kaynak türü olarak Azure Data Lake Storage 2. Nesil

Azure Data Factory aşağıdaki dosya biçimlerini destekler. Biçim tabanlı ayarlar için her makaleye bakın.

ADLS 2. Nesil'den veri kopyalamak için çeşitli seçenekleriniz vardır:

  • Veri kümesinde belirtilen yoldan kopyalayın.
  • Klasör yoluna veya dosya adına göre joker karakter filtresi, bkz wildcardFolderPath . ve wildcardFileName.
  • Belirli bir metin dosyasında tanımlanan dosyaları dosya kümesi olarak kopyalayın, bkz fileListPath. .

Biçim tabanlı kopyalama kaynağındaki ayarlar altında storeSettings Data Lake Storage 2. Nesil için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
type altındaki storeSettings tür özelliği AzureBlobFSRead Ayarlar olarak ayarlanmalıdır. Evet
Kopyalanacak dosyaları bulun:
SEÇENEK 1: statik yol
Veri kümesinde belirtilen dosya sisteminden veya klasörden/dosya yolundan kopyalayın. Bir dosya sisteminden/klasöründen tüm dosyaları kopyalamak istiyorsanız, ek olarak olarak *belirtinwildcardFileName.
SEÇENEK 2: joker karakter
- wildcardFolderPath
Kaynak klasörleri filtrelemek için veri kümesinde yapılandırılmış verilen dosya sistemi altında joker karakterler içeren klasör yolu.
İzin verilen joker karakterler şunlardır: * (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir); gerçek klasör adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış yapmak için kullanın ^ .
Klasör ve dosya filtresi örnekleri'ndeki diğer örneklere bakın.
No
SEÇENEK 2: joker karakter
- wildcardFileName
Kaynak dosyaları filtrelemek için verilen dosya sistemi + folderPath/wildcardFolderPath altında joker karakterler içeren dosya adı.
İzin verilen joker karakterler şunlardır: * (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir); gerçek dosya adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış yapmak için kullanın ^ . Klasör ve dosya filtresi örnekleri'ndeki diğer örneklere bakın.
Evet
SEÇENEK 3: dosyaların listesi
- fileListPath
Belirli bir dosya kümesinin kopyalandığını gösterir. Kopyalamak istediğiniz dosyaların listesini içeren bir metin dosyasının üzerine gelin. Bu, veri kümesinde yapılandırılan yolun göreli yolu olan satır başına bir dosyadır.
Bu seçeneği kullanırken veri kümesinde dosya adı belirtmeyin. Dosya listesi örnekleri'ndeki diğer örneklere bakın.
No
Ek ayarlar:
Özyinelemeli Verilerin alt klasörlerden veya yalnızca belirtilen klasörden özyinelemeli olarak okunup okunmadığını gösterir. Özyineleme true olarak ayarlandığında ve havuz dosya tabanlı bir depo olduğunda, havuza boş bir klasör veya alt klasör kopyalanmadı veya oluşturulmadı.
İzin verilen değerler true (varsayılan) ve false değerleridir.
Yapılandırdığınızda fileListPathbu özellik geçerli değildir.
No
deleteFilesAfterCompletion hedef depoya başarıyla taşındıktan sonra ikili dosyaların kaynak depodan silinip silinmeyeceğini gösterir. Dosya silme işlemi dosya başınadır, bu nedenle kopyalama etkinliği başarısız olduğunda bazı dosyaların hedefe kopyalandığını ve kaynaktan silindiğini, diğerleri ise kaynak depoda kaldığını görürsünüz.
Bu özellik yalnızca ikili dosya kopyalama senaryosunda geçerlidir. Varsayılan değer: false.
No
modifiedDatetimeStart Dosyalar şu özniteliğe göre filtrelenmiş: Son Değiştirme.
Dosyalar, son değiştirme süreleri değerinden büyük veya buna eşit modifiedDatetimeStart ve değerinden modifiedDatetimeEndküçükse seçilir. Saat UTC saat dilimine "2018-12-01T05:00:00Z" biçiminde uygulanır.
Özellikler NULL olabilir; başka bir deyişle veri kümesine hiçbir dosya özniteliği filtresi uygulanmaz. Tarih saat değeri olduğunda modifiedDatetimeStart ancak modifiedDatetimeEnd NULL olduğunda, son değiştirilen özniteliği datetime değerinden büyük veya eşit olan dosyaların seçileceği anlamına gelir. Tarih saat değeri olduğunda modifiedDatetimeEnd ancak modifiedDatetimeStart NULL olduğunda, son değiştirilen özniteliği datetime değerinden küçük olan dosyaların seçileceği anlamına gelir.
Yapılandırdığınızda fileListPathbu özellik geçerli değildir.
No
modifiedDatetimeEnd Yukarıdakiyle aynıdır. No
enablePartitionDiscovery Bölümlenmiş dosyalar için, bölümlerin dosya yolundan ayrıştırılıp ayrıştırılmayacağını belirtin ve bunları ek kaynak sütunlar olarak ekleyin.
İzin verilen değerler false (varsayılan) ve true değerleridir.
No
partitionRootPath Bölüm bulma etkinleştirildiğinde, bölümlenmiş klasörleri veri sütunları olarak okumak için mutlak kök yolu belirtin.

Belirtilmezse, varsayılan olarak,
- Veri kümesinde dosya yolunu veya kaynaktaki dosyaların listesini kullandığınızda, bölüm kök yolu veri kümesinde yapılandırılan yoldur.
- Joker karakter klasör filtresi kullandığınızda, bölüm kök yolu ilk joker karakterden önceki alt yoldur.

Örneğin, veri kümesindeki yolu "root/folder/year=2020/month=08/day=27" olarak yapılandırdığınız varsayılır:
- Bölüm kök yolunu "root/folder/year=2020" olarak belirtirseniz kopyalama etkinliği, dosyaların içindeki sütunlara ek olarak sırasıyla "08" ve "27" değerine sahip iki sütun monthday daha oluşturur.
- Bölüm kök yolu belirtilmezse, ek sütun oluşturulmaz.
No
maxConcurrent Bağlan ions Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. No

Örnek:

"activities":[
    {
        "name": "CopyFromADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AzureBlobFSReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Havuz türü olarak Azure Data Lake Storage 2. Nesil

Azure Data Factory aşağıdaki dosya biçimlerini destekler. Biçim tabanlı ayarlar için her makaleye bakın.

Aşağıdaki özellikler, biçim tabanlı kopyalama havuzundaki ayarlar altında storeSettings Data Lake Storage 2. Nesil için desteklenir:

Özellik Açıklama Gerekli
type altındaki storeSettings tür özelliği AzureBlobFSWrite Ayarlar olarak ayarlanmalıdır. Evet
copyBehavior Kaynak dosya tabanlı bir veri deposundaki dosyalar olduğunda kopyalama davranışını tanımlar.

İzin verilen değerler şunlardır:
- PreserveHierarchy (varsayılan): Hedef klasördeki dosya hiyerarşisini korur. Kaynak dosyanın kaynak klasöre göreli yolu, hedef dosyanın hedef klasöre göreli yolu ile aynıdır.
- FlattenHierarchy: Kaynak klasördeki tüm dosyalar hedef klasörün ilk düzeyindedir. Hedef dosyalar otomatik olarak oluşturulan adlara sahiptir.
- MergeFiles: Kaynak klasördeki tüm dosyaları tek bir dosyayla birleştirir. Dosya adı belirtilirse, birleştirilmiş dosya adı belirtilen addır. Aksi takdirde, otomatik olarak oluşturulan bir dosya adıdır.
No
blockSizeInMB ADLS 2. Nesil'e veri yazmak için kullanılan MB cinsinden blok boyutunu belirtin. Blok Blobları hakkında daha fazla bilgi edinin.
İzin verilen değer 4 MB ile 100 MB arasındadır.
Varsayılan olarak, ADF kaynak deponuzun türüne ve verilerine göre blok boyutunu otomatik olarak belirler. ADLS 2. Nesil'e ikili olmayan kopyalama için varsayılan blok boyutu 100 MB'tır ve en fazla 4,75 TB veriye sığar. Verileriniz büyük olmadığında, özellikle şirket içinde barındırılan Integration Runtime'ı düşük ağ ile kullandığınızda işlem zaman aşımına veya performans sorununa neden olduğunda en uygun olmayabilir. BlockSizeInMB*50000'in verileri depolamak için yeterince büyük olduğundan emin olurken, blok boyutunu açıkça belirtebilirsiniz, aksi takdirde kopyalama etkinliği çalıştırması başarısız olur.
No
maxConcurrent Bağlan ions Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. No
meta veriler Havuza kopyalarken özel meta veriler ayarlayın. Dizinin altındaki metadata her nesne fazladan bir sütunu temsil eder. , name meta veri anahtarı adını tanımlar ve value bu anahtarın veri değerini belirtir. Öznitelikleri koru özelliği kullanılırsa, belirtilen meta veriler kaynak dosya meta verileriyle birlenir/üzerine yazılır.

İzin verilen veri değerleri şunlardır:
- $$LASTMODIFIED: ayrılmış değişken, kaynak dosyaların son değiştirme zamanının depolandığı gösterir. Yalnızca ikili biçimli dosya tabanlı kaynağa uygulayın.
-Ifa -de
- Statik değer
No

Örnek:

"activities":[
    {
        "name": "CopyToADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings":{
                    "type": "AzureBlobFSWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        },
                        {
                            "name": "lastModifiedKey",
                            "value": "$$LASTMODIFIED"
                        }
                    ]
                }
            }
        }
    }
]

Klasör ve dosya filtresi örnekleri

Bu bölümde, joker karakter filtreleriyle klasör yolunun ve dosya adının elde edilen davranışı açıklanmaktadır.

folderPath fileName Özyinelemeli Kaynak klasör yapısı ve filtre sonucu (kalın yazılmış dosyalar alınır)
Folder* (Boş, varsayılanı kullan) yanlış KlasörA
    Dosya1.csv
    Dosya2.json
    Alt Klasör1
        Dosya3.csv
        File4.json
        Dosya5.csv
AnotherFolderB
    Dosya6.csv
Folder* (Boş, varsayılanı kullan) true KlasörA
    Dosya1.csv
    Dosya2.json
    Alt Klasör1
        Dosya3.csv
        File4.json
        Dosya5.csv
AnotherFolderB
    Dosya6.csv
Folder* *.csv yanlış KlasörA
    Dosya1.csv
    Dosya2.json
    Alt Klasör1
        Dosya3.csv
        File4.json
        Dosya5.csv
AnotherFolderB
    Dosya6.csv
Folder* *.csv true KlasörA
    Dosya1.csv
    Dosya2.json
    Alt Klasör1
        Dosya3.csv
        File4.json
        Dosya5.csv
AnotherFolderB
    Dosya6.csv

Dosya listesi örnekleri

Bu bölümde, kopyalama etkinliği kaynağında dosya listesi yolunu kullanmanın elde edilen davranışı açıklanmaktadır.

Aşağıdaki kaynak klasör yapısına sahip olduğunuzu ve dosyaları kalın yazıyla kopyalamak istediğinizi varsayarsak:

Örnek kaynak yapısı FileListToCopy.txt dosyasındaki içerik ADF yapılandırması
dosya sistemi
    KlasörA
        Dosya1.csv
        Dosya2.json
        Alt Klasör1
            Dosya3.csv
            File4.json
            Dosya5.csv
    Meta veri
        FileListToCopy.txt
Dosya1.csv
Alt Klasör1/Dosya3.csv
Alt Klasör1/File5.csv
Veri kümesinde:
- Dosya sistemi: filesystem
- Klasör yolu: FolderA

Kopyalama etkinliği kaynağında:
- Dosya listesi yolu: filesystem/Metadata/FileListToCopy.txt

Dosya listesi yolu, veri kümesinde yapılandırılan yolun göreli yolunu içeren, kopyalamak istediğiniz dosyaların listesini içeren aynı veri deposundaki bir metin dosyasını gösterir.

Bazı özyinelemeli ve copyBehavior örnekleri

Bu bölümde özyinelemeli ve copyBehavior değerlerinin farklı birleşimleri için kopyalama işleminin sonuç davranışı açıklanmaktadır.

Özyinelemeli copyBehavior Kaynak klasör yapısı Sonuçta elde edilen hedef
true preserveHierarchy Klasör1
    Dosya1
    Dosya2
    Alt Klasör1
        Dosya3
        Dosya4
        Dosya5
Hedef Klasör1, kaynakla aynı yapıda oluşturulur:

Klasör1
    Dosya1
    Dosya2
    Alt Klasör1
        Dosya3
        Dosya4
        Dosya5
true flattenHierarchy Klasör1
    Dosya1
    Dosya2
    Alt Klasör1
        Dosya3
        Dosya4
        Dosya5
Hedef Klasör1 aşağıdaki yapıyla oluşturulur:

Klasör1
    Dosya1 için otomatik oluşturulan ad
    Dosya2 için otomatik oluşturulan ad
    Dosya3 için otomatik olarak oluşturulan ad
    Dosya4 için otomatik olarak oluşturulan ad
    Dosya5 için otomatik oluşturulan ad
true mergeFiles Klasör1
    Dosya1
    Dosya2
    Alt Klasör1
        Dosya3
        Dosya4
        Dosya5
Hedef Klasör1 aşağıdaki yapıyla oluşturulur:

Klasör1
    Dosya1 + Dosya2 + Dosya3 + Dosya4 + Dosya5 içeriği, otomatik olarak oluşturulan dosya adıyla tek bir dosyada birleştirilir.
yanlış preserveHierarchy Klasör1
    Dosya1
    Dosya2
    Alt Klasör1
        Dosya3
        Dosya4
        Dosya5
Hedef Klasör1 aşağıdaki yapıyla oluşturulur:

Klasör1
    Dosya1
    Dosya2

Dosya3, Dosya4 ve Dosya5 içeren alt klasör1 alınmaz.
yanlış flattenHierarchy Klasör1
    Dosya1
    Dosya2
    Alt Klasör1
        Dosya3
        Dosya4
        Dosya5
Hedef Klasör1 aşağıdaki yapıyla oluşturulur:

Klasör1
    Dosya1 için otomatik oluşturulan ad
    Dosya2 için otomatik oluşturulan ad

Dosya3, Dosya4 ve Dosya5 içeren alt klasör1 alınmaz.
yanlış mergeFiles Klasör1
    Dosya1
    Dosya2
    Alt Klasör1
        Dosya3
        Dosya4
        Dosya5
Hedef Klasör1 aşağıdaki yapıyla oluşturulur:

Klasör1
    Dosya1 + Dosya2 içeriği, otomatik olarak oluşturulan dosya adıyla tek bir dosyada birleştirilir. Dosya1 için otomatik oluşturulan ad

Dosya3, Dosya4 ve Dosya5 içeren alt klasör1 alınmaz.

Kopyalama sırasında meta verileri koruma

Amazon S3/Azure Blob/Azure Data Lake Storage 2. Nesil'dan Azure Data Lake Storage 2. Nesil/Azure Blob'a dosya kopyaladığınızda, verilerle birlikte dosya meta verilerini de korumayı seçebilirsiniz. Meta verileri koruma başlığından daha fazla bilgi edinin.

Data Lake Storage 1. Nesil/2. Nesil ACL'leri koruma

Azure Data Lake Storage 1. Nesil/2. Nesil'den 2. Nesil'e dosya kopyaladığınızda, verilerle birlikte POSIX erişim denetim listelerini (ACL' ler) korumayı seçebilirsiniz. ACL'leri Data Lake Storage 1. Nesil/2. Nesil'den 2. Nesil'e kadar koruma'dan daha fazla bilgi edinin.

Bahşiş

Genel olarak Azure Data Lake Storage 1. Nesil'dan 2. Nesil'e veri kopyalamak için, kılavuz ve en iyi yöntemler için bkz. Azure Data Lake Storage 1. Nesil'dan 2. Nesil'e veri kopyalama.

Eşleme veri akışı özellikleri

Eşleme veri akışlarında verileri dönüştürürken, Azure Data Lake Storage 2. Nesil dosyaları aşağıdaki biçimlerde okuyabilir ve yazabilirsiniz:

Biçime özgü ayarlar, bu biçimin belgelerinde bulunur. Daha fazla bilgi için bkz. Eşleme veri akışında kaynak dönüşümü ve eşleme veri akışında havuz dönüşümü.

Kaynak dönüştürme

Kaynak dönüştürmede, Azure Data Lake Storage 2. Nesil'daki bir kapsayıcıdan, klasörden veya tek tek dosyadan okuyabilirsiniz. Kaynak seçenekleri sekmesi, dosyaların nasıl okunmasını yönetmenizi sağlar.

Screenshot of source options tab in mapping data flow source transformation.

Joker karakter yolu: Joker karakter deseni kullanmak, ADF'ye eşleşen her klasör ve dosyada tek bir Kaynak dönüşümünde döngü gerçekleştirmesini sağlar. Bu, tek bir akış içinde birden çok dosyayı işlemenin etkili bir yoludur. Var olan joker karakter deseninizin üzerine gelindiğinde görüntülenen + işaretiyle birden çok joker karakter eşleştirme deseni ekleyin.

Kaynak kapsayıcınızdan bir desenle eşleşen bir dizi dosya seçin. Veri kümesinde yalnızca kapsayıcı belirtilebilir. Bu nedenle joker yolunuzun kök klasörden klasör yolunuzu da içermesi gerekir.

Joker karakter örnekleri:

  • * Herhangi bir karakter kümesini temsil eder

  • ** Özyinelemeli dizin iç içe yerleştirmeyi temsil eder

  • ? Bir karakteri değiştirir

  • [] Köşeli ayraçtaki daha fazla karakterden biriyle eşleşir

  • /data/sales/**/*.csv /data/sales altındaki tüm csv dosyalarını alır

  • /data/sales/20??/**/ 20. yüzyıldaki tüm dosyaları alır

  • /data/sales/*/*/*.csv /data/sales altında csv dosyalarını iki düzey alır

  • /data/sales/2004/*/12/[XY]1?.csv X veya Y ön ekiyle iki basamaklı bir numaradan başlayarak Aralık 2004'teki tüm csv dosyalarını alır

Bölüm Kök Yolu: Dosya kaynağınızda key=value bir biçimde bölümlenmiş klasörleriniz varsa (örneğin, year=2019), bu bölüm klasör ağacının en üst düzeyini veri akışı veri akışınızdaki bir sütun adına atayabilirsiniz.

İlk olarak, bölümlenmiş klasörler olan tüm yolları ve okumak istediğiniz yaprak dosyaları içerecek şekilde bir joker karakter ayarlayın.

Screenshot of partition source file settings in mapping data flow source transformation.

Klasör yapısının en üst düzeyini tanımlamak için Bölüm Kök Yolu ayarını kullanın. Verilerinizin içeriğini bir veri önizlemesi aracılığıyla görüntülediğinizde, ADF'nin klasör düzeylerinizin her birinde bulunan çözümlenmiş bölümleri eklediğini görürsünüz.

Partition root path

Dosya listesi: Bu bir dosya kümesidir. İşlenmek üzere göreli yol dosyalarının listesini içeren bir metin dosyası oluşturun. Bu metin dosyasının üzerine gelin.

Dosya adını depolamak için sütun: Kaynak dosyanın adını verilerinizdeki bir sütunda depolayın. Dosya adı dizesini depolamak için buraya yeni bir sütun adı girin.

Tamamlandıktan sonra: Veri akışı çalıştırıldıktan sonra kaynak dosyayla hiçbir şey yapmayı, kaynak dosyayı silmeyi veya kaynak dosyayı taşımayı seçin. Taşımanın yolları görelidir.

Kaynak dosyaları işleme sonrasında başka bir konuma taşımak için önce dosya işlemi için "Taşı"yı seçin. Ardından "kimden" dizinini ayarlayın. Yolunuz için joker karakter kullanmıyorsanız, "kimden" ayarı kaynak klasörünüzle aynı klasör olacaktır.

Joker karakter içeren bir kaynak yolunuz varsa söz diziminiz aşağıdaki gibi görünür:

/data/sales/20??/**/*.csv

"kimden" öğesini şu şekilde belirtebilirsiniz:

/data/sales

Ve "to"

/backup/priorSales

Bu durumda, /data/sales altında kaynaklanan tüm dosyalar /backup/priorSales'e taşınır.

Dekont

Dosya işlemleri yalnızca işlem hattındaki Yürütme Veri Akışı etkinliğini kullanan bir işlem hattı çalıştırmasından (işlem hattı hata ayıklama veya yürütme çalıştırması) veri akışını başlattığınızda çalıştırılır. Dosya işlemleri Veri Akışı hata ayıklama modunda çalışmaz.

Son değiştirilmeye göre filtrele: Son değiştirilme zamanlarının tarih aralığını belirterek hangi dosyaları işlediğinizi filtreleyebilirsiniz. Tüm tarih-saatler UTC olarak belirlenir.

Değişiklik verilerini yakalamayı etkinleştirme: Doğruysa, yalnızca son çalıştırmadan yeni veya değiştirilmiş dosyalar alırsınız. Tam anlık görüntü verilerinin ilk yükü her zaman ilk çalıştırmada alınır ve ardından yalnızca sonraki çalıştırmalarda yeni veya değiştirilmiş dosyalar yakalanacaktır. Diğer ayrıntılar için bkz . Veri yakalamayı değiştirme.

Screenshot showing Enable change data capture.

Havuz özellikleri

Havuz dönüşümünde, Azure Data Lake Storage 2. Nesil bir kapsayıcıya veya klasöre yazabilirsiniz. Ayarlar sekmesi, dosyaların nasıl yazileceğini yönetmenizi sağlar.

sink options

Klasörü temizleme: Veriler yazılmadan önce hedef klasörün temizlenip temizlenmeyeceğini belirler.

Dosya adı seçeneği: Hedef dosyaların hedef klasörde nasıl adlandırileceğini belirler. Dosya adı seçenekleri şunlardır:

  • Varsayılan: Spark'ın dosyaları PART varsayılanlarına göre adlandırmasına izin verin.
  • Desen: Çıkış dosyalarınızı bölüm başına numaralandıran bir desen girin. Örneğin, loans[n].csv , loans1.csv, loans2.csv vb. oluşturur.
  • Bölüm başına: Bölüm başına bir dosya adı girin.
  • Sütundaki veriler olarak: Çıkış dosyasını bir sütunun değerine ayarlayın. Yol hedef klasöre değil veri kümesi kapsayıcısına göredir. Veri kümenizde bir klasör yolunuz varsa, bu yol geçersiz kılınacaktır.
  • Tek bir dosyaya çıkış: Bölümlenmiş çıkış dosyalarını tek bir adlandırılmış dosyada birleştirin. Yol, veri kümesi klasörüne göredir. Birleştirme işleminin düğüm boyutuna göre başarısız olabileceğini lütfen unutmayın. Bu seçenek büyük veri kümeleri için önerilmez.

Tümünü tırnak içine alma: Tüm değerlerin tırnak içine alınıp alınmayacağını belirler

umask

İsteğe bağlı olarak, POSIX sahip, kullanıcı ve grup için okuma, yazma, yürütme bayraklarını kullanarak dosyaları ayarlayabilirsiniz umask .

Ön işleme ve işlem sonrası komutları

İsteğe bağlı olarak, ADLS 2. Nesil havuzuna yazmadan önce veya sonra Hadoop dosya sistemi komutlarını yürütebilirsiniz. Aşağıdaki komutlar desteklenir:

  • cp
  • mv
  • rm
  • mkdir

Örnekler:

  • mkdir /folder1
  • mkdir -p folder1
  • mv /folder1/*.* /folder2/
  • cp /folder1/file1.txt /folder2
  • rm -r /folder1

Parametreler ifade oluşturucusu aracılığıyla da desteklenir, örneğin:

mkdir -p {$tempPath}/commands/c1/c2 mv {$tempPath}/commands/*.* {$tempPath}/commands/c1/c2

Varsayılan olarak, klasörler kullanıcı/kök olarak oluşturulur. '/' ile en üst düzey kapsayıcıya bakın.

Arama etkinliği özellikleri

Özellikler hakkında ayrıntılı bilgi edinmek için Arama etkinliği'ne bakın.

GetMetadata etkinlik özellikleri

Özellikler hakkında ayrıntılı bilgi edinmek için GetMetadata etkinliğini denetleyin

Etkinlik özelliklerini silme

Özellikler hakkında ayrıntılı bilgi edinmek için Silme etkinliği'ne bakın

Eski modeller

Dekont

Aşağıdaki modeller geriye dönük uyumluluk için olduğu gibi desteklenmektedir. İleride yukarıdaki bölümlerde bahsedilen yeni modeli kullanmanız önerilir ve ADF yazma kullanıcı arabirimi yeni modeli oluşturmaya geçti.

Eski veri kümesi modeli

Özellik Açıklama Gerekli
type Veri kümesinin type özelliği AzureBlobFSFile olarak ayarlanmalıdır. Evet
folderPath Data Lake Storage 2. Nesil klasörün yolu. Belirtilmezse köke işaret eder.

Joker karakter filtresi desteklenir. İzin verilen joker karakterler şunlardır * (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir). Gerçek klasör adınızın joker karakteri varsa veya bu kaçış karakteri içindeyse kaçış yapmak için kullanın ^ .

Örnekler: dosya sistemi/klasör/. Klasör ve dosya filtresi örnekleri'ndeki diğer örneklere bakın.
No
fileName Belirtilen "folderPath" altındaki dosyalar için ad veya joker karakter filtresi. Bu özellik için bir değer belirtmezseniz, veri kümesi klasördeki tüm dosyaları gösterir.

Filtre için, izin verilen joker karakterler (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir) şeklindedir * .
- Örnek 1: "fileName": "*.csv"
- Örnek 2: "fileName": "???20180427.txt"
Gerçek dosya adınızın joker karakteri varsa veya bu kaçış karakteri içindeyse kaçış yapmak için kullanın ^ .

Bir çıkış veri kümesi için fileName belirtilmediğinde ve etkinlik havuzunda preserveHierarchy belirtilmediğinde, kopyalama etkinliği otomatik olarak şu desene sahip dosya adını oluşturur: "Data.[ etkinlik çalıştırma kimliği GUID]. [FlattenHierarchy ise GUID]. [yapılandırıldıysa biçimlendir]. [compression if configured]", örneğin, "Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.gz". Tablosal kaynaktan sorgu yerine tablo adı kullanarak kopyalarsanız, ad deseni "[tablo adı].[ biçim]. [yapılandırıldıysa sıkıştırma]", örneğin, "MyTable.csv".
No
modifiedDatetimeStart Dosyalar, Last Modified özniteliğine göre filtre uygulama. Dosyalar, son değiştirme süreleri değerinden büyük veya buna eşit modifiedDatetimeStart ve değerinden modifiedDatetimeEndküçükse seçilir. Saat UTC saat dilimine "2018-12-01T05:00:00Z" biçiminde uygulanır.

Büyük miktarlarda dosya içeren dosya filtresi uygulamak istediğinizde bu ayarın etkinleştirilmesi veri taşımanın genel performansından etkilenir.

Özellikler NULL olabilir; başka bir deyişle veri kümesine dosya özniteliği filtresi uygulanmaz. Tarih saat değeri olduğunda modifiedDatetimeStart ancak modifiedDatetimeEnd NULL olduğunda, son değiştirilen özniteliği datetime değerinden büyük veya buna eşit olan dosyaların seçili olduğu anlamına gelir. Tarih saat değeri olduğunda modifiedDatetimeEnd ancak modifiedDatetimeStart NULL olduğunda, son değiştirilen özniteliği datetime değerinden küçük olan dosyaların seçili olduğu anlamına gelir.
No
modifiedDatetimeEnd Dosyalar, Last Modified özniteliğine göre filtre uygulama. Dosyalar, son değiştirme süreleri değerinden büyük veya buna eşit modifiedDatetimeStart ve değerinden modifiedDatetimeEndküçükse seçilir. Saat UTC saat dilimine "2018-12-01T05:00:00Z" biçiminde uygulanır.

Büyük miktarlarda dosya içeren dosya filtresi uygulamak istediğinizde bu ayarın etkinleştirilmesi veri taşımanın genel performansından etkilenir.

Özellikler NULL olabilir; başka bir deyişle veri kümesine dosya özniteliği filtresi uygulanmaz. Tarih saat değeri olduğunda modifiedDatetimeStart ancak modifiedDatetimeEnd NULL olduğunda, son değiştirilen özniteliği datetime değerinden büyük veya buna eşit olan dosyaların seçili olduğu anlamına gelir. Tarih saat değeri olduğunda modifiedDatetimeEnd ancak modifiedDatetimeStart NULL olduğunda, son değiştirilen özniteliği datetime değerinden küçük olan dosyaların seçili olduğu anlamına gelir.
No
format Dosyaları dosya tabanlı depolar (ikili kopya) arasında olduğu gibi kopyalamak istiyorsanız, hem giriş hem de çıkış veri kümesi tanımlarında biçim bölümünü atlayın.

Dosyaları belirli bir biçimde ayrıştırmak veya oluşturmak istiyorsanız, şu dosya biçimi türleri desteklenir: TextFormat, JsonFormat, AvroFormat, OrcFormat ve ParquetFormat. biçim altındaki type özelliğini bu değerlerden birine ayarlayın. Daha fazla bilgi için Metin biçimi, JSON biçimi, Avro biçimi, ORC biçimi ve Parquet biçimi bölümlerine bakın.
Hayır (yalnızca ikili kopyalama senaryosu için)
sıkıştırma Verilerin sıkıştırma türünü ve düzeyini belirtin. Daha fazla bilgi için bkz . Desteklenen dosya biçimleri ve sıkıştırma codec'leri.
Desteklenen türler şunlardır: **GZip**, **Deflate**, **BZip2**, and **ZipDeflate**.
Desteklenen düzeyler En uygun ve en hızlı düzeylerdir.
No

Bahşiş

Bir klasörün altındaki tüm dosyaları kopyalamak için yalnızca folderPath değerini belirtin.
Belirli bir ada sahip tek bir dosyayı kopyalamak için klasör bölümü olan folderPath ve dosya adıyla fileName belirtin.
Klasörün altındaki dosyaların bir alt kümesini kopyalamak için klasör bölümüyle folderPath ve joker karakter filtresiyle fileName belirtin.

Örnek:

{
    "name": "ADLSGen2Dataset",
    "properties": {
        "type": "AzureBlobFSFile",
        "linkedServiceName": {
            "referenceName": "<Azure Data Lake Storage Gen2 linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "folderPath": "myfilesystem/myfolder",
            "fileName": "*",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Eski kopyalama etkinliği kaynak modeli

Özellik Açıklama Gerekli
type Kopyalama etkinliği kaynağının type özelliği AzureBlobFSSource olarak ayarlanmalıdır. Evet
Özyinelemeli Verilerin alt klasörlerden veya yalnızca belirtilen klasörden özyinelemeli olarak okunup okunmadığını gösterir. Özyineleme true olarak ayarlandığında ve havuz dosya tabanlı bir depo olduğunda, havuza boş bir klasör veya alt klasör kopyalanır veya oluşturulmaz.
İzin verilen değerler true (varsayılan) ve false değerleridir.
No
maxConcurrent Bağlan ions Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. No

Örnek:

"activities":[
    {
        "name": "CopyFromADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<ADLS Gen2 input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AzureBlobFSSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Eski kopyalama etkinliği havuz modeli

Özellik Açıklama Gerekli
type Kopyalama etkinliği havuzu type özelliği AzureBlobFSSink olarak ayarlanmalıdır. Evet
copyBehavior Kaynak dosya tabanlı bir veri deposundaki dosyalar olduğunda kopyalama davranışını tanımlar.

İzin verilen değerler şunlardır:
- PreserveHierarchy (varsayılan): Hedef klasördeki dosya hiyerarşisini korur. Kaynak dosyanın kaynak klasöre göreli yolu, hedef dosyanın hedef klasöre göreli yolu ile aynıdır.
- FlattenHierarchy: Kaynak klasördeki tüm dosyalar hedef klasörün ilk düzeyindedir. Hedef dosyalar otomatik olarak oluşturulan adlara sahiptir.
- MergeFiles: Kaynak klasördeki tüm dosyaları tek bir dosyayla birleştirir. Dosya adı belirtilirse, birleştirilmiş dosya adı belirtilen addır. Aksi takdirde, otomatik olarak oluşturulan bir dosya adıdır.
No
maxConcurrent Bağlan ions Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. No

Örnek:

"activities":[
    {
        "name": "CopyToADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<ADLS Gen2 output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureBlobFSSink",
                "copyBehavior": "PreserveHierarchy"
            }
        }
    }
]

Değişiklik verilerini yakalama

Azure Data Factory, eşleme veri akışı kaynak dönüşümünde Değişiklik verilerini yakalamayı etkinleştir'i etkinleştirerek yalnızca Azure Data Lake Storage 2. Nesil yeni veya değiştirilmiş dosyaları alabilir. Bu bağlayıcı seçeneğiyle, dönüştürülmüş verileri seçtiğiniz hedef veri kümelerine yüklemeden önce yalnızca yeni veya güncelleştirilmiş dosyaları okuyabilir ve dönüştürmeleri uygulayabilirsiniz.

İşlem hattı ve etkinlik adını değiştirmediğinizden emin olun; böylece denetim noktası, değişiklikleri oradan almak için her zaman son çalıştırmadan kaydedilebilir. İşlem hattı adınızı veya etkinlik adınızı değiştirirseniz denetim noktası sıfırlanır ve sonraki çalıştırmada baştan başlarsınız.

İşlem hattında hata ayıkladığınızda Değişiklik verilerini yakalamayı etkinleştir de çalışır. Hata ayıklama çalıştırması sırasında tarayıcınızı yenilediğinizde denetim noktasının sıfırlanacağını unutmayın. Hata ayıklama çalıştırmasının sonucundan memnun olduktan sonra işlem hattını yayımlayabilir ve tetikleyebilirsiniz. Hata ayıklama çalıştırması tarafından kaydedilen önceki denetim noktasından bağımsız olarak her zaman baştan başlar.

İzleme bölümünde her zaman bir işlem hattını yeniden çalıştırma şansınız olur. Bunu yaptığınızda, değişiklikler her zaman seçili işlem hattı çalıştırmanızdaki denetim noktası kaydından alınmaktadır.

Kopyalama etkinliği tarafından kaynak ve havuz olarak desteklenen veri depolarının listesi için bkz . Desteklenen veri depoları.