Aracılığıyla paylaş


Kopyalama etkinliğinde Azure Data Lake Storage 2. Nesil yapılandırma

Bu makalede, veri işlem hattında kopyalama etkinliğini kullanarak verileri Azure Data Lake Storage 2. Nesil'den ve Azure Data Lake Storage 2. Nesil kopyalamak için nasıl kullanılacağı açıklanmıştır.

Desteklenen biçim

Azure Data Lake Storage 2. Nesil aşağıdaki dosya biçimlerini destekler. Biçim tabanlı ayarlar için her makaleye bakın.

Desteklenen yapılandırma

Kopyalama etkinliği altındaki her sekmenin yapılandırması için sırasıyla aşağıdaki bölümlere gidin.

Genel

Genel ayarlar sekmesini yapılandırmak için Genel ayarlar kılavuzuna bakın.

Source

Kopyalama etkinliğinin Kaynak sekmesindeki Azure Data Lake Storage 2. Nesil için aşağıdaki özellikler desteklenir.

Screenshot showing source tab.

Aşağıdaki özellikler gereklidir:

  • Veri deposu türü: Dış'ı seçin.

  • Bağlan: Bağlantı listesinden Azure Data Lake Storage 2. Nesil bir bağlantı seçin. Bağlantı yoksa Yeni'yi seçerek yeni bir Azure Data Lake Storage 2. Nesil bağlantısı oluşturun.

  • Bağlan türü: Azure Data Lake Storage 2. Nesil'ı seçin.

  • Dosya yolu türü: Dosya yolu, Joker karakter dosya yolu veya Dosya listesi'ni dosya yolu türünüz olarak seçebilirsiniz. Bu ayarların her birinin yapılandırması şöyledir:

    • Dosya yolu: Bu türü seçerseniz, veriler belirtilen dosya sisteminden veya daha önce belirtilen klasör/dosya yolundan kopyalanabilir.

    • Joker karakter dosya yolu: Bu türü seçerseniz, Dosya sistemi ve Joker karakter yollarını belirtin.

      • Dosya sistemi: Azure Data Lake Storage 2. Nesil dosya sistemi adı.

      • Joker karakter yolları: Kaynak klasörleri veya dosyaları filtrelemek için belirtilen dosya sistemi altında joker karakterler içeren klasörü veya dosya yolunu belirtin.

        İzin verilen joker karakterler şunlardır: * (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir). Klasör adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış için kullanın ^ . Daha fazla örnek için Klasör ve dosya filtresi örnekleri'ne gidin.

        Screenshot showing wildcard file path.

        • Joker klasör yolu: Kaynak klasörleri filtrelemek için belirtilen dosya sisteminizin altında joker karakterler içeren klasör yolunu belirtin.

        • Joker dosya adı: Kaynak dosyaları filtrelemek için belirtilen dosya sisteminizin + klasör yolunun (veya joker klasör yolunun) altında joker karakterler içeren dosya adını belirtin.

    • Dosya listesi: Belirli bir dosya kümesini kopyalamak istediğinizi gösterir. Kopyalamak istediğiniz dosyaların listesini içeren bir metin dosyasına işaret etmek için Klasör yolunu ve Dosya yolu listesini belirtin. Bu, yolun göreli yolu olan satır başına bir dosyadır. Daha fazla örnek için Dosya listesi örnekleri'ne gidin.

      Screenshot showing path to file list.

      • Klasör yolu: Belirtilen dosya sistemi altındaki bir klasörün yolunu belirtin. Bu gereklidir.

      • Dosya listesinin yolu: Kopyalamak istediğiniz dosyaların listesini içeren metin dosyasının yolunu belirtin.

  • Özyinelemeli olarak: Verilerin alt klasörlerden mi yoksa yalnızca belirtilen klasörden mi özyinelemeli olarak okunacağını belirtin. Özyinelemeli olarak seçildiğinde ve hedef dosya tabanlı bir depo olduğunda, hedefte boş bir klasör veya alt klasör kopyalanıp oluşturulmaz. Bu özellik varsayılan olarak seçilidir ve Dosya listesinin yolunu yapılandırdığınızda uygulanmaz.

  • Dosya biçimi: Açılan listeden uygulanan dosya biçimini seçin. Dosya biçimini yapılandırmak için Ayarlar seçin. Farklı dosya biçimlerinin ayarları için ayrıntılı bilgi için Desteklenen biçimdeki makalelere bakın.

Gelişmiş'in altında aşağıdaki alanları belirtebilirsiniz:

  • Son değiştirme tarihine göre filtrele: Dosyalar, son değiştirme tarihlerine göre filtrelenir. Bu özellik, dosya yolu türünüzü Dosya listesi olarak yapılandırdığınızda geçerli değildir.

    • Başlangıç saati (UTC): Son değiştirme süreleri yapılandırılan saatten büyük veya buna eşitse dosyalar seçilir.

    • Bitiş saati (UTC): Son değiştirme süreleri yapılandırılan saatten kısaysa dosyalar seçilir.

    Başlangıç saati (UTC) tarih saat değerine sahipse ancak Bitiş saati (UTC) NULL olduğunda, son değiştirilen özniteliği tarih saat değerinden büyük veya buna eşit olan dosyaların seçileceği anlamına gelir. Bitiş saati (UTC) tarih saat değerine sahipse ancak Başlangıç saati (UTC) NULL olduğunda, son değiştirilen özniteliği tarih saat değerinden küçük olan dosyaların seçileceği anlamına gelir. Özellikler NULL olabilir; başka bir deyişle verilere hiçbir dosya özniteliği filtresi uygulanmaz.

  • Bölüm bulmayı etkinleştir: Bölümlerin dosya yolundan ayrıştırılıp ayrıştırılmayacağını ve ek kaynak sütunlar olarak eklenip eklenmeyeceğini belirtin. Varsayılan olarak seçili değildir ve ikili dosya biçimini kullandığınızda desteklenmez.

    • Bölüm kök yolu: Bölüm bulma etkinleştirildiğinde, bölümlenmiş klasörleri veri sütunları olarak okumak için mutlak kök yolu belirtin.

      Belirtilmezse, varsayılan olarak,

      • Kaynakta dosya yolu veya dosya listesi kullandığınızda, bölüm kök yolu yapılandırdığınız yoldur.
      • Joker karakter klasör filtresi kullandığınızda, bölüm kök yolu ilk joker karakterden önceki alt yoldur.

      Örneğin, yolu olarak root/folder/year=2020/month=08/day=27yapılandırdığınız varsayılır:

      • Bölüm kök yolunu olarak root/folder/year=2020belirtirseniz kopyalama etkinliği, dosyaların içindeki sütunlara ek olarak sırasıyla "08" ve "27" değerine sahip iki sütun daha oluşturur.
      • Bölüm kök yolu belirtilmezse ek sütun oluşturulmaz.

    Screenshot showing partition discovery.

  • En fazla eşzamanlı bağlantı: Bu özellik, etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırını gösterir. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin.

  • Ek sütunlar: Kaynak dosyaların göreli yolunu veya statik değerini depolamak için ek veri sütunları ekleyin. İfade, ikincisi için desteklenir.

Hedef

Kopyalama etkinliğinin Hedef sekmesindeki Azure Data Lake Storage 2. Nesil için aşağıdaki özellikler desteklenir.

Screenshot showing destination tab.

Aşağıdaki özellikler gereklidir:

  • Veri deposu türü: Dış'ı seçin.
  • Bağlan: Bağlantı listesinden Azure Data Lake Storage 2. Nesil bir bağlantı seçin. Bağlantı yoksa Yeni'yi seçerek yeni bir Azure Data Lake Storage 2. Nesil bağlantısı oluşturun.
  • Bağlan türü: Azure Data Lake Storage 2. Nesil'ı seçin.
  • Dosya yolu: Yolu el ile kopyalamak veya doldurmak istediğiniz dosyayı seçmek için Gözat'ı seçin.
  • Dosya biçimi: Açılan listeden uygulanan dosya biçimini seçin. Dosya biçimini yapılandırmak için Ayarlar seçin. Farklı dosya biçimlerinin ayarları için ayrıntılı bilgi için Desteklenen biçimdeki makalelere bakın.

Gelişmiş'in altında aşağıdaki alanları belirtebilirsiniz:

  • Kopyalama davranışı: Kaynak dosya tabanlı bir veri deposundaki dosyalar olduğunda kopyalama davranışını tanımlar. Açılan listeden bir davranış seçebilirsiniz.

    Screenshot showing copy behavior.

    • Düzleştirme hiyerarşisi: Kaynak klasördeki tüm dosyalar hedef klasörün ilk düzeyindedir. Hedef dosyalar otomatik olarak oluşturulan adlara sahiptir.
    • Dosyaları birleştirme: Kaynak klasördeki tüm dosyaları tek bir dosyayla birleştirir. Dosya adı belirtilirse, birleştirilmiş dosya adı belirtilen addır. Aksi takdirde, otomatik olarak oluşturulan bir dosya adıdır.
    • Hiyerarşiyi koru: Hedef klasördeki dosya hiyerarşisini korur. Kaynak dosyanın kaynak klasöre göreli yolu, hedef dosyanın hedef klasöre göreli yolu ile aynıdır.
  • En fazla eşzamanlı bağlantı: Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin.

  • Blok boyutu (MB): Azure Data Lake Storage 2. Nesil'a veri yazmak için kullanılan blok boyutunu MB cinsinden belirtin. Daha fazla bilgi için bkz . Blok Blobları. İzin verilen değer 4 MB ile 100 MB arasındadır.

    Varsayılan olarak, blok boyutu kaynak deponuzun türüne ve verilerine göre otomatik olarak belirlenir. Azure Data Lake Storage 2. Nesil'a ikili olmayan kopyalama için varsayılan blok boyutu 100 MB'tır ve en fazla 4,75 TB veriye sığar. Verileriniz büyük olmadığında en uygun olmayabilir. Blok boyutu (MB)*50000'in verileri depolamak için yeterince büyük olduğundan emin olurken açıkça bir blok boyutu belirtebilirsiniz; aksi takdirde kopyalama etkinliği çalıştırması başarısız olur.

  • Meta veriler: Hedefe kopyalarken özel meta veriler ayarlayın. Dizinin altındaki metadata her nesne fazladan bir sütunu temsil eder. , name meta veri anahtarı adını tanımlar ve value bu anahtarın veri değerini belirtir. Öznitelikleri koru özelliği kullanılırsa, belirtilen meta veriler kaynak dosya meta verileriyle birlenir/üzerine yazılır.

    İzin verilen veri değerleri şunlardır:

    • $$LASTMODIFIED: Ayrılmış değişken, kaynak dosyaların son değiştirme zamanının depolandığı gösterir. Yalnızca ikili biçimi olan dosya tabanlı bir kaynağa uygulayın.
    • Expression
    • Statik değer

    Screenshot showing metadata.

Eşleme

Eşleme sekmesi yapılandırması için Eşleme sekmesinin altında Eşlemelerinizi yapılandırma bölümüne gidin. Dosya biçiminiz olarak İkili'yi seçerseniz eşleme desteklenmez.

Ayarlar

Ayarlar sekmesi yapılandırması için Ayarlar sekmesinin altında Diğer ayarlarınızı yapılandırma'ya gidin.

Tablo özeti

Aşağıdaki tablolar Azure Data Lake Storage 2. Nesil kopyalama etkinliği hakkında daha fazla bilgi içerir.

Kaynak bilgileri

Veri Akışı Adı Açıklama Değer Zorunlu JSON betik özelliği
Veri deposu türü Veri deposu türünüz. Harici Yes /
Bağlantı Kaynak veri deposuyla bağlantınız. <Azure Data Lake Storage 2. Nesil bağlantınız> Yes bağlantı
Bağlantı türü Bağlantı türünüz. Azure Data Lake Storage 2. Nesil'ı seçin. Azure Data Lake Storage 2. Nesil Yes /
Dosya yolu türü Kullanmak istediğiniz dosya yolu türü. • Dosya yolu
• Joker karakter klasör yolu, Joker karakter dosya adı
•Dosya listesi
Yes • folderPath, fileName, fileSystem
• wildcardFolderPath, wildcardFileName, fileSystem
• folderPath, fileName, fileListPath
Yinelemeli olarak Verilerin alt klasörlerden veya yalnızca belirtilen klasörden özyinelemeli olarak okunup okunmadığını gösterir. Özyinelemeli olarak seçildiğinde ve hedef dosya tabanlı bir depo olduğunda, hedefte boş bir klasör veya alt klasör kopyalanıp oluşturulmaz. Dosya listesinin yolunu yapılandırdığınızda bu özellik geçerli değildir. seçili (varsayılan) veya seçimini kaldır Hayır Özyinelemeli
Son değiştirme ölçütüne göre filtrele [Başlangıç saati, Bitiş saati) aralığında son değiştirme zamanına sahip dosyalar, daha fazla işlem için filtrelenir. Saat UTC saat dilimine biçiminde yyyy-mm-ddThh:mm:ss.fffZuygulanır. Bu özellikler atlanabilir, başka bir deyişle hiçbir dosya özniteliği filtresi uygulanmaz. Bu özellik, dosya yolu türünüzü Dosya listesi olarak yapılandırdığınızda geçerli değildir. datetime Hayır modifiedDatetimeStart
modifiedDatetimeEnd
Bölüm bulmayı etkinleştirme Bölümlerin dosya yolundan ayrıştırılıp ayrıştırılmayacağını ve ek kaynak sütunlar olarak eklenip eklenmeyeceğini gösterir. seçili veya seçilmemiş (varsayılan) Hayır enablePartitionDiscovery:
true veya false (varsayılan)
Bölüm kök yolu Bölüm bulma etkinleştirildiğinde, bölümlenmiş klasörleri veri sütunları olarak okumak için mutlak kök yolu belirtin. < bölüm kök yolunuz > Hayır partitionRootPath
En fazla eşzamanlı bağlantı Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. <en fazla eşzamanlı bağlantı> Hayır maxConcurrent Bağlan ions
Ek sütunlar Kaynak dosyaların göreli yolunu veya statik değerini depolamak için ek veri sütunları ekleyin. İfade, ikincisi için desteklenir. • Adı
•Değer
Hayır additionalColumns:
•Adı
•Değer

Hedef bilgileri

Veri Akışı Adı Açıklama Değer Zorunlu JSON betik özelliği
Veri deposu türü Veri deposu türünüz. Harici Yes /
Bağlantı Hedef veri deposuna bağlantınız. <Azure Data Lake Storage 2. Nesil bağlantınız> Yes bağlantı
Bağlantı türü Bağlantı türünüz. Azure Data Lake Storage 2. Nesil'ı seçin. Azure Data Lake Storage 2. Nesil Yes /
Dosya yolu Hedef verilerinizin dosya yolu. < dosya yolunuz > Yes folderPath, fileName, fileSystem
Kopyalama davranışı Kaynak dosya tabanlı bir veri deposundaki dosyalar olduğunda kopyalama davranışını tanımlar. • Düzleştirme hiyerarşisi
• Dosyaları birleştirme
• Hiyerarşiyi koru
Hayır copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
En fazla eşzamanlı bağlantı Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. <en fazla eşzamanlı bağlantı> Hayır maxConcurrent Bağlan ions
Blok boyutu (MB) Azure Data Lake Storage 2. Nesil veri yazarken blok boyutunu MB olarak belirtin. İzin verilen değer 4 MB ile 100 MB arasındadır. <blok boyutu> Hayır blockSizeInMB
Meta veriler Hedefe kopyalandığında özel meta veriler ayarlayın. $$LASTMODIFIED
•Ifa -de
• Statik değer
Hayır meta veriler