Aracılığıyla paylaş


Azure Data Factory veya Azure Synapse Analytics kullanarak Amazon Basit Depolama Hizmeti'nde verileri kopyalama ve dönüştürme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu makalede, Amazon Simple Storage Service'ten (Amazon S3) veri kopyalamak için Kopyalama Etkinliği'nin nasıl kullanılacağı ve Amazon S3'teki verileri dönüştürmek için Veri Akışı nasıl kullanılacağı açıklanmıştır. Daha fazla bilgi edinmek için Azure Data Factory ve Synapse Analytics'e yönelik giriş makalelerini okuyun.

İpucu

Amazon S3'ten Azure Depolama'ya veri geçişi senaryosu hakkında daha fazla bilgi edinmek için bkz . Amazon S3'ten Azure Depolama'ya veri geçirme.

Desteklenen özellikler

Bu Amazon S3 bağlayıcısı aşağıdaki özellikler için desteklenir:

Desteklenen özellikler IR
Kopyalama etkinliği (kaynak/-) (1) (2)
Eşleme veri akışı (kaynak/havuz) (1)
Arama etkinliği (1) (2)
GetMetadata etkinliği (1) (2)
Silme etkinliği (1) (2)

(1) Azure tümleştirme çalışma zamanı (2) Şirket içinde barındırılan tümleştirme çalışma zamanı

Özellikle, bu Amazon S3 bağlayıcısı dosyaları olduğu gibi kopyalamayı veya desteklenen dosya biçimleri ve sıkıştırma codec bileşenleriyle ayrıştırmayı destekler. Kopyalama sırasında dosya meta verilerini korumayı da seçebilirsiniz. Bağlayıcı, S3'e yönelik isteklerin kimliğini doğrulamak için AWS signature Version 4'i kullanır.

İpucu

S3 uyumlu herhangi bir depolama sağlayıcısından veri kopyalamak istiyorsanız bkz. Amazon S3 Uyumlu Depolama.

Gerekli izinler

Amazon S3'ten veri kopyalamak için Amazon S3 nesne işlemleri için size şu izinlerin verildiğinden emin olun: s3:GetObject ve s3:GetObjectVersion.

Yazmak için Data Factory kullanıcı arabirimini kullanırsanız, bağlı hizmete bağlantıyı test etme ve s3:ListBucket/s3:GetBucketLocation kökten göz atma gibi işlemler için ek s3:ListAllMyBuckets ve izinler gerekir. Bu izinleri vermek istemiyorsanız, kullanıcı arabiriminden "Dosya yoluna bağlantıyı test et" veya "Belirtilen yoldan gözat" seçeneklerini seçebilirsiniz.

Amazon S3 izinlerinin tam listesi için bkz . AWS sitesindeki bir İlkede İzinleri Belirtme.

Başlarken

İşlem hattıyla Kopyalama etkinliği gerçekleştirmek için aşağıdaki araçlardan veya SDK'lardan birini kullanabilirsiniz:

Kullanıcı arabirimini kullanarak Amazon Simple Storage Service (S3) bağlı hizmeti oluşturma

Azure portalı kullanıcı arabiriminde bir Amazon S3 bağlı hizmeti oluşturmak için aşağıdaki adımları kullanın.

  1. Azure Data Factory veya Synapse çalışma alanınızda Yönet sekmesine göz atın ve Bağlı Hizmetler'i seçin, ardından Yeni'ye tıklayın:

  2. Amazon için arama yapın ve Amazon S3 bağlayıcısını seçin.

    Amazon S3 bağlayıcısının ekran görüntüsü.

  3. Hizmet ayrıntılarını yapılandırın, bağlantıyı test edin ve yeni bağlı hizmeti oluşturun.

    Amazon S3 bağlı hizmetinin yapılandırmasının ekran görüntüsü.

Bağlayıcı yapılandırma ayrıntıları

Aşağıdaki bölümlerde, Amazon S3'e özgü Data Factory varlıklarını tanımlamak için kullanılan özelliklerle ilgili ayrıntılar sağlanır.

Bağlı hizmet özellikleri

Amazon S3 bağlı hizmeti için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
Tür type özelliği AmazonS3 olarak ayarlanmalıdır. Yes
authenticationType Amazon S3'e bağlanmak için kullanılan kimlik doğrulama türünü belirtin. AWS Kimlik ve Erişim Yönetimi (IAM) hesabı veya geçici güvenlik kimlik bilgileri için erişim anahtarlarını kullanmayı seçebilirsiniz.
İzin verilen değerler şunlardır: AccessKey (varsayılan) ve TemporarySecurityCredentials.
Hayır
accessKeyId Gizli dizi erişim anahtarının kimliği. Yes
secretAccessKey Gizli erişim anahtarının kendisi. Güvenli bir şekilde depolamak için bu alanı SecureString olarak işaretleyin veya Azure Key Vault'ta depolanan bir gizli diziye başvurun. Yes
sessionToken Geçici güvenlik kimlik bilgileri kimlik doğrulaması kullanılırken geçerlidir. AWS'den geçici güvenlik kimlik bilgileri isteme hakkında bilgi edinin.
Not AWS geçici kimlik bilgilerinin süresi ayarlara göre 15 dakika ile 36 saat arasında dolar. Etkinlik yürütülürken, özellikle de işletimselleştirilmiş iş yükünde kimlik bilgilerinizin geçerli olduğundan emin olun. Örneğin, kimlik bilgilerinizi düzenli aralıklarla yenileyebilir ve Azure Key Vault'ta depolayabilirsiniz.
Güvenli bir şekilde depolamak için bu alanı SecureString olarak işaretleyin veya Azure Key Vault'ta depolanan bir gizli diziye başvurun.
Hayır
serviceUrl Özel S3 uç noktasını https://<service url>belirtin.
Yalnızca farklı bir hizmet uç noktası denemek veya https ile http arasında geçiş yapmak istiyorsanız değiştirin.
Hayır
connectVia Veri deposuna bağlanmak için kullanılacak tümleştirme çalışma zamanı . Azure tümleştirme çalışma zamanını veya şirket içinde barındırılan tümleştirme çalışma zamanını (veri deponuz özel bir ağdaysa) kullanabilirsiniz. Bu özellik belirtilmezse, hizmet varsayılan Azure tümleştirme çalışma zamanını kullanır. Hayır

Örnek: erişim anahtarı kimlik doğrulaması kullanma

{
    "name": "AmazonS3LinkedService",
    "properties": {
        "type": "AmazonS3",
        "typeProperties": {
            "accessKeyId": "<access key id>",
            "secretAccessKey": {
                "type": "SecureString",
                "value": "<secret access key>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Örnek: geçici güvenlik kimlik bilgisi kimlik doğrulaması kullanma

{
    "name": "AmazonS3LinkedService",
    "properties": {
        "type": "AmazonS3",
        "typeProperties": {
            "authenticationType": "TemporarySecurityCredentials",
            "accessKeyId": "<access key id>",
            "secretAccessKey": {
                "type": "SecureString",
                "value": "<secret access key>"
            },
            "sessionToken": {
                "type": "SecureString",
                "value": "<session token>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için Veri kümeleri makalesine bakın.

Azure Data Factory aşağıdaki dosya biçimlerini destekler. Biçim tabanlı ayarlar için her makaleye bakın.

Aşağıdaki özellikler, biçim tabanlı veri kümesindeki ayarlar altında location Amazon S3 için desteklenir:

Özellik Açıklama Gerekli
Tür Bir veri kümesinde altındaki location type özelliği AmazonS3Location olarak ayarlanmalıdır. Yes
bucketName S3 demet adı. Yes
folderPath Verilen demetin altındaki klasörün yolu. Klasörü filtrelemek için joker karakter kullanmak istiyorsanız, bu ayarı atlayın ve etkinlik kaynağı ayarlarında bunu belirtin. Hayır
fileName Verilen demet ve klasör yolunun altındaki dosya adı. Dosyaları filtrelemek için joker karakter kullanmak istiyorsanız, bu ayarı atlayın ve etkinlik kaynağı ayarlarında bunu belirtin. Hayır
sürüm S3 sürümü oluşturma etkinse S3 nesnesinin sürümü. Belirtilmezse en son sürüm getirilir. Hayır

Örnek:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Amazon S3 linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AmazonS3Location",
                "bucketName": "bucketname",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Kopyalama etkinliğinin özellikleri

Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için İşlem hatları makalesine bakın. Bu bölümde Amazon S3 kaynağının desteklediği özelliklerin listesi sağlanır.

Kaynak türü olarak Amazon S3

Azure Data Factory aşağıdaki dosya biçimlerini destekler. Biçim tabanlı ayarlar için her makaleye bakın.

Amazon S3 için aşağıdaki özellikler, biçim tabanlı kopyalama kaynağındaki ayarlar altında storeSettings desteklenir:

Özellik Açıklama Gerekli
Tür altındaki storeSettings type özelliği AmazonS3ReadSettings olarak ayarlanmalıdır. Yes
Kopyalanacak dosyaları bulun:
SEÇENEK 1: statik yol
Veri kümesinde belirtilen demetten veya klasörden/dosya yolundan kopyalayın. Bir demet veya klasördeki tüm dosyaları kopyalamak istiyorsanız, ayrıca olarak *belirtinwildcardFileName.
SEÇENEK 2: S3 ön eki
-önek
Kaynak S3 dosyalarını filtrelemek için bir veri kümesinde yapılandırılan demetin altındaki S3 anahtar adının ön eki. Adları ile bucket_in_dataset/this_prefix başlayan S3 anahtarları seçilir. S3'ün hizmet tarafı filtresini kullanır ve bu da joker karakter filtresinden daha iyi performans sağlar.

Ön ek kullandığınızda ve koruma hiyerarşisi ile dosya tabanlı havuza kopyalamayı seçtiğinizde, ön ekteki son "/" öğesinin korunacağı alt yolu not edin. Örneğin, kaynağınız bucket/folder/subfolder/file.txtvar ve ön eki olarak folder/subyapılandırdığınızda, korunan dosya yolu olur subfolder/file.txt.
Hayır
SEÇENEK 3: joker karakter
- wildcardFolderPath
Kaynak klasörleri filtrelemek için bir veri kümesinde yapılandırılmış verilen demetin altında joker karakterler içeren klasör yolu.
İzin verilen joker karakterler şunlardır: * (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir). Klasör adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış için kullanın ^ .
Klasör ve dosya filtresi örnekleri'ndeki diğer örneklere bakın.
Hayır
SEÇENEK 3: joker karakter
- wildcardFileName
Kaynak dosyaları filtrelemek için verilen demet ve klasör yolu (veya joker klasör yolu) altında joker karakterler içeren dosya adı.
İzin verilen joker karakterler şunlardır: * (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir). Dosya adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış yapmak için kullanın ^ . Klasör ve dosya filtresi örnekleri'ndeki diğer örneklere bakın.
Yes
OPTION 4: dosya listesi
- fileListPath
Belirli bir dosya kümesinin kopyalandığını gösterir. Kopyalamak istediğiniz dosyaların listesini içeren bir metin dosyasının üzerine gelin. Bu, veri kümesinde yapılandırılan yolun göreli yolu olan satır başına bir dosyadır.
Bu seçeneği kullanırken veri kümesinde bir dosya adı belirtmeyin. Dosya listesi örnekleri'ndeki diğer örneklere bakın.
Hayır
Ek ayarlar:
Özyinelemeli Verilerin alt klasörlerden veya yalnızca belirtilen klasörden özyinelemeli olarak okunup okunmadığını gösterir. Özyineleme true olarak ayarlandığında ve havuz dosya tabanlı bir depo olduğunda, havuza boş bir klasör veya alt klasör kopyalanmadı veya oluşturulmadı.
İzin verilen değerler true (varsayılan) ve false değerleridir.
Yapılandırdığınızda fileListPathbu özellik geçerli değildir.
Hayır
deleteFilesAfterCompletion hedef depoya başarıyla taşındıktan sonra ikili dosyaların kaynak depodan silinip silinmeyeceğini gösterir. Dosya silme işlemi dosya başınadır, bu nedenle kopyalama etkinliği başarısız olduğunda bazı dosyaların hedefe kopyalandığını ve kaynaktan silindiğini, diğerleri ise kaynak depoda kaldığını görürsünüz.
Bu özellik yalnızca ikili dosya kopyalama senaryosunda geçerlidir. Varsayılan değer: false.
Hayır
modifiedDatetimeStart Dosyalar özniteliğine göre filtrelenir: son değiştirme.
Dosyalar, son değiştirme süreleri değerinden büyük veya buna eşit modifiedDatetimeStart ve değerinden modifiedDatetimeEndküçükse seçilir. Saat, "2018-12-01T05:00:00Z" biçiminde bir UTC saat dilimine uygulanır.
Özellikler NULL olabilir; başka bir deyişle veri kümesine hiçbir dosya özniteliği filtresi uygulanmaz. Tarih saat değeri olduğunda modifiedDatetimeStart ancak modifiedDatetimeEnd NULL olduğunda, son değiştirilen özniteliği tarih saat değerinden büyük veya buna eşit olan dosyalar seçilir. Tarih saat değeri olduğunda modifiedDatetimeEnd ancak modifiedDatetimeStart NULL olduğunda, son değiştirilen özniteliği datetime değerinden küçük olan dosyalar seçilir.
Yapılandırdığınızda fileListPathbu özellik geçerli değildir.
Hayır
modifiedDatetimeEnd Yukarıdakiyle aynıdır. Hayır
enablePartitionDiscovery Bölümlenmiş dosyalar için, bölümlerin dosya yolundan ayrıştırılıp ayrıştırılmayacağını belirtin ve bunları ek kaynak sütunlar olarak ekleyin.
İzin verilen değerler false (varsayılan) ve true değerleridir.
Hayır
partitionRootPath Bölüm bulma etkinleştirildiğinde, bölümlenmiş klasörleri veri sütunları olarak okumak için mutlak kök yolu belirtin.

Belirtilmezse, varsayılan olarak,
- Veri kümesinde dosya yolunu veya kaynaktaki dosyaların listesini kullandığınızda, bölüm kök yolu veri kümesinde yapılandırılan yoldur.
- Joker karakter klasör filtresi kullandığınızda, bölüm kök yolu ilk joker karakterden önceki alt yoldur.
- Ön ek kullandığınızda, bölüm kök yolu son "/" yolundan önceki alt yoldur.

Örneğin, veri kümesindeki yolu "root/folder/year=2020/month=08/day=27" olarak yapılandırdığınız varsayılır:
- Bölüm kök yolunu "root/folder/year=2020" olarak belirtirseniz kopyalama etkinliği, dosyaların içindeki sütunlara ek olarak sırasıyla "08" ve "27" değerine sahip iki sütun month day daha oluşturur.
- Bölüm kök yolu belirtilmezse, ek sütun oluşturulmaz.
Hayır
maxConcurrentConnections Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. Hayır

Örnek:

"activities":[
    {
        "name": "CopyFromAmazonS3",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AmazonS3ReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Klasör ve dosya filtresi örnekleri

Bu bölümde, joker karakter filtreleriyle klasör yolunun ve dosya adının elde edilen davranışı açıklanmaktadır.

kova anahtar Özyinelemeli Kaynak klasör yapısı ve filtre sonucu (kalın yazılmış dosyalar alınır)
kova Folder*/* yanlış kova
    KlasörA
        File1.csv
        File2.json
        Alt Klasör1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv
kova Folder*/* true kova
    KlasörA
        File1.csv
        File2.json
        Alt Klasör1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv
kova Folder*/*.csv yanlış kova
    KlasörA
        File1.csv
        File2.json
        Alt Klasör1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv
kova Folder*/*.csv true kova
    KlasörA
        File1.csv
        File2.json
        Alt Klasör1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv

Dosya listesi örnekleri

Bu bölümde, bir Kopyalama etkinliği kaynağında dosya listesi yolu kullanmanın elde edilen davranışı açıklanmaktadır.

Aşağıdaki kaynak klasör yapısına sahip olduğunuzu ve dosyaları kalın yazıyla kopyalamak istediğinizi varsayalım:

Örnek kaynak yapısı FileListToCopy.txt içeriği Yapılandırma
kova
    KlasörA
        File1.csv
        File2.json
        Alt Klasör1
            File3.csv
            File4.json
            File5.csv
    Meta veri
        FileListToCopy.txt
File1.csv
Alt Klasör1/File3.csv
Alt Klasör1/File5.csv
Veri kümesinde:
-Kova: bucket
- Klasör yolu: FolderA

Kopyalama etkinliği kaynağında:
- Dosya listesi yolu: bucket/Metadata/FileListToCopy.txt

Dosya listesi yolu, veri kümesinde yapılandırılan yolun göreli yolunu içeren, her satırda bir dosya olmak üzere kopyalamak istediğiniz dosyaların listesini içeren aynı veri deposundaki bir metin dosyasını gösterir.

Kopyalama sırasında meta verileri koruma

Dosyaları Amazon S3'ten Azure Data Lake Storage 2. Nesil veya Azure Blob depolamaya kopyaladığınızda, verilerle birlikte dosya meta verilerini de korumayı seçebilirsiniz. Meta verileri koruma başlığından daha fazla bilgi edinin.

Eşleme veri akışı özellikleri

Eşleme veri akışlarında verileri dönüştürürken, Amazon S3'teki dosyaları aşağıdaki biçimlerde okuyabilirsiniz:

Biçime özgü ayarlar, bu biçimin belgelerinde bulunur. Daha fazla bilgi için bkz . Eşleme veri akışında kaynak dönüşümü.

Kaynak dönüştürme

Kaynak dönüştürmede, Amazon S3'teki bir kapsayıcıdan, klasörden veya tek tek dosyadan okuyabilirsiniz. Dosyaların okunma şeklini yönetmek için Kaynak seçenekleri sekmesini kullanın.

Kaynak seçeneklerinin ekran görüntüsü.

Joker karakter yolları: Joker karakter deseni kullanmak, hizmete eşleşen her klasör ve dosyada tek bir kaynak dönüşümünde döngü gerçekleştirmesini emredecektir. Bu, tek bir akış içinde birden çok dosyayı işlemenin etkili bir yoludur. Var olan joker karakter deseninizin üzerine geldiğinizde görüntülenen artı işaretiyle birden çok joker karakter eşleştirme deseni ekleyin.

Kaynak kapsayıcınızdan bir desenle eşleşen bir dizi dosya seçin. Veri kümesinde yalnızca bir kapsayıcı belirtilebilir. Bu nedenle joker yolunuzun kök klasörden klasör yolunuzu da içermesi gerekir.

Joker karakter örnekleri:

  • * Herhangi bir karakter kümesini temsil eder.

  • ** Özyinelemeli dizin iç içe yerleştirmeyi temsil eder.

  • ? Bir karakteri değiştirir.

  • [] Köşeli ayraç içindeki bir veya daha fazla karakterle eşleşir.

  • /data/sales/**/*.csv /data/sales altındaki tüm .csv dosyalarını alır.

  • /data/sales/20??/**/ 20. yüzyıldaki tüm dosyaları alır.

  • /data/sales/*/*/*.csv /data/sales altında .csv dosyaları iki düzey alır.

  • /data/sales/2004/*/12/[XY]1?.csv Aralık 2004'te X veya Y ön ekiyle iki basamaklı bir sayıyla başlayan tüm .csv dosyalarını alır.

Bölüm kök yolu: Dosya kaynağınızda bir key=value biçime (örneğin, ) sahip bölümlenmiş klasörleriniz varsa, year=2019bu bölüm klasör ağacının en üst düzeyini veri akışınızın veri akışındaki bir sütun adına atayabilirsiniz.

İlk olarak, bölümlenmiş klasörler olan tüm yolları ve okumak istediğiniz yaprak dosyaları içerecek şekilde bir joker karakter ayarlayın.

Bölüm kaynak dosyası ayarlarının ekran görüntüsü.

Klasör yapısının en üst düzeyini tanımlamak için Bölüm kök yolu ayarını kullanın. Verilerinizin içeriğini bir veri önizlemesi aracılığıyla görüntülediğinizde, hizmetin klasör düzeylerinizin her birinde bulunan çözümlenmiş bölümleri eklediğini görürsünüz.

Bölüm kök yolunun ekran görüntüsü.

Dosya listesi: Bu bir dosya kümesidir. İşlenmek üzere göreli yol dosyalarının listesini içeren bir metin dosyası oluşturun. Bu metin dosyasının üzerine gelin.

Dosya adını depolamak için sütun: Kaynak dosyanın adını verilerinizdeki bir sütunda depolayın. Dosya adı dizesini depolamak için buraya yeni bir sütun adı girin.

Tamamlandıktan sonra: Veri akışı çalıştırıldıktan sonra kaynak dosyayla hiçbir şey yapmayı, kaynak dosyayı silmeyi veya kaynak dosyayı taşımayı seçin. Taşımanın yolları görelidir.

Kaynak dosyaları işleme sonrasında başka bir konuma taşımak için önce dosya işlemi için "Taşı"yı seçin. Ardından "kimden" dizinini ayarlayın. Yolunuz için joker karakter kullanmıyorsanız, "kimden" ayarı kaynak klasörünüzle aynı klasör olacaktır.

Joker karakter içeren bir kaynak yolunuz varsa söz diziminiz şu şekilde görünür:

/data/sales/20??/**/*.csv

"kimden" öğesini şu şekilde belirtebilirsiniz:

/data/sales

Ve "to" öğesini şu şekilde belirtebilirsiniz:

/backup/priorSales

Bu durumda, altında /data/sales kaynağı alınan tüm dosyalar öğesine /backup/priorSalestaşınır.

Not

Dosya işlemleri yalnızca işlem hattındaki Yürütme Veri Akışı etkinliğini kullanan bir işlem hattı çalıştırmasından (işlem hattı hata ayıklama veya yürütme çalıştırması) veri akışını başlattığınızda çalıştırılır. Dosya işlemleri Veri Akışı hata ayıklama modunda çalışmaz.

Son değiştirilmeye göre filtrele: Son değiştirilme zamanlarının tarih aralığını belirterek hangi dosyaları işlediğinizi filtreleyebilirsiniz. Tüm tarih saatleri UTC olarak belirlenir.

Arama etkinliği özellikleri

Özellikler hakkında ayrıntılı bilgi edinmek için Arama etkinliği'ne bakın.

GetMetadata etkinlik özellikleri

Özellikler hakkında ayrıntılı bilgi edinmek için GetMetadata etkinliği'ne bakın.

Etkinlik özelliklerini silme

Özellikler hakkında ayrıntılı bilgi edinmek için Silme etkinliği'ne bakın.

Eski modeller

Not

Aşağıdaki modeller geriye dönük uyumluluk için olduğu gibi hala desteklenmektedir. Daha önce bahsedilen yeni modeli kullanmanızı öneririz. Yazma kullanıcı arabirimi yeni modeli oluşturmaya geçti.

Eski veri kümesi modeli

Özellik Açıklama Gerekli
Tür Veri kümesinin type özelliği AmazonS3Object olarak ayarlanmalıdır. Yes
bucketName S3 demet adı. Joker karakter filtresi desteklenmez. Kopyalama veya Arama etkinliği için Evet, GetMetadata etkinliği için hayır
anahtar Belirtilen demet altındaki S3 nesne anahtarının adı veya joker karakter filtresi. Yalnızca ön ek özelliği belirtilmediğinde geçerlidir.

Joker karakter filtresi hem klasör bölümü hem de dosya adı bölümü için desteklenir. İzin verilen joker karakterler şunlardır: * (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir).
- Örnek 1: "key": "rootfolder/subfolder/*.csv"
- Örnek 2: "key": "rootfolder/subfolder/???20180427.txt"
Klasör ve dosya filtresi örneklerinde daha fazla örne bakın. Gerçek klasörünüzün veya dosya adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış yapmak için kullanın ^ .
Hayır
önek S3 nesne anahtarı için ön ek. Anahtarları bu ön ek ile başlayan nesneler seçilir. Yalnızca anahtar özelliği belirtilmediğinde geçerlidir. Hayır
sürüm S3 sürümü oluşturma etkinse S3 nesnesinin sürümü. Bir sürüm belirtilmezse en son sürüm getirilir. Hayır
modifiedDatetimeStart Dosyalar özniteliğine göre filtrelenir: son değiştirme. Dosyalar, son değiştirme süreleri değerinden büyük veya buna eşit modifiedDatetimeStart ve değerinden modifiedDatetimeEndküçükse seçilir. Saat UTC saat dilimine "2018-12-01T05:00:00Z" biçiminde uygulanır.

Bu ayarın etkinleştirilmesinin, çok büyük miktarlardaki dosyaları filtrelemek istediğinizde veri taşımanın genel performansını etkileyeceğini unutmayın.

Özellikler NULL olabilir; başka bir deyişle veri kümesine hiçbir dosya özniteliği filtresi uygulanmaz. Tarih saat değeri olduğunda modifiedDatetimeStart ancak modifiedDatetimeEnd NULL olduğunda, son değiştirilen özniteliği tarih saat değerinden büyük veya buna eşit olan dosyalar seçilir. Tarih saat değeri olduğunda modifiedDatetimeEnd ancak modifiedDatetimeStart NULL olduğunda, son değiştirilen özniteliği datetime değerinden küçük olan dosyalar seçilir.
Hayır
modifiedDatetimeEnd Dosyalar özniteliğine göre filtrelenir: son değiştirme. Dosyalar, son değiştirme süreleri değerinden büyük veya buna eşit modifiedDatetimeStart ve değerinden modifiedDatetimeEndküçükse seçilir. Saat UTC saat dilimine "2018-12-01T05:00:00Z" biçiminde uygulanır.

Bu ayarın etkinleştirilmesinin, çok büyük miktarlardaki dosyaları filtrelemek istediğinizde veri taşımanın genel performansını etkileyeceğini unutmayın.

Özellikler NULL olabilir; başka bir deyişle veri kümesine hiçbir dosya özniteliği filtresi uygulanmaz. Tarih saat değeri olduğunda modifiedDatetimeStart ancak modifiedDatetimeEnd NULL olduğunda, son değiştirilen özniteliği tarih saat değerinden büyük veya buna eşit olan dosyalar seçilir. Tarih saat değeri olduğunda modifiedDatetimeEnd ancak modifiedDatetimeStart NULL olduğunda, son değiştirilen özniteliği datetime değerinden küçük olan dosyalar seçilir.
Hayır
format Dosyaları dosya tabanlı depolar (ikili kopya) arasında olduğu gibi kopyalamak istiyorsanız, hem giriş hem de çıkış veri kümesi tanımlarında biçim bölümünü atlayın.

Dosyaları belirli bir biçimde ayrıştırmak veya oluşturmak istiyorsanız, şu dosya biçimi türleri desteklenir: TextFormat, JsonFormat, AvroFormat, OrcFormat, ParquetFormat. biçim altındaki type özelliğini bu değerlerden birine ayarlayın. Daha fazla bilgi için Metin biçimi, JSON biçimi, Avro biçimi, Ork biçimi ve Parquet biçimi bölümlerine bakın.
Hayır (yalnızca ikili kopyalama senaryosu için)
sıkıştırma Verilerin sıkıştırma türünü ve düzeyini belirtin. Daha fazla bilgi için bkz . Desteklenen dosya biçimleri ve sıkıştırma codec'leri.
Desteklenen türler GZip, Deflate, BZip2 ve ZipDeflate'tır.
Desteklenen düzeyler En uygun ve en hızlı düzeylerdir.
Hayır

İpucu

Klasör altındaki tüm dosyaları kopyalamak için, klasör bölümü için demet ve ön ek için bucketName belirtin.

Belirli bir ada sahip tek bir dosyayı kopyalamak için klasör bölümü artı dosya adı için demet ve anahtar için bucketName değerini belirtin.

Klasörün altındaki dosyaların bir alt kümesini kopyalamak için klasör bölümü ve joker karakter filtresi için demet ve anahtar için bucketName değerini belirtin.

Örnek: ön ek kullanma

{
    "name": "AmazonS3Dataset",
    "properties": {
        "type": "AmazonS3Object",
        "linkedServiceName": {
            "referenceName": "<Amazon S3 linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "bucketName": "testbucket",
            "prefix": "testFolder/test",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Örnek: anahtar ve sürüm kullanma (isteğe bağlı)

{
    "name": "AmazonS3Dataset",
    "properties": {
        "type": "AmazonS3",
        "linkedServiceName": {
            "referenceName": "<Amazon S3 linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "bucketName": "testbucket",
            "key": "testFolder/testfile.csv.gz",
            "version": "XXXXXXXXXczm0CJajYkHf0_k6LhBmkcL",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Kopyalama etkinliği için eski kaynak model

Özellik Açıklama Gerekli
Tür Kopyalama etkinliği kaynağının type özelliği FileSystemSource olarak ayarlanmalıdır. Yes
Özyinelemeli Verilerin alt klasörlerden veya yalnızca belirtilen klasörden özyinelemeli olarak okunup okunmadığını gösterir. Özyineleme true olarak ayarlandığında ve havuz dosya tabanlı bir depo olduğunda, havuza boş bir klasör veya alt klasör kopyalanmaz veya oluşturulmaz.
İzin verilen değerler true (varsayılan) ve false değerleridir.
Hayır
maxConcurrentConnections Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. Hayır

Örnek:

"activities":[
    {
        "name": "CopyFromAmazonS3",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Amazon S3 input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "FileSystemSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Kopyalama etkinliği kaynak ve havuz olarak desteklediği veri depolarının listesi için bkz. Desteklenen veri depoları.