Azure Data Factory ve Synapse Analytics'te Avro biçimi

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

İpucu

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız data factory Fabric ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

Avro dosyalarını ayrıştırmak veya verileri Avro biçiminde yazmak istediğinizde bu makaleyi izleyin.

Avro biçimi şu bağlayıcılar için desteklenir: Amazon S3, Amazon S3 Uyumlu Depolama, Azure Blob, 1. Nesil Azure Data Lake Storage, Azure Data Lake Storage 2. Nesil, Azure Dosyalar, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage ve SFTP.

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için Veri kümeleri makalesine bakın. Bu bölümde Avro veri kümesi tarafından desteklenen özelliklerin listesi sağlanır.

Özellik Açıklama Gerekli
Tür Veri kümesinin tür özelliği Avro olarak ayarlanmalıdır. Yes
konum Dosya konum ayarları. Her dosya tabanlı bağlayıcının kendi konum türü ve altında locationdesteklenen özellikleri vardır. Bağlayıcı makalesi -> Veri kümesi özellikleri bölümündeki ayrıntılara bakın. Yes
avroCompressionCodec Avro dosyalarına yazarken kullanılacak sıkıştırma codec bileşeni. Avro dosyalarından okurken, hizmet dosya meta verilerine göre sıkıştırma codec'ini otomatik olarak belirler.
Desteklenen türler şunlardır: "none" (varsayılan), "deflate", "snappy". Şu anda Kopyalama etkinliği okuma/yazma Avro dosyalarında Snappy'nin desteklenmediği unutmayın.
Hayır

Not

Avro dosyaları için sütun adında boşluk desteklenmez.

Aşağıda Azure Blob Depolama'de Avro veri kümesi örneği verilmiştir:

{
    "name": "AvroDataset",
    "properties": {
        "type": "Avro",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "avroCompressionCodec": "snappy"
        }
    }
}

Kopyalama etkinliği özellikleri

Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için İşlem hatları makalesine bakın. Bu bölümde Avro kaynağı ve havuzu tarafından desteklenen özelliklerin listesi sağlanır.

Kaynak olarak Avro

Kopyalama etkinliği *kaynak* bölümünde aşağıdaki özellikler desteklenir.

Özellik Açıklama Gerekli
Tür Kopyalama etkinliği kaynağının type özelliği AvroSource olarak ayarlanmalıdır. Yes
storeSettings Veri deposundan veri okuma hakkında bir özellik grubu. Her dosya tabanlı bağlayıcının altında storeSettingskendi desteklenen okuma ayarları vardır. Ekleyici makalesi -> Kopyalama etkinliği properties section ayrıntıları görüntüleyin. Hayır

Havuz olarak Avro

Kopyalama etkinliği *havuz* bölümünde aşağıdaki özellikler desteklenir.

Özellik Açıklama Gerekli
Tür Kopyalama etkinliği kaynağının tür özelliği AvroSink olarak ayarlanmalıdır. Yes
formatSettings Bir özellik grubu. Aşağıdaki Avro yazma ayarları tablosuna bakın. Hayır
storeSettings Veri deposuna veri yazma hakkında bir özellik grubu. Her dosya tabanlı bağlayıcının altında storeSettingskendi desteklenen yazma ayarları vardır. Ekleyici makalesi -> Kopyalama etkinliği properties section ayrıntıları görüntüleyin. Hayır

altında desteklenen formatSettings:

Özellik Açıklama Gerekli
Tür formatSettings türü AvroWriteSettings olarak ayarlanmalıdır. Yes
maxRowsPerFile Bir klasöre veri yazarken, birden çok dosyaya yazmayı ve dosya başına en fazla satırı belirtmeyi seçebilirsiniz. Hayır
fileNamePrefix Yapılandırıldığında maxRowsPerFile geçerlidir.
Birden çok dosyaya veri yazarken dosya adı ön ekini belirtin; bunun sonucunda şu desen elde edilir: <fileNamePrefix>_00000.<fileExtension>. Belirtilmezse, dosya adı ön eki otomatik olarak oluşturulur. Bu özellik, kaynak dosya tabanlı depo veya bölüm seçeneği etkin veri deposu olduğunda geçerli değildir.
Hayır

Eşleme veri akışı özellikleri

Eşleme veri akışlarında, şu veri depolarında avro biçiminde okuyup yazabilirsiniz: Azure Blob Depolama, 1. Nesil Azure Data Lake Storage, Azure Data Lake Storage 2. Nesil ve SFTP ve Amazon S3 biçiminde avro biçimini okuyabilirsiniz.

Kaynak özellikleri

Aşağıdaki tabloda bir avro kaynağı tarafından desteklenen özellikler listelenmektedir. Bu özellikleri Kaynak seçenekleri sekmesinde düzenleyebilirsiniz.

Veri Akışı Adı Açıklama Gerekli İzin verilen değerler Veri akışı betiği özelliği
Joker karakter yolları Joker karakter yoluyla eşleşen tüm dosyalar işlenir. Veri kümesinde ayarlanan klasörü ve dosya yolunu geçersiz kılar. hayır Dize[] joker karakterler
Bölüm kök yolu Bölümlenmiş dosya verileri için bölümlenmiş klasörleri sütun olarak okumak için bir bölüm kök yolu girebilirsiniz hayır String partitionRootPath
Dosya listesi Kaynağınızın işlenmek üzere dosyaları listeleyen bir metin dosyasına işaret edip etmediği hayır true veya false fileList
Dosya adını depolamak için sütun Kaynak dosya adı ve yolu ile yeni bir sütun oluşturma hayır String rowUrlColumn
Tamamlandıktan sonra İşlemden sonra dosyaları silin veya taşıyın. Dosya yolu kapsayıcı kökünden başlar hayır Sil: true veya false
Hareket etmek: ['<from>', '<to>']
purgeFiles
moveFiles
Son değiştirme ölçütüne göre filtrele Dosyaları son değiştirilme zamanlarına göre filtrelemeyi seçin hayır Zaman damgası modifiedAfter
modifiedBefore
Dosya bulunamadığında izin ver True ise, hiçbir dosya bulunamazsa hata oluşmaz hayır true veya false ignoreNoFilesFound

Havuz özellikleri

Aşağıdaki tabloda avro havuzu tarafından desteklenen özellikler listelenmektedir. Bu özellikleri Ayarlar sekmesinde düzenleyebilirsiniz.

Veri Akışı Adı Açıklama Gerekli İzin verilen değerler Veri akışı betiği özelliği
Klasörü temizleme Hedef klasör yazmadan önce temizlenirse hayır true veya false truncate
Dosya adı seçeneği Yazılan verilerin adlandırma biçimi. Varsayılan olarak, bölüm başına bir dosya biçimindedir part-#####-tid-<guid> hayır Desen: Dize
Bölüm başına: Dize[]
Sütunda veri olarak: Dize
Tek bir dosyaya çıkış: ['<fileName>']
filePattern
partitionFileNames
rowUrlColumn
partitionFileNames
Tümünü alıntıla Tüm değerleri tırnak içine alma hayır true veya false quoteAll

Veri türü desteği

Kopyalama etkinliği

Avro karmaşık veri türleri Kopyalama Etkinliğinde desteklenmez (kayıtlar, numaralandırmalar, diziler, haritalar, birleşimler ve sabit).

Veri akışları

Veri akışlarında Avro dosyalarıyla çalışırken karmaşık veri türlerini okuyabilir ve yazabilirsiniz, ancak önce veri kümesinden fiziksel şemayı temizlediğinizden emin olun. Veri akışlarında mantıksal projeksiyonunuzu ayarlayabilir ve karmaşık yapılar olan sütunları türetebilir, ardından bu alanları bir Avro dosyasıyla otomatik olarak eşleyebilirsiniz.