Azure Data Factory ve Azure Synapse Analytics'te Excel dosya formatı

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

İpucu

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız Fabric Data Factory ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

Excel dosyalarını bulmak istediğinizde bu makaleyi izleyin. Hizmet hem ".xls" hem de ".xlsx" destekler.

Excel biçimi şu bağlayıcılar için desteklenir: Amazon S3, Amazon S3 Uyumlu Depolama, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage ve SFTP. Kaynak olarak desteklenir ancak havuz olarak desteklenmez.

Not

HTTP kullanılırken ".xls" biçimi desteklenmez.

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için Veri kümeleri makalesine bakın. Bu bölümde, Excel veri kümesi tarafından desteklenen özelliklerin listesi sağlanır.

Özellik Açıklama Gerekli
Tip Veri kümesinin type özelliği Excel olarak ayarlanmalıdır. Yes
konum Dosya konum ayarları. Her dosya tabanlı bağlayıcının kendi konum türü ve altında location desteklenen özellikleri vardır. Yes
sayfaAdı Verileri okumak için Excel çalışma sayfası adı. Şunlardan birini belirtin: sheetName veya sheetIndex
sheetIndex 0'dan başlayarak verileri okumak için Excel çalışma sayfası dizini. Şunlardan birini belirtin: sheetName veya sheetIndex
menzil Seçmeli verileri bulmak için verilen çalışma sayfasındaki hücre aralığı; örneğin:
- Belirtilmemiş: çalışma sayfasının tamamını ilk boş olmayan satırdan ve sütundan tablo olarak okur
- A3: verilen hücreden başlayan bir tabloyu okur, aşağıdaki tüm satırları ve sağdaki tüm sütunları dinamik olarak algılar
- A3:H5: bu sabit aralığı tablo olarak okur
- A3:A3: bu tek hücreyi okur
Hayır
firstRowAsHeader Verilen çalışma sayfasındaki/aralıktaki ilk satırın sütun adları içeren bir üst bilgi satırı olarak işlenip ele alınmayacağını belirtir.
İzin verilen değerler true ve false (varsayılan) değerleridir.
Hayır
nullDeğer Null değerin dize gösterimini belirtir.
Varsayılan değer boş dizedir.
Hayır
sıkıştırma Dosya sıkıştırmayı yapılandırmak için özellikler grubu. Etkinlik yürütme sırasında sıkıştırma veya sıkıştırmanın açılması işlemlerini yapmak istediğinizde bu bölümü yapılandırmanız gerekir. Hayır
Tip
(altında compression)
JSON dosyalarını okumak/yazmak için kullanılan sıkıştırma codec bileşeni.
İzin verilen değerler bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy veya lz4 değerleridir. Varsayılan ayar sıkıştırılmamış haldedir.
Note şu anda kopyalama faaliyeti "snappy" ve "lz4" desteklemez ve eşleme veri akışı "ZipDeflate", "TarGzip" ve "Tar" desteklemez.
Proposed Improvements: Not: ZipDeflate sıkıştırılmış dosyaları açmak ve dosya tabanlı bir hedef veri deposuna yazmak için kopyalama etkinliğini kullandığınızda, dosyalar şu klasöre çıkarılır: .
Hayır
düzey
(altında compression)
Sıkıştırma oranı.
İzin verilen değerler En uygun veya en hızlı değerlerdir.
- En hızlı: Sonuçta elde edilen dosya en iyi şekilde sıkıştırılmıyor olsa bile sıkıştırma işlemi mümkün olan en hızlı şekilde tamamlanmalıdır.
- En uygun: İşlemin tamamlanması daha uzun sürse bile sıkıştırma işlemi en iyi şekilde sıkıştırılmalıdır. Daha fazla bilgi için Bkz . Sıkıştırma Düzeyi konusu.
Hayır

Aşağıda Azure Blob Storage Excel veri kümesi örneği verilmiştir:

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

Copy activity özellikleri

Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için Pipelines makalesine bakın. Bu bölüm, Excel kaynağı tarafından desteklenen özelliklerin listesini sağlar.

Kaynak olarak Excel

Kopyalama etkinliği *kaynak* bölümünde aşağıdaki özellikler desteklenir.

Özellik Açıklama Gerekli
Tip Kopyalama etkinliği kaynağının type özelliği ExcelSource olarak ayarlanmalıdır. Yes
ayarlarıKaydet Veri deposundan veri okuma hakkında bir özellik grubu. Her dosya tabanlı bağlayıcının kendi desteklenen okuma ayarları storeSettings altında bulunur. Hayır
"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Veri akışı haritalama özellikleri

Eşleme veri akışlarında, şu veri depolarında Excel biçimini okuyabilirsiniz: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 ve SFTP. Excel dosyalarına ya Excel veri kümesi kullanarak ya da inline veri kümesi kullanarak işaret edebilirsiniz.

Kaynak özellikleri

Aşağıdaki tabloda bir Excel kaynağı tarafından desteklenen özellikler listelenmektedir. Bu özellikleri Kaynak seçenekleri sekmesinde düzenleyebilirsiniz. Satır içi veri kümesini kullanırken, veri kümesi özellikleri bölümünde açıklanan özelliklerle aynı olan ek dosya ayarlarını görürsünüz.

Veri Akışı Adı Açıklama Gerekli İzin verilen değerler Veri akışı betiği özelliği
Joker karakter yolları Joker karakter yoluyla eşleşen tüm dosyalar işlenir. Veri kümesinde ayarlanan klasörü ve dosya yolunu geçersiz kılar. hayır Dize[] joker karakterler
Bölüm kök yolu Bölümlenmiş dosya verileri için bölümlenmiş klasörleri sütun olarak okumak için bir bölüm kök yolu girebilirsiniz hayır Dize partitionRootPath
Dosya listesi Kaynağınızın işlenmek üzere dosyaları listeleyen bir metin dosyasına işaret edip etmediği hayır true veya false dosyaListesi
Dosya adını depolamak için sütun Kaynak dosya adı ve yolu ile yeni bir sütun oluşturma hayır Dize rowUrlColumn
Tamamlandıktan sonra İşlemden sonra dosyaları silin veya taşıyın. Dosya yolu kapsayıcı kökünden başlar hayır Sil: true veya false
Hareket etmek: ['<from>', '<to>']
purgeFiles
DosyalarıTaşı
Son değişikliğe göre filtrele Dosyaları son değiştirilme zamanlarına göre filtrelemeyi seçin hayır Zaman damgası sonrasındaDeğiştirildi
önce değiştirildi
Dosya bulunamadığında izin ver True ise, hiçbir dosya bulunamazsa hata oluşmaz hayır true veya false ignoreNoFilesFound

Kaynak örneği

Aşağıdaki görüntü, veri kümesi modunu kullanarak veri akışlarını eşlemede Excel kaynak yapılandırması örneğidir.

Excel kaynağı

İlişkili veri akışı betiği:

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

Satır içi veri kümesi kullanıyorsanız eşleme veri akışında aşağıdaki kaynak seçeneklerini görürsünüz.

Excel kaynak satır içi veri kümesi

İlişkili veri akışı betiği:

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

Not

Eşleme veri akışı korumalı Excel dosyalarını okumayı desteklemez çünkü bu dosyalar gizlilik bildirimleri içerebilir veya içeriklerine erişimi sınırlayan belirli erişim kısıtlamaları uygulayabilir.

Çok büyük Excel dosyalarını işleme

Excel bağlayıcısı, Copy activity için akış okumayı desteklemez ve verilerin okunabilmesi için dosyanın tamamını belleğe yüklemesi gerekir. Şemayı içeri aktarmak, verileri önizlemek veya Excel veri kümesini yenilemek için verilerin http isteği zaman aşımından (100'ler) önce döndürülmelidir. Büyük Excel dosyaları için bu işlemler bu zaman çerçevesi içinde bitmeyebilir ve zaman aşımı hatasına neden olabilir. Büyük Excel dosyalarını (>100 MB) başka bir veri deposuna taşımak istiyorsanız, bu sınırlamayı geçici olarak çözmek için aşağıdaki seçeneklerden birini kullanabilirsiniz:

  • Yerel barındırılan tümleştirme çalışma zamanını (SHIR) kullanın, ardından büyük Excel dosyasını SHIR ile başka bir veri deposuna taşımak için Kopyalama etkinliğini kullanın.
  • Büyük Excel dosyasını birkaç küçük dosyaya bölün, ardından dosyaları içeren klasörü taşımak için Copy activity kullanın.
  • Büyük Excel dosyasını başka bir veri deposuna taşımak için bir veri akışı etkinliği kullanın. Veri akışı, Excel için okuma akışını destekler ve büyük dosyaları hızla taşıyabilir/aktarabilir.
  • Büyük Excel dosyasını el ile CSV biçimine dönüştürün, ardından dosyayı taşımak için bir Copy activity kullanın.