Az Excel fájlformátum az Azure Data Factory-ben és az Azure Synapse Analytics-ben

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Kövesse ezt a cikket, ha elemezni szeretné a Excel fájlokat. A szolgáltatás a ".xls" és a ".xlsx" is támogatja.

Excel formátumot a következő összekötők támogatják: Amazon S3, Amazon S3 kompatibilis tároló, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Felhőtároló és SFTP. Forrásként támogatott, de nem célként.

Megjegyzés

A ".xls" formátum nem támogatott a HTTP használata során.

Adathalmaz tulajdonságai

Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adathalmazok című cikkben találja. Ez a szakasz a Excel adatkészlet által támogatott tulajdonságok listáját tartalmazza.

Tulajdonság Leírás Kötelező
típus Az adathalmaz típustulajdonságának Excel kell lennie. Igen
hely A fájl(ok) helybeállításai. Minden fájl alapú összekötő saját helytípussal és támogatott tulajdonságokkal rendelkezik a(z) location alatt. Igen
sheetName A Excel munkalap neve az adatok olvasásához. Adja meg sheetName vagy sheetIndex
sheetIndex A Excel munkalap indexe az adatok olvasásához 0-tól kezdve. Adja meg sheetName vagy sheetIndex
tartomány Az adott munkalap cellatartománya a szelektív adatok megkereséséhez, például:
- Nincs megadva: az egész munkalapot táblázatként olvassa be az első nem üres sorból és oszlopból
- A3: egy táblázatot olvas az adott cellától kezdve, dinamikusan észleli az összes alábbi sort és az összes oszlopot a jobb oldalon
- A3:H5: ezt a rögzített tartományt táblázatként olvassa be
- A3:A3: beolvassa ezt az egyetlen cellát
Nem
firstRowAsHeader Megadja, hogy az adott munkalap/tartomány első sorát oszlopnevekkel rendelkező fejlécsorként kell-e kezelni.
Az engedélyezett értékek igazak és hamisak (alapértelmezett).
Nem
null érték A null érték sztring-ábrázolását adja meg.
Az alapértelmezett érték üres karakterlánc.
Nem
tömörítés A fájltömörítés konfigurálásához használt tulajdonságok csoportja. Konfigurálja ezt a szakaszt, ha a tevékenység végrehajtása során tömörítést vagy kicsomagolást szeretne végezni. Nem
típus
(alatt compression)
A JSON-fájlok olvasásához/írásához használt tömörítési kodek.
Az engedélyezett értékek a következők: bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy vagy lz4. Az alapértelmezett beállítás nincs tömörítve.
Note jelenleg Copy activity nem támogatja a "snappy" és az "lz4" elemet, és a leképezési adatfolyam nem támogatja a "ZipDeflate", a "TarGzip" és a "Tar" elemet.
Vegye figyelembe, hogy a ZipDeflate fájl(ok) kibontásához és a fájlalapú fogadóadattárba való íráshoz másolási tevékenység esetén a fájlok a következő mappába lesznek kinyerve: <path specified in dataset>/<folder named as source zip file>/.
Nem
szint
(alatt compression)
A tömörítési arány.
Az engedélyezett értékek Optimális vagy Leggyorsabb.
- Leggyorsabb: A tömörítési műveletnek a lehető leggyorsabban végre kell hajtania, még akkor is, ha az eredményül kapott fájl nincs optimálisan tömörítve.
- Optimális: A tömörítési műveletet optimálisan kell tömöríteni, még akkor is, ha a művelet végrehajtása hosszabb időt vesz igénybe. További információ: Tömörítési szint témakör.
Nem

Az alábbiakban egy Excel-adatkészlet példája található az Azure Blob Storage-en:

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

Copy activity tulajdonságok

A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok című cikkben találja. Ez a szakasz a Excel forrás által támogatott tulajdonságok listáját tartalmazza.

Excel forrásként

A másolási tevékenység *forrás* szakasza az alábbi tulajdonságokat támogatja.

Tulajdonság Leírás Kötelező
típus A másolási tevékenység forrásának típustulajdonságát ExcelSource-ra kell állítani. Igen
tárolási beállítások Az adatok adattárból való olvasására vonatkozó tulajdonságok csoportja. Minden fájlalapú összekötő saját támogatott olvasási beállításokkal rendelkezik a következő alatt storeSettings: . Nem
"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Adatfolyam-tulajdonságok leképezése

Az adatfolyamok leképezése során Excel formátumot a következő adattárakban olvashatja el: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 és SFTP. Az Excel fájlok megadhatók vagy Excel adatkészlet, vagy inline adatkészlet használatával.

Forrástulajdonságok

Az alábbi táblázat a Excel forrás által támogatott tulajdonságokat sorolja fel. Ezeket a tulajdonságokat a Forrás beállításai lapon szerkesztheti. Beágyazott adatkészlet használata esetén további fájlbeállítások jelennek meg, amelyek megegyeznek az adathalmaz tulajdonságai szakaszban leírt tulajdonságokkal.

Név Leírás Kötelező Megengedett értékek Adatfolyam-szkript tulajdonság
Helyettesítő kártya elérési útjai A program minden olyan fájlt feldolgoz, amely megfelel a helyettesítő karakter elérési útjának. Felülbírálja az adathalmazban beállított mappát és fájl elérési útját. nem Karakterlánc[] helyettesítő karakterekPaths
Partíció gyökérútvonala A particionált fájladatok esetében megadhat egy partíció gyökérútvonalát, hogy a particionált mappákat oszlopként olvassa be nem Sztring partitionRootPath
Fájlok listája Azt jelzi, hogy a forrás olyan szövegfájlra mutat-e, amely felsorolja a feldolgozandó fájlokat nem true vagy false fájllista
A fájlnév tárolására használt oszlop Új oszlop létrehozása a forrásfájl nevével és elérési útjával nem Sztring rowUrlColumn
A befejezés után A feldolgozás után törölje vagy helyezze át a fájlokat. A fájl elérési útja a tároló gyökerétől indul nem Törlés: true vagy false
Áthelyezés: ['<from>', '<to>']
fájlok törlése
fájlok áthelyezése
Szűrés módosítás dátuma szerint Fájlok szűrésének kiválasztása az utolsó módosításuk időpontjától függően nem Időbélyegző módosítás után
módosítvaElőtt
Nem található fájl engedélyezése Ha igaz, nem jelenik meg hiba, ha nem található fájl nem true vagy false ignoreNoFilesFound (nincs fájl találat figyelmen kívül hagyása)

Példa forrásra

Az alábbi képen egy Excel forráskonfiguráció látható az adatfolyamok adathalmaz-módban való leképezésében.

Excel forrás

A társított adatfolyam-szkript a következő:

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

Ha beágyazott adatkészletet használ, a következő forráslehetőségek láthatók az adatfolyam leképezésében.

Excel beágyazott adatkészlet

A társított adatfolyam-szkript a következő:

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

Megjegyzés

A leképezési adatfolyam nem támogatja a védett Excel fájlok olvasását, mivel ezek a fájlok tartalmazhatnak bizalmassági értesítéseket, vagy olyan hozzáférési korlátozásokat kényszeríthetnek ki, amelyek korlátozzák a tartalomhoz való hozzáférést.

Nagyon nagy Excel fájlok kezelése

A Excel-összekötő nem támogatja a streamelési olvasást a Copy activity számára, és az adatok beolvasása előtt be kell töltenie a teljes fájlt a memóriába. Séma, előzetes verziójú adatok importálásához vagy Excel adatkészlet frissítéséhez az adatokat a http-kérelem időtúllépése (100s) előtt kell visszaadni. Nagyméretű Excel fájlok esetén előfordulhat, hogy ezek a műveletek nem fejeződnek be az adott időkereten belül, ami időtúllépési hibát okoz. Ha nagyméretű Excel fájlokat (>100MB) szeretne áthelyezni egy másik adattárba, az alábbi lehetőségek egyikével megkerülheti ezt a korlátozást:

  • Használja a saját üzemeltetésű integrációs modult (SHIR), majd a Copy activity segítségével helyezze át a nagyméretű Excel fájlt egy másik adattárba az SHIR-vel.
  • Ossza fel a nagyméretű Excel fájlt több kisebb fájlra, majd a Copy activity használatával helyezze át a fájlokat tartalmazó mappát.
  • Adatfolyam-tevékenység használatával helyezze át a nagyméretű Excel fájlt egy másik adattárba. Az adatfolyam támogatja a streamelési olvasást a Excel számára, és gyorsan áthelyezheti/átviheti a nagyméretű fájlokat.
  • Kézzel konvertálja a nagyméretű Excel fájlt CSV formátumba, majd használjon egy Másolási műveletet (Copy activity) a fájl áthelyezésére.