Excel-fájlformátum az Azure Data Factoryben és az Azure Synapse Analyticsben

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Kövesse ezt a cikket, amikor elemezni szeretné az Excel-fájlokat. A szolgáltatás a ".xls" és a ".xlsx" protokollt is támogatja.

Az Excel formátuma a következő összekötőkhöz támogatott: Amazon S3, Amazon S3 Kompatibilis tároló, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, Fájlrendszer, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage és SFTP. Forrásként támogatott, de nem fogadóként.

Megjegyzés:

A ".xls" formátum http használata esetén nem támogatott.

Adathalmaz tulajdonságai

Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adathalmazok című cikkben találja. Ez a szakasz az Excel-adatkészlet által támogatott tulajdonságok listáját tartalmazza.

Property Leírás Required
típus Az adathalmaz típustulajdonságának Excelre kell állítania. Igen
hely A fájl(ok) helybeállításai. Minden fájlalapú összekötő saját helytípussal és támogatott tulajdonságokkal rendelkezik a(z) < a0/> alatt location. Igen
sheetName Az Excel-munkalap neve az adatok olvasásához. Adja meg sheetName vagy sheetIndex
sheetIndex Az Excel-munkalap indexe az adatok olvasásához 0-tól kezdve. Adja meg sheetName vagy sheetIndex
Tartomány Az adott munkalap cellatartománya a szelektív adatok megkereséséhez, például:
- Nincs megadva: az egész munkalapot táblázatként olvassa be az első nem üres sorból és oszlopból
- A3: egy táblázatot olvas az adott cellától kezdve, dinamikusan észleli az összes alábbi sort és az összes oszlopot a jobb oldalon
- A3:H5: ezt a rögzített tartományt táblázatként olvassa be
- A3:A3: beolvassa ezt az egyetlen cellát
Nem
firstRowAsHeader Megadja, hogy az adott munkalap/tartomány első sorát oszlopnevekkel rendelkező fejlécsorként kell-e kezelni.
Az engedélyezett értékek igazak és hamisak (alapértelmezett).
Nem
nullValue A null érték sztring-ábrázolását adja meg.
Az alapértelmezett érték üres sztring.
Nem
tömörítés A fájltömörítés konfigurálásához használt tulajdonságok csoportja. Konfigurálja ezt a szakaszt, ha a tevékenység végrehajtása során tömörítést/tömörítést szeretne végezni. Nem
típus
(alatt compression)
A JSON-fájlok olvasásához/írásához használt tömörítési kodek.
Az engedélyezett értékek a következők: bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy vagy lz4. Az alapértelmezett beállítás nincs tömörítve.
Vegye figyelembe, hogy Copy tevékenység jelenleg nem támogatja a "snappy" & "lz4" elemet, és a leképezési adatfolyam nem támogatja a "ZipDeflate", a "TarGzip" és a "Tar" elemet.
Vegye figyelembe, hogy a ZipDeflate fájl(ok) kibontásához és a fájlalapú fogadóadattárba való íráshoz másolási tevékenység esetén a fájlok a következő mappába lesznek kinyerve: <path specified in dataset>/<folder named as source zip file>/.
Nem.
szint
(alatt compression)
A tömörítési arány.
Az engedélyezett értékek optimálisak vagy leggyorsabbak.
- Leggyorsabb: A tömörítési műveletnek a lehető leggyorsabban végre kell hajtania, még akkor is, ha az eredményül kapott fájl nincs optimálisan tömörítve.
- Optimális: A tömörítési műveletet optimálisan kell tömöríteni, még akkor is, ha a művelet végrehajtása hosszabb időt vesz igénybe. További információ: Tömörítési szint témakör.
Nem

Az alábbiakban egy példa látható az Azure Blob Storage Excel-adatkészletére:

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

Másolási tevékenység tulajdonságai

A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok című cikkben találja. Ez a szakasz az Excel-forrás által támogatott tulajdonságok listáját tartalmazza.

Excel forrásként

A másolási tevékenység *forrás* szakasza az alábbi tulajdonságokat támogatja.

Property Leírás Required
típus A másolási tevékenység forrásának típustulajdonságát ExcelSource-ra kell állítani. Igen
áruház Gépház Az adatok adattárból való olvasására vonatkozó tulajdonságok csoportja. Minden fájlalapú összekötő saját támogatott olvasási beállításokkal rendelkezik a következő alatt storeSettings: . Nem
"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Adatfolyam-tulajdonságok leképezése

Az adatfolyamok leképezése során az Alábbi adattárakban olvashat Excel-formátumot: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 és SFTP. Excel-fájlokra mutathat Excel-adatkészlet vagy beágyazott adatkészlet használatával.

Forrástulajdonságok

Az alábbi táblázat az Excel-forrás által támogatott tulajdonságokat sorolja fel. Ezeket a tulajdonságokat a Forrás beállításai lapon szerkesztheti. Beágyazott adatkészlet használata esetén további fájlbeállítások jelennek meg, amelyek megegyeznek az adathalmaz tulajdonságainak szakaszában leírt tulajdonságokkal.

Name Leírás Required Megengedett értékek Adatfolyam-szkript tulajdonság
Helyettesítő kártya elérési útjai A program minden olyan fájlt feldolgoz, amely megfelel a helyettesítő karakter elérési útjának. Felülbírálja az adathalmazban beállított mappát és fájl elérési útját. nem Karakterlánc[] helyettesítő karakterekPaths
Partíció gyökérútvonala A particionált fájladatok esetében megadhat egy partíció gyökérútvonalát, hogy a particionált mappákat oszlopként olvassa be nem Sztring partitionRootPath
Fájlok listája Azt jelzi, hogy a forrás olyan szövegfájlra mutat-e, amely felsorolja a feldolgozandó fájlokat nem true vagy false Filelist
A fájlnév tárolására használt oszlop Új oszlop létrehozása a forrásfájl nevével és elérési útjával nem Sztring rowUrlColumn
A befejezés után A feldolgozás után törölje vagy helyezze át a fájlokat. A fájl elérési útja a tároló gyökerétől indul nem Törlés: true vagy false
Mozgatni: ['<from>', '<to>']
purgeFiles
moveFiles
Szűrés utoljára módosítva Fájlok szűrésének kiválasztása az utolsó módosításuk időpontjától függően nem Timestamp modifiedAfter
modifiedBefore
Nem található fájl engedélyezése Ha igaz, a rendszer nem ad hibát, ha nem található fájl nem true vagy false ignoreNoFilesFound

Példa forrásra

Az alábbi kép egy példa egy Excel-forráskonfigurációra az adatfolyamok adathalmaz-módban való leképezésében.

Excel source

A társított adatfolyam-szkript a következő:

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

Ha beágyazott adatkészletet használ, a következő forráslehetőségek láthatók az adatfolyam leképezésében.

Excel source inline dataset

A társított adatfolyam-szkript a következő:

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

Nagyon nagy Excel-fájlok kezelése

Az Excel-összekötő nem támogatja a streamelési olvasást a Copy tevékenység számára, és az adatok beolvasása előtt be kell töltenie a teljes fájlt a memóriába. A séma importálásához, az adatok előnézetéhez vagy egy Excel-adatkészlet frissítéséhez az adatokat a http-kérelem időtúllépése (100s) előtt kell visszaadni. Nagy Excel-fájlok esetén előfordulhat, hogy ezek a műveletek nem fejeződnek be az adott időkereten belül, ami időtúllépési hibát okoz. Ha nagyméretű Excel-fájlokat (>100 MB) szeretne áthelyezni egy másik adattárba, az alábbi lehetőségek egyikével megkerülheti ezt a korlátozást:

  • Használja a saját üzemeltetésű integrációs modult (SHIR), majd a Copy tevékenység segítségével helyezze át a nagyméretű Excel-fájlt egy másik adattárba az SHIR-vel.
  • Ossza fel a nagyméretű Excel-fájlt több kisebb fájlra, majd a Copy tevékenység használatával helyezze át a fájlokat tartalmazó mappát.
  • Adatfolyam-tevékenység használatával helyezze át a nagy Excel-fájlt egy másik adattárba. Az adatfolyam támogatja az Excelhez készült streamelési olvasást, és gyorsan áthelyezheti/átviheti a nagy fájlokat.
  • A nagyméretű Excel-fájl manuális konvertálása CSV formátumba, majd Copy tevékenység használatával helyezze át a fájlt.