Sdílet prostřednictvím


Formát souboru Excel v Azure Data Factory a Azure Synapse Analytics

APPLIES TO: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.

Pokud chcete parsovat soubory Excel postupujte podle tohoto článku. Služba podporuje .xls i .xlsx.

Excel formát je podporovaný pro následující konektory: Amazon S3, Azon S3 kompatibilní úložiště, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, a SFTP. Podporuje se jako zdroj, ale není jímka.

Poznámka:

Formát ".xls" není při používání protokolu HTTP podporován.

Vlastnosti datové sady

Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku Datové sady . Tato část obsahuje seznam vlastností podporovaných datovou sadou Excel.

Vlastnost Popis Povinné
typ Vlastnost typu datové sady musí být nastavená na Excel. Ano
poloha Nastavení umístění souborů Každý konektor založený na souborech má svůj vlastní typ umístění a podporované vlastnosti v části location. Ano
název listu Název listu Excel ke čtení dat. Zadat sheetName nebo sheetIndex
index listu Index listu Excel pro čtení dat, začínající od 0. Zadat sheetName nebo sheetIndex
oblast Oblast buněk v daném listu pro vyhledání selektivních dat, například:
- Pokud se nezadá: interpretuje celý list jako tabulku od prvního neprázdného řádku a sloupce.
- A3: přečte tabulku počínaje danou buňkou, dynamicky rozpozná všechny řádky pod a všechny sloupce vpravo.
- A3:H5: Tuto pevnou oblast přečte jako tabulku.
- A3:A3: Přečte tuto jedinou buňku.
Ne
firstRowAsHeader Určuje, jestli se má první řádek v daném listu nebo oblasti považovat za řádek záhlaví s názvy sloupců.
Povolené hodnoty jsou true a false (výchozí).
Ne
nullValue Určuje řetězcovou reprezentaci hodnoty null.
Výchozí hodnota je prázdný řetězec.
Ne
komprese Skupina vlastností pro konfiguraci komprese souborů Tuto část nakonfigurujte, když chcete během provádění aktivity provést kompresi nebo dekompresi. Ne
typ
(v části compression)
Kodek komprese používaný ke čtení a zápisu souborů JSON.
Povolené hodnoty jsou bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy nebo lz4. Výchozí hodnota není komprimována.
Note aktuálně aktivita Copy nepodporuje "snappy" a "lz4" a mapování toku dat nepodporuje ZipDeflate, TarGzip a Tar.
Všimněte si, že při použití kopírovací aktivity k dekompresi souborů ZipDeflate a zápisu do úložiště dat založeného na souborech, se soubory extrahují do složky: <path specified in dataset>/<folder named as source zip file>/.
Ne.
úroveň
(v části compression)
Poměr komprese.
Povolené hodnoty jsou optimální nebo nejrychlejší.
- Nejrychlejší: Operace komprese by se měla co nejrychleji dokončit, i když výsledný soubor není optimálně komprimovaný.
- Optimální: Operace komprese by měla být optimálně komprimována, i když dokončení operace trvá delší dobu. Další informace naleznete v tématu Úroveň komprese.
Ne

Níže je příklad datové sady Excel na Azure Blob Storage:

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

Vlastnosti kopírovací aktivity

Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem Excel.

Excel jako zdroj

Následující vlastnosti jsou podporovány v části aktivity kopírování *source* .

Vlastnost Popis Povinné
typ Vlastnost typu zdroje aktivity kopírování musí být nastavena na ExcelSource. Ano
nastavení úložiště Skupina vlastností, jak číst data z úložiště dat. Každý souborový konektor má vlastní podporovaná nastavení pro čtení v části storeSettings. Ne
"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Mapování vlastností toku dat

V mapování toků dat můžete číst Excel formát v následujících úložištích dat: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 a SFTP. Na soubory Excel můžete odkazovat buď pomocí Excel datové sady, nebo pomocí inline dataset.

Vlastnosti zdroje

V následující tabulce jsou uvedeny vlastnosti podporované zdrojem Excel. Tyto vlastnosti můžete upravit na kartě Možnosti zdroje. Při použití vložené datové sady uvidíte další nastavení souborů, která jsou stejná jako vlastnosti popsané v části vlastností datové sady.

Název Popis Povinné Povolené hodnoty Vlastnost skriptu toku dat
Cesty se zástupnými kartami Zpracují se všechny soubory odpovídající cestě se zástupným znakem. Přepíše složku a cestu k souboru nastavenou v datové sadě. ne Řetězec[] Zástupné cesty
Kořenová cesta disku Pro data souborů rozdělená do oddílů můžete zadat kořenovou cestu oddílu, abyste mohli číst dělené složky jako sloupce. ne String partitionRootPath
Seznam souborů Určuje, jestli váš zdroj ukazuje na textový soubor se seznamem souborů, které se mají zpracovat. ne true nebo false seznam souborů
Sloupec pro uložení názvu souboru Vytvoření nového sloupce s názvem zdrojového souboru a cestou ne String rowUrlColumn
Po dokončení Soubory po zpracování odstraňte nebo přesuňte. Cesta k souboru začíná z kořenového adresáře kontejneru. ne Odstranit: true nebo false
Přesunout: ['<from>', '<to>']
purgeFiles
přesunoutSoubory
Filtrovat podle poslední změny Zvolte filtrování souborů na základě toho, kdy byly naposledy změněny. ne Časové razítko upravenoPo
upravenaPřed
Nenalezeny žádné soubory Pokud je hodnota true, chyba se nevyvolá, pokud se nenašly žádné soubory. ne true nebo false ignoreNoFilesFound

Příklad zdroje

Následující obrázek je příkladem konfigurace zdroje Excel při mapování toků dat pomocí režimu datové sady.

zdroj Excel

Přidružený skript toku dat je:

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

Pokud používáte vloženou datovou sadu, v mapování toku dat se zobrazí následující možnosti zdroje.

Vložená zdrojová Excel datová sada

Přidružený skript toku dat je:

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

Poznámka:

Mapování toku dat nepodporuje čtení chráněných Excel souborů, protože tyto soubory můžou obsahovat oznámení o důvěrnosti nebo vynucovat konkrétní omezení přístupu, která omezují přístup k jejich obsahu.

Zpracování velmi velkých souborů Excel

Konektor Excel nepodporuje čtení streamu pro činnost kopírování a před čtením dat musí celý soubor načíst do paměti. Pokud chcete importovat schéma, náhled dat nebo aktualizovat datovou sadu Excel, musí se data vrátit před vypršením časového limitu požadavku HTTP (100s). U velkých Excel souborů se tyto operace nemusí dokončit v daném časovém rámci, což způsobí chybu časového limitu. Pokud chcete přesunout velké soubory Excel (>100 MB) do jiného úložiště dat, můžete toto omezení obejít pomocí jedné z následujících možností:

  • Použijte místní prostředí Integration Runtime (SHIR) a pak pomocí aktivita Copy přesuňte velký soubor Excel do jiného úložiště dat pomocí prostředí SHIR.
  • Rozdělte velký soubor Excel na několik menších souborů a pak pomocí aktivita Copy přesuňte složku obsahující soubory.
  • Pomocí aktivity toku dat přesuňte velký soubor Excel do jiného úložiště dat. Tok dat podporuje streamování čtení pro Excel a umožňuje rychle přesouvat a přenášet velké soubory.
  • Ručně převeďte velký soubor Excel do formátu CSV a pak soubor přesuňte pomocí aktivita Copy.