Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
APPLIES TO:
Azure Data Factory
Azure Synapse Analytics
Tip
Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.
Pokud chcete parsovat soubory Excel postupujte podle tohoto článku. Služba podporuje .xls i .xlsx.
Excel formát je podporovaný pro následující konektory:
Poznámka:
Formát ".xls" není při používání protokolu HTTP podporován.
Vlastnosti datové sady
Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku Datové sady . Tato část obsahuje seznam vlastností podporovaných datovou sadou Excel.
| Vlastnost | Popis | Povinné |
|---|---|---|
| typ | Vlastnost typu datové sady musí být nastavená na Excel. | Ano |
| poloha | Nastavení umístění souborů Každý konektor založený na souborech má svůj vlastní typ umístění a podporované vlastnosti v části location. |
Ano |
| název listu | Název listu Excel ke čtení dat. | Zadat sheetName nebo sheetIndex |
| index listu | Index listu Excel pro čtení dat, začínající od 0. | Zadat sheetName nebo sheetIndex |
| oblast | Oblast buněk v daném listu pro vyhledání selektivních dat, například: - Pokud se nezadá: interpretuje celý list jako tabulku od prvního neprázdného řádku a sloupce. - A3: přečte tabulku počínaje danou buňkou, dynamicky rozpozná všechny řádky pod a všechny sloupce vpravo.- A3:H5: Tuto pevnou oblast přečte jako tabulku.- A3:A3: Přečte tuto jedinou buňku. |
Ne |
| firstRowAsHeader | Určuje, jestli se má první řádek v daném listu nebo oblasti považovat za řádek záhlaví s názvy sloupců. Povolené hodnoty jsou true a false (výchozí). |
Ne |
| nullValue | Určuje řetězcovou reprezentaci hodnoty null. Výchozí hodnota je prázdný řetězec. |
Ne |
| komprese | Skupina vlastností pro konfiguraci komprese souborů Tuto část nakonfigurujte, když chcete během provádění aktivity provést kompresi nebo dekompresi. | Ne |
| typ (v části compression) |
Kodek komprese používaný ke čtení a zápisu souborů JSON. Povolené hodnoty jsou bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy nebo lz4. Výchozí hodnota není komprimována. Note aktuálně aktivita Copy nepodporuje "snappy" a "lz4" a mapování toku dat nepodporuje ZipDeflate, TarGzip a Tar. Všimněte si, že při použití kopírovací aktivity k dekompresi souborů ZipDeflate a zápisu do úložiště dat založeného na souborech, se soubory extrahují do složky: <path specified in dataset>/<folder named as source zip file>/. |
Ne. |
| úroveň (v části compression) |
Poměr komprese. Povolené hodnoty jsou optimální nebo nejrychlejší. - Nejrychlejší: Operace komprese by se měla co nejrychleji dokončit, i když výsledný soubor není optimálně komprimovaný. - Optimální: Operace komprese by měla být optimálně komprimována, i když dokončení operace trvá delší dobu. Další informace naleznete v tématu Úroveň komprese. |
Ne |
Níže je příklad datové sady Excel na Azure Blob Storage:
{
"name": "ExcelDataset",
"properties": {
"type": "Excel",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, retrievable during authoring > ],
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder",
},
"sheetName": "MyWorksheet",
"range": "A3:H5",
"firstRowAsHeader": true
}
}
}
Vlastnosti kopírovací aktivity
Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem Excel.
Excel jako zdroj
Následující vlastnosti jsou podporovány v části aktivity kopírování *source* .
| Vlastnost | Popis | Povinné |
|---|---|---|
| typ | Vlastnost typu zdroje aktivity kopírování musí být nastavena na ExcelSource. | Ano |
| nastavení úložiště | Skupina vlastností, jak číst data z úložiště dat. Každý souborový konektor má vlastní podporovaná nastavení pro čtení v části storeSettings. |
Ne |
"activities": [
{
"name": "CopyFromExcel",
"type": "Copy",
"typeProperties": {
"source": {
"type": "ExcelSource",
"storeSettings": {
"type": "AzureBlobStorageReadSettings",
"recursive": true
}
},
...
}
...
}
]
Mapování vlastností toku dat
V mapování toků dat můžete číst Excel formát v následujících úložištích dat: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 a SFTP. Na soubory Excel můžete odkazovat buď pomocí Excel datové sady, nebo pomocí inline dataset.
Vlastnosti zdroje
V následující tabulce jsou uvedeny vlastnosti podporované zdrojem Excel. Tyto vlastnosti můžete upravit na kartě Možnosti zdroje. Při použití vložené datové sady uvidíte další nastavení souborů, která jsou stejná jako vlastnosti popsané v části vlastností datové sady.
| Název | Popis | Povinné | Povolené hodnoty | Vlastnost skriptu toku dat |
|---|---|---|---|---|
| Cesty se zástupnými kartami | Zpracují se všechny soubory odpovídající cestě se zástupným znakem. Přepíše složku a cestu k souboru nastavenou v datové sadě. | ne | Řetězec[] | Zástupné cesty |
| Kořenová cesta disku | Pro data souborů rozdělená do oddílů můžete zadat kořenovou cestu oddílu, abyste mohli číst dělené složky jako sloupce. | ne | String | partitionRootPath |
| Seznam souborů | Určuje, jestli váš zdroj ukazuje na textový soubor se seznamem souborů, které se mají zpracovat. | ne |
true nebo false |
seznam souborů |
| Sloupec pro uložení názvu souboru | Vytvoření nového sloupce s názvem zdrojového souboru a cestou | ne | String | rowUrlColumn |
| Po dokončení | Soubory po zpracování odstraňte nebo přesuňte. Cesta k souboru začíná z kořenového adresáře kontejneru. | ne | Odstranit: true nebo false Přesunout: ['<from>', '<to>'] |
purgeFiles přesunoutSoubory |
| Filtrovat podle poslední změny | Zvolte filtrování souborů na základě toho, kdy byly naposledy změněny. | ne | Časové razítko | upravenoPo upravenaPřed |
| Nenalezeny žádné soubory | Pokud je hodnota true, chyba se nevyvolá, pokud se nenašly žádné soubory. | ne |
true nebo false |
ignoreNoFilesFound |
Příklad zdroje
Následující obrázek je příkladem konfigurace zdroje Excel při mapování toků dat pomocí režimu datové sady.
Přidružený skript toku dat je:
source(allowSchemaDrift: true,
validateSchema: false,
wildcardPaths:['*.xls']) ~> ExcelSource
Pokud používáte vloženou datovou sadu, v mapování toku dat se zobrazí následující možnosti zdroje.
Přidružený skript toku dat je:
source(allowSchemaDrift: true,
validateSchema: false,
format: 'excel',
fileSystem: 'container',
folderPath: 'path',
fileName: 'sample.xls',
sheetName: 'worksheet',
firstRowAsHeader: true) ~> ExcelSourceInlineDataset
Poznámka:
Mapování toku dat nepodporuje čtení chráněných Excel souborů, protože tyto soubory můžou obsahovat oznámení o důvěrnosti nebo vynucovat konkrétní omezení přístupu, která omezují přístup k jejich obsahu.
Zpracování velmi velkých souborů Excel
Konektor Excel nepodporuje čtení streamu pro činnost kopírování a před čtením dat musí celý soubor načíst do paměti. Pokud chcete importovat schéma, náhled dat nebo aktualizovat datovou sadu Excel, musí se data vrátit před vypršením časového limitu požadavku HTTP (100s). U velkých Excel souborů se tyto operace nemusí dokončit v daném časovém rámci, což způsobí chybu časového limitu. Pokud chcete přesunout velké soubory Excel (>100 MB) do jiného úložiště dat, můžete toto omezení obejít pomocí jedné z následujících možností:
- Použijte místní prostředí Integration Runtime (SHIR) a pak pomocí aktivita Copy přesuňte velký soubor Excel do jiného úložiště dat pomocí prostředí SHIR.
- Rozdělte velký soubor Excel na několik menších souborů a pak pomocí aktivita Copy přesuňte složku obsahující soubory.
- Pomocí aktivity toku dat přesuňte velký soubor Excel do jiného úložiště dat. Tok dat podporuje streamování čtení pro Excel a umožňuje rychle přesouvat a přenášet velké soubory.
- Ručně převeďte velký soubor Excel do formátu CSV a pak soubor přesuňte pomocí aktivita Copy.
Související obsah
- Přehled aktivity kopírování
- Vyhledávací aktivita
- Aktivita GetMetadata