Format pliku programu Excel w usługach Azure Data Factory i Azure Synapse Analytics
DOTYCZY: Azure Data Factory Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
Postępuj zgodnie z tym artykułem, gdy chcesz przeanalizować pliki programu Excel. Usługa obsługuje zarówno ".xls" jak i ".xlsx".
Format programu Excel jest obsługiwany w przypadku następujących łączników: Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage i SFTP. Jest obsługiwany jako źródło, ale nie ujście.
Uwaga
Format ".xls" nie jest obsługiwany podczas korzystania z protokołu HTTP.
Właściwości zestawu danych
Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania zestawów danych, zobacz artykuł Zestawy danych. Ta sekcja zawiera listę właściwości obsługiwanych przez zestaw danych programu Excel.
Właściwości | Opis | Wymagania |
---|---|---|
type | Właściwość type zestawu danych musi być ustawiona na excel. | Tak |
lokalizacja | Ustawienia lokalizacji plików. Każdy łącznik oparty na plikach ma własny typ lokalizacji i obsługiwane właściwości w obszarze location . |
Tak |
sheetName | Nazwa arkusza programu Excel do odczytywania danych. | Określ sheetName lub sheetIndex |
sheetIndex | Indeks arkusza programu Excel do odczytywania danych, począwszy od 0. | Określ sheetName lub sheetIndex |
range | Zakres komórek w danym arkuszu w celu zlokalizowania danych selektywnych, np.: - Nie określono: odczytuje cały arkusz jako tabelę z pierwszego niepustego wiersza i kolumny - A3 : odczytuje tabelę rozpoczynającą się od danej komórki, dynamicznie wykrywa wszystkie poniższe wiersze i wszystkie kolumny po prawej stronie- A3:H5 : odczytuje ten stały zakres jako tabelę- A3:A3 : odczytuje tę pojedynczą komórkę |
Nie. |
firstRowAsHeader | Określa, czy pierwszy wiersz w danym arkuszu/zakresie ma być traktowany jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości to true i false (wartość domyślna). |
Nie. |
nullValue | Określa ciąg reprezentujący wartość null. Wartość domyślna to pusty ciąg. |
Nie. |
kompresja | Grupa właściwości do skonfigurowania kompresji pliku. Skonfiguruj tę sekcję, gdy chcesz wykonać kompresję/dekompresję podczas wykonywania działań. | Nie. |
type (w obszarze compression ) |
Koder koder kompresji używany do odczytu/zapisu plików JSON. Dozwolone wartości to bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, Snappy lub lz4. Wartość domyślna nie jest kompresowana. Uwaga obecnie działanie Kopiuj nie obsługuje "snappy" i "lz4", a przepływ danych mapowania nie obsługuje "ZipDeflate", "TarGzip" i "Tar". Uwaga podczas używania działania kopiowania do dekompresowania plików ZipDeflate i zapisu w magazynie danych ujścia opartego na plikach pliki pliki są wyodrębniane do folderu: <path specified in dataset>/<folder named as source zip file>/ . |
L.p. |
poziom (w obszarze compression ) |
Współczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze. - Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany. - Optymalna: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz Temat Poziom kompresji. |
Nie. |
Poniżej przedstawiono przykład zestawu danych programu Excel w usłudze Azure Blob Storage:
{
"name": "ExcelDataset",
"properties": {
"type": "Excel",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, retrievable during authoring > ],
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder",
},
"sheetName": "MyWorksheet",
"range": "A3:H5",
"firstRowAsHeader": true
}
}
}
Właściwości działania kopiowania
Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz artykuł Pipelines (Potoki ). Ta sekcja zawiera listę właściwości obsługiwanych przez źródło programu Excel.
Excel jako źródło
Następujące właściwości są obsługiwane w sekcji działanie kopiowania *źródło* .
Właściwości | Opis | Wymagania |
---|---|---|
type | Właściwość type źródła działania kopiowania musi być ustawiona na ExcelSource. | Tak |
storeSettings | Grupa właściwości dotyczących odczytywania danych z magazynu danych. Każdy łącznik oparty na plikach ma własne obsługiwane ustawienia odczytu w obszarze storeSettings . |
Nie. |
"activities": [
{
"name": "CopyFromExcel",
"type": "Copy",
"typeProperties": {
"source": {
"type": "ExcelSource",
"storeSettings": {
"type": "AzureBlobStorageReadSettings",
"recursive": true
}
},
...
}
...
}
]
Właściwości przepływu mapowania danych
W przepływach mapowania danych można odczytać format programu Excel w następujących magazynach danych: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 i SFTP. Możesz wskazać pliki programu Excel przy użyciu zestawu danych programu Excel lub wbudowanego zestawu danych.
Właściwości źródła
W poniższej tabeli wymieniono właściwości obsługiwane przez źródło programu Excel. Te właściwości można edytować na karcie Opcje źródła. W przypadku korzystania z wbudowanego zestawu danych zostaną wyświetlone dodatkowe ustawienia pliku, które są takie same jak właściwości opisane w sekcji właściwości zestawu danych.
Nazwa/nazwisko | opis | Wymagania | Dozwolone wartości | Właściwość skryptu przepływu danych |
---|---|---|---|---|
Ścieżki z symbolami wieloznacznymi | Wszystkie pliki pasujące do ścieżki wieloznacznej zostaną przetworzone. Zastępuje folder i ścieżkę pliku ustawioną w zestawie danych. | nie | Ciąg[] | symbole wieloznacznePaths |
Ścieżka główna partycji | W przypadku danych plików podzielonych na partycje można wprowadzić ścieżkę katalogu głównego partycji, aby odczytywać foldery podzielone na partycje jako kolumny | nie | String | partitionRootPath |
Lista plików | Czy źródło wskazuje plik tekstowy, który wyświetla listę plików do przetworzenia | nie | true lub false |
fileList |
Kolumna do przechowywania nazwy pliku | Utwórz nową kolumnę z nazwą pliku źródłowego i ścieżką | nie | String | rowUrlColumn |
Po zakończeniu | Usuń lub przenieś pliki po przetworzeniu. Ścieżka pliku rozpoczyna się od katalogu głównego kontenera | nie | Usuń: true lub false Ruszać: ['<from>', '<to>'] |
przeczyszczanie plików moveFiles |
Filtruj według ostatniej modyfikacji | Wybierz filtrowanie plików w oparciu o czas ich ostatniej zmiany | nie | Sygnatura czasowa | modifiedAfter modifiedBefore |
Zezwalaj na brak znalezionych plików | Jeśli wartość true, błąd nie jest zgłaszany, jeśli nie znaleziono żadnych plików | nie | true lub false |
ignoreNoFilesFound |
Przykład źródła
Na poniższej ilustracji przedstawiono przykład konfiguracji źródła programu Excel w przepływach mapowania danych przy użyciu trybu zestawu danych.
Skojarzony skrypt przepływu danych to:
source(allowSchemaDrift: true,
validateSchema: false,
wildcardPaths:['*.xls']) ~> ExcelSource
Jeśli używasz wbudowanego zestawu danych, w przepływie danych mapowania są widoczne następujące opcje źródła.
Skojarzony skrypt przepływu danych to:
source(allowSchemaDrift: true,
validateSchema: false,
format: 'excel',
fileSystem: 'container',
folderPath: 'path',
fileName: 'sample.xls',
sheetName: 'worksheet',
firstRowAsHeader: true) ~> ExcelSourceInlineDataset
Obsługa bardzo dużych plików programu Excel
Łącznik programu Excel nie obsługuje odczytu strumieniowego dla działanie Kopiuj i musi załadować cały plik do pamięci, zanim będzie można odczytać dane. Aby zaimportować schemat, wyświetlić podgląd danych lub odświeżyć zestaw danych programu Excel, dane muszą zostać zwrócone przed przekroczeniem limitu czasu żądania http (100s). W przypadku dużych plików programu Excel te operacje mogą nie zostać zakończone w tym przedziale czasu, powodując błąd przekroczenia limitu czasu. Jeśli chcesz przenieść duże pliki programu Excel (>100 MB) do innego magazynu danych, możesz użyć jednej z następujących opcji, aby obejść to ograniczenie:
- Użyj własnego środowiska Integration Runtime (SHIR), a następnie użyj działanie Kopiuj, aby przenieść duży plik programu Excel do innego magazynu danych za pomocą środowiska SHIR.
- Podziel duży plik programu Excel na kilka mniejszych, a następnie użyj działanie Kopiuj, aby przenieść folder zawierający pliki.
- Użyj działania przepływu danych, aby przenieść duży plik programu Excel do innego magazynu danych. Przepływ danych obsługuje odczyt strumieniowy dla programu Excel i może szybko przenosić/przesyłać duże pliki.
- Ręcznie przekonwertuj duży plik programu Excel na format CSV, a następnie użyj działanie Kopiuj, aby przenieść plik.