Azure Data Factory および Azure Synapse Analytics での Excel ファイル形式

[アーティクル]
07/17/2023

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

Excel ファイルを解析する場合は、この記事に従ってください。このサービスは ".xls" と ".xlsx" の両方に対応しています。

Excel 形式は、Amazon S3、Amazon S3 Compatible Storage、Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Files、ファイルシステム、FTP、Google Cloud Storage、HDFS、HTTP、Oracle Cloud Storage、SFTP の各コネクタでサポートされます。これはソースとしてはサポートされますが、シンクとしてはサポートされません。

注意

HTTP の使用中は、".xls" 形式はサポートされません。

データセットのプロパティ

データセットを定義するために使用できるセクションとプロパティの完全な一覧については、データセットに関する記事をご覧ください。このセクションでは、Excel データセットでサポートされるプロパティの一覧を示します。

プロパティ	内容	必須
type	データセットの type プロパティは、Excel に設定する必要があります。	はい
location	ファイルの場所の設定。ファイルベースの各コネクタには、固有の場所の種類と `location` でサポートされるプロパティがあります。	はい
sheetName	データを読み取る Excel ワークシートの名前。	`sheetName` または `sheetIndex` を指定します
sheetIndex	データを読み取る Excel ワークシートのインデックス (0 から開始)。	`sheetName` または `sheetIndex` を指定します
range	特定のワークシート内で選択データを見つけるセル範囲。例: - 指定なし: 空ではない最初の行と列からワークシート全体を表として読み取ります - `A3`: 特定のセルから始まる表を読み取り、下にあるすべての行と右にあるすべての列を動的に検出します - `A3:H5`: この固定範囲を表として読み取ります - `A3:A3`: この単一セルを読み取ります	いいえ
firstRowAsHeader	指定したワークシート (または範囲) 内の先頭行を、列名を含んだヘッダー行として扱うかどうかを指定します。使用できる値は true と false (既定値) です。	いいえ
nullValue	null 値の文字列表現を指定します。既定値は空の文字列です。	いいえ
compression	ファイル圧縮を構成するためのプロパティのグループ。アクティビティの実行中に圧縮/圧縮解除を行う場合は、このセクションを構成します。	いいえ
type ( `compression` の下にあります)	JSON ファイルの読み取り/書き込みに使用される圧縮コーデックです。使用できる値は、bzip2、gzip、deflate、ZipDeflate、TarGzip、Tar、snappy、または lz4 です。既定では圧縮されません。現在、Copy アクティビティでは "snappy" と "lz4" がサポートされておらず、マッピングデータフローでは "ZipDeflate"、"TarGzip"、"Tar" がサポートされていないことに注意してください。コピーアクティビティを使用して ZipDeflate ファイルを展開し、ファイルベースのシンクデータストアに書き込むと、`<path specified in dataset>/<folder named as source zip file>/` フォルダーにファイルが抽出されることに注意してください。	いいえ。
level ( `compression` の下にあります)	圧縮率です。使用できる値は、Optimal または Fastest です。 - Fastest: 圧縮操作は可能な限り短時間で完了しますが、圧縮後のファイルが最適に圧縮されていない場合があります。 - Optimal:圧縮操作で最適に圧縮されますが、操作が完了するまでに時間がかかる場合があります。詳細については、圧縮レベルに関するトピックをご覧ください。	いいえ

Azure Blob Storage 上の Excel データセットの例を次に示します。

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

コピーアクティビティのプロパティ

アクティビティの定義に利用できるセクションとプロパティの完全な一覧については、パイプラインに関する記事を参照してください。このセクションでは、Excel ソースでサポートされるプロパティの一覧を示します。

ソースとしての Excel

Copy アクティビティの *source* セクションでは、次のプロパティがサポートされます。

プロパティ	内容	必須
type	コピーアクティビティのソースの type プロパティを ExcelSource に設定する必要があります。	はい
storeSettings	データストアからデータを読み取る方法を指定するプロパティのグループ。ファイルベースの各コネクタには、`storeSettings` に、固有のサポートされる読み取り設定があります。	いいえ

"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Mapping Data Flow のプロパティ

マッピングデータフローでは、次のデータストアで Excel 形式を読み取ることができます: Azure Blob Storage、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3、および SFTP。 Excel ファイルは、Excel データセットまたはインラインデータセットを使用して参照できます。

ソースのプロパティ

次の表に、Excel ソースでサポートされるプロパティの一覧を示します。これらのプロパティは、 [ソースオプション] タブで編集できます。インラインデータセットを使用する場合、「データセットのプロパティ」セクションで説明したプロパティと同じ追加のファイル設定が表示されます。

名前	説明	必須	使用できる値	データフロースクリプトのプロパティ
ワイルドカードのパス	ワイルドカードのパスに一致するすべてのファイルが処理されます。データセットで設定されているフォルダーとファイルパスはオーバーライドされます。	no	String[]	wildcardPaths
パーティションのルートパス	パーティション分割されたファイルデータについては、パーティションフォルダーを列として読み取るためにパーティションのルートパスを入力できます	no	String	partitionRootPath
ファイルの一覧	処理するファイルを一覧表示しているテキストファイルをソースが指しているかどうか	no	`true` または `false`	fileList
ファイル名を格納する列	ソースファイル名とパスを使用して新しい列を作成します	no	String	rowUrlColumn
完了後	処理後にファイルを削除または移動します。ファイルパスはコンテナールートから始まります	no	削除: `true` または `false` 移動: `['<from>', '<to>']`	purgeFiles moveFiles
最終更新日時でフィルター処理	最後に変更された日時に基づいてファイルをフィルター処理する場合に選択	no	Timestamp	modifiedAfter modifiedBefore
[Allow no files found](ファイルの未検出を許可)	true の場合、ファイルが見つからない場合でもエラーはスローされない	no	`true` または `false`	ignoreNoFilesFound

ソースの例

次の図は、データセットモードを使用したマッピングデータフローにおける Excel ソースの構成例です。

Excel source

関連付けられているデータフロースクリプトは次のとおりです。

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

インラインデータセットを使用する場合、マッピングデータフローに次のソースオプションが表示されます。

Excel source inline dataset

関連付けられているデータフロースクリプトは次のとおりです。

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

非常に大きな Excel ファイルの処理

Excel コネクタは、Copy アクティビティのストリーミング読み取りをサポートしていないので、データを読み取る前にファイル全体をメモリに読み込む必要があります。スキーマをインポートしたり、データをプレビューしたり、Excel データセットを更新したりするには、HTTP 要求タイムアウト (100 秒) 前にデータを返す必要があります。大きな Excel ファイルの場合、これらの操作がその時間枠内に完了しない可能性があり、タイムアウトエラーが発生します。大きなサイズの Excel ファイル (>100 MB) を別のデータストアに移動する場合は、次のいずれかのオプションを使用してこの制限を回避できます。

セルフホステッド統合ランタイム (SHIR) を使用し、Copy アクティビティを使用して、大きな Excel ファイルを SHIR を使用して別のデータストアに移動します。
大きなファイル Excel 複数の小さなファイルに分割した後、Copy アクティビティを使用して、ファイルを含むフォルダーを移動します。
データフローアクティビティを使用して、大きな Excel ファイルを別のデータストアに移動します。データフローでは、Excel のストリーミング読み取りをサポートしており、大きなファイルをすばやく移動/転送できます。
大きな Excel ファイルを CSV 形式に手動で変換した後、Copy アクティビティを使用してそのファイルを移動します。