`read_files` テーブル値関数

適用対象: check marked yes Databricks SQL Databricks Runtime 13.3 LTS 以降

指定された場所にあるファイルを読み取り、表形式でデータを返します。

JSON、CSV、XML、TEXT、BINARYFILE、PARQUET、AVRO、および ORC ファイル形式の読み取りをサポートします。ファイル形式を自動的に検出し、すべてのファイルで統合スキーマを推論できます。

構文

read_files(path [, option_key => option_value ] [...])

議論

この関数には、オプションキーの名前付きパラメーター呼び出しが必要です。

path: データの場所の URI を持つ STRING。 Azure Data Lake Storage ('abfss://')、S3 (s3://) および Google Cloud Storage ('gs://') からの読み取りをサポートします。 glob を含めることができます。詳細については、「ファイルの検出」を参照してください。
option_key: 構成するオプションの名前。バッククォート（) for options that contain dots (.`）を使う必要があります。
option_value: オプションを設定する定数式。リテラルとスカラー関数を受け入れます。

戻り値

指定した pathの下で読み取られたファイルからのデータを含むテーブル。スキーマはファイル形式によって異なります。

BINARYFILE: 固定スキーマを返します。

コラム	タイプ	説明
`path`	`STRING`	ファイルのフルパスです。
`modificationTime`	`TIMESTAMP`	ファイルの最終変更時刻。
`length`	`LONG`	ファイルのサイズをバイト単位で指定します。
`content`	`BINARY`	ファイルのバイナリコンテンツ。 `* EXCEPT (content)`を使用して、ファイルメタデータのクエリを実行するときにバイナリコンテンツを除外します。

TEXT: 1 つの value (STRING) 列を持つ固定スキーマを返します。
その他のすべての形式 (JSON、CSV、XML、PARQUET、AVRO、ORC): スキーマはファイルの内容から推論されるか、 schema オプションを使用して明示的に指定されます。

`_metadata` コラム

read_files は、ファイルレベルのメタデータを含む _metadata 列を公開します。この列は SELECT * 結果には含まれていないので、明示的に選択する必要があります。これは次のフィールドが含まれています。

フィールド	タイプ	説明
`file_path`	`STRING`	ソースファイルへの完全パス。
`file_name`	`STRING`	ソースファイルの名前。
`file_size`	`LONG`	ソースファイルのサイズ (バイト単位)。
`file_modification_time`	`TIMESTAMP`	ソースファイルの最終変更時刻。
`file_block_start`	`LONG`	読み取られるファイルのブロックの先頭。
`file_block_length`	`LONG`	読み取られるファイルのブロックの長さ。

結果に _metadata を含めるには、明示的に選択します。

SELECT * EXCEPT (content), _metadata
FROM read_files('/Volumes/my_catalog/my_schema/my_volume', format => 'binaryFile');

ファイルの検出

read_files では、個々のファイルを読み取ったり、指定されたディレクトリの下にあるファイルを読み取ったりできます。 read_files は、glob が指定されていない限り、指定されたディレクトリ内のすべてのファイルを再帰的に検出します。これは、read_files を特定のディレクトリパターンに再帰するように指示します。

glob パターンを使用したディレクトリまたはファイルのフィルター処理

glob パターンは、パスに指定されているときに、ディレクトリとファイルのフィルター処理に使用できます。

パターン	説明
`?`	任意の 1 文字と一致します
`*`	0 個以上の文字と一致します
`[abc]`	文字セット {a, b, c} の 1 文字と一致します。
`[a-z]`	文字範囲 {a…z} の 1 文字と一致します。
`[^a]`	文字セットまたは範囲 {a} からのものではない 1 文字と一致します。 `^` 文字は左角かっこのすぐ右側に表示されることに注意してください。
`{ab,cd}`	文字列セット {ab, cd} の文字列と一致します。
`{ab,c{de, fh}}`	文字列セット {ab, cde, cfh} の文字列と一致します。

read_files では、glob を使用してファイルを検出する際に、オートローダーの厳密なグロバーが使用されます。これは、useStrictGlobber オプションで構成されます。厳密な globber を無効にすると、末尾のスラッシュ (/) が削除され、/*/ などの star パターンが複数のディレクトリを検出するように拡張できます。動作の違いについては、以下の例を参照してください。

パターン	ファイルパス	厳密な globber が無効	厳密な globber が有効
`/a/b`	`/a/b/c/file.txt`	はい	はい
`/a/b`	`/a/b_dir/c/file.txt`	いいえ	いいえ
`/a/b`	`/a/b.txt`	いいえ	いいえ
`/a/b/`	`/a/b.txt`	いいえ	いいえ
`/a/*/c/`	`/a/b/c/file.txt`	はい	はい
`/a/*/c/`	`/a/b/c/d/file.txt`	はい	はい
`/a/*/d/`	`/a/b/c/d/file.txt`	はい	いいえ
`/a/*/c/`	`/a/b/x/y/c/file.txt`	はい	いいえ
`/a/*/c`	`/a/b/c_file.txt`	はい	いいえ
`/a/*/c/`	`/a/b/c_file.txt`	はい	いいえ
`/a/*/c`	`/a/b/cookie/file.txt`	はい	いいえ
`/a/b*`	`/a/b.txt`	はい	はい
`/a/b*`	`/a/b/file.txt`	はい	はい
`/a/{0.txt,1.txt}`	`/a/0.txt`	はい	はい
`/a/*/{0.txt,1.txt}`	`/a/0.txt`	いいえ	いいえ
`/a/b/[cde-h]/i/`	`/a/b/c/i/file.txt`	はい	はい

スキーマ推論

ファイルのスキーマは、read_files オプションを使用して明示的に schema に指定できます。スキーマが指定されていない場合、検出されたファイル全体で read_files が統合スキーマを推論しようとします。ここでは、LIMIT ステートメントを使用しない限り、すべてのファイルを読み取る必要があります。 LIMIT クエリを使用する場合でも、データのより代表的なスキーマを返すために、必要以上に大きなファイルセットを読み取る場合があります。 Databricks は、ユーザーがクエリを指定していない場合、ノートブックと SQL エディターでLIMITクエリのSELECTステートメントを自動的に追加します。

schemaHints オプションは、推論されたスキーマのサブセットの修正に使用できます。詳細については、「スキーマヒントを使用してスキーマ推論をオーバーライドする」を参照してください。

既定では、スキーマと一致しないデータを復旧するための rescuedDataColumn が提供されます。詳細については、「復旧されたデータ列とは」を参照してください。オプション rescuedDataColumn を設定して、schemaEvolutionMode => 'none' を削除できます。

パーティションスキーマの推論

read_files では、ファイルが Hive スタイルのパーティション分割されたディレクトリ () の下に格納されている場合、/column_name=column_value/を推論することもできます。 schema が指定されている場合、検出されたパーティション列では、schema で提供される型が使用されます。パーティション列が指定された schema の一部でない場合、推論されるパーティション列は無視されます。

パーティションスキーマとデータ列の両方に列が存在する場合は、データ値の代わりにパーティション値から読み取られた値が使用されます。ディレクトリから生成される値を無視してデータ列を使用する場合は、partitionColumns オプションを使用してコンマ区切りリスト内のパーティション列の一覧を指定できます。

partitionColumns オプションは、最終的な推論スキーマに含める検出列を指定するために read_files を使用することもできます。空の文字列を指定すると、すべてのパーティション列が無視されます。

パーティション列の推論されたスキーマをオーバーライドする schemaHints オプションを指定することもできます。

TEXT および BINARYFILE 形式には固定スキーマがありますが、可能な場合は、read_files でこれらの形式のパーティション分割の推論も試行されます。

クラウドストレージの認証

read_files は、Unity カタログの外部の場所を介してクラウドストレージにアクセスします。読み取るファイルを含む外部の場所に対する READ FILES 特権が必要です。 Unity カタログを使用したクラウドオブジェクトストレージへの接続を参照してください。

ストリーミングテーブルでの使用状況

read_files は、Delta Lake にファイルを取り込むためのストリーミングテーブルで使用できます。 read_files は、ストリーミングテーブルクエリで使用される場合に自動ローダーを利用します。 STREAM で read_files キーワードを使用する必要があります。詳細については、「自動ローダーとは」を参照してください。

ストリーミングクエリで使用する場合、read_files ではデータのサンプルを使用してスキーマを推論し、より多くのデータを処理するスキーマを進化させることができます。詳細については、「自動ローダーでのスキーマの推論と展開の構成」を参照してください。

[基本] オプション

オプション
`format` 次のコマンドを入力します: `String` ソースパスのデータファイル形式。指定されていない場合は自動推論されます。使用できる値は、以下のとおりです。 `avro`: Avro ファイル `binaryFile`: バイナリファイル `csv`: CSV ファイルの読み取り `json`: JSON ファイル `orc`: ORC ファイルを操作する : Azure Databricks `text`: テキストファイル `xml` : XML ファイルの読み書き既定値: なし
`schema` 次のコマンドを入力します: `String` 読み取るファイルのスキーマ。 DDL 形式を使用してスキーマ文字列を指定します (例: `'id int, ts timestamp, event string'`)。スキーマが指定されていない場合、 `read_files` は検出されたファイル全体で統合スキーマの推論を試みます。既定値: なし
`inferColumnTypes` 次のコマンドを入力します: `Boolean` スキーマの推論を利用するときに、正確な列型を推論するかどうか。既定では、列は JSON および CSV データセットを推論するときに推論されます。詳細については、スキーマの推論に関する説明を参照してください。これは、自動ローダーの既定値とは逆であることに注意してください。既定値:`true`
`partitionColumns` 次のコマンドを入力します: `String` ファイルのディレクトリ構造から推論する Hive スタイルパーティション列のコンマ区切りリスト。 Hive スタイルパーティション列は、次のような等号で組み合わされたキーと値のペアになります `<base-path>/a=x/b=1/c=y/file.format`。この例では、パーティション列は `a`、`b`、`c` です。既定では、スキーマ推論を使用しており、`<base-path>` にデータの読み込み元を指定する場合、これらの列は自動的にスキーマに追加されます。スキーマを指定すると、自動ローダーにより、これらの列がこのスキーマに含まれると想定されます。これらの列をスキーマの一部に含めない場合は、`""` を指定して、これらの列を無視することができます。さらに、下の例のような複雑なディレクトリ構造のファイルパスから列を推論するときに、このオプションを使用できます。 `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` `cloudFiles.partitionColumns` を `year,month,day` に指定すると、 `year=2022` に `file1.csv` が返されますが、`month` および `day` 列は `null` になります。 `month` と `day` は、`file2.csv` および `file3.csv` に対して正しく解析されます。既定値: なし
`schemaHints` 次のコマンドを入力します: `String` スキーマの推論中に自動ローダーに提供するスキーマ情報。詳細については、スキーマヒントに関するページを参照してください。既定値: なし
`useStrictGlobber` 次のコマンドを入力します: `Boolean` Apache Spark の他のファイルソースの既定のグロビング動作に一致する厳密な globber を使用するかどうか。詳細については、「一般的なデータ読み込みパターン」を参照してください。 Databricks Runtime 12.2 LTS 以降で使用できます。これは、自動ローダーの既定値とは逆であることに注意してください。既定値:`true`

共通オプション

次のオプションは、すべてのファイル形式に適用されます。

オプション
`ignoreCorruptFiles` 次のコマンドを入力します: `Boolean` 破損したファイルを無視するかどうか。 true の場合、破損したファイルが検出されても Spark ジョブは引き続き実行され、読み取られた内容は引き続き返されます。 `COPY INTO`では、Delta Lake 履歴の`operationMetrics`列に`numSkippedCorruptFiles`として、スキップされた破損したファイルを観察できます。 Databricks Runtime 11.3 LTS 以降で使用できます。既定値:`false`
`ignoreMissingFiles` 次のコマンドを入力します: `Boolean` 行方不明のファイルを無視するかどうかを指定します。 true の場合、行方不明のファイルが検出されても Spark ジョブは引き続き実行され、読み取られた内容は引き続き返されます。 Databricks Runtime 11.3 LTS 以降で使用できます。既定値: 自動ローダーの場合は `false`、(レガシ) の `true` の場合は `COPY INTO`
`modifiedAfter` 型: `Timestamp String`、例: `2021-01-01 00:00:00.000000 UTC+0` 指定されたタイムスタンプの後に変更タイムスタンプを持つファイルのみを取り込むためのフィルターとしてのオプションのタイムスタンプ。既定値: なし
`modifiedBefore` 型: `Timestamp String`、例: `2021-01-01 00:00:00.000000 UTC+0` 指定されたタイムスタンプの前に変更タイムスタンプを持つファイルのみを取り込むためのフィルターとしてのオプションのタイムスタンプ。既定値: なし
`pathGlobFilter` または `fileNamePattern` 次のコマンドを入力します: `String` ファイルを選択するために指定できる glob パターン。これは `PATTERN` の中の `COPY INTO` (レガシ) に相当します。 `fileNamePattern` では `read_files` を使用できます。既定値: なし
`recursiveFileLookup` 次のコマンドを入力します: `Boolean` このオプションは、名前が date=2019-07-01 のようなパーティションの名前付けスキームに従っていない場合でも、入れ子になったディレクトリを検索します。既定値:`false`

`JSON` のオプション

オプション
`allowBackslashEscapingAnyCharacter` 次のコマンドを入力します: `Boolean` バックスラッシュを使用して、後続の任意の 1 文字をエスケープすることを許可するかどうか。有効にしない場合は、JSON の仕様に明示されている文字のみをエスケープできます。既定値:`false`
`allowComments` 次のコマンドを入力します: `Boolean` 解析されたコンテンツ内で、Java、C、および C++ スタイルのコメント (`'/'`、`'*'`、および `'//'` の種類) の使用を許可するかどうか。既定値:`false`
`allowNonNumericNumbers` 次のコマンドを入力します: `Boolean` 非数値 (`NaN`) トークンのセットを有効な浮動小数点数値として許可するかどうか。既定値:`true`
`allowNumericLeadingZeros` 次のコマンドを入力します: `Boolean` 追加の (無視できる) ゼロで始まる整数値を許可するかどうか (例: `000001`)。既定値:`false`
`allowSingleQuotes` 次のコマンドを入力します: `Boolean` 単一引用符 (アポストロフィ、`'\'` 文字) を使用して、文字列 (名前と文字列値) を囲むことを許可するかどうか。既定値:`true`
`allowUnquotedControlChars` 次のコマンドを入力します: `Boolean` JSON 文字列に、エスケープされていない制御文字 (タブや改行文字など、値が 32 未満の ASCII 文字) を含めることを許可するかどうか。既定値:`false`
`allowUnquotedFieldNames` 次のコマンドを入力します: `Boolean` 引用符で囲まれていないフィールド名 (JavaScript では許可されるが、JSON 仕様では許可されない) の使用を許可するかどうか。既定値:`false`
`badRecordsPath` 次のコマンドを入力します: `String` 不正な JSON レコードに関する情報を記録するためのファイルを格納するパス。ファイルベースのデータソースで `badRecordsPath` オプションを使用する場合、次の制限があります。これは非トランザクションであり、一貫性のない結果につながる可能性があります。一時的なエラーはエラーとして扱われます。既定値: なし
`columnNameOfCorruptRecord` 次のコマンドを入力します: `String` 形式に誤りがあり、解析できないレコードを格納するための列。解析の `mode` を `DROPMALFORMED` に設定する場合、この列は空になります。既定値:`_corrupt_record`
`dateFormat` 次のコマンドを入力します: `String` 日付文字列を解析するための形式。既定値:`yyyy-MM-dd`
`dropFieldIfAllNull` 次のコマンドを入力します: `Boolean` スキーマの推論中に、すべて null 値の列または空の配列および構造体を無視するかどうか。既定値:`false`
`encoding` または `charset` 次のコマンドを入力します: `String` JSON ファイルのエンコードの名前。オプションの一覧については、`java.nio.charset.Charset` を参照してください。 `UTF-16` が `UTF-32` の場合、`multiline` と `true` を使用することはできません。既定値:`UTF-8`
`inferTimestamp` 次のコマンドを入力します: `Boolean` タイムスタンプ文字列を `TimestampType` として推論を試みるかどうか。次の設定の場合 `true`、スキーマの推論にかなりの時間がかかることがあります。自動ローダーで使うには `cloudFiles.inferColumnTypes` を有効にする必要があります。既定値:`false`
`lineSep` 次のコマンドを入力します: `String` 連続する 2 つの JSON レコードの間の文字列。既定値: なし。`\r`、`\r\n`、`\n` を対象として含みます
`locale` 次のコマンドを入力します: `String` `java.util.Locale` 識別子。 JSON 内の既定の日付、タイムスタンプ、および 10 進数の解析に影響します。既定値:`US`
`mode` 次のコマンドを入力します: `String` 形式に誤りがあるレコードの処理に関するパーサーのモード。 `PERMISSIVE`、`DROPMALFORMED`、または `FAILFAST` のいずれか。既定値:`PERMISSIVE`
`multiLine` 次のコマンドを入力します: `Boolean` JSON レコードが複数の行にまたがるかどうか。既定値:`false`
`prefersDecimal` 次のコマンドを入力します: `Boolean` 可能な場合は float 型や double 型の代わりに `DecimalType` として文字列を推論しようとします。また、以下によりスキーマ推論も使う必要があります `inferSchema` を有効にするか、Auto Loader で `cloudFiles.inferColumnTypes` を使います。既定値:`false`
`primitivesAsString` 次のコマンドを入力します: `Boolean` 数値やブール値などのプリミティブ型を `StringType` として推論するかどうか。既定値:`false`
`readerCaseSensitive` 次のコマンドを入力します: `Boolean` `rescuedDataColumn` が有効な場合、大文字と小文字の区別の動作を指定します。 true の場合、スキーマとは大文字と小文字が異なる名前のデータ列をレスキューします。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み込みます。 Databricks Runtimeで利用可能 13.3以上。既定値:`true`
`rescuedDataColumn` 次のコマンドを入力します: `String` データ型の不一致またはスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。自動ローダーを使用する場合、この列は既定で含まれます。詳細については、「復旧されたデータ列とは」を参照してください。 `COPY INTO` (レガシ) では、`COPY INTO`を使用してスキーマを手動で設定できないため、復旧されたデータ列はサポートされません。 Databricks では、ほとんどのインジェストシナリオで自動ローダーを使用することをお勧めします。既定値: なし
`singleVariantColumn` 次のコマンドを入力します: `String` JSON ドキュメント全体を取り込むかどうか。指定された文字列を列の名前として持つ単一のバリアント列に解析されます。無効にした場合、JSON フィールドは独自の列に取り込まれます。既定値: なし
`timestampFormat` 次のコマンドを入力します: `String` タイムスタンプ文字列を解析するための形式。既定値:`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` 次のコマンドを入力します: `String` タイムスタンプと日付を解析するときに使用する `java.time.ZoneId`。既定値: なし

`CSV` のオプション

オプション
`badRecordsPath` 次のコマンドを入力します: `String` 不正な CSV レコードに関する情報を記録するためのファイルを格納するパス。既定値: なし
`charToEscapeQuoteEscaping` 次のコマンドを入力します: `Char` 引用符のエスケープに使用する文字をエスケープするために使用する文字。たとえば、レコードが `[ " a\\", b ]` の場合は次のようになります。 `'\'`をエスケープする文字が未定義の場合、レコードは解析されません。パーサーによって、文字 (`[a],[\],["],[,],[ ],[b]`) が読み取られ、終了引用符が見つからないためエラーがスローされます。 `'\'` をエスケープする文字が `'\'`として定義されている場合、`[a\]` と `[b]`の 2 つの値でレコードが読み取られます。既定値:`'\0'`
`columnNameOfCorruptRecord` 自動ローダーでサポートされています。 `COPY INTO` (レガシ) ではサポートされていません。次のコマンドを入力します: `String` 形式に誤りがあり、解析できないレコードを格納するための列。解析の `mode` を `DROPMALFORMED` に設定する場合、この列は空になります。既定値:`_corrupt_record`
`comment` 次のコマンドを入力します: `Char` テキスト行の先頭に配置した場合に行コメントを表す文字を定義します。コメントのスキップを無効にするには、`'\0'` を使用します。既定値:`'\u0000'`
`dateFormat` 次のコマンドを入力します: `String` 日付文字列を解析するための形式。既定値:`yyyy-MM-dd`
`emptyValue` 次のコマンドを入力します: `String` 空の値の文字列表現。既定値:`""`
`encoding` または `charset` 次のコマンドを入力します: `String` CSV ファイルのエンコードの名前。オプションの一覧については、`java.nio.charset.Charset` を参照してください。 `UTF-16` が `UTF-32` の場合、`multiline` と `true` を使用することはできません。既定値:`UTF-8`
`enforceSchema` 次のコマンドを入力します: `Boolean` 指定または推論されたスキーマを CSV ファイルに強制的に適用するかどうか。このオプションを有効にすると、CSV ファイルのヘッダーは無視されます。自動ローダーを使用してデータをレスキューし、スキーマの展開を許可する場合、このオプションは既定では無視されます。既定値:`true`
`escape` 次のコマンドを入力します: `Char` データの解析時に使用するエスケープ文字。既定値:`'\'`
`header` 次のコマンドを入力します: `Boolean` CSV ファイルにヘッダーが含まれているかどうか。自動ローダーによって、スキーマの推論時にファイルにヘッダーが含まれているものと見なされます。既定値:`false`
`ignoreLeadingWhiteSpace` 次のコマンドを入力します: `Boolean` 解析対象の各値の先頭の空白文字を無視するかどうか。既定値:`false`
`ignoreTrailingWhiteSpace` 次のコマンドを入力します: `Boolean` 解析対象の各値の末尾の空白文字を無視するかどうか。既定値:`false`
`inferSchema` 次のコマンドを入力します: `Boolean` 解析対象の CSV レコードのデータ型を推論するか、すべての列が `StringType` であると見なすか。 `true` に設定した場合は、追加でデータを渡す必要があります。自動ローダーの場合は、代わりに `cloudFiles.inferColumnTypes` を使います。既定値:`false`
`lineSep` 次のコマンドを入力します: `String` 連続する 2 つの CSV レコードの間の文字列。既定値: なし。`\r`、`\r\n`、`\n` を対象として含みます
`locale` 次のコマンドを入力します: `String` `java.util.Locale` 識別子。 CSV 内の既定の日付、タイムスタンプ、および 10 進数の解析に影響します。既定値:`US`
`maxCharsPerColumn` 次のコマンドを入力します: `Int` 解析する値の予想最大文字数。メモリエラーを回避するために使用できます。既定値は `-1` で、無制限を意味します。既定値:`-1`
`maxColumns` 次のコマンドを入力します: `Int` レコードに含めることができる列数のハード制限。既定値:`20480`
`mergeSchema` 次のコマンドを入力します: `Boolean` 複数のファイル全体でスキーマを推論するか、各ファイルのスキーマをマージするかどうか。スキーマの推論時に、自動ローダーに対して既定で有効になります。既定値:`false`
`mode` 次のコマンドを入力します: `String` 形式に誤りがあるレコードの処理に関するパーサーのモード。次のいずれか。`'PERMISSIVE'`、 `'DROPMALFORMED'` および `'FAILFAST'`。既定値:`PERMISSIVE`
`multiLine` 次のコマンドを入力します: `Boolean` CSV レコードが複数の行にまたがるかどうか。既定値:`false`
`nanValue` 次のコマンドを入力します: `String` `FloatType` および `DoubleType` 列を解析する際の非数値の文字列表現。既定値:`"NaN"`
`negativeInf` 次のコマンドを入力します: `String` `FloatType` または `DoubleType` 列を解析する際の負の無限大の文字列表現。既定値:`"-Inf"`
`nullValue` 次のコマンドを入力します: `String` null 値の文字列表現。既定値:`""`
`parserCaseSensitive` (非推奨) 次のコマンドを入力します: `Boolean` ファイルの読み取り中に、ヘッダーに宣言されている列をスキーマの大文字と小文字の区別に合わせるかどうか。自動ローダーについては、これは既定で `true` となります。有効にした場合、大文字と小文字が異なる列は `rescuedDataColumn` でレスキューされます。 `readerCaseSensitive` が優先されるため、このオプションは非推奨となりました。既定値:`false`
`positiveInf` 次のコマンドを入力します: `String` `FloatType` または `DoubleType` 列を解析する際の正の無限大の文字列表現。既定値:`"Inf"`
`preferDate` 次のコマンドを入力します: `Boolean` 可能な場合、タイムスタンプではなく日付として文字列を推論しようとします。スキーマ推論を使うためには、`inferSchema` を有効にするか、または使用する必要があります。 `cloudFiles.inferColumnTypes` で自動ローダーを使用する。既定値:`true`
`quote` 次のコマンドを入力します: `Char` フィールド区切り記号が値に含まれる場合に、値のエスケープに使用する文字。既定値:`"`
`readerCaseSensitive` 次のコマンドを入力します: `Boolean` `rescuedDataColumn` が有効な場合、大文字と小文字の区別の動作を指定します。 true の場合、スキーマとは大文字と小文字が異なる名前のデータ列をレスキューします。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み込みます。既定値:`true`
`rescuedDataColumn` 次のコマンドを入力します: `String` データ型の不一致とスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。自動ローダーを使用する場合、この列は既定で含まれます。詳細については、「復旧されたデータ列とは」を参照してください。 `COPY INTO` (レガシ) では、`COPY INTO`を使用してスキーマを手動で設定できないため、復旧されたデータ列はサポートされません。 Databricks では、ほとんどのインジェストシナリオで自動ローダーを使用することをお勧めします。既定値: なし
`sep` または `delimiter` 次のコマンドを入力します: `String` 列の間の区切り文字列。既定値:`","`
`skipRows` 次のコマンドを入力します: `Int` 無視する必要がある CSV ファイルの先頭からの行数 (コメント化された行や空の行を含みます)。 `header` が true の場合、ヘッダーは最初にスキップされていない行とコメントされていない行になります。既定値:`0`
`timestampFormat` 次のコマンドを入力します: `String` タイムスタンプ文字列を解析するための形式。既定値:`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` 次のコマンドを入力します: `String` タイムスタンプと日付を解析するときに使用する `java.time.ZoneId`。既定値: なし
`unescapedQuoteHandling` 次のコマンドを入力します: `String` エスケープされていない引用符を処理するための方策。使用可能なオプション: `STOP_AT_CLOSING_QUOTE`: 入力にエスケープされていない引用符が見つかった場合は、引用符文字を蓄積し、終了引用符が見つかるまで値を引用符で囲まれた値として解析します。 `BACK_TO_DELIMITER`: 入力にエスケープされていない引用符が見つかった場合は、その値を引用符で囲まれていない値と見なします。これにより、`sep` によって定義された区切り記号が見つかるまで、パーサーは現在解析対象となっている値のすべての文字を蓄積します。値に区切り記号が見つからない場合は、区切り記号または行末が見つかるまで、入力の文字がパーサーによって蓄積され続けます。 `STOP_AT_DELIMITER`: 入力にエスケープされていない引用符が見つかった場合は、その値を引用符で囲まれていない値と見なします。これにより、`sep` に定義した区切り記号または行末が入力内で見つかるまで、すべての文字がパーサーによって蓄積されます。 `SKIP_VALUE`: 入力にエスケープされていない引用符が見つかった場合、指定された値に対して解析されたコンテンツはスキップされ (次の区切り記号が見つかるまで)、`nullValue` で設定された値が代わりに生成されます。 `RAISE_ERROR`: エスケープされていない引用符が入力に見つかった場合、 `TextParsingException` がスローされます。既定値:`STOP_AT_DELIMITER`

`XML` のオプション

オプション	説明	Scope
`rowTag`	行として扱う XML ファイルの行タグ。 XML `<books> <book><book>...<books>` の例では、適切な値は `book` です。これは必須オプションです。	読み取り
`samplingRatio`	スキーマ推論に使用される行の割合を定義します。 XML 組み込み関数はこのオプションを無視します。既定値: `1.0`。	読み取り
`excludeAttribute`	要素内の属性を除外するかどうか。既定値: `false`。	読み取り
`mode`	解析中に破損したレコードを処理するモードを許可します。 `PERMISSIVE`: 破損したレコードの場合は、`columnNameOfCorruptRecord` によって構成されたフィールドに形式に誤りがある文字列を格納し、形式に誤りがあるフィールドを `null` に設定します。破損したレコードを保持するには、ユーザー定義スキーマで `string` という名前の `columnNameOfCorruptRecord` 型フィールドを設定できます。スキーマにこのフィールドがない場合、破損したレコードは解析中に削除されます。スキーマを推論すると、パーサーは出力スキーマに `columnNameOfCorruptRecord` フィールドを暗黙的に追加します。 `DROPMALFORMED`: 破損したレコードを無視します。このモードは XML 組み込み関数ではサポートされていません。 `FAILFAST`: パーサーが破損したレコードを検出すると、例外をスローします。	読み取り
`inferSchema`	`true` の場合は、結果として得られる各データフレーム列に対して適切な型を推論しようとします。 `false` の場合、結果の列はすべて `string` 型です。既定: `true`。 XML 組み込み関数はこのオプションを無視します。	読み取り
`columnNameOfCorruptRecord`	作成された誤った形式の文字列を含む新しいフィールドの名前を変更できるようにします。 `PERMISSIVE` モード。既定値: `spark.sql.columnNameOfCorruptRecord`。	読み取り
`attributePrefix`	属性と要素を区別するための属性のプレフィックス。これはフィールド名のプレフィックスになります。既定値は `_` です。 XML の読み取り時は空にすることができますが、書き込み時は空にすることはできません。	読み取り、書き込み
`valueTag`	属性または子要素の要素も持つ要素内の文字データに使用されるタグ。ユーザーがスキーマで `valueTag` フィールドを指定することもできますが、文字データが他の要素や属性と一緒に要素に存在する場合、スキーマ推論中に自動的に追加されます。既定値: `_VALUE`	読み取り、書き込み
`encoding`	読み取りの場合は、指定されたエンコードの種類で XML ファイルをデコードします。書き込みの場合は、保存される XML ファイルのエンコード (文字セット) を指定します。 XML 組み込み関数はこのオプションを無視します。既定値: `UTF-8`。	読み取り、書き込み
`ignoreSurroundingSpaces`	読み取られる値の周囲の空白をスキップするかどうかを定義します。既定値: `true`。空白のみの文字データは無視されます。	読み取り
`rowValidationXSDPath`	各行の省略可能な XML を個別に検証するために使用される XSD ファイルへのパス。検証に失敗した行は、上記のように解析エラーと同様に処理されます。 XSDが指定または推論されたスキーマに対して他に影響を与えることはありません。	読み取り
`ignoreNamespace`	`true`場合、XML 要素と属性に対する名前空間のプレフィックスは無視されます。たとえば、タグ `<abc:author>` と `<def:author>` は、どちらも単なる `<author>` として扱われます。 `rowTag` 要素では名前空間を無視できず、その子の読み取りのみを無視できます。 `false` の場合でも、XML 解析は名前空間を認識しません。既定値: `false`。	読み取り
`timestampFormat`	カスタムタイムスタンプの形式文字列であり、datetime パターンに従います。これは `timestamp` 型に適用されます。既定値: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`。	読み取り、書き込み
`timestampNTZFormat`	datetime パターン形式に従いタイムゾーンを持たない、timestamp のカスタム形式の文字列。これは TimestampNTZType 型に適用されます。既定: `yyyy-MM-dd'T'HH:mm:ss[.SSS]`	読み取り、書き込み
`dateFormat`	カスタム日付形式の文字列であり、datetime パターン形式に従います。これは、日付型に適用されます。既定値: `yyyy-MM-dd`。	読み取り、書き込み
`locale`	IETF BCP 47 形式の言語タグとしてロケールを設定します。たとえば、`locale` は日付とタイムスタンプの解析中に使用されます。既定値: `en-US`。	読み取り
`rootTag`	XML ファイルのルートタグ。例えば、`<books> <book><book>...</books>` では、適切な値は `books` です。 `books foo="bar"` のように値を指定することで、基本属性を含めることができます。既定値: `ROWS`。	書き込み
`declaration`	すべての出力 XML ファイルの先頭に `rootTag` の前に書き込む XML 宣言の内容。たとえば、`foo` の値を指定すると `<?xml foo?>` が書き込まれます。空の文字列に設定すると抑制されます。既定値: `version="1.0"` `encoding="UTF-8" standalone="yes"`。	書き込み
`arrayElementName`	配列値列の各要素を記述する際に、それを囲む XML 要素の名称。既定値: `item`。	書き込み
`nullValue`	null 値の文字列表記を設定します。既定値: 文字列 `null`。これが `null` である場合、パーサーはフィールドの属性と要素を書き込みません。	読み取り、書き込み
`compression`	ファイルに保存するときに使用する圧縮コード。これは、大文字と小文字が区別されない次の既知の短縮名のいずれかとすることができます (`none`、`bzip2`、`gzip`、`lz4`、`snappy`、 `deflate`)。 XML 組み込み関数はこのオプションを無視します。既定値: `none`。	書き込み
`validateName`	true の場合、XML 要素名の検証の失敗に対してエラーをスローします。たとえば、SQL フィールド名にはスペースを含めることができますが、XML 要素名にはスペースを含めることができません。既定: `true`。	書き込み
`readerCaseSensitive`	rescuedDataColumn が有効な場合、大文字と小文字の区別の動作を指定します。 true の場合、スキーマとは大文字と小文字が異なる名前のデータ列をレスキューします。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み込みます。既定値: `true`。	読み取り
`rescuedDataColumn`	データ型の不一致とスキーマの不一致 (列の大文字と小文字の区別を含む) のために解析できないすべてのデータを別の列に収集するかどうか。自動ローダーを使用する場合、この列は既定で含まれます。詳細については、「復旧されたデータ列とは」を参照してください。 `COPY INTO` (レガシ) では、`COPY INTO`を使用してスキーマを手動で設定できないため、復旧されたデータ列はサポートされません。 Databricks では、ほとんどのインジェストシナリオで自動ローダーを使用することをお勧めします。既定値: None。	読み取り
`singleVariantColumn`	1 つのバリアント列の名前を指定します。このオプションが読み取り用に指定されている場合は、指定されたオプション文字列値を列の名前として使用して、XML レコード全体を 1 つの Variant 列に解析します。このオプションが書き込み用に指定されている場合は、単一の Variant 列の値を XML ファイルに書き込みます。既定値: `none`。	読み取り、書き込み

`PARQUET` のオプション

オプション
`datetimeRebaseMode` 次のコマンドを入力します: `String` ユリウス暦と予期的グレゴリオ暦の間の日付値とタイムスタンプ値のリベースを制御します。使用できる値: `EXCEPTION`、`LEGACY`、 `CORRECTED`。既定値:`LEGACY`
`int96RebaseMode` 次のコマンドを入力します: `String` ユリウス暦と予期的グレゴリオ暦の間の INT96 タイムスタンプ値のリベースを制御します。使用できる値: `EXCEPTION`、`LEGACY`、 `CORRECTED`。既定値:`LEGACY`
`mergeSchema` 次のコマンドを入力します: `Boolean` 複数のファイル全体でスキーマを推論するか、各ファイルのスキーマをマージするかどうか。既定値:`false`
`readerCaseSensitive` 次のコマンドを入力します: `Boolean` `rescuedDataColumn` が有効な場合、大文字と小文字の区別の動作を指定します。 true の場合、スキーマとは大文字と小文字が異なる名前のデータ列をレスキューします。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み込みます。既定値:`true`
`rescuedDataColumn` 次のコマンドを入力します: `String` データ型の不一致とスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。自動ローダーを使用する場合、この列は既定で含まれます。詳細については、「復旧されたデータ列とは」を参照してください。 `COPY INTO` (レガシ) では、`COPY INTO`を使用してスキーマを手動で設定できないため、復旧されたデータ列はサポートされません。 Databricks では、ほとんどのインジェストシナリオで自動ローダーを使用することをお勧めします。既定値: なし

`AVRO` のオプション

オプション
`avroSchema` 次のコマンドを入力します: `String` ユーザーによって Avro 形式で指定される省略可能なスキーマ。 Avro を読み取る際、展開されたスキーマにこのオプションを設定できます。これは、実際の Avro スキーマと互換性はありますが、異なるものです。逆シリアル化スキーマは、展開されたスキーマと一致するようになります。たとえば、既定値がある追加列を 1 つ含む展開されたスキーマを設定した場合、読み取り結果にその新しい列も含まれるようになります。既定値: なし
`datetimeRebaseMode` 次のコマンドを入力します: `String` ユリウス暦と予期的グレゴリオ暦の間の日付値とタイムスタンプ値のリベースを制御します。使用できる値: `EXCEPTION`、`LEGACY`、 `CORRECTED`。既定値:`LEGACY`
`mergeSchema` 次のコマンドを入力します: `Boolean` 複数のファイル全体でスキーマを推論するか、各ファイルのスキーマをマージするかどうか。 Avro に対して `mergeSchema` を有効にしても、データ型は緩和されません。既定値:`false`
`readerCaseSensitive` 次のコマンドを入力します: `Boolean` `rescuedDataColumn` が有効な場合、大文字と小文字の区別の動作を指定します。 true の場合、スキーマとは大文字と小文字が異なる名前のデータ列をレスキューします。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み込みます。既定値:`true`
`rescuedDataColumn` 次のコマンドを入力します: `String` データ型の不一致とスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。自動ローダーを使用する場合、この列は既定で含まれます。 `COPY INTO` (レガシ) では、`COPY INTO`を使用してスキーマを手動で設定できないため、復旧されたデータ列はサポートされません。 Databricks では、ほとんどのインジェストシナリオで自動ローダーを使用することをお勧めします。詳細については、「復旧されたデータ列とは」を参照してください。既定値: なし

`BINARYFILE` のオプション

バイナリファイルには、追加の構成オプションはありません。

`TEXT` のオプション

オプション
`encoding` 次のコマンドを入力します: `String` テキストファイルの行区切り記号のエンコードの名前。オプションの一覧については、「 `java.nio.charset.Charset`」を参照してください。ファイルの内容はこのオプションの影響を受けず、as-is読み取られます。既定値:`UTF-8`
`lineSep` 次のコマンドを入力します: `String` 連続する 2 つのテキストレコード間の文字列。既定値: なし。`\r`、`\r\n`、`\n` を対象として含みます
`wholeText` 次のコマンドを入力します: `Boolean` ファイルを単一レコードとして読み取るかどうか。既定値:`false`

`ORC` のオプション

オプション
`mergeSchema` 次のコマンドを入力します: `Boolean` 複数のファイル全体でスキーマを推論するか、各ファイルのスキーマをマージするかどうか。既定値:`false`

ストリーミングオプション

これらのオプションは、read_filesまたはストリーミングクエリ内でを使用する場合に適用されます。

オプション
`allowOverwrites` 次のコマンドを入力します: `Boolean` 検出後に変更されたファイルを再処理するかどうか。成功した前回の更新クエリの開始時刻以降にファイルが変更された場合、ファイルの利用可能な最新バージョンは更新中に処理されます。既定値:`false`
`includeExistingFiles` 次のコマンドを入力します: `Boolean` ストリーム処理入力パスに既存のファイルを含めるか、初期セットアップ後に到着した新しいファイルのみを処理するか。このオプションは、初めてストリームを開始するときにのみ評価されます。ストリームの再起動後にこのオプションを変更した場合、効果はありません。既定値:`true`
`maxBytesPerTrigger` 次のコマンドを入力します: `Byte String` 各トリガーで処理される新しいバイトの最大数。 `10g` などのバイト文字列を指定して、各マイクロバッチを 10 GB のデータに制限できます。これはソフト最大値です。それぞれ 3 GB のファイルがある場合、Azure Databricksはマイクロバッチで 12 GB を処理します。 `maxFilesPerTrigger`と共に使用すると、Azure Databricksは、`maxFilesPerTrigger` または `maxBytesPerTrigger` の下限のいずれか早い方に消費されます。注: サーバーレス SQL ウェアハウスで作成されたストリーミングテーブルの場合、このオプションと `maxFilesPerTrigger` は、最良の待ち時間とパフォーマンスを与える目的でワークロードサイズとサーバーレスコンピューティングリソースによってスケーリングする動的承認制御を活用するように設定しないでください。既定値: なし
`maxFilesPerTrigger` 次のコマンドを入力します: `Integer` 各トリガーで処理される新しいファイルの最大数。 `maxBytesPerTrigger`と共に使用すると、Azure Databricksは、`maxFilesPerTrigger` または `maxBytesPerTrigger` の下限のいずれか早い方に消費されます。注: サーバーレス SQL ウェアハウスで作成されたストリーミングテーブルの場合、このオプションと `maxBytesPerTrigger` は、最良の待ち時間とパフォーマンスを与える目的でワークロードサイズとサーバーレスコンピューティングリソースによってスケーリングする動的承認制御を活用するように設定しないでください。既定値: 1000
`schemaEvolutionMode` 次のコマンドを入力します: `String` 新しい列がデータで検出された場合にスキーマを展開するモード。既定では、列は JSON データセットを推論するときに文字列として推論されます。詳細については、スキーマの展開に関する説明を参照してください。このオプションは、ファイルの `text` と `binaryFile` には適用されません。既定値: スキーマが指定されていない場合は `"addNewColumns"`。 `"none"` それ以外の場合。
`schemaLocation` 次のコマンドを入力します: `String` 推論されたスキーマとそれ以降の変更を保存する場所。詳細については、スキーマの推論に関する説明を参照してください。ストリーミングテーブルクエリで使用する場合、スキーマの場所は必要ありません。既定値: なし

例

-- Reads the files available in the given path. Auto-detects the format and schema of the data.
> SELECT * FROM read_files('abfss://container@storageAccount.dfs.core.windows.net/base/path');

-- Reads the headerless CSV files in the given path with the provided schema.
> SELECT * FROM read_files(
    's3://bucket/path',
    format => 'csv',
    schema => 'id int, ts timestamp, event string');

-- Infers the schema of CSV files with headers. Because the schema is not provided,
-- the CSV files are assumed to have headers.
> SELECT * FROM read_files(
    's3://bucket/path',
    format => 'csv')

-- Reads files that have a csv suffix.
> SELECT * FROM read_files('s3://bucket/path/*.csv')

-- Reads a single JSON file
> SELECT * FROM read_files(
    'abfss://container@storageAccount.dfs.core.windows.net/path/single.json')

-- Reads JSON files and overrides the data type of the column `id` to integer.
> SELECT * FROM read_files(
    's3://bucket/path',
    format => 'json',
    schemaHints => 'id int')

-- Reads files that have been uploaded or modified yesterday.
> SELECT * FROM read_files(
    'gs://my-bucket/avroData',
    modifiedAfter => date_sub(current_date(), 1),
    modifiedBefore => current_date())

-- Creates a Delta table and stores the source file path as part of the data
> CREATE TABLE my_avro_data
  AS SELECT *, _metadata.file_path
  FROM read_files('gs://my-bucket/avroData')

-- Creates a streaming table that processes files that appear only after the table's creation.
-- The table will most likely be empty (if there's no clock skew) after being first created,
-- and future refreshes will bring new data in.
> CREATE OR REFRESH STREAMING TABLE avro_data
  AS SELECT * FROM STREAM read_files('gs://my-bucket/avroData', includeExistingFiles => false);

非構造化ファイルの操作

次の例では、 BINARYFILE 形式を使用して、Unity カタログボリュームに格納されている非構造化ファイルの読み取りとフィルター処理を行い、 read_files と AI 関数を組み合わせてファイルの内容を処理します。

ボリューム内のすべてのファイルを一覧表示する: * EXCEPT (content) を使用してバイナリコンテンツを読み込まずにファイルメタデータを返し、 _metadata を明示的に選択してファイルレベルのメタデータフィールドを含めます。

SELECT
  * EXCEPT (content),
  _metadata
FROM read_files(
  '/Volumes/<catalog>/<schema>/<volume>',
  format => 'binaryFile'
);

サイズでフィルター処理された画像ファイルを一覧表示する: fileNamePattern を使用して特定のイメージファイルの種類を対象とし、 _metadata.file_size でフィルター処理して、特定のサイズ範囲内のファイルのみを返します。

SELECT
  * EXCEPT (content),
  _metadata
FROM read_files(
  '/Volumes/my_catalog/my_schema/my_volume',
  format => 'binaryFile',
  fileNamePattern => '*.{jpg,jpeg,png,JPG,JPEG,PNG}'
)
WHERE _metadata.file_size BETWEEN 20000 AND 1000000;

過去 1 日以内に変更された PDF ファイルを一覧表示する: fileNamePattern を使用して PDF ファイルを対象にし、 modificationTime でフィルター処理して、過去 1 日以内に変更されたファイルのみを返します。

SELECT
  * EXCEPT (content),
  _metadata
FROM read_files(
  '/Volumes/my_catalog/my_schema/my_volume',
  format => 'binaryFile',
  fileNamePattern => '*.{pdf,PDF}'
)
WHERE modificationTime >= current_timestamp() - INTERVAL 1 DAY;

イメージファイルに対して AI 関数を実行する: ai_query を使用して、クラウドストレージパスから読み取られたイメージファイルを処理します。 _metadataフィールドをフィルター処理して、特定のファイルを対象とします。

SELECT
  path AS file_path,
  ai_query(
    'databricks-llama-4-maverick',
    'Describe this image in ten words or less: ',
    files => content
  ) AS result
FROM read_files(
  's3://my-s3-bucket/path/to/images/',
  format => 'binaryFile',
  fileNamePattern => '*.{jpg,jpeg,png,JPG,JPEG,PNG}'
)
WHERE _metadata.file_size < 1000000
  AND _metadata.file_name LIKE '%robots%';

ファイル名パターンに一致するドキュメントを解析する: ai_parse_document を使用して、PDF と画像から構造化コンテンツを抽出します。特定のファイルを対象とする _metadata.file_name でフィルター処理します。

SELECT
  path AS file_path,
  ai_parse_document(
    content,
    map('version', '2.0')
  ) AS result
FROM read_files(
  '/Volumes/main/public/my_files/',
  format => 'binaryFile',
  fileNamePattern => '*.{jpg,jpeg,pdf,png}'
)
WHERE _metadata.file_name ILIKE '%receipt%';

構造化テーブルを使用してファイルを結合する: 非構造化ワークフローでは、多くの場合、テーブルに格納されている構造化データを非構造化ファイルとマージする必要があります。次の例では、クラウドストレージパス内のファイルを 2 つの構造化テーブルと結合し、ファイルサイズとユーザー属性でフィルター処理します。 user_filesとの結合は、splitとelement_atを使用してファイルパスからファイル ID を抽出することによって行われます。

SELECT
  users.user_id,
  user_files.file_id,
  files._metadata.file_name AS file_name,
  files.* EXCEPT (content),
  ai_parse_document(files.content, map('version', '2.0')) AS parsed_document
FROM read_files(
  's3://my-bucket-name/files/',
  format => 'binaryFile',
  fileNamePattern => '*.{pdf,doc,docx,ppt,pptx,png,jpg,jpeg}'
) AS files
JOIN user_files
  ON user_files.file_id = element_at(split(files.path, '/'), -2)
JOIN users
  ON users.user_id = user_files.user_id
WHERE users.email LIKE '%@databricks.com'
  AND files._metadata.file_size < 10000000;

CREATE STREAMING TABLE
テーブル値関数 read_kafka

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-20

read_files テーブル値関数

構文

議論

戻り値

_metadata コラム

ファイルの検出

glob パターンを使用したディレクトリまたはファイルのフィルター処理

スキーマ推論

パーティション スキーマの推論

クラウド ストレージの認証

ストリーミング テーブルでの使用状況

オプション

[基本] オプション

共通オプション

JSON のオプション

CSV のオプション

XML のオプション

PARQUET のオプション

AVRO のオプション

BINARYFILE のオプション

TEXT のオプション

ORC のオプション

ストリーミング オプション

例