JSON ファイル

単一行モードまたは複数行モードで JSON ファイルを読み取ることができます。単一行モードでは、ファイルを複数の部分に分割して並列して読み取ることができます。複数行モードでは、ファイルはエンティティ全体として読み込まれ、分割することはできません。

詳細については、「JSON ファイル」を参照してください。

オプション

サポートされる読み取りと書き込みのオプションについては、次の Apache Spark 関連記事を参照してください。

読み取り
- パイソン
- Scala
書き込み
- パイソン
- Scala

復旧されたデータ列

注

この機能は Databricks Runtime 8.2 (サポート期間終了) 以降でサポートされています。

復旧されたデータ列により、ETL 中にデータが失われたり、欠落したりすることがなくなります。復元されたデータ列には、解析されなかったデータが含まれています。それは、指定されたスキーマにデータが不足していた場合や、型の不一致、レコードやファイルの列名の大文字・小文字がスキーマ内の列と一致しなかった場合が原因です。復旧されたデータ列は、復旧された列と、レコードのソースファイルパスを含む JSON BLOB として返されます。復旧されたデータ列からソースファイルパスを削除するには、SQL 構成 spark.conf.set("spark.databricks.sql.rescuedDataColumn.filePath.enabled", "false") を設定します。オプション rescuedDataColumn を列名に設定することで、復旧されたデータ列を有効にできます。たとえば、_rescued_data の spark.read.option("rescuedDataColumn", "_rescued_data").format("json").load(<path>) です。

JSON パーサーでは、レコードを解析するときに、PERMISSIVE、DROPMALFORMED、FAILFAST の 3 つのモードがサポートされます。 rescuedDataColumn と共に使用すると、データ型の不一致によって、DROPMALFORMED モードでレコードが削除されたり、FAILFAST モードでエラーがスローされたりすることはありません。削除されたり、エラーがスローされたりするのは、破損したレコード (不完全であるか形式に誤りがある JSON) だけです。 JSON を解析するときにオプション badRecordsPath を使用する場合、rescuedDataColumn を使用すると、データ型の不一致は無効なレコードとは見なされません。 badRecordsPath には、不完全で形式に誤りがある JSON レコードのみが格納されます。

例

単一行モード

この例では、1 行につき 1 つの JSON オブジェクトがあります。

{"string":"string1","int":1,"array":[1,2,3],"dict": {"key": "value1"}}
{"string":"string2","int":2,"array":[2,4,6],"dict": {"key": "value2"}}
{"string":"string3","int":3,"array":[3,6,9],"dict": {"key": "value3", "extra_key": "extra_value3"}}

JSON データを読み取るには、次のように使用します。

val df = spark.read.format("json").load("example.json")

Spark は、自動的にスキーマを推測します。

df.printSchema

root
 |-- array: array (nullable = true)
 |    |-- element: long (containsNull = true)
 |-- dict: struct (nullable = true)
 |    |-- extra_key: string (nullable = true)
 |    |-- key: string (nullable = true)
 |-- int: long (nullable = true)
 |-- string: string (nullable = true)

複数行モード

この JSON オブジェクトは、次の複数の行にわたっています。

[
  { "string": "string1", "int": 1, "array": [1, 2, 3], "dict": { "key": "value1" } },
  { "string": "string2", "int": 2, "array": [2, 4, 6], "dict": { "key": "value2" } },
  {
    "string": "string3",
    "int": 3,
    "array": [3, 6, 9],
    "dict": {
      "key": "value3",
      "extra_key": "extra_value3"
    }
  }
]

このオブジェクトを読み取るには、複数行モードを有効にします。

SQL

CREATE TEMPORARY VIEW multiLineJsonTable
USING json
OPTIONS (path="/tmp/multi-line.json",multiline=true)

スカラ (プログラミング言語)

val mdf = spark.read.option("multiline", "true").format("json").load("/tmp/multi-line.json")
mdf.show(false)

文字セットの自動検出

既定では、入力ファイルの文字セットは自動的に検出されます。 charset オプションを使用して、文字セットを明示的に指定できます。

spark.read.option("charset", "UTF-16BE").format("json").load("fileInUTF16.json")

サポートされている文字セットには、UTF-8、UTF-16BE、UTF-16LE、UTF-16、UTF-32BE、UTF-32LE、UTF-32 などがあります。 Oracle Java Standard Edition でサポートされている文字セットの完全な一覧については、サポートされているエンコーディングに関する説明を参照してください。

ノートブックの例: JSON ファイルの読み取り

次のノートブックは、単一行と複数行のモードを示しています。

JSON ファイル読み取りのノートブック

ノートブックを入手

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-05-10