Aracılığıyla paylaş


Değişken verileri sorgulama

Önemli

Bu özellik Genel Önizlemededir.

Bu makalede, olarak VARIANTdepolanan yarı yapılandırılmış verileri sorgulama ve dönüştürme işlemleri açıklanmaktadır. VARIANT Veri türü Databricks Runtime 15.3 ve üzerinde kullanılabilir.

Databricks, JSON dizeleri üzerinden kullanılmasını VARIANT önerir. Şu anda geçiş yapmak isteyen JSON dizelerini kullanan kullanıcılar için bkz . Değişken JSON dizelerinden nasıl farklıdır?.

JSON dizeleriyle depolanan yarı yapılandırılmış verileri sorgulamaya yönelik örnekler görmek istiyorsanız bkz . JSON dizelerini sorgulama.

Not

VARIANT sütunlar kümeleme anahtarları, bölümler veya Z sırası anahtarları için kullanılamaz. VARIANT veri türü karşılaştırmalar, gruplandırma, sıralama ve ayarlama işlemleri için kullanılamaz. Sınırlamaların tam listesi için bkz. Sınırlamalar.

Değişken sütunlu tablo oluşturma

Değişken sütun oluşturmak için işlevini (parse_json veya Python) kullanın.

Yüksek derecede iç içe geçmiş veriler olarak depolanan VARIANT ile bir tablo oluşturmak için aşağıdakileri çalıştırın. (Bu veriler bu sayfadaki diğer örneklerde kullanılır.)

SQL

-- Create a table with a variant column
CREATE TABLE store_data AS
SELECT parse_json(
  '{
    "store":{
        "fruit": [
          {"weight":8,"type":"apple"},
          {"weight":9,"type":"pear"}
        ],
        "basket":[
          [1,2,{"b":"y","a":"x"}],
          [3,4],
          [5,6]
        ],
        "book":[
          {
            "author":"Nigel Rees",
            "title":"Sayings of the Century",
            "category":"reference",
            "price":8.95
          },
          {
            "author":"Herman Melville",
            "title":"Moby Dick",
            "category":"fiction",
            "price":8.99,
            "isbn":"0-553-21311-3"
          },
          {
            "author":"J. R. R. Tolkien",
            "title":"The Lord of the Rings",
            "category":"fiction",
            "reader":[
              {"age":25,"name":"bob"},
              {"age":26,"name":"jack"}
            ],
            "price":22.99,
            "isbn":"0-395-19395-8"
          }
        ],
        "bicycle":{
          "price":19.95,
          "color":"red"
        }
      },
      "owner":"amy",
      "zip code":"94025",
      "fb:testid":"1234"
  }'
) as raw

SELECT * FROM store_data

Piton

# Create a table with a variant column
store_data='''
{
  "store":{
    "fruit":[
      {"weight":8,"type":"apple"},
      {"weight":9,"type":"pear"}
    ],
    "basket":[
      [1,2,{"b":"y","a":"x"}],
      [3,4],
      [5,6]
    ],
    "book":[
      {
        "author":"Nigel Rees",
        "title":"Sayings of the Century",
        "category":"reference",
        "price":8.95
      },
      {
        "author":"Herman Melville",
        "title":"Moby Dick",
        "category":"fiction",
        "price":8.99,
        "isbn":"0-553-21311-3"
      },
      {
        "author":"J. R. R. Tolkien",
        "title":"The Lord of the Rings",
        "category":"fiction",
        "reader":[
          {"age":25,"name":"bob"},
          {"age":26,"name":"jack"}
        ],
        "price":22.99,
        "isbn":"0-395-19395-8"
      }
    ],
    "bicycle":{
      "price":19.95,
      "color":"red"
    }
  },
  "owner":"amy",
  "zip code":"94025",
  "fb:testid":"1234"
}
'''

# Create a DataFrame
df = spark.createDataFrame([(store_data,)], ["json"])

# Convert to a variant
df_variant = df.select(parse_json(col("json")).alias("raw"))

# Alternatively, create the DataFrame directly
# df_variant = spark.range(1).select(parse_json(lit(store_data)))

df_variant.display()

# Write out as a table
df_variant.write.saveAsTable("store_data")

Değişken sütunundaki alanları sorgulama

Bir değişken sütunundaki alanları ayıklamak için ayıklama yolunuzda JSON alanının adını belirten işlevini (variant_get veya Python) kullanın. Alan adları her zaman büyük/küçük harfe duyarlıdır.

SQL

-- Extract a top-level field
SELECT variant_get(store_data.raw, '$.owner') AS owner FROM store_data

Bir değişken sütunundaki alanları sorgulamak için SQL söz dizimlerini de kullanabilirsiniz. bkz. variant_get için SQL kısaltması.

Piton

# Extract a top-level field
df_variant.select(variant_get(col("raw"), "$.owner", "string")).display()

variant_get için SQL kısaltması

Azure Databricks'te JSON dizelerini ve diğer karmaşık veri türlerini sorgulamaya yönelik SQL söz dizimi, aşağıdakiler de dahil olmak üzere veriler için VARIANT geçerlidir:

  • En üst düzey alanları seçmek için kullanın : .
  • adlandırılmış anahtarlara sahip iç içe alanları seçmek için veya . kullanın[<key>].
  • Dizilerden değerleri seçmek için kullanın [<index>] .
SELECT raw:owner FROM store_data
+-------+
| owner |
+-------+
| "amy" |
+-------+
-- Use backticks to escape special characters.
SELECT raw:`zip code`, raw:`fb:testid` FROM store_data
+----------+-----------+
| zip code | fb:testid |
+----------+-----------+
| "94025"  | "1234"    |
+----------+-----------+

Bir alan adı nokta (). içeriyorsa, köşeli ayraç ([ ] ) ile bu alandan çıkmalısınız. Örneğin, aşağıdaki sorgu adlı zip.codebir alan seçer:

SELECT raw:['zip.code'] FROM store_data

Değişken iç içe alanları ayıklama

Bir değişken sütunundan iç içe yerleştirilmiş alanları ayıklamak için, noktalı gösterim veya köşeli ayraç kullanarak bunları belirtin. Alan adları her zaman büyük/küçük harfe duyarlıdır.

SQL

-- Use dot notation
SELECT raw:store.bicycle FROM store_data
-- Use brackets
SELECT raw:store['bicycle'] FROM store_data

Yol bulunamazsa, sonuç türünde NULLolurVARIANT.

Piton

# Use dot notation
df_variant.select(variant_get(col("raw"), "$.store.bicycle", "string")).display()
# Use brackets
df_variant.select(variant_get(col("raw"), "$.store['bicycle']", "string")).display()

Yol bulunamazsa, sonuç türünde nullolurVariantVal.

+-----------------+
| bicycle         |
+-----------------+
| {               |
| "color":"red",  |
| "price":19.95   |
| }               |
+-----------------+

Değişken dizilerden değerleri ayıklama

Dizilerdeki öğeleri ayıklamak için köşeli ayraçlarla dizin oluşturun. Dizinler 0 tabanlıdır.

SQL

-- Index elements
SELECT raw:store.fruit[0], raw:store.fruit[1] FROM store_data

Piton

# Index elements
df_variant.select((variant_get(col("raw"), "$.store.fruit[0]", "string")),(variant_get(col("raw"), "$.store.fruit[1]", "string"))).display()
+-------------------+------------------+
| fruit             | fruit            |
+-------------------+------------------+
| {                 | {                |
|   "type":"apple", |   "type":"pear", |
|   "weight":8      |   "weight":9     |
| }                 | }                |
+-------------------+------------------+

Yol bulunamazsa veya dizi dizini sınırların dışındaysa sonuç null olur.

Python'da çeşitlemelerle çalışma

Spark DataFrames'ten Python'a VariantVal varyantlar ayıklayabilir ve toPython ve toJson yöntemlerini kullanarak bu varyantlarla tek tek çalışabilirsiniz.

# toPython
data = [
    ('{"name": "Alice", "age": 25}',),
    ('["person", "electronic"]',),
    ('1',)
]

df_person = spark.createDataFrame(data, ["json"])

# Collect variants into a VariantVal
variants = df_person.select(parse_json(col("json")).alias("v")).collect()

VariantVal çıktıyı JSON dizesi olarak çıkar:

print(variants[0].v.toJson())
{"age":25,"name":"Alice"}

bir VariantVal öğesini Python nesnesine dönüştürme:

# First element is a dictionary
print(variants[0].v.toPython()["age"])
25
# Second element is a List
print(variants[1].v.toPython()[1])
electronic
# Third element is an Integer
print(variants[2].v.toPython())
1

Ayrıca VariantVal işlevini kullanarak VariantVal.parseJson oluşturabilirsiniz.

# parseJson to construct VariantVal's in Python
from pyspark.sql.types import VariantVal

variant = VariantVal.parseJson('{"a": 1}')

Değişkenini JSON dizesi olarak yazdırın:

print(variant.toJson())
{"a":1}

Değişkeni python nesnesine dönüştürün ve bir değer yazdırın:

print(variant.toPython()["a"])
1

Bir değişkenin şemasını döndürme

Bir değişkenin şemasını döndürmek için işlevini (schema_of_variant veya Python) kullanın.

SQL

-- Return the schema of the variant
SELECT schema_of_variant(raw) FROM store_data;

Piton

# Return the schema of the variant
df_variant.select(schema_of_variant(col("raw"))).display()

Bir gruptaki tüm değişkenlerin birleştirilmiş şemalarını döndürmek için işlevini (schema_of_variant_agg veya Python) kullanın.

Aşağıdaki örnekler şemayı ve ardından örnek veriler json_dataiçin birleştirilmiş şemayı döndürür.

SQL

CREATE OR REPLACE TEMP VIEW json_data AS
SELECT '{"name": "Alice", "age": 25}' AS json UNION ALL
SELECT '{"id": 101, "department": "HR"}' UNION ALL
SELECT '{"product": "Laptop", "price": 1200.50, "in_stock": true}';

-- Return the schema
SELECT schema_of_variant(parse_json(json)) FROM json_data;

Piton


json_data = [
    ('{"name": "Alice", "age": 25}',),
    ('{"id": 101, "department": "HR"}',),
    ('{"product": "Laptop", "price": 1200.50, "in_stock": true}',)
]

df_item = spark.createDataFrame(json_data, ["json"])

# Return the schema
df_item.select(parse_json(col("json")).alias("v")).select(schema_of_variant(col("v"))).display()
+-----------------------------------------------------------------+
| schema_of_variant(v)                                            |
+-----------------------------------------------------------------+
| OBJECT<age: BIGINT, name: STRING>                               |
| OBJECT<department: STRING, id: BIGINT>                          |
| OBJECT<in_stock: BOOLEAN, price: DECIMAL(5,1), product: STRING> |
+-----------------------------------------------------------------+

SQL

-- Return the combined schema
SELECT schema_of_variant_agg(parse_json(json)) FROM json_data;

Piton

# Return the combined schema
df.select(parse_json(col("json")).alias("v")).select(schema_of_variant_agg(col("v"))).display()
+----------------------------------------------------------------------------------------------------------------------------+
| schema_of_variant(v)                                                                                                       |
+----------------------------------------------------------------------------------------------------------------------------+
| OBJECT<age: BIGINT, department: STRING, id: BIGINT, in_stock: BOOLEAN, name: STRING, price: DECIMAL(5,1), product: STRING> |
+----------------------------------------------------------------------------------------------------------------------------+

Değişken nesneleri ve dizileri düzleştirme

Tablo variant_explode değerli oluşturucu işlevi (SQL veya Python), değişken dizileri ve nesneleri düzleştirme amacıyla kullanılabilir.

SQL

Oluşturucu variant_explode işlevi olduğundan, aşağıdaki örneklerde olduğu gibi bunu listede değil yan tümcesinin FROM bir parçası SELECT olarak kullanırsınız:

SELECT key, value
  FROM store_data,
  LATERAL variant_explode(store_data.raw);
SELECT pos, value
  FROM store_data,
  LATERAL variant_explode(store_data.raw:store.basket[0]);

Piton

Bir değişkeni birden çok satıra genişletmek için tablo değerli işlevi (TVF) DataFrame API'sini kullanın:

spark.tvf.variant_explode(parse_json(lit(store_data))).display()
# To explode a nested field, first create a DataFrame with just the field
df_store_col = df_variant.select(variant_get(col("raw"), "$.store", "variant").alias("store"))

# Perform the explode with a lateral join and the outer function to return the new exploded DataFrame
df_store_exploded_lj = df_store_col.lateralJoin(spark.tvf.variant_explode(col("store").outer()))
df_store_exploded = df_store_exploded_lj.drop("store")
df_store_exploded.display()

Değişken türü atama kuralları

Tür kullanarak VARIANT dizileri ve skalerleri depolayabilirsiniz. Değişken türlerini diğer türlere atamaya çalışırken, normal atama kuralları aşağıdaki ek kurallarla birlikte tek tek değerler ve alanlar için geçerlidir.

Not

variant_get yazın ve try_variant_get tür bağımsız değişkenlerini alın ve bu tür oluşturma kurallarını izleyin.

Kaynak türü Davranış
VOID Sonuç türündedir NULLVARIANT.
ARRAY<elementType> olarak elementType atanabilecek VARIANTbir tür olmalıdır.

veya schema_of_variant ile schema_of_variant_agg tür çıkarılırken, çözümlenemeyen çakışan türler mevcut olduğunda, işlevler VARIANT tür yerine STRING türe geri döner.

SQL

Dönüştürme işlemi yapmak için try_variant_get işlevini (SQL) kullanın:

-- price is returned as a double, not a string
SELECT try_variant_get(raw, '$.store.bicycle.price', 'double') as price FROM store_data
+------------------+
| price            |
+------------------+
| 19.95            |
+------------------+

Desteklenen veri türlerine değerleri atamak için :: veya cast kullanabilirsiniz:

-- cast into more complex types
SELECT cast(raw:store.bicycle AS STRUCT<price DOUBLE, color STRING>) bicycle FROM store_data;
-- `::` also supported
SELECT raw:store.bicycle::STRUCT<price DOUBLE, color STRING> bicycle FROM store_data;
+------------------+
| bicycle          |
+------------------+
| {                |
|   "price":19.95, |
|   "color":"red"  |
| }                |
+------------------+

Piton

Dönüştürme işlemi için try_variant_get işlevini (Python) kullanın.

# price is returned as a double, not a string
df_variant.select(try_variant_get(col("raw"), "$.store.bicycle.price", "double").alias("price"))
+------------------+
| price            |
+------------------+
| 19.95            |
+------------------+

Dönüşüm hatalarını işlemek için try_variant_get işlevini (SQL veya Python) kullanın.

SQL

SELECT try_variant_get(
  parse_json('{"a" : "c", "b" : 2}'),
  '$.a',
  'boolean'
)

Piton

spark.range(1).select(parse_json(lit('{"a" : "c", "b" : 2}')).alias("v")).select(try_variant_get(col('v'), '$.a', 'boolean')).display()

Değişken null kuralları

Değişken değerinin is_variant_null değişken null olup olmadığını belirlemek için işlevini (SQL veya Python) kullanın.

SQL

Değişkenler iki tür null içerebilir:

  • SQL NULL: SQL NULLs değerin eksik olduğunu gösterir. Bunlar, yapılandırılmış verilerle ilgilenirken kullanılanlarla aynıdır NULL.
  • Değişken NULL: Değişken NULLs, değişkenin açıkça bir NULL değer içerdiğini gösterir. Değer verilerde depolandığındanNULL, bunlar SQL NULLile aynı değildir.
SELECT
  is_variant_null(parse_json(NULL)) AS sql_null,
  is_variant_null(parse_json('null')) AS variant_null,
  is_variant_null(parse_json('{ "field_a": null }'):field_a) AS variant_null_value,
  is_variant_null(parse_json('{ "field_a": null }'):missing) AS missing_sql_value_null
+--------+------------+------------------+----------------------+
|sql_null|variant_null|variant_null_value|missing_sql_value_null|
+--------+------------+------------------+----------------------+
|   false|        true|              true|                 false|
+--------+------------+------------------+----------------------+

Piton

data = [
    ('null',),
    (None,),
    ('{"field_a" : 1, "field_b" : 2}',)
]

df = spark.createDataFrame(data, ["null_data"])
df.select(parse_json(col("null_data")).alias("v")).select(is_variant_null(col("v"))).display()
+------------------+
|is_variant_null(v)|
+------------------+
|              true|
+------------------+
|             false|
+------------------+
|             false|
+------------------+