Apache Kafka に接続する

この記事では、Azure Databricksで構造化ストリーミングワークロードを実行するときに、Apache Kafka をソースまたはシンクとして使用する方法について説明します。

Kafka の詳細については、 Apache Kafka のドキュメントを参照してください。

Kafka からデータを読み取る

Azure Databricksでは、Kafka への接続を構成するためのデータ形式として kafka キーワードが提供されます。ストリーミング読み取りの例を次に示します。

Python

df = (spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:ip>")
  .option("subscribe", "<topic>")
  .option("startingOffsets", "latest")
  .load()
)

Scala

val df = spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:ip>")
  .option("subscribe", "<topic>")
  .option("startingOffsets", "latest")
  .load()

SQL

CREATE OR REFRESH STREAMING TABLE <table_name> AS
SELECT * FROM STREAM read_kafka(
  bootstrapServers => '<server:ip>',
  subscribe => '<topic>'
);

Azure Databricksでは、次の例に示すように、バッチ読み取りセマンティクスもサポートされています。

Python

df = (spark.read
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:ip>")
  .option("subscribe", "<topic>")
  .option("startingOffsets", "earliest")
  .option("endingOffsets", "latest")
  .load()
)

Scala

val df = spark.read
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:ip>")
  .option("subscribe", "<topic>")
  .option("startingOffsets", "earliest")
  .option("endingOffsets", "latest")
  .load()

SQL

SELECT * FROM read_kafka(
  bootstrapServers => '<server:ip>',
  subscribe => '<topic>',
  startingOffsets => 'earliest',
  endingOffsets => 'latest'
);

増分バッチ読み込みの場合、Databricks では、Trigger.AvailableNow で Kafka を使用することをお勧めします。「AvailableNow: 増分バッチ処理」を参照してください。

Databricks Runtime 13.3 LTS 以降では、Azure Databricksは Kafka データを読み取るための SQL 関数も提供します。 SQL を使用したストリーミングは、Lakeflow Spark 宣言パイプラインまたは Databricks SQL のストリーミングテーブルでのみサポートされます。テーブル値関数read_kafka参照してください。

Kafka Structured Streaming リーダーを構成する

バッチクエリとストリーミングクエリの両方に対して、Kafka ソースに次のオプションを設定する必要があります。

オプション	価値	説明
`kafka.bootstrap.servers`	host:port のコンマ区切りのリスト	Kafka クラスターブートストラップサーバー

さらに、サブスクライブするトピックを指定するには、次のいずれかのオプションが必要です。

オプション	価値	説明
`subscribe`	トピックのコンマ区切りの一覧。	購読するトピックの一覧。
`subscribePattern`	Javaの正規表現文字列。	トピックのサブスクライブに使用するパターン。
`assign`	JSON 文字列 `{"topicA":[0,1],"topic":[2,4]}`。	消費する特定の `topicPartitions`。

使用可能なオプションの完全な一覧については、[オプション] ページを参照してください。

Kafka レコードのスキーマ

Kafka 構造化ストリーミングリーダーによって返されるレコードには、次のスキーマがあります。

コラム	タイプ
`key`	`binary`
`value`	`binary`
`topic`	`string`
`partition`	`int`
`offset`	`long`
`timestamp`	`long`
`timestampType`	`int`

key と value は、ByteArrayDeserializer を使用して常にバイト配列として逆シリアル化されます。 DataFrame 操作 ( cast("string") や from_avroなど) を使用して、キーと値を明示的に逆シリアル化します。

Kafka にデータを書き込む

Kafka へのストリーミング書き込みの例を次に示します。

Python

(df.writeStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:ip>")
  .option("topic", "<topic>")
  .start()
)

Scala

df.writeStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:ip>")
  .option("topic", "<topic>")
  .start()

Azure Databricksでは、次の例に示すように、Kafka データシンクへのバッチ書き込みセマンティクスもサポートされています。

Python

(df.write
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:ip>")
  .option("topic", "<topic>")
  .save()
)

Scala

df.write
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:ip>")
  .option("topic", "<topic>")
  .save()

Kafka 構造化ストリーミングライターを構成する

Important

Databricks Runtime 13.3 LTS 以降には、既定でべき等書き込みを有効にする新しいバージョンの kafka-clients ライブラリが含まれています。 Kafka シンクがバージョン 2.8.0 以下を使用しており、ACL が構成されているものの IDEMPOTENT_WRITE が有効になっていない場合、書き込みは失敗し、エラーメッセージ org.apache.kafka.common.KafkaException:Cannot execute transactional method because we are in an error state が表示されます。

このエラーを解決するには、Kafka バージョン 2.8.0 以上にアップグレードするか、Structured Streaming ライターを構成するときに .option(“kafka.enable.idempotence”, “false”) を設定します。

Kafka への書き込み中に設定される一般的なオプションを次に示します。

オプション	価値	既定値	説明
`kafka.boostrap.servers`	`<host:port>` のコンマ区切りリスト	なし	[必須] Kafka `bootstrap.servers` の構成。
`topic`	`STRING`	設定しない	[省略可能] すべての行のトピックが書き込まれるよう設定します。このオプションは、データに存在するすべてのトピック列をオーバーライドします。
`includeHeaders`	`BOOLEAN`	`false`	[省略可能] 行に Kafka ヘッダーを含めるかどうか。

使用可能なオプションの完全な一覧については、[オプション] ページを参照してください。

Kafka ライター用スキーマ

Kafka にデータを書き込む場合、指定された DataFrame には次のフィールドが含まれる場合があります。

列名	必須またはオプション	タイプ
`key`	任意	`STRING` または `BINARY`
`value`	required	`STRING` または `BINARY`
`headers`	任意	`ARRAY`
`topic`	省略可能 ( `topic` がライターオプションとして設定されている場合は無視されます)	`STRING`
`partition`	任意	`INT`

認証

Azure Databricksでは、Unity カタログサービスの資格情報、SASL/SSL、AWS MSK、Azure Event Hubs、Google Cloud Managed Kafka のクラウド固有のオプションなど、Kafka の複数の認証方法がサポートされています。認証に関するページを参照してください。

Kafka メトリックを取得する

avgOffsetsBehindLatest、maxOffsetsBehindLatest、およびminOffsetsBehindLatestメトリックを使用して、ストリーミングクエリが Kafka にどの程度遅れているかを監視できます。これらのレポートは、Kafka の最新のオフセットを基準にして、サブスクライブされているすべてのトピックパーティションの平均、最大、最小オフセットラグを報告します。「対話形式によるメトリックの読み取り」を参照してください。

注

Databricks Runtime 17.1 以降では、マイクロバッチが完了するたびに最新の Kafka オフセットがフェッチされます。データを継続的に受信するトピックでは、バックログメトリックに小さい永続的な 0 以外の値が表示される場合があります。これは予期される動作であり、ストリームが遅れていることを示すものではありません。

Databricks Runtime 17.0 以降では、最新の Kafka オフセットはマイクロバッチの開始時刻にフェッチされます。バックログメトリックは、ストリーミングクエリがマイクロバッチの開始時に使用可能なすべてのレコードを一貫して使用する場合に、 0 を返す場合があります。

クエリがまだ消費していないデータの量を見積もるために、 estimatedTotalBytesBehindLatest メトリックを使用します。このメトリックは、過去 300 秒間に処理されたバッチに基づいて、サブスクライブされているすべてのパーティションに残っている合計バイト数を見積もります。この見積もりに使用する時間枠は、 bytesEstimateWindowLength オプションを設定することで変更できます。たとえば、10 分に設定するには、次のようにします。

Python

df = (spark.readStream
  .format("kafka")
  .option("bytesEstimateWindowLength", "10m") # m for minutes, you can also use "600s" for 600 seconds
)

Scala

val df = spark.readStream
  .format("kafka")
  .option("bytesEstimateWindowLength", "10m") // m for minutes, you can also use "600s" for 600 seconds

ノートブックでストリームを実行している場合、これらのメトリックは、ストリーミングクエリの進行状況ダッシュボードの [生データ] タブに表示されます。

{
  "sources": [
    {
      "description": "KafkaV2[Subscribe[topic]]",
      "metrics": {
        "avgOffsetsBehindLatest": "4.0",
        "maxOffsetsBehindLatest": "4",
        "minOffsetsBehindLatest": "4",
        "estimatedTotalBytesBehindLatest": "80.0"
      }
    }
  ]
}

詳細については、 Azure Databricksを参照してください。

コード例: Kafka から Delta

次の例は、Kafka から Delta テーブルにデータを継続的にストリーミングするための完全なワークフローを示しています。このパターンは、ほぼリアルタイムのデータインジェストワークロードに最適です。

この例では、固定 JSON スキーマを使用します。 Avro や Protobuf などの他の形式の場合は、 from_avro または from_protobufを使用します。スキーマレジストリと統合することもできます。スキーマレジストリの例を参照してください。

Python

from pyspark.sql.functions import from_json, col

# Define simple JSON schemas for key and value
key_schema = "user_id STRING"
value_schema = "event_type STRING, event_ts TIMESTAMP"

# Configure Kafka options with service credentials
kafka_options = {
  "kafka.bootstrap.servers": "<bootstrap-server>:9092",
  "subscribe": "<topic-name>",
  "databricks.serviceCredential": "<service-credential-name>",
}

# Read from Kafka and parse JSON
parsed_df = (spark.readStream
  .format("kafka")
  .options(**kafka_options)
  .load()
  .select(
    from_json(col("key").cast("string"), key_schema).alias("key"),
    from_json(col("value").cast("string"), value_schema).alias("value")
  )
  .select("key.*", "value.*")
)

# Write to Delta table
query = (parsed_df.writeStream
  .format("delta")
  .option("checkpointLocation", "/path/to/checkpoint")
  .trigger(processingTime="10 seconds")
  .toTable("catalog.schema.events_table")
)

query.awaitTermination()

Scala

import org.apache.spark.sql.functions.{from_json, col}
import org.apache.spark.sql.streaming.Trigger

// Define JSON schemas for key and value
val keySchema = "user_id STRING"
val valueSchema = "event_type STRING, event_ts TIMESTAMP"

// Configure Kafka options with service credentials
val kafkaOptions = Map(
  "kafka.bootstrap.servers" -> "<bootstrap-server>:9092",
  "subscribe" -> "<topic-name>",
  "databricks.serviceCredential" -> "<service-credential-name>"
)

// Read from Kafka and parse JSON
val parsedDF = spark.readStream
  .format("kafka")
  .options(kafkaOptions)
  .load()
  .select(
    from_json(col("key").cast("string"), keySchema).alias("key"),
    from_json(col("value").cast("string"), valueSchema).alias("value")
  )
  .select("key.*", "value.*")

// Write to Delta table
val query = parsedDF.writeStream
  .format("delta")
  .option("checkpointLocation", "/path/to/checkpoint")
  .trigger(Trigger.ProcessingTime("10 seconds"))
  .toTable("catalog.schema.events_table")

query.awaitTermination()

SQL

-- Create a streaming table from Kafka using read_kafka
CREATE OR REFRESH STREAMING TABLE catalog.schema.events_table AS
SELECT
  key::string:user_id AS user_id,
  value::string:event_type AS event_type,
  to_timestamp(value::string:event_ts) AS event_ts
FROM STREAM read_kafka(
  bootstrapServers => '<bootstrap-server>:9092',
  subscribe => '<topic-name>',
  serviceCredential => '<service-credential-name>'
);

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-19

Apache Kafka に接続する

Kafka からデータを読み取る

Python

Scala

SQL

Python

Scala

SQL

Kafka Structured Streaming リーダーを構成する

Kafka レコードのスキーマ

Kafka にデータを書き込む

Python

Scala

Python

Scala

Kafka 構造化ストリーミング ライターを構成する

Kafka ライター用スキーマ

認証

Kafka メトリックを取得する

Python

Scala

コード例: Kafka から Delta

Python

Scala

SQL

フィードバック

その他のリソース

Kafka 構造化ストリーミングライターを構成する