オンラインテーブルを使用してリアルタイムで特徴量を提供する

[アーティクル]
06/24/2024

重要

オンラインテーブルはパブリックプレビュー段階です。プレビュー期間中に、オンラインテーブルにデータを取り込むには、SQL サーバーレス DBU が使用されます。オンラインテーブルの最終的な価格は、後日お知らせします。

オンラインテーブルのプレビューは、westus、eastus、eastus2、northeurope、westeurope の各リージョンでお使いいただけます。

オンラインテーブルは、オンラインアクセス用に最適化された行指向形式で保存される Delta テーブルの読み取り専用コピーです。オンラインテーブルは、要求の負荷でスループット容量を自動スケーリングし、任意のスケールのデータへの低遅延と高スループットアクセスを提供する完全なサーバーレステーブルです。オンラインテーブルは、Mosaic AI Model Serving、Feature Serving、取得拡張生成 (RAG) アプリケーションを使用するように設計されており、高速なデータ参照に使用されます。

Lakehouse フェデレーションを使用して、クエリでオンラインテーブルを使用することもできます。 Lakehouse フェデレーションを使用する場合は、サーバーレス SQL ウェアハウスを使用してオンラインテーブルにアクセスする必要があります。読み取り操作 (SELECT) のみがサポートされています。この機能は、対話型またはデバッグのみを目的としており、運用環境またはミッションクリティカルなワークロードには使用しないでください。

Databricks UI を使ったオンラインテーブルの作成は、1 ステップのプロセスです。カタログエクスプローラーで Delta テーブルを選び、[オンラインテーブルの作成] を選ぶだけです。 REST API または Databricks SDK を使ってオンラインテーブルを作成および管理することもできます。「API を使ってオンラインテーブルを操作する」を参照してください。

要件

ワークスペースは、Unity Catalog に対して有効にする必要があります。ドキュメントに従って Unity Catalog メタストアを作成し、ワークスペースで有効にして、カタログを作成します。
オンラインテーブルにアクセスするには、モデルを Unity カタログに登録する必要があります。

UI を使ってオンラインテーブルを操作する

このセクションでは、オンラインテーブルを作成および削除する方法と、オンラインテーブルの状態を確認して更新をトリガーする方法について説明します。

UI を使ってオンラインテーブルを作成する

オンラインテーブルをカタログエクスプローラーから作成します。必要なアクセス許可の詳細については、「ユーザーのアクセス許可」を参照してください。

オンラインテーブルを作成するには、ソース Delta テーブルに主キーが必要です。使用する Delta テーブルに主キーがない場合は、「Unity Catalog の既存の Delta テーブルを特徴テーブルとして使用する」の手順に従って作成します。
カタログエクスプローラーで、オンラインテーブルと同期させるソーステーブルに移動します。 [作成] メニューの [オンラインテーブル] を選択します。

ダイアログのセレクターを使って、オンラインテーブルを構成します。

[configure online table] (オンラインテーブルの構成) ダイアログ

[名前]: Unity Catalog でオンラインテーブルに使う名前。

[主キー]: オンラインテーブルの主キーとして使うソーステーブルの列。

[Timeseries Key] (時系列キー): (省略可能)。時系列キーとして使うソーステーブルの列。指定すると、オンラインテーブルには、各主キーの最新の時系列キー値を持つ行のみが含まれます。

[Sync mode] (同期モード): 同期パイプラインがオンラインテーブルを更新する方法を指定します。 [スナップショット]、[トリガー]、または [連続] のいずれかを選びます。

ポリシー	説明
スナップショット	パイプラインが 1 回実行され、ソーステーブルのスナップショットが取得され、オンラインテーブルにコピーされます。ソーステーブルに対する後続の変更は、ソースの新しいスナップショットを取得して新しいコピーを作成することで、オンラインテーブルに自動的に反映されます。オンラインテーブルの内容はアトミックに更新されます。
Triggered	パイプラインが 1 回実行され、オンラインテーブルにソーステーブルの初期スナップショットのコピーが作成されます。スナップショット同期モードとは異なり、オンラインテーブルが更新されると、最後のパイプライン実行以降の変更のみが取得され、オンラインテーブルに適用されます。増分更新は、スケジュールに従って手動でトリガーすることも、自動的にトリガーすることもできます。
継続的	パイプラインは継続的に実行されます。ソーステーブルに対する後続の変更は、リアルタイムストリーミングモードでオンラインテーブルに増分的に適用されます。手動更新は必要ありません。

Note

[トリガー] または [連続] 同期モードをサポートするには、ソーステーブルで変更データフィードが有効になっている必要があります。

終わったら、[確認] をクリックします。オンラインテーブルページが表示されます。
新しいオンラインテーブルが、作成ダイアログで指定したカタログ、スキーマ、名前の下に作成されます。カタログエクスプローラーでは、オンラインテーブルはで表されます。

UI を使って状態を取得し、更新をトリガーする

オンラインテーブルの状態を調べるには、カタログでテーブルの名前をクリックして開きます。オンラインテーブルのページが表示され、[概要] タブが開きます。 [Data Ingest] (データの取り込み) セクションには、最新の更新の状態が示されます。更新をトリガーするには、[今すぐ同期] をクリックします。 [Data Ingest] (データの取り込み) セクションには、テーブルを更新する Delta Live Tables パイプラインへのリンクも含まれています。

カタログ内のオンラインテーブルページのビュー

UI を使ってオンラインテーブルを削除する

オンラインテーブルのページで、ケバブメニューから [削除] を選びます。

API を使ってオンラインテーブルを操作する

Databricks SDK または REST API を使って、オンラインテーブルを作成および管理することもできます。

リファレンス情報については、Databricks SDK for Python または REST API のリファレンスドキュメントを参照してください。

要件

Databricks SDK バージョン 0.20 以降。

API を使ってオンラインテーブルを作成する

Databricks SDK - Python

from pprint import pprint
from databricks.sdk import WorkspaceClient
from databricks.sdk.service.catalog import *

w = WorkspaceClient(host='https://xxx.databricks.com', token='xxx')

# Create an online table
spec = OnlineTableSpec(
  primary_key_columns=["pk_col"],
  source_table_full_name="main.default.source_table",
  run_triggered=OnlineTableSpecTriggeredSchedulingPolicy.from_dict({'triggered': 'true'})
)

w.online_tables.create(name='main.default.my_online_table', spec=spec)

REST API

curl --request POST "https://xxx.databricks.com/api/2.0/online-tables" \
--header "Authorization: Bearer xxx" \
--data '{
    "name": "main.default.my_online_table",
    "spec": {
        "run_triggered": {},
        "source_table_full_name": "main.default.source_table",
        "primary_key_columns": ["a"]
    }
  }'

オンラインテーブルは、作成後に自動的に同期を開始します。

API を使って状態を取得し、更新をトリガーする

以下の例に従って、オンラインテーブルの状態と仕様を表示できます。オンラインテーブルが継続的ではなく、そのデータの手動更新をトリガーした場合は、パイプライン API を使用してこれを行うことができます。

オンラインテーブル仕様でオンラインテーブルに関連付けられているパイプライン ID を使用し、パイプラインで新しい更新を開始して更新をトリガーします。これは、カタログエクスプローラーのオンラインテーブル UI で [今すぐ同期] をクリックするのと同じです。

Databricks SDK - Python

pprint(w.online_tables.get('main.default.my_online_table'))

# Sample response
OnlineTable(name='main.default.my_online_table',
    spec=OnlineTableSpec(perform_full_copy=None,
        pipeline_id='some-pipeline-id',
        primary_key_columns=['pk_col'],
        run_continuously=None,
        run_triggered={},
        source_table_full_name='main.default.source_table',
        timeseries_key=None),
    status=OnlineTableStatus(continuous_update_status=None,
        detailed_state=OnlineTableState.PROVISIONING,
        failed_status=None,
        message='Online Table creation is '
            'pending. Check latest status in '
            'Delta Live Tables: '
            'https://xxx.databricks.com/pipelines/some-pipeline-id',
        provisioning_status=None,
        triggered_update_status=None))

# Trigger an online table refresh by calling the pipeline API. To discard all existing data
# in the online table before refreshing, set "full_refresh" to "True". This is useful if your
# online table sync is stuck due to, for example, the source table being deleted and recreated
# with the same name while the sync was running.
w.pipelines.start_update(pipeline_id='some-pipeline-id', full_refresh=True)

REST API

curl --request GET \
  "https://xxx.databricks.com/api/2.0/online-tables/main.default.my_online_table" \
  --header "Authorization: Bearer xxx"

# Sample response
{
  "name": "main.default.my_online_table",
  "spec": {
    "run_triggered": {},
    "source_table_full_name": "main.default.source_table",
    "primary_key_columns": ["pk_col"],
    "pipeline_id": "some-pipeline-id"
  },
  "status": {
    "detailed_state": "PROVISIONING",
    "message": "Online Table creation is pending. Check latest status in Delta Live Tables: https://xxx.databricks.com#joblist/pipelines/some-pipeline-id"
  }
}

# Trigger an online table refresh by calling the pipeline API. To discard all existing data
# in the online table before refreshing, set "full_refresh" to "True". This is useful if your
# online table sync is stuck due to, for example, the source table being deleted and recreated
# with the same name while the sync was running.
curl --request POST "https://xxx.databricks.com/api/2.0/pipelines/some-pipeline-id/updates" \
  --header "Authorization: Bearer xxx" \
  --data '{
    "full_refresh": true
  }'

API を使ってオンラインテーブルを削除する

Databricks SDK - Python

w.online_tables.delete('main.default.my_online_table')

REST API

curl --request DELETE \
  "https://xxx.databricks.com/api/2.0/online-tables/main.default.my_online_table" \
  --header "Authorization: Bearer xxx"

オンラインテーブルを削除すると、進行中のデータ同期が停止し、そのすべてのリソースが解放されます。

特徴量提供エンドポイントを使用してオンラインテーブルのデータを提供する

Databricks の外部でホストされているモデルとアプリケーションの場合は、オンラインテーブルから特徴量を提供する特徴量提供エンドポイントを作成できます。エンドポイントがあると、REST API を使って低遅延で特徴量を利用できます。

特徴量指定を作成します。

特徴量指定を作成するときは、ソース Delta テーブルを指定します。これにより、特徴量指定をオフラインとオンラインの両方のシナリオで使用できます。オンライン検索では、提供エンドポイントにより、オンラインテーブルが自動的に使われて、低遅延の特徴量検索が実行されます。

ソース Delta テーブルとオンラインテーブルでは同じ主キーを使用する必要があります。

特徴量指定は、カタログエクスプローラーの [関数] タブで確認できます。
```
from databricks.feature_engineering import FeatureEngineeringClient, FeatureLookup

fe = FeatureEngineeringClient()
fe.create_feature_spec(
  name="catalog.default.user_preferences_spec",
  features=[
    FeatureLookup(
      table_name="user_preferences",
      lookup_key="user_id"
    )
  ]
)
```

特徴量提供エンドポイントを作成します。

このステップでは、Delta テーブル user_preferences からデータを同期する user_preferences_online_table という名前のオンラインテーブルを作成してあるとします。特徴量指定を使って、特徴量提供エンドポイントを作成します。このエンドポイントにより、関連付けられているオンラインテーブルを使って REST API でデータを利用できるようになります。

Note

この操作を実行するユーザーは、オフラインテーブルとオンラインテーブル両方の所有者である必要があります。

Databricks SDK - Python

from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput

workspace = WorkspaceClient()

# Create endpoint
endpoint_name = "fse-location"

workspace.serving_endpoints.create_and_wait(
  name=endpoint_name,
  config=EndpointCoreConfigInput(
    served_entities=[
      ServedEntityInput(
        entity_name=feature_spec_name,
        scale_to_zero_enabled=True,
        workload_size="Small"
      )
    ]
  )
)

Python API

fe.create_feature_serving_endpoint(
  name="user-preferences",
  config=EndpointCoreConfig(
    served_entities=ServedEntity(
      feature_spec_name="catalog.default.user_preferences_spec",
      workload_size="Small",
      scale_to_zero_enabled=True
    )
  )
)

特徴量提供エンドポイントからデータを取得します。

API エンドポイントにアクセスするには、HTTP GET 要求をエンドポイントの URL に送信します。この例では、Python API を使ってこれを行う方法を示します。他の言語とツールについては、「Feature Serving」を参照してください。

# Set up credentials
export DATABRICKS_TOKEN=...

url = "https://{workspace_url}/serving-endpoints/user-preferences/invocations"

headers = {'Authorization': f'Bearer {DATABRICKS_TOKEN}', 'Content-Type': 'application/json'}

data = {
  "dataframe_records": [{"user_id": user_id}]
}
data_json = json.dumps(data, allow_nan=True)

response = requests.request(method='POST', headers=headers, url=url, data=data_json)
if response.status_code != 200:
  raise Exception(f'Request failed with status {response.status_code}, {response.text}')

print(response.json()['outputs'][0]['hotel_preference'])

RAG アプリケーションでオンラインテーブルを使用する

RAG アプリケーションは、オンラインテーブルの一般的なユースケースです。 RAG アプリケーションに必要な構造化データのオンラインテーブルを作成し、特徴量提供エンドポイントでホストします。 RAG アプリケーションは、特徴量提供エンドポイントを使って、オンラインテーブルで関連データを検索します。

一般的な手順は次のとおりです。

特徴量提供エンドポイントを作成します。
エンドポイントを使って関連データを検索する LangChainTool を作成します。
LangChain エージェントでツールを使って、関連データを取得します。
モデル提供エンドポイントを作成して LangChain アプリケーションをホストします。

詳細な手順については、次のノートブックの例を参照してください。

ノートブックの例

次のノートブックは、オンラインテーブルに特徴量を公開して、リアルタイムのサービス提供と特徴量の自動検索を行う方法を示しています。

オンラインテーブルデモノートブック

ノートブックを入手

次のノートブックでは、検索拡張生成 (RAG) アプリケーションに Databricks オンラインテーブルと特徴量提供エンドポイントを使う方法が示されています。

オンラインテーブルと RAG アプリケーションのデモノートブック

ノートブックを入手

Mosaic AI Model Serving でオンラインテーブルを使用する

オンラインテーブルを使って、Mosaic AI Model Serving 用の特徴量を検索できます。特徴量テーブルをオンラインテーブルに同期すると、その特徴量テーブルの特徴量を使ってトレーニングされたモデルにより、推論の間にオンラインテーブルから特徴量の値が自動的に検索されます。追加の構成は不要です。

FeatureLookup を使ってモデルをトレーニングします。

モデルのトレーニングでは、次の例に示すように、モデルトレーニングセットのオフライン特徴量テーブルの特徴量を使います。

training_set = fe.create_training_set(
  df=id_rt_feature_labels,
  label='quality',
  feature_lookups=[
      FeatureLookup(
          table_name="user_preferences",
          lookup_key="user_id"
      )
  ],
  exclude_columns=['user_id'],
)

Mosaic AI Model Serving を使用してモデルを提供します。モデルにより、オンラインテーブルから特徴量が自動的に検索されます。詳しくは、「Databricks の MLflow モデルを使用した自動特徴検索」をご覧ください。

ユーザーのアクセス許可

オンラインテーブルを作成するには、次のアクセス許可が必要です。

ソーステーブルに対する SELECT 特権。
同期先のカタログに対する USE_CATALOG 特権。
同期先のスキーマに対する USE_SCHEMA および CREATE_TABLE 特権。

オンラインテーブルのデータ同期パイプラインを管理するには、オンラインテーブルの所有者であるか、オンラインテーブルに対する REFRESH 特権が付与されている必要があります。カタログに対する USE_CATALOG および USE_SCHEMA 権限を持たないユーザーには、カタログエクスプローラーでオンラインテーブルが表示されません。

Unity Catalog メタストアには、Privilege Model バージョン 1.0 が必要です。

エンドポイントアクセス許可モデル

特徴量提供またはモデル提供エンドポイント用に、データのクエリと関数の実行に必要なアクセス許可に制限された一意のシステムサービスプリンシパルが、自動的に作成されます。このサービスプリンシパルを使うと、エンドポイントは、リソースを作成したユーザーに依存せずにデータおよび関数リソースにアクセスでき、作成者がワークスペースを離れた場合でも、エンドポイントが引き続き機能することが保証されます。

このシステムサービスプリンシパルの有効期間は、エンドポイントの有効期間です。監査ログでは、このシステムサービスプリンシパルに必要な特権を付与する Unity Catalog カタログの所有者に対する、システムによって生成されたレコードが示されている場合があります。

制限事項

ソーステーブルごとにサポートされているオンラインテーブルは 1 つだけです。
オンラインテーブルとそのソーステーブルには、最大 1,000 個の列を含めることができます。
データ型 ARRAY、MAP、または STRUCT の列は、オンラインテーブルの主キーとして使用できません。
ソーステーブルで、オンラインテーブルの主キーとして使われている列に null 値が含まれる行は、すべて無視されます。
外部、システム、内部の各テーブルは、ソーステーブルとしてはサポートされていません。
Delta の変更データフィードが有効になっていないソーステーブルでは、スナップショット同期モードのみがサポートされます。
Delta Sharing テーブルは、スナップショット同期モードでのみサポートされます。
オンラインテーブルのカタログ、スキーマ、テーブル名には、英数字とアンダースコアのみを使用でき、先頭を数字にすることはできません。ダッシュ (-) は使用できません。
String 型の列の長さは 64 KB に制限されています。
列名の長さは 64 文字に制限されています。
行の最大サイズは 2 MB です。
限定的なパブリックプレビューの間、オンラインテーブルの最大サイズは、200 GB の非圧縮ユーザーデータです。
限定的なパブリックプレビューの間、Unity Catalog メタストア内のすべてのオンラインテーブルの合計サイズは、1 TB の非圧縮ユーザーデータです。
1 秒あたりのクエリ数 (QPS) は、最大 200 です。この制限を 25,000 以上に引き上げることができます。この制限を引き上げるには、Databricks アカウントチームにお問い合わせください。

トラブルシューティング

[オンラインテーブルの作成] オプションが表示されない

通常、同期元のテーブル (ソーステーブル) がサポートされていない種類であることが原因です。ソーステーブルの [Securable Kind] (セキュリティ保護可能な種類) (カタログエクスプローラーの [詳細] タブに表示されます) が、以下のサポートされているオプションのいずれかであることを確認してください。

TABLE_EXTERNAL
TABLE_DELTA
TABLE_DELTA_EXTERNAL
TABLE_DELTASHARING
TABLE_DELTASHARING_MUTABLE
TABLE_STREAMING_LIVE_TABLE
TABLE_STANDARD
TABLE_FEATURE_STORE
TABLE_FEATURE_STORE_EXTERNAL
TABLE_VIEW
TABLE_VIEW_DELTASHARING
TABLE_MATERIALIZED_VIEW

オンラインテーブルを作成するときに、[トリガー] または [連続] の同期モードを選択できない

これは、ソーステーブルで Delta の変更データフィードが有効になっていない場合、またはそれがビューか具体化されたビューである場合に発生します。増分同期モードを使用するには、ソーステーブルで変更データフィードを有効にするか、ビュー以外のテーブルを使用します。

オンラインテーブルの更新が失敗するか、状態がオフラインと表示される

このエラーのトラブルシューティングを開始するには、カタログエクスプローラーでオンラインテーブルの [概要] タブに表示されるパイプライン ID をクリックします。

オンラインテーブルパイプラインのエラー

表示されたパイプライン UI ページで、"フロー '__online_table を解決できませんでした" というエントリをクリックします。

オンラインテーブルパイプラインのエラーメッセージ

ポップアップが表示され、[エラーの詳細] セクションに詳細が表示されます。

オンラインテーブルのエラーの詳細

一般的なエラーの原因には、次のものがあります。

オンラインテーブルの同期中に、ソーステーブルが削除されたか、削除されて同じ名前で再作成されました。これは、継続的なオンラインテーブルでは常に同期が行われるため、特に一般的です。
ファイアウォールの設定により、サーバーレスコンピューティング経由でソーステーブルにアクセスできません。この状況では、[エラーの詳細] セクションに、"クラスター xxx で DLT サービスを開始できませんでした…" というエラーメッセージが表示される場合があります。
オンラインテーブルの合計サイズが、メタストア全体の制限 1 TiB (非圧縮サイズ) を超えています。 1 TiB の制限では、Delta テーブルを行指向形式で展開した後の非圧縮サイズが参照されます。行形式のテーブルのサイズは、カタログエクスプローラーに表示される Delta テーブルのサイズより大幅に大きくなる場合があります。これは、列指向形式のテーブルの圧縮サイズを参照します。テーブルの内容によっては、その差が 100 倍にもなる場合があります。

Delta テーブルの非圧縮の行展開サイズを見積もるには、サーバーレス SQL ウェアハウスから次のクエリを使用します。このクエリは、拡張テーブルの推定サイズをバイト単位で返します。このクエリが正常に実行されると、サーバーレスコンピューティングがソーステーブルにアクセスできることも確認されます。
```
SELECT sum(length(to_csv(struct(*)))) FROM `source_table`;
```

次の方法で共有

オンラインテーブルを使用してリアルタイムで特徴量を提供する

要件

UI を使ってオンラインテーブルを操作する

UI を使ってオンラインテーブルを作成する

UI を使って状態を取得し、更新をトリガーする

UI を使ってオンラインテーブルを削除する

API を使ってオンラインテーブルを操作する

要件

API を使ってオンラインテーブルを作成する

Databricks SDK - Python

REST API

API を使って状態を取得し、更新をトリガーする

Databricks SDK - Python

REST API

API を使ってオンラインテーブルを削除する

Databricks SDK - Python

REST API

特徴量提供エンドポイントを使用してオンラインテーブルのデータを提供する

Databricks SDK - Python

Python API

RAG アプリケーションでオンラインテーブルを使用する

ノートブックの例

オンラインテーブルデモノートブック

オンラインテーブルと RAG アプリケーションのデモノートブック

Mosaic AI Model Serving でオンラインテーブルを使用する

ユーザーのアクセス許可

エンドポイントアクセス許可モデル

制限事項

トラブルシューティング

[オンラインテーブルの作成] オプションが表示されない

オンラインテーブルを作成するときに、[トリガー] または [連続] の同期モードを選択できない

オンラインテーブルの更新が失敗するか、状態がオフラインと表示される

フィードバック

フィードバック

その他のリソース

次の方法で共有

オンライン テーブルを使用してリアルタイムで特徴量を提供する

要件

UI を使ってオンライン テーブルを操作する

UI を使ってオンライン テーブルを作成する

UI を使って状態を取得し、更新をトリガーする

UI を使ってオンライン テーブルを削除する

API を使ってオンライン テーブルを操作する

要件

API を使ってオンライン テーブルを作成する

Databricks SDK - Python

REST API

API を使って状態を取得し、更新をトリガーする

Databricks SDK - Python

REST API

API を使ってオンライン テーブルを削除する

Databricks SDK - Python

REST API

特徴量提供エンドポイントを使用してオンライン テーブルのデータを提供する

Databricks SDK - Python

Python API

RAG アプリケーションでオンライン テーブルを使用する

ノートブックの例

オンライン テーブル デモ ノートブック

オンライン テーブルと RAG アプリケーションのデモ ノートブック

Mosaic AI Model Serving でオンライン テーブルを使用する

ユーザーのアクセス許可

エンドポイント アクセス許可モデル

制限事項

トラブルシューティング

[オンライン テーブルの作成] オプションが表示されない

オンライン テーブルを作成するときに、[トリガー] または [連続] の同期モードを選択できない

オンライン テーブルの更新が失敗するか、状態がオフラインと表示される

フィードバック

フィードバック

その他のリソース

オンラインテーブルを使用してリアルタイムで特徴量を提供する

UI を使ってオンラインテーブルを操作する

UI を使ってオンラインテーブルを作成する

UI を使ってオンラインテーブルを削除する

API を使ってオンラインテーブルを操作する

API を使ってオンラインテーブルを作成する

API を使ってオンラインテーブルを削除する

特徴量提供エンドポイントを使用してオンラインテーブルのデータを提供する

RAG アプリケーションでオンラインテーブルを使用する

オンラインテーブルデモノートブック

オンラインテーブルと RAG アプリケーションのデモノートブック

Mosaic AI Model Serving でオンラインテーブルを使用する

エンドポイントアクセス許可モデル

[オンラインテーブルの作成] オプションが表示されない

オンラインテーブルを作成するときに、[トリガー] または [連続] の同期モードを選択できない

オンラインテーブルの更新が失敗するか、状態がオフラインと表示される