Databricks UI を使用してモニターを作成する

[アーティクル]
08/12/2024

この記事では、Databricks UI を使用してデータモニターを作成する方法について説明します。また、API を使用することもできます。

Databricks UI にアクセスするには、次の操作を行います。

ワークスペースの左側のサイドバーで、をクリックし、Catalog Explorer を開きます。
監視するテーブルに移動します。
[品質] タブをクリックします。
[開始する] ボタンをクリックします。
[モニターの作成] で、モニターを設定するオプションを選択します。

プロファイル

[プロファイルの種類] メニューから、作成するモニターの種類を選択します。プロファイルの種類が表示されます。

プロファイルの種類	説明
時系列プロファイル	時間の経過に合わせて測定された値を含むテーブル。このテーブルにはタイムスタンプ列が含まれています。
推論プロファイル	機械学習の分類または回帰モデルによって出力される予測値を含むテーブル。このテーブルには、タイムスタンプ、モデル ID、モデル入力 (特徴)、モデル予測を含む列、および一意の観測 ID とグラウンドトゥルースラベルを含むオプションの列が含まれます。また、モデルへの入力として使用されないメタデータ (人口統計情報など) が含まれている場合もありますが、公平性と偏見の調査やその他の監視に役立つ可能性があります。
スナップショットプロファイル	Delta マネージドテーブル、外部テーブル、ビュー、具体化されたビュー、またはストリーミングテーブル。

TimeSeries または Inference を選択する場合は、追加のパラメーターが必要であり、これについては以降のセクションで説明します。

Note

時系列または推論プロファイルを初めて作成するとき、モニターは作成以前の 30 日間のデータのみを分析します。モニターが作成された後は、すべての新しいデータが処理されます。
具体化されたビューとストリーミングテーブルで定義されたモニターでは、増分処理はサポートされません。

ヒント

TimeSeries プロファイルと Inference プロファイルの場合は、テーブルで変更データフィード (CDF) を有効にすることをお勧めします。 CDF を有効にすると、更新のたびにテーブル全体を再処理するのではなく、新しく追加されたデータのみが処理されます。これにより、多くのテーブルで監視をスケーリングする際の実行効率が向上し、コストが削減されます。

`TimeSeries` プロファイル

TimeSeries プロファイルの場合は、次の選択を行う必要があります。

時間をまたいでウィンドウのデータをパーティション分割する方法を決定する [メトリックの細分性] を指定します。
タイムスタンプを含むテーブル内の列である、[タイムスタンプ列] を指定します。タイムスタンプ列のデータ型は、TIMESTAMP、または to_timestamp PySpark 関数を使用してタイムスタンプに変換できる型である必要があります。

`Inference` プロファイル

Inference プロファイルの場合、細分性とタイムスタンプに加えて、次の選択を行う必要があります。

分類または回帰のいずれかの [問題の種類] を選択します。
モデルの予測値を含む列である、[予測列] を指定します。
必要に応じて、モデル予測の実測値を含む列である [ラベル列] を指定します。
予測に使用されるモデルの ID が含まれる列である、[モデル ID 列] を指定します。

スケジュール

スケジュールに基づいて実行するようにモニターを設定するには、[スケジュールに基づいて更新] を選択し、モニターを実行する頻度と時間を選択します。モニターを自動的に実行しない場合は、[手動で更新] を選択します。 [手動で更新] を選択した場合は、後で [品質] タブからメトリックを更新できます。

通知

モニターのメールアドレス通知を設定するには、通知するメールアドレスを入力し、有効にする通知を選択します。通知イベントの種類ごとに最大 5 つのメールアドレスがサポートされます。

全般

[全般] セクションでは、1 つの必須設定といくつかの追加の構成オプションを指定する必要があります。

モニターで作成されたメトリックテーブルが格納される Unity Catalog スキーマを指定する必要があります。場所は {catalog} 形式である必要があります。{schema}。

次の設定を指定することもできます。

資産ディレクトリ。生成されたダッシュボードなどの監視資産を格納する既存のディレクトリに対する絶対パスを入力します。既定では、資産は既定のディレクトリ "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}" に格納されます。このフィールドに別の場所を入力すると、指定したディレクトリの "/{table_name}" に資産が作成されます。このディレクトリは、ワークスペース内の任意の場所に配置できます。組織内で共有することを目的としたモニターの場合は、"/Shared/" ディレクトリ内のパスを使用できます。

このフィールドを空白にすることはできません。
Unity Catalog ベースラインテーブル名。比較用のベースラインデータを含むテーブルまたはビューの名前。ベースラインテーブルに関する詳細については、「プライマリ入力テーブルとベースラインテーブル」を参照してください。
メトリックスライス式。スライス式を使用すると、テーブル全体に加えて監視するテーブルのサブセットを定義できます。スライス式を作成するには、[式の追加] をクリックし、式の定義を入力します。たとえば、式 "col_2 > 10" は 2 つのスライスを生成します。1 つは col_2 > 10 の、1 つは col_2 <= 10 のスライスです。もう 1 つの例として、式 "col_1" では、col_1 の一意の値ごとに 1 つのスライスが生成されます。データは各式によって個別にグループ化され、述語とその補数ごとに個別のスライスが作成されます。
カスタムメトリック。カスタムメトリックは、組み込みのメトリックと同様にメトリックテーブルに表示されます。詳細については、「Databricks レイクハウス監視でカスタムメトリックを使用する」を参照してください。カスタムメトリックを構成するには、[カスタムメトリックの追加] をクリックします。
- カスタムメトリックの [名前] を入力します。
- カスタムメトリックの [種類] を Aggregate、Derived、または Drift のいずれかから選択します。定義については、「カスタムメトリックの種類」を参照してください。
- [入力列] のドロップダウンリストから、メトリックを適用する列を選択します。
- [出力の種類] フィールドで、メトリックの Spark データ型を選択します。
- [定義] フィールドに、カスタムメトリックを定義する SQL コードを入力します。

UI でモニター設定を編集する

モニターを作成したら、[品質] タブの [モニター構成の編集] ボタンをクリックして、モニターの設定を変更できます。

UI でモニターの結果を更新して表示する

モニターを手動で実行するには、[メトリックの更新] をクリックします。

監視メトリックテーブルに格納される統計の詳細については、「メトリックテーブルを監視する」を参照してください。メトリックテーブルは Unity Catalog テーブルです。ノートブックまたは SQL クエリエクスプローラーでクエリを実行すると、Catalog Explorer に表示できます。

出力を監視するためのアクセスを制御する

モニターで作成されたメトリックテーブルとダッシュボードは、モニターを作成したユーザーが所有します。 Unity Catalog 特権を使用して、メトリックテーブルへのアクセスを制御できます。ワークスペース内でダッシュボードを共有するには、ダッシュボードの右上にある [共有] ボタンをクリックします。

UI からモニターを削除する

UI からモニターを削除するには、[メトリックの更新] ボタンの横にある kebab メニューをクリックし、[モニターの削除] を選択します。

次の方法で共有

Databricks UI を使用してモニターを作成する

プロファイル

`TimeSeries` プロファイル

`Inference` プロファイル

スケジュール

通知

全般

UI でモニター設定を編集する

UI でモニターの結果を更新して表示する

出力を監視するためのアクセスを制御する

UI からモニターを削除する

フィードバック

その他のリソース

次の方法で共有

Databricks UI を使用してモニターを作成する

プロファイル

TimeSeries プロファイル

Inference プロファイル

スケジュール

通知

全般

UI でモニター設定を編集する

UI でモニターの結果を更新して表示する

出力を監視するためのアクセスを制御する

UI からモニターを削除する

フィードバック

その他のリソース

`TimeSeries` プロファイル

`Inference` プロファイル