この記事では、Azure Databricks クラスターまたは Azure Databricks SQL ウェアハウスで、Spotfire Analyst を使用する方法について説明します。
要件
Azure Databricks ワークスペース内のクラスターまたは SQL ウェアハウス。
クラスターまたは SQL ウェアハウスの接続の詳細。具体的には、[サーバーのホスト名]、[ポート]、および [HTTP パス] の値です。
Azure Databricks 個人用アクセス トークンまたは Microsoft Entra ID (旧称 Azure Active Directory) トークン。 個人用アクセス トークンを作成するには、「ワークスペース ユーザーの Azure Databricks 個人用アクセス トークンの手順に従います。
注
セキュリティのベスト プラクティスとして、自動化ツール、システム、スクリプト、アプリを使用して認証する場合、Databricks では、ワークスペース ユーザーではなくサービス プリンシパルに属する個人用アクセス トークンを使用することを推奨しています。 サービス プリンシパルのトークンを作成するには、「サービス プリンシパルのトークンを管理する」をご覧ください。
接続する手順
- Spotfire Analyst のナビゲーション バーで、プラス ([ファイルとデータ]) アイコンをクリックし、[接続先] をクリックします。
- [Databricks] を選択し、[新しい接続] をクリックします。
- [Apache Spark SQL] ダイアログの [全般] タブの [サーバー] に、手順 1 の [サーバー ホスト名] フィールドと [ポート] フィールドの値をコロンで区切って入力します。
- [認証方法] には [ユーザー名とパスワード] を選択します。
-
[ユーザー名] に「
token
」という単語を入力します 。 - [パスワード] に、手順 1 の個人用アクセス トークンを入力します。
- [詳細設定] タブ の [Thrift トランスポート モード] で、[HTTP] を選択します。
- [HTTP パス] に、手順 1 の [HTTP パス] フィールドの値を入力します。
- [全般] タブで [接続]をクリックします。
- 接続が成功したら、[データベース] の一覧で、使用するデータベースを選択し、[OK] をクリックします。
分析する Azure Databricks データを選択する
データの選択は [接続のビュー] ダイアログで行います。
- Azure Databricks で使用可能なテーブルを参照します。
- 必要なテーブルをビューとして追加します。これがSpotfire で分析するデータ テーブルになります。
- ビューごとに、含める列を決定できます。 より具体的で柔軟なデータ選択を作成する場合は、このダイアログで次のようなさまざまな強力なツールにアクセスできます。
- カスタム クエリ カスタム クエリを使用すると、カスタム SQL クエリを入力して、分析するデータを選択できます。
- プロンプト データの選択を分析ファイルのユーザーに任せます。 選択した列に基づいてプロンプトを構成します。 次に、分析を開くエンド ユーザーが、関連する値のデータのみを制限して表示するよう選択できます。 たとえば、ユーザーが、特定の期間内を選択したり、特定の地理的リージョンのデータを選択したりできます。
- [OK] をクリックします。
クエリを Azure Databricks にプッシュダウンする、またはデータをインポートする
分析するデータを選択したら、最後の手順は、Azure Databricks からデータを取得する方法を選択することです。 分析に追加しようとしているデータ テーブルの概要が表示され、各テーブルをクリックしてデータの読み込み方法を変更できます。
Azure Databricks でのこのオプションの既定の値は [外部] です。 つまり、データ テーブルは Azure Databricks の内部データベースに保持され、 Spotfire は分析でのアクションに基づいて、関連するデータ スライスに対してデータベースにさまざまなクエリをプッシュします。
[インポート済み] を選択して、Spotfire によってデータ テーブル全体が前もって抽出されるようにすることもできます。この場合、ローカルでのメモリ内分析が可能になります。 データ テーブルをインポートする場合は、TIBCO Spotfire の埋め込みメモリ内データ エンジンでも分析関数を使用します。
3 つ目のオプションは [オンデマンド] (動的 WHERE
句に対応) です。これは、分析のユーザー アクションに基づいてデータのスライスが抽出されるという方法です。 条件を定義できます。これは、データのマーキングやフィルター処理、ドキュメントのプロパティの変更などのアクションです。 オンデマンドのデータ読み込みを外部データ テーブルと組み 合わせることもできます。