概要: 無料試用版とセットアップ
Azure Databricks を初めて使用する方は、まずここから始めましょう。 無料試用版とクラウド アカウントをセットアップする方法について説明します。 オンライン トレーニング リソースの詳細については、「無料の Databricks トレーニングを受ける」を参照してください。
Azure Databricks ワークスペースを作成する
Databricks では、Azure portal を使用して最初の Azure Databricks ワークスペースをデプロイすることをお勧めします。 次のいずれかのオプションを使用して Azure Databricks をデプロイすることもできます。
- Azure CLI を使用して Azure Databricks をデプロイする
- PowerShell を使用して Azure Databricks をデプロイする
- ARM テンプレートを使用して Azure Databricks をデプロイする
- Bicep を使用して Azure Databricks をデプロイする
注意
Azure Databricks ワークスペースを作成するときに、 [Trial (Premium - 14-Days Free DBUs)](試用版 (Premium - 14 日間の無料 DBU)) の価格レベルを選択し、ワークスペースから 14 日間無料の Premium Azure Databricks DBU にアクセスできるようにします。
開始する前に
- Azure サブスクリプションをお持ちで、しかも無料試用版サブスクリプションでない必要があります。 無料アカウントをお持ちの場合は、次の手順を実行します。
- お使いのプロファイルにアクセスし、サブスクリプションを [従量課金制] に変更します。 「Azure の無料アカウント」を参照してください。
- 使用制限を削除します。
- リージョン内の vCPU のクォータの引き上げを要求します。
- Azure portal にサインインします。
- Azure 共同作成者または所有者になっているか、Microsoft.ManagedIdentity リソース プロバイダーがサブスクリプションに登録されている必要があります。 手順については、「リソース プロバイダーの登録」を参照してください。
portal を使用して Azure Databricks ワークスペースを作成する
Azure portal で、[リソースの作成][分析][Azure Databricks] の順に選択します。
[Azure Databricks サービス] で値を指定して、Databricks ワークスペースを作成します。
プロパティ 説明 ワークスペース名 Databricks ワークスペースの名前を指定します サブスクリプション ドロップダウンから Azure サブスクリプションを選択します。 リソース グループ 新しいリソース グループを作成するか、既存のリソース グループを使用するかを指定します。 リソース グループは、Azure ソリューションの関連するリソースを保持するコンテナーです。 詳しくは、Azure リソース グループの概要に関するページをご覧ください。 場所 [米国西部 2] を選択します。 使用可能な他のリージョンについては、「リージョン別の利用可能な製品」をご覧ください。 価格レベル Standard、Premium、Trial のいずれかを選択します。 これらのレベルの詳細については、Databricks の価格に関するページを参照してください。 [確認および作成] 、 [作成] の順に選択します。 ワークスペースの作成には数分かかります。 ワークスペースの作成中に、 [通知] でデプロイの状態を表示できます。 この処理が完了すると、ユーザー アカウントが管理者ユーザーとして自動的にワークスペースに追加されます。
注意
ワークスペースのデプロイが失敗した場合でも、ワークスペースはエラー状態で作成されます。 失敗したワークスペースを削除し、デプロイ エラーのない新しいワークスペースを作成します。 失敗したワークスペースを削除すると、管理対象リソース グループと、正常にデプロイされたリソースもすべて削除されます。
Azure CLI を使用して Azure Databricks をデプロイする
手順 1: サインインする
CLI のローカル インストールを使用する場合は、az login コマンドを使用してサインインします。
az login
ターミナルに表示される手順に従って、認証プロセスを完了します。
手順 2: Azure CLI 拡張機能をインストールする
Azure CLI の拡張機能の参照を操作する場合は、最初に拡張機能をインストールする必要があります。 Azure CLI 拡張機能を使用すると、コア CLI の一部としてまだ出荷されていない実験用コマンドおよびプレリリース コマンドにアクセスできます。 更新とアンインストールを含む拡張機能の詳細については、「Azure CLI で拡張機能を使用する」を参照してください。
次のコマンドを実行して、Databricks の拡張機能をインストールします。
az extension add --name databricks
手順 3:リソース グループを作成する
Azure Databricks は、すべての Azure リソースと同様に、リソース グループにデプロイする必要があります。 リソース グループを使用すると、関連する Azure リソースを整理して管理できます。
このクイックスタートでは、次の az group create コマンドを使用して、_databricks-quickstart_ という名前のリソース グループを westus2 の場所に作成します。
az group create --name databricks-quickstart --location westus2
手順 4: Azure Databricks ワークスペースを作成する
az databricks workspace create を使用して、Azure Databricks ワークスペースを作成します。
az databricks workspace create
--resource-group databricks-quickstart \
--name mydatabricksws \
--location westus \
--sku standard
PowerShell を使用して Azure Databricks をデプロイする
注意
ローカルで PowerShell を使用する場合は、Az PowerShell モジュールをインストールしたうえで、Connect-AzAccount コマンドレットを使用して自分の Azure アカウントに接続する必要があります。 Az PowerShell モジュールのインストールの詳細については、「Azure PowerShell のインストール」を参照してください。
重要
Az.Databricks PowerShell モジュールがプレビュー段階にある間は、次のコマンドを使用して、Az PowerShell モジュールとは別にインストールする必要があります: Install-Module -Name Az.Databricks -AllowPrerelease
。 Az.Databricks PowerShell モジュールが一般提供されると、将来の Az PowerShell モジュール リリースの一部となり、Azure Cloud Shell 内からネイティブに使用できるようになります。
Note
FedRAMP High などの米国政府のコンプライアンス認定資格を保持する Azure 商用クラウド内に Azure Databricks ワークスペースを作成する場合は、Microsoft または Databricks の担当者に連絡して、このエクスペリエンスへのアクセスを取得してください。
Azure Databricks を初めて使用する場合は、Microsoft.Databricks リソースプロバイダーを登録する必要があります。
Register-AzResourceProvider -ProviderNamespace Microsoft.Databricks
Azure Cloud Shell を使用する
Azure では、ブラウザーを介して使用できる対話型のシェル環境、Azure Cloud Shell がホストされています。 Cloud Shell で Bash または PowerShell を使用して、Azure サービスを操作できます。 ローカル環境に何もインストールしなくても、Cloud Shell にプレインストールされているコマンドを使用して、この記事のコードを実行できます。
Azure Cloud Shell を開始するには:
- コード ブロックの右上隅にある [使ってみる] を選択します。 [使ってみる] を選択しても、コードは Cloud Shell に自動的にコピーされません。
- https://shell.azure.com に移動するか、[Cloud Shell を起動する] ボタンを選択して、ブラウザーで Cloud Shell を開きます。
- Azure portal の右上にあるメニュー バーの [Cloud Shell] ボタンを選択します。
Azure Cloud Shell でこの記事のコードを実行するには:
- Cloud Shell を開始します。
- [コピー] ボタンを選択して、コード ブロックをコードにコピーします。
- Windows と Linux では CtrlShiftV キーを選択し、macOS では CmdShiftV キーを選択して、コードを Cloud Shell セッションに貼り付けます。
- Enter キーを選択して、コードを実行します。
複数の Azure サブスクリプションをお持ちの場合は、リソースが課金の対象となる適切なサブスクリプションを選択してください。 Set-AzContext コマンドレットを使用して、特定のサブスクリプション ID を選択します。
Set-AzContext -SubscriptionId 00000000-0000-0000-0000-000000000000
リソース グループを作成する
New-AzResourceGroup コマンドレットを使用して、Azure リソース グループを作成します。 リソース グループとは、複数の Azure リソースをまとめてデプロイ、管理する際の論理コンテナーです。
次の例では、myResourceGroup という名前のリソース グループを米国西部 2 リージョンに作成します。
New-AzResourceGroup -Name myresourcegroup -Location westus2
Azure Databricks ワークスペースを作成する
このセクションでは、PowerShell を使用して Azure Databricks ワークスペースを作成します。
New-AzDatabricksWorkspace -Name mydatabricksws -ResourceGroupName myresourcegroup -Location westus2 -ManagedResourceGroupName databricks-group -Sku standard
次の値を指定します。
プロパティ | 説明 |
---|---|
名前 | Databricks ワークスペースの名前を指定します |
ResourceGroupName | 既存のリソース グループ名を指定します |
場所 | [米国西部 2] を選択します。 その他の利用可能なリージョンについては、リージョン別の利用可能な製品に関するページをご覧ください |
ManagedResourceGroupName | 新しい管理対象リソース グループを作成するか、既存のグループを使用するかを指定します。 |
Sku | Standard、Premium、Trial のいずれかを選択します。 これらのレベルの詳細については、Databricks の価格に関するページをご覧ください |
ワークスペースの作成には数分かかります。 この処理が完了すると、ユーザー アカウントが管理者ユーザーとして自動的にワークスペースに追加されます。
注意
ワークスペースのデプロイが失敗した場合でも、ワークスペースはエラー状態で作成されます。 失敗したワークスペースを削除し、デプロイ エラーのない新しいワークスペースを作成します。 失敗したワークスペースを削除すると、管理対象リソース グループと、正常にデプロイされたリソースもすべて削除されます。
Databricks ワークスペースのプロビジョニングの状態を確認する
Databricks ワークスペースが正常にプロビジョニングされたかどうかを確認するには、Get-AzDatabricksWorkspace
コマンドレットを使用できます。
Get-AzDatabricksWorkspace -Name mydatabricksws -ResourceGroupName myresourcegroup |
Select-Object -Property Name, SkuName, Location, ProvisioningState
Name SkuName Location ProvisioningState
---- ------- -------- -----------------
mydatabricksws standard westus2 Succeeded
ARM テンプレートを使用して Azure Databricks をデプロイする
ARM テンプレートは JavaScript Object Notation (JSON) ファイルであり、プロジェクトのインフラストラクチャと構成が定義されています。 このテンプレートでは、デプロイしようとしているものを、それを作成する一連のプログラミング コマンドを記述しなくても記述できる、宣言型の構文を使用しています。
環境が前提条件を満たしていて、ARM テンプレートの使用に慣れている場合は、[Azure へのデプロイ] ボタンを選択します。 Azure portal でテンプレートが開きます。
テンプレートを確認する
このクイックスタートで使用されるテンプレートは Azure クイックスタート テンプレートからのものです。
{
"$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
"contentVersion": "1.0.0.0",
"metadata": {
"_generator": {
"name": "bicep",
"version": "0.5.6.12127",
"templateHash": "14509124136721506545"
}
},
"parameters": {
"disablePublicIp": {
"type": "bool",
"defaultValue": false,
"metadata": {
"description": "Specifies whether to deploy Azure Databricks workspace with Secure Cluster Connectivity (No Public IP) enabled or not"
}
},
"workspaceName": {
"type": "string",
"metadata": {
"description": "The name of the Azure Databricks workspace to create."
}
},
"pricingTier": {
"type": "string",
"defaultValue": "premium",
"allowedValues": [
"standard",
"premium"
],
"metadata": {
"description": "The pricing tier of workspace."
}
},
"location": {
"type": "string",
"defaultValue": "[resourceGroup().location]",
"metadata": {
"description": "Location for all resources."
}
}
},
"variables": {
"managedResourceGroupName": "[format('databricks-rg-{0}-{1}', parameters('workspaceName'), uniqueString(parameters('workspaceName'), resourceGroup().id))]"
},
"resources": [
{
"type": "Microsoft.Databricks/workspaces",
"apiVersion": "2018-04-01",
"name": "[parameters('workspaceName')]",
"location": "[parameters('location')]",
"sku": {
"name": "[parameters('pricingTier')]"
},
"properties": {
"managedResourceGroupId": "[subscriptionResourceId('Microsoft.Resources/resourceGroups', variables('managedResourceGroupName'))]",
"parameters": {
"enableNoPublicIp": {
"value": "[parameters('disablePublicIp')]"
}
}
}
}
],
"outputs": {
"workspace": {
"type": "object",
"value": "[reference(resourceId('Microsoft.Databricks/workspaces', parameters('workspaceName')))]"
}
}
}
テンプレートで定義されている Azure リソースは Microsoft.Databricks/workspaces です。つまり Azure Databricks ワークスペースを作成します。
テンプレートのデプロイ
このセクションでは、ARM テンプレートを使用して Azure Databricks ワークスペースを作成します。
与えられたリンクを使用して Azure にサインインしてテンプレートを開きます。
次の必要な値を入力して Azure Databricks ワークスペースを作成します。
プロパティ 説明 サブスクリプション ドロップダウンから Azure サブスクリプションを選択します。 リソース グループ 新しいリソース グループを作成するか、既存のリソース グループを使用するかを指定します。 リソース グループは、Azure ソリューションの関連するリソースを保持するコンテナーです。 詳しくは、Azure リソース グループの概要に関するページをご覧ください。 場所 [米国東部 2] を選択します。 使用可能な他のリージョンについては、「リージョン別の利用可能な製品」をご覧ください。 ワークスペース名 Databricks ワークスペースの名前を指定します 価格レベル Standard と Premium のいずれかを選択します。 これらのレベルの詳細については、Databricks の価格に関するページを参照してください。 [確認および作成] 、 [作成] の順に選択します。
ワークスペースの作成には数分かかります。 ワークスペースのデプロイが失敗した場合でも、ワークスペースはエラー状態で作成されます。 失敗したワークスペースを削除し、デプロイ エラーのない新しいワークスペースを作成します。 失敗したワークスペースを削除すると、管理対象リソース グループと、正常にデプロイされたリソースもすべて削除されます。
デプロイされているリソースを確認する
Azure portal を使用して Azure Databricks ワークスペースを確認するか、次の Azure CLI または Azure PowerShell スクリプトを使用してリソースを一覧表示できます。
Azure CLI
echo "Enter your Azure Databricks workspace name:" &&
read databricksWorkspaceName &&
echo "Enter the resource group where the Azure Databricks workspace exists:" &&
read resourcegroupName &&
az databricks workspace show -g $resourcegroupName -n $databricksWorkspaceName
Azure PowerShell
$resourceGroupName = Read-Host -Prompt "Enter the resource group name where your Azure Databricks workspace exists"
(Get-AzResource -ResourceType "Microsoft.Databricks/workspaces" -ResourceGroupName $resourceGroupName).Name
Write-Host "Press [ENTER] to continue..."
Bicep を使用して Azure Databricks をデプロイする
Bicep は、宣言型の構文を使用して Azure リソースをデプロイするドメイン固有言語 (DSL) です。 簡潔な構文、信頼性の高いタイプ セーフ、およびコードの再利用のサポートが提供されます。 Bicep により、Azure のコード ソリューションとしてのインフラストラクチャに最適な作成エクスペリエンスが実現します。
Bicep ファイルを確認する
このクイックスタートで使用される Bicep ファイルは、Azure クイックスタート テンプレートからのものです。
@description('Specifies whether to deploy Azure Databricks workspace with Secure Cluster Connectivity (No Public IP) enabled or not')
param disablePublicIp bool = false
@description('The name of the Azure Databricks workspace to create.')
param workspaceName string
@description('The pricing tier of workspace.')
@allowed([
'standard'
'premium'
])
param pricingTier string = 'premium'
@description('Location for all resources.')
param location string = resourceGroup().location
var managedResourceGroupName = 'databricks-rg-${workspaceName}-${uniqueString(workspaceName, resourceGroup().id)}'
resource ws 'Microsoft.Databricks/workspaces@2018-04-01' = {
name: workspaceName
location: location
sku: {
name: pricingTier
}
properties: {
managedResourceGroupId: managedResourceGroup.id
parameters: {
enableNoPublicIp: {
value: disablePublicIp
}
}
}
}
resource managedResourceGroup 'Microsoft.Resources/resourceGroups@2021-04-01' existing = {
scope: subscription()
name: managedResourceGroupName
}
output workspace object = ws.properties
Bicep ファイルで定義されている Azure リソースは Microsoft.Databricks/workspaces です。つまり Azure Databricks ワークスペースを作成します。
Bicep ファイルをデプロイする
- Bicep ファイルを main.bicep としてローカル コンピューターに保存します。
- Azure CLI または Azure PowerShell のどちらかを使用して Bicep ファイルをデプロイします。
CLI
az group create --name exampleRG --location eastus
az deployment group create --resource-group exampleRG --template-file main.bicep --parameters workspaceName=<workspace-name>
PowerShell
New-AzResourceGroup -Name exampleRG -Location eastus
New-AzResourceGroupDeployment -ResourceGroupName exampleRG -TemplateFile ./main.bicep -workspaceName "<workspace-name>"
注意
<workspace-name>
を、作成する Azure Databricks ワークスペースの名前に置き換えます。
デプロイが完了すると、デプロイが成功したことを示すメッセージが表示されます。
デプロイされているリソースを確認する
Azure portal、Azure CLI、または Azure PowerShell を使用して、リソースグループ内のデプロイ済みリソースをリスト表示します。
CLI
az resource list --resource-group exampleRG
PowerShell
Get-AzResource -ResourceGroupName exampleRG
ワークスペースとデータのアクセス許可を構成する
Azure Databricks では、特定のアクティビティをワークスペース管理者に制限して、お客様がデータやコードへのアクセスを安全に構成できるようにしています。 一部の Azure Databricks 機能は、ユーザーが使用する前にワークスペース管理者が有効にする必要があります。 一般的なタスクについては、「Azure Databricks 管理の概要」を参照してください。
Unity Catalog 対応ワークスペースを使用している場合は、セキュリティとガバナンスのために多くの追加機能を利用できます。 「チュートリアル: Databricks SQL の Unity Catalog メタストア管理タスク」を参照してください。
管理者は、ほとんどの一般的なタスクを完了する前に、Databricks SQL を構成する必要があります。 「Databricks SQL の管理者のオンボード」および「テーブルにクエリを実行するユーザーを設定する」を参照してください。
注意
Azure Databricks ワークスペースを作成すると、管理者特権が付与されます。