Azure Databricks とは

2025-05-06

Azure Databricks は、エンタープライズグレードのデータソリューションを大規模に構築、デプロイ、共有、保守するための統合されたツールセットです。 Databricks Data Intelligence Platform は、クラウドアカウントのクラウドストレージとセキュリティと統合され、クラウドインフラストラクチャを管理およびデプロイします。

Databricks データインテリジェンスプラットフォーム

Azure Databricks では、データレイクハウスで生成 AI を使用して、データの固有のセマンティクスを理解します。その後、ビジネスニーズに合わせてパフォーマンスが自動的に最適化され、インフラストラクチャが管理されます。

自然言語処理はビジネスの言語を学習するので、自分の言葉で質問することでデータを検索および検出できます。自然言語の支援は、コードの記述、エラーのトラブルシューティング、ドキュメントでの回答の検索に役立ちます。

マネージドオープンソース統合

Databricks はオープンソースコミュニティにコミットされ、Databricks Runtime リリースとのオープンソース統合の更新を管理します。以下のテクノロジは、元々は Databricks の従業員によって作成されたオープンソースプロジェクトです。

一般的なユースケース

次のユースケースでは、お客様が Azure Databricks を使用して、重要なビジネス機能と意思決定を推進するデータの処理、格納、分析に不可欠なタスクを実行する方法をいくつか紹介します。

エンタープライズデータレイクハウスを構築する

Data Lakehouse は、エンタープライズデータウェアハウスとデータレイクを組み合わせて、エンタープライズデータソリューションを高速化、簡素化、統合します。データエンジニア、データサイエンティスト、アナリスト、運用システムはすべて、データレイクハウスを単一の信頼できる情報源として使用でき、一貫性のあるデータへのアクセスを提供し、多くの分散データシステムの構築、保守、同期の複雑さを軽減できます。「データレイクハウスとは」をご覧ください。

ETL とデータエンジニアリング

ダッシュボードを生成する場合でも、人工知能アプリケーションを活用する場合でも、データエンジニアリングは、効率的な検出と使用のためにデータが使用可能でクリーンで、データモデルに格納されていることを確認することで、データ中心の企業のバックボーンを提供します。 Azure Databricks は、Apache Spark の機能と Delta およびカスタムツールを組み合わせて、比類のない ETL エクスペリエンスを提供します。 SQL、Python、Scala を使用して ETL ロジックを作成し、数回のクリックでスケジュールされたジョブのデプロイを調整します。

Lakeflow 宣言型パイプラインは、データセット間の依存関係をインテリジェントに管理し、運用環境インフラストラクチャを自動的にデプロイおよびスケーリングすることで ETL をさらに簡素化し、仕様へのタイムリーで正確なデータ配信を保証します。

Azure Databricks には、自動ローダーを含むデータインジェスト用のツールが用意されています。これは、クラウドオブジェクトストレージとデータレイクから Data Lakehouse にデータを増分的かつべき等的に読み込むための効率的でスケーラブルなツールです。

機械学習、AI、データサイエンス

Azure Databricks 機械学習では、MLflow や Databricks Runtime for Machine Learning など、データサイエンティストや ML エンジニアのニーズに合わせて調整された一連のツールを使用して、プラットフォームのコア機能を拡張します。

大規模言語モデルと生成 AI

Databricks Runtime for Machine Learning には、既存の事前トレーニング済みモデルやその他のオープンソースライブラリをワークフローに統合できる Hugging Face Transformers などのライブラリが含まれています。 Databricks MLflow 統合により、トランスフォーマーパイプライン、モデル、処理コンポーネントで MLflow 追跡サービスを簡単に使用できます。 John Snow Labs などのパートナーの OpenAI モデルまたはソリューションを Databricks ワークフローに統合します。

Azure Databricks を使用して、特定のタスクに合わせてデータの LLM をカスタマイズします。 Hugging Face や DeepSpeed などのオープンソースツールをサポートすることで、基礎 LLM を効率的に取得し、独自のデータを使用してトレーニングを開始し、ドメインとワークロードの精度を高めることができます。

さらに、Azure Databricks には、SQL データアナリストがデータパイプラインとワークフロー内で直接、OpenAI を含む LLM モデルにアクセスするために使用できる AI 関数が用意されています。 Azure Databricks AI Functions を使用したデータへの AI の適用に関するページを参照してください。

データウェアハウス、分析、BI

Azure Databricks は、ユーザーフレンドリーな UI、コスト効率の高いコンピューティングリソース、および無限に拡張可能な低価格のストレージを組み合わせて、分析クエリを実行するための強力なプラットフォームを提供します。管理者はスケーラブルなコンピューティングクラスターを SQL ウェアハウスとして構成します。これにより、エンドユーザーはクラウドでの作業の複雑さを気にすることなくクエリを実行できます。 SQL ユーザーは、SQL クエリエディターまたはノートブックを使用して、レイクハウス内のデータに対してクエリを実行できます。ノートブックでは、SQL に加えて Python、R、Scala がサポートされているので、ユーザーは、マークダウンで記述されたリンク、画像、コメントと共に、レガシダッシュボードで使用できるのと同じ視覚化機能を埋め込むことができます。

Unity Catalog は、データレイクハウス用の統合データガバナンスモデルを提供します。クラウド管理者は、Unity Catalog の大まかなアクセス制御アクセス許可を構成して統合し、Azure Databricks 管理者はチームと個人のアクセス許可を管理できます。権限は、ユーザーフレンドリな UI または SQL 構文を使用してアクセス制御リスト (ACL) で管理されるため、データベース管理者は、データへのアクセスを簡単にセキュリティで保護することができ、クラウドネイティブの ID アクセス管理 (IAM) とネットワーク上で拡張する必要はありません。

Unity Catalog は、クラウドでの安全な分析の実行をシンプルにし、プラットフォームの管理者とエンドユーザーの両方に必要なスキルの再構築やスキルアップを制限するのに役立つ責任の分割を提供します。「Unity Catalog とは」を参照してください。

レイクハウスを使用すると、テーブルまたはビューへのクエリアクセスを許可するのと同じくらい簡単に組織内でデータを共有できます。セキュリティで保護された環境の外部で共有するために、Unity Catalog にはマネージドバージョンの Delta Sharing が用意されています。

DevOps、CI/CD、タスクオーケストレーション

ETL パイプライン、ML モデル、分析ダッシュボードの開発ライフサイクルには、それぞれ固有の課題があります。 Azure Databricks を使用すると、すべてのユーザーが 1 つのデータソースを利用できるため、重複する作業と同期されていないレポートが削減されます。さらに、バージョン管理、自動化、スケジュール設定、コードと運用リソースのデプロイのための一連の共通ツールを提供することで、監視、オーケストレーション、および操作のオーバーヘッドをシンプルにすることできます。

ジョブは、Azure Databricks ノートブック、SQL クエリ、およびその他の任意のコードをスケジュールします。 Databricks アセットバンドルを使用すると、ジョブやパイプラインなどの Databricks リソースをプログラムで定義、デプロイ、実行できます。 Git フォルダーを使用すると、Azure Databricks プロジェクトを多数の人気のある Git プロバイダーと同期できます。

CI/CD のベストプラクティスと推奨事項については、 Databricks のベストプラクティスと推奨される CI/CD ワークフローを参照してください。開発者向けツールの完全な概要については、「 Databricks での開発」を参照してください。

リアルタイムのストリーミング分析

Azure Databricks では、Apache Spark Structured Streaming を利用して、ストリーミングデータと増分のデータ変更を処理します。構造化ストリーミングは Delta Lake と緊密に統合されており、これらのテクノロジは、Lakeflow 宣言型パイプラインと自動ローダーの両方の基盤を提供します。構造化ストリーミングの概念を参照してください。

次の方法で共有

Azure Databricks とは

マネージド オープン ソース統合

一般的なユース ケース

エンタープライズ データ レイクハウスを構築する

ETL とデータ エンジニアリング

機械学習、AI、データ サイエンス

大規模言語モデルと生成 AI

データ ウェアハウス、分析、BI

データ ガバナンスとセキュリティで保護されたデータ共有

DevOps、CI/CD、タスク オーケストレーション