Azure Databricks を使用してデータを取り込む

6 分

Azure Databricks 内でデータを操作する前に、プラットフォーム内にデータを取り込む必要があります。プラットフォームの中に入ると、クラウドベースのコンピューティングを使用して、大量のデータを効率的に処理できます。

Azure Databricks 内にデータを取り込む方法が複数あることにより、データ分析用の多目的で強力なツールとなっています。

Azure Data Factory を使用したデータパイプラインのオーケストレーション

Azure Data Factory は、データパイプラインを作成できる、堅牢なデータ統合サービスです。これらのパイプラインでは、さまざまなソースから Azure Databricks 内にデータを取り込むことができるため、確実にすべてのデータが一元化され、分析の準備が整います。

Event Hubs と IoT Hubs を使用してリアルタイムデータを取り込む

リアルタイムのデータインジェストには、Azure Event Hubs と IoT Hubs が最適な選択肢です。これらにより、Azure Databricks 内にデータを直接ストリーミングできるようになるため、到着したデータを処理および分析できます。リアルタイムのデータインジェストと分析は、ライブイベントの監視、またはモノのインターネット (IoT) のデバイスデータ追跡などのシナリオで役立ちます。

Azure Blob Storage と Azure Data Lake から直接データを取り込む

Azure Blob Storage と Azure Data Lake Storage Gen2 は、大量の非構造化データを格納するのに最適です。このデータは、次のものを使用して Databricks 内に簡単に取り込むことができます。

Databricks ファイルシステム (DBFS):Azure Databricks と統合された分散ファイルシステムを使用すると、Azure Blob Storage コンテナーをマウントし、まるでローカルファイルシステムの一部であるかのようにアクセスできます。
Spark API:Spark API は Spark の並列処理機能を使用して、Azure Blob Storage から Spark DataFrames にデータを直接読み書きする柔軟な方法を提供し、効率的な大規模データ処理を実現します。

DBFS では Azure Blob Storage 内のデータを操作するための、よりシンプルでより統合された方法が提供されます。一方、Spark API によって、大規模なデータ処理タスクにさらなる柔軟性とパフォーマンスが提供されます。 2 つのうちどちらを選択するかは、特定のユースケースと要件によって異なります。

Note

Azure Data Lake Storage Gen2 は両サービスの機能を組み合わせて、Azure Blob Storage の上に構築されています。 Azure Blob Storage は大量の非構造化データを格納するように設計されていますが、Azure Data Lake Storage Gen2 では、階層型名前空間やきめ細かいアクセス制御など、特にビッグデータ分析用の機能が追加されています。

ノートブックの中に取り込まれたデータを確認する

データが取り込まれたら、データを確認して実用的な分析情報を見つけることができます。 Azure Databricks ノートブックでは、PySpark、Scala、R、または SQL を使用して分析を実行できるコラボレーション環境が提供されます。これらのノートブックは単に強力なだけではなく、ユーザーフレンドリでもあり、データの操作と視覚化が簡単になります。

次のセクションでは、Azure Databricks を使用したデータ探索のさまざまなアプローチについて説明します。

Azure Databricks を使用してデータを取り込む

Azure Data Factory を使用したデータ パイプラインのオーケストレーション

Event Hubs と IoT Hubs を使用してリアルタイム データを取り込む

Azure Blob Storage と Azure Data Lake から直接データを取り込む

ノートブックの中に取り込まれたデータを確認する

フィードバック

Azure Data Factory を使用したデータパイプラインのオーケストレーション

Event Hubs と IoT Hubs を使用してリアルタイムデータを取り込む