Azure Databricks を使用してデータを取り込む
Azure Databricks 内でデータを操作する前に、プラットフォーム内にデータを取り込む必要があります。 プラットフォームの中に入ると、クラウドベースのコンピューティングを使用して、大量のデータを効率的に処理できます。
Azure Databricks 内にデータを取り込む方法が複数あることにより、データ分析用の多目的で強力なツールとなっています。
Azure Data Factory を使用したデータ パイプラインのオーケストレーション
Azure Data Factory は、データ パイプラインを作成できる、堅牢なデータ統合サービスです。 これらのパイプラインでは、さまざまなソースから Azure Databricks 内にデータを取り込むことができるため、確実にすべてのデータが一元化され、分析の準備が整います。
Event Hubs と IoT Hubs を使用してリアルタイム データを取り込む
リアルタイムのデータ インジェストには、Azure Event Hubs と IoT Hubs が最適な選択肢です。 これらにより、Azure Databricks 内にデータを直接ストリーミングできるようになるため、到着したデータを処理および分析できます。 リアルタイムのデータ インジェストと分析は、ライブ イベントの監視、またはモノのインターネット (IoT) のデバイス データ追跡などのシナリオで役立ちます。
Azure Blob Storage と Azure Data Lake から直接データを取り込む
Azure Blob Storage と Azure Data Lake Storage Gen2 は、大量の非構造化データを格納するのに最適です。 このデータは、次のものを使用して Databricks 内に簡単に取り込むことができます。
- Databricks ファイル システム (DBFS):Azure Databricks と統合された分散ファイル システムを使用すると、Azure Blob Storage コンテナーをマウントし、まるでローカル ファイル システムの一部であるかのようにアクセスできます。
- Spark API:Spark API は Spark の並列処理機能を使用して、Azure Blob Storage から Spark DataFrames にデータを直接読み書きする柔軟な方法を提供し、効率的な大規模データ処理を実現します。
DBFS では Azure Blob Storage 内のデータを操作するための、よりシンプルでより統合された方法が提供されます。一方、Spark API によって、大規模なデータ処理タスクにさらなる柔軟性とパフォーマンスが提供されます。 2 つのうちどちらを選択するかは、特定のユース ケースと要件によって異なります。
Note
Azure Data Lake Storage Gen2 は 両サービスの機能を組み合わせて、Azure Blob Storage の上に構築されています。 Azure Blob Storage は大量の非構造化データを格納するように設計されていますが、Azure Data Lake Storage Gen2 では、階層型名前空間やきめ細かいアクセス制御など、特にビッグ データ分析用の機能が追加されています。
ノートブックの中に取り込まれたデータを確認する
データが取り込まれたら、データを確認して実用的な分析情報を見つけることができます。 Azure Databricks ノートブックでは、PySpark、Scala、R、または SQL を使用して分析を実行できるコラボレーション環境が提供されます。 これらのノートブックは単に強力なだけではなく、ユーザー フレンドリでもあり、データの操作と視覚化が簡単になります。
次のセクションでは、Azure Databricks を使用したデータ探索のさまざまなアプローチについて説明します。