Azure Databricks からデータ ソースに接続する

この記事では、Azure Databricks に接続できる Azure 内のさまざまなデータ ソースへのリンクを示します。 リンク先の例に従って、Azure データ ソース (Azure Blob Storage や Azure Event Hubs など) のデータを Azure Databricks クラスターに抽出して分析ジョブを実行します。

前提条件

  • Azure Databricks ワークスペースと Spark クラスターを用意する必要があります。 「作業の開始」の手順に従ってください。

Azure Databricks のデータ ソース

次の一覧は、Azure Databricks で使用できる Azure 内のデータ ソースを示しています。 Azure Databricks で使用できるデータ ソースの完全な一覧については、Azure Databricks のデータ ソースに関する記事を参照してください。

  • Azure SQL データベース

    このリンクでは、JDBC を使用して SQL データベースに接続するための DataFrame API と、JDBC インターフェイス経由の読み取りの並列処理を制御する方法を示します。 このトピックでは、Scala API の詳細な使用例の他に、最後に Python と Spark SQL の簡潔な例を示します。

  • Azure Data Lake Storage

    このリンクでは、Microsoft Entra ID (旧称 Azure Active Directory) のサービス プリンシパルを使って Azure Data Lake Storage での認証を行う方法の例を提供します。 Azure Databricks から Azure Data Lake Storage 内のデータにアクセスする方法も示されます。

  • Azure Blob Storage

    このリンクは、特定のコンテナーのアクセス キーまたは SAS を使用して Azure Databricks から Azure Blob ストレージに直接アクセスする方法の例を示します。 このリンクでは、RDD API を使用して Azure Databricks から Azure Blob Storage にアクセスする方法も示します。

  • Azure Event Hubs

    このリンクは、Azure Databricks から Azure Event Hubs Spark コネクタを使用して Azure Event Hubs のデータにアクセスする方法を示します。

  • Azure Synapse Analytics

    このリンクでは、Azure Synapse のデータのクエリを実行する方法について説明します。

次のステップ

Azure Databricks にデータをインポートできるソースについては、Azure Databricks のデータ ソースに関するページをご覧ください。