OneLake と Azure HDInsight の統合

2024-06-18

Azure HDInsight は、組織が大量のデータを処理するのに役立つビッグデータ分析用のマネージドクラウドベースのサービスです。このチュートリアルでは、Azure HDInsight クラスターから Jupyter ノートブックを使用して OneLake に接続する方法について説明します。

Azure HDInsight の使用

HDInsight クラスターから Jupyter ノートブックを使用して OneLake に接続するには、次の操作を行います。

HDInsight (HDI) Apache Spark クラスターを作成します。「HDInsight のクラスターを設定する」の手順に従います。
1. クラスター情報を指定するときは、後でクラスターにアクセスする際に必要となるため、クラスターログインの [ユーザー名] と [パスワード] を覚えておいてください。
2. ユーザー割り当てマネージド ID (UAMI) を作成します。Azure HDInsight - UAMI 用に作成し、[ストレージ] 画面で ID として選択します。
この UAMI に、項目を含む Fabric ワークスペースへのアクセス権を付与します。最適なロールの決定については、「ワークスペースロール」を参照してください。
レイクハウスに移動し、ワークスペースとレイクハウスの名前を見つけます。これらのファイルは、レイクハウスの URL またはファイルの [プロパティ] ウィンドウで確認できます。
Azure portal でクラスターを探し、ノートブックを選択します。
クラスターの作成時に指定した資格情報を入力します。
新しい Apache Spark ノートブックを作成します。
ワークスペースとレイクハウスの名前をノートブックにコピーし、レイクハウスの OneLake URL を作成します。これで、このファイルパスから任意のファイルを読み取ることができます。
```
fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
df.show()
```

レイクハウスにデータを書き込もう。

writecsvdf = df.write.format("csv").save(fp + "out.csv")

レイクハウスにチェックするか、新しく読み込まれたファイルを読み取って、データが正常に書き込まれたことをテストします。

HDI Spark クラスターの Jupyter ノートブックを使用して、OneLake でデータの読み取りと書き込みを行えるようになりました。

OneLake のセキュリティ

次の方法で共有

OneLake と Azure HDInsight の統合

Azure HDInsight の使用

関連するコンテンツ

フィードバック

その他のリソース