รวม OneLake เข้ากับ Azure HDInsight

บทความ
11/15/2023

Azure HDInsight เป็นบริการระบบคลาวด์ที่มีการจัดการสําหรับการวิเคราะห์ข้อมูลขนาดใหญ่ ซึ่งช่วยให้องค์กรต่างๆ สามารถประมวลผลข้อมูลจํานวนมากได้ บทช่วยสอนนี้แสดงวิธีการเชื่อมต่อกับ OneLake ด้วยสมุดบันทึก Jupyter จากคลัสเตอร์ Azure HDInsight

การใช้ Azure HDInsight

เมื่อต้องการเชื่อมต่อกับ OneLake ด้วยสมุดบันทึก Jupyter จากคลัสเตอร์ HDInsight:

สร้างกลุ่มเครื่อง Apache Spark HDInsight (HDI) ทําตามคําแนะนําเหล่านี้: ตั้งค่าคลัสเตอร์ใน HDInsight
1. ในขณะที่ให้ข้อมูลคลัสเตอร์ โปรดจําชื่อผู้ใช้และรหัสผ่านการเข้าสู่ระบบคลัสเตอร์ของคุณตามที่คุณต้องการเพื่อเข้าถึงคลัสเตอร์ในภายหลัง
2. สร้างข้อมูลประจําตัวที่มีการจัดการโดยผู้ใช้ (UAMI): สร้างสําหรับ Azure HDInsight - UAMI และเลือกเป็นข้อมูลประจําตัวในหน้าจอที่เก็บข้อมูล
ให้การเข้าถึง UAMI นี้ไปยังพื้นที่ทํางาน Fabric ที่มีรายการของคุณ สําหรับความช่วยเหลือในการตัดสินใจว่าบทบาทใดดีที่สุด โปรดดู บทบาทพื้นที่ทํางาน
นําทางไปยังเลคเฮ้าส์ของคุณและค้นหาชื่อสําหรับพื้นที่ทํางานและเลคเฮ้าส์ของคุณ คุณสามารถค้นหาได้ใน URL ของเลคเฮ้าส์ของคุณหรือบานหน้าต่าง คุณสมบัติ สําหรับไฟล์
ในพอร์ทัล Azure ให้ค้นหาคลัสเตอร์ของคุณและเลือกสมุดบันทึก
ใส่ข้อมูลข้อมูลประจําตัวที่คุณระบุขณะสร้างคลัสเตอร์
สร้างสมุดบันทึก Apache Spark ใหม่
คัดลอกชื่อพื้นที่ทํางานและเลคเฮ้าส์ลงในสมุดบันทึกของคุณ และสร้าง URL OneLake สําหรับเลคเฮ้าส์ของคุณ ในตอนนี้คุณสามารถอ่านไฟล์ใดก็ได้จากเส้นทางไฟล์นี้
```
fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
df.show()
```
ลองเขียนข้อมูลบางอย่างลงในเลคเฮ้าส์
```
writecsvdf = df.write.format("csv").save(fp + "out.csv") 
```
ทดสอบว่าข้อมูลของคุณถูกเขียนเรียบร้อยแล้วโดยการตรวจสอบเลคเฮาส์ของคุณ หรือโดยการอ่านไฟล์ที่โหลดใหม่ของคุณ