แชร์ผ่าน


รวม OneLake เข้ากับ Azure HDInsight

Azure HDInsight เป็นบริการระบบคลาวด์ที่มีการจัดการสําหรับการวิเคราะห์ข้อมูลขนาดใหญ่ ซึ่งช่วยให้องค์กรต่างๆ สามารถประมวลผลข้อมูลจํานวนมากได้ บทช่วยสอนนี้แสดงวิธีการเชื่อมต่อกับ OneLake ด้วยสมุดบันทึก Jupyter จากคลัสเตอร์ Azure HDInsight

การใช้ Azure HDInsight

เมื่อต้องการเชื่อมต่อกับ OneLake ด้วยสมุดบันทึก Jupyter จากคลัสเตอร์ HDInsight:

  1. สร้างกลุ่มเครื่อง Apache Spark HDInsight (HDI) ทําตามคําแนะนําเหล่านี้: ตั้งค่าคลัสเตอร์ใน HDInsight

    1. ในขณะที่ให้ข้อมูลคลัสเตอร์ โปรดจําชื่อผู้ใช้และรหัสผ่านการเข้าสู่ระบบคลัสเตอร์ของคุณตามที่คุณต้องการเพื่อเข้าถึงคลัสเตอร์ในภายหลัง

    2. สร้างข้อมูลประจําตัวที่มีการจัดการโดยผู้ใช้ (UAMI): สร้างสําหรับ Azure HDInsight - UAMI และเลือกเป็นข้อมูลประจําตัวในหน้าจอที่เก็บข้อมูล

      สกรีนช็อตแสดงตําแหน่งที่จะป้อนข้อมูลประจําตัวที่ได้รับการจัดการของผู้ใช้ในหน้าจอที่เก็บข้อมูล

  2. ให้การเข้าถึง UAMI นี้ไปยังพื้นที่ทํางาน Fabric ที่มีรายการของคุณ สําหรับความช่วยเหลือในการตัดสินใจว่าบทบาทใดดีที่สุด โปรดดู บทบาทพื้นที่ทํางาน

    สกรีนช็อตแสดงตําแหน่งที่จะเลือกรายการในแผงจัดการการเข้าถึง

  3. นําทางไปยังเลคเฮ้าส์ของคุณและค้นหาชื่อสําหรับพื้นที่ทํางานและเลคเฮ้าส์ของคุณ คุณสามารถค้นหาได้ใน URL ของเลคเฮ้าส์ของคุณหรือบานหน้าต่าง คุณสมบัติ สําหรับไฟล์

  4. ในพอร์ทัล Azure ให้ค้นหาคลัสเตอร์ของคุณและเลือกสมุดบันทึก

    สกรีนช็อตแสดงตําแหน่งที่จะค้นหาคลัสเตอร์และสมุดบันทึกของคุณในพอร์ทัล Azure

  5. ใส่ข้อมูลข้อมูลประจําตัวที่คุณระบุขณะสร้างคลัสเตอร์

    สกรีนช็อตแสดงตําแหน่งที่จะป้อนข้อมูลข้อมูลประจําตัวของคุณ

  6. สร้างสมุดบันทึก Apache Spark ใหม่

  7. คัดลอกชื่อพื้นที่ทํางานและเลคเฮ้าส์ลงในสมุดบันทึกของคุณ และสร้าง URL OneLake สําหรับเลคเฮ้าส์ของคุณ ในตอนนี้คุณสามารถอ่านไฟล์ใดก็ได้จากเส้นทางไฟล์นี้

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. ลองเขียนข้อมูลบางอย่างลงในเลคเฮ้าส์

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. ทดสอบว่าข้อมูลของคุณถูกเขียนเรียบร้อยแล้วโดยการตรวจสอบเลคเฮาส์ของคุณ หรือโดยการอ่านไฟล์ที่โหลดใหม่ของคุณ

ตอนนี้คุณสามารถอ่านและเขียนข้อมูลใน OneLake โดยใช้สมุดบันทึก Jupyter ของคุณในคลัสเตอร์ HDI Spark ได้แล้ว