อ่านในภาษาอังกฤษ

แชร์ผ่าน


โหมดการทํางานพร้อมกันสูงใน Apache Spark สําหรับ Fabric

โหมดการทํางานพร้อมกันสูงช่วยให้ผู้ใช้สามารถแชร์เซสชัน Spark เดียวกันใน Spark สําหรับ Fabric สําหรับปริมาณงานวิศวกรรมข้อมูลและวิทยาศาสตร์ข้อมูลได้ รายการเช่น สมุดบันทึกใช้เซสชัน Spark มาตรฐานสําหรับการดําเนินการ ในโหมดการทํางานพร้อมกันสูง เซสชัน Spark สามารถรองรับการดําเนินการแบบอิสระของรายการภายในแกนวงจรการอ่าน-eval-print (REPL) ที่มีอยู่ภายในแอปพลิเคชัน Spark แกน REPL เหล่านี้มีการแยกสําหรับแต่ละรายการ และป้องกันไม่ให้ตัวแปรสมุดบันทึกภายในเครื่องเขียนทับโดยตัวแปรที่มีชื่อเดียวกันจากสมุดบันทึกอื่น ๆ ที่ใช้ร่วมกันในเซสชันเดียวกัน

ขณะที่เซสชันกําลังทํางานอยู่แล้ว ซึ่งจะมอบประสบการณ์การเรียกใช้ทันทีแก่ผู้ใช้เมื่อนําเซสชันระหว่างสมุดบันทึกหลายเล่มกลับมาใช้ใหม่

หมายเหตุ

ในกรณีของพูลแบบกําหนดเองที่มีโหมดการทํางานพร้อมกันสูง ผู้ใช้จะได้รับประสบการณ์เซสชันที่รวดเร็วกว่า 36 เท่าเมื่อเปรียบเทียบกับเซสชัน Spark มาตรฐาน

แผนภาพที่แสดงการทํางานของโหมดการทํางานพร้อมกันสูงใน Fabric

ข้อสำคัญ

เงื่อนไขการแชร์เซสชันประกอบด้วย:

  • เซสชันควรอยู่ภายในขอบเขตผู้ใช้เดียว
  • เซสชันควรมีการกําหนดค่าของ lakehouse ตามค่าเริ่มต้นเดียวกัน
  • เซสชันควรมีคุณสมบัติการคํานวณ Spark เดียวกัน

โดยเป็นส่วนหนึ่งของการเตรียมใช้งานเซสชัน Spark แกน REPL จะถูกสร้างขึ้น ทุกครั้งที่รายการใหม่เริ่มแชร์เซสชันเดียวกันและผู้ปฏิบัติการจะได้รับการจัดสรรในลักษณะที่เป็นธรรมให้กับสมุดบันทึกเหล่านี้ที่ทํางานในแกน REPL เหล่านี้ภายในแอปพลิเคชัน Spark เพื่อป้องกันสถานการณ์ความอดอยาก