แชร์ผ่าน


Fabric Runtime 2.0 (พรีวิว)

สําคัญ

คุณลักษณะนี้อยู่ใน แสดงตัวอย่าง

Fabric Runtime มอบการผสานรวมที่ราบรื่นภายในระบบนิเวศ Microsoft Fabric นําเสนอสภาพแวดล้อมที่มีประสิทธิภาพสําหรับโครงการวิศวกรรมข้อมูลและวิทยาศาสตร์ข้อมูลที่ขับเคลื่อนโดย Apache Spark

บทความนี้แนะนํา Fabric Runtime 2.0 Public Preview ซึ่งเป็นรันไทม์ล่าสุดที่ออกแบบมาสําหรับการคํานวณข้อมูลขนาดใหญ่ใน Microsoft Fabric โดยเน้นย้ําถึงคุณสมบัติและส่วนประกอบหลักที่ทําให้รุ่นนี้เป็นก้าวสําคัญสําหรับการวิเคราะห์ที่ปรับขนาดได้และปริมาณงานขั้นสูง

Fabric Runtime 2.0 รวมส่วนประกอบและการอัปเกรดต่อไปนี้ที่ออกแบบมาเพื่อปรับปรุงความสามารถในการประมวลผลข้อมูลของคุณ:

  • อาปาเช่ สปาร์ค 4.0
  • ระบบปฏิบัติการ: Azure Linux 3.0 (Mariner 3.0)
  • ชวา: 21
  • สกาล่า: 2.13
  • หลาม: 3.12
  • ทะเลสาบเดลต้า: 4.0
  • อาร์: 4.5.2

เคล็ดลับ

Fabric Runtime 2.0 รองรับ Native Execution Engine ซึ่งสามารถเพิ่มประสิทธิภาพได้อย่างมีนัยสําคัญโดยไม่มีค่าใช้จ่ายเพิ่มเติม คุณสามารถเปิดใช้งานกลไกการดําเนินการดั้งเดิมในระดับสภาพแวดล้อม เพื่อให้งานและสมุดบันทึกทั้งหมดสืบทอดความสามารถด้านประสิทธิภาพที่ได้รับการปรับปรุงโดยอัตโนมัติ

เปิดใช้งานรันไทม์ 2.0

คุณสามารถเปิดใช้งานรันไทม์ 2.0 ได้ที่ระดับพื้นที่ทํางานหรือระดับรายการสภาพแวดล้อม ใช้การตั้งค่าพื้นที่ทํางานเพื่อใช้ Runtime 2.0 เป็นค่าเริ่มต้นสําหรับปริมาณงาน Spark ทั้งหมดในพื้นที่ทํางานของคุณ อีกวิธีหนึ่งคือ สร้างรายการสภาพแวดล้อมที่มี Runtime 2.0 เพื่อใช้กับสมุดบันทึกเฉพาะหรือข้อกําหนดงาน Spark ซึ่งจะแทนที่ค่าเริ่มต้นของพื้นที่ทํางาน

เปิดใช้งานรันไทม์ 2.0 ในการตั้งค่าพื้นที่ทํางาน

เมื่อต้องการตั้งค่ารันไทม์ 2.0 เป็นค่าเริ่มต้นสําหรับพื้นที่ทํางานทั้งหมดของคุณ:

  1. นําทางไปยังหน้า การตั้งค่าพื้นที่ทํางาน ภายในพื้นที่ทํางาน Fabric ของคุณ

    สกรีนช็อตแสดงตําแหน่งที่จะเลือกเวอร์ชันรันไทม์สําหรับการตั้งค่าพื้นที่ทํางาน

  2. เลือกแท็บ วิศวกรรมข้อมูล/วิทยาศาสตร์ แล้วเลือก การตั้งค่า Spark

  3. เลือกแท็บ สภาพแวดล้อม

  4. ภายใต้ดรอปดาวน์ เวอร์ชันรันไทม์ ให้เลือก 2.0 การแสดงตัวอย่างสาธารณะ (Spark 4.0, Delta 4.0) และบันทึกการเปลี่ยนแปลงของคุณ

  5. รันไทม์ 2.0 ถูกตั้งค่าเป็นรันไทม์เริ่มต้นสําหรับพื้นที่ทํางานของคุณ

เปิดใช้งานรันไทม์ 2.0 ในรายการสภาพแวดล้อม

หากต้องการใช้ Runtime 2.0 กับสมุดบันทึกเฉพาะหรือข้อกําหนดงาน Spark:

  1. สร้างรายการสภาพแวดล้อมใหม่หรือเปิดรายการที่มีอยู่

  2. ภายใต้ดรอปดาวน์ รันไทม์ ให้เลือก 2.0 การแสดงตัวอย่างสาธารณะ (Spark 4.0, Delta 4.0)Save และPublishการเปลี่ยนแปลงของคุณ

    สกรีนช็อตแสดงตําแหน่งที่จะเลือกรุ่นรันไทม์สําหรับรายการสภาพแวดล้อม

  3. ถัดไป คุณสามารถใช้รายการสภาพแวดล้อมนี้กับ หรือ ของคุณNotebookSpark Job Definition

ตอนนี้คุณสามารถเริ่มทดลองกับการปรับปรุงและฟังก์ชันใหม่ล่าสุดที่นํามาใช้ใน Fabric Runtime 2.0 (Spark 4.0 และ Delta Lake 4.0)

Note

โพรโทคอล WASB สําหรับบัญชี Azure Storage สําหรับวัตถุประสงค์ทั่วไป v2 (GPv2) เลิกใช้แล้ว คุณควรใช้โปรโตคอล ABFS ล่าสุดแทนสําหรับการอ่านและเขียนไปยังบัญชีที่เก็บข้อมูล GPv2

การแสดงตัวอย่างสาธารณะ

ขั้นตอนการแสดงตัวอย่างสาธารณะของ Fabric Runtime 2.0 ช่วยให้คุณเข้าถึงคุณลักษณะและ API ใหม่ๆ จากทั้ง Spark 4.0 และ Delta Lake 4.0 การแสดงตัวอย่างช่วยให้คุณใช้การปรับปรุงล่าสุดที่ใช้ Spark และ Delta ได้ทันที รวมทั้งรับประกันความพร้อมและการเปลี่ยนแปลงที่ราบรื่นสําหรับการเปลี่ยนแปลงที่ได้รับการปรับปรุงและปรับปรุง เช่น Java, Scala และ Python เวอร์ชันที่ใหม่กว่า

เคล็ดลับ

สําหรับข้อมูลล่าสุด รายการการเปลี่ยนแปลงโดยละเอียด และบันทึกย่อประจํารุ่นเฉพาะสําหรับ Fabric runtimes ตรวจสอบและสมัครใช้งาน การเผยแพร่และการอัปเดต Spark Runtimes

จุดเด่นหลัก

อาปาเช่ สปาร์ค 4.0

Apache Spark 4.0 ถือเป็นก้าวสําคัญในการเปิดตัวครั้งแรกในซีรีส์ 4.x ซึ่งรวบรวมความพยายามร่วมกันของชุมชนโอเพ่นซอร์สที่มีชีวิตชีวา

ในเวอร์ชันนี้ Spark SQL ได้รับการเสริมสร้างอย่างมีนัยสําคัญด้วยคุณสมบัติใหม่ที่ทรงพลังซึ่งออกแบบมาเพื่อเพิ่มการแสดงออกและความเก่งกาจสําหรับปริมาณงาน SQL เช่น การสนับสนุนประเภทข้อมูล VARIANT, ฟังก์ชันที่ผู้ใช้กําหนดโดย SQL, ตัวแปรเซสชัน, ไวยากรณ์ไปป์ และการเปรียบเทียบสตริง PySpark เห็นความทุ่มเทอย่างต่อเนื่องทั้งในด้านการทํางานและประสบการณ์โดยรวมของนักพัฒนา โดยนํา API การพล็อตดั้งเดิม API แหล่งข้อมูล Python ใหม่ รองรับ Python UDTF และการสร้างโปรไฟล์แบบรวมสําหรับ PySpark UDF ควบคู่ไปกับการปรับปรุงอื่นๆ อีกมากมาย การสตรีมแบบมีโครงสร้างพัฒนาขึ้นด้วยการเพิ่มคีย์ที่ให้การควบคุมที่ดีขึ้นและง่ายต่อการดีบัก โดยเฉพาะอย่างยิ่งการแนะนํา Arbitrary State API v2 เพื่อการจัดการสถานะที่ยืดหยุ่นยิ่งขึ้น และแหล่งข้อมูลของรัฐเพื่อการดีบักที่ง่ายขึ้น

คุณสามารถตรวจสอบรายการทั้งหมดและการเปลี่ยนแปลงโดยละเอียดได้ที่นี่: https://spark.apache.org/releases/spark-release-4-0-0.html

Note

ใน Spark 4.0 SparkR ถูกเลิกใช้และอาจถูกลบออกในเวอร์ชันในอนาคต

เดลต้าเลค 4.0

Delta Lake 4.0 แสดงถึงความมุ่งมั่นร่วมกันในการทําให้ Delta Lake ทํางานร่วมกันได้ในทุกรูปแบบ ทํางานได้ง่ายขึ้น และมีประสิทธิภาพมากขึ้น Delta 4.0 เป็นการเปิดตัวครั้งสําคัญที่อัดแน่นไปด้วยคุณสมบัติใหม่ที่ทรงพลัง การเพิ่มประสิทธิภาพ และการปรับปรุงพื้นฐานสําหรับอนาคตของเลคเฮาส์ข้อมูลแบบเปิด

คุณสามารถตรวจสอบรายการทั้งหมดและการเปลี่ยนแปลงโดยละเอียดที่แนะนําใน Delta Lake 3.3 และ 4.0 ได้ที่นี่: https://github.com/delta-io/delta/releases/tag/v3.3.0. https://github.com/delta-io/delta/releases/tag/v4.0.0

สําคัญ

คุณลักษณะเฉพาะของ Delta Lake 4.0 เป็นการทดลองและใช้งานได้กับประสบการณ์ Spark เท่านั้น เช่น สมุดบันทึกและคําจํากัดความของงาน Spark หากคุณต้องการใช้ตาราง Delta Lake เดียวกันในปริมาณงาน Microsoft Fabric หลายรายการ อย่าเปิดใช้งานคุณลักษณะเหล่านั้น หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับเวอร์ชันและคุณลักษณะของโปรโตคอลที่เข้ากันได้กับประสบการณ์การใช้งาน Microsoft Fabric ทั้งหมด โปรดอ่าน การทํางานร่วมกันของรูปแบบตาราง Delta Lake