ตัวควบคุมแหล่งข้อมูลของสมุดบันทึกและการปรับใช้

บทความนี้อธิบายวิธีการใช้ไปป์ไลน์การรวมและการปรับใช้ Git กับสมุดบันทึกใน Microsoft Fabric คุณเรียนรู้วิธีเชื่อมต่อที่เก็บ จัดการซอร์สโค้ดสมุดบันทึก และปรับใช้สมุดบันทึกในสภาพแวดล้อมต่างๆ

ก่อนที่คุณจะเริ่มต้น

  • เชื่อมต่อพื้นที่ทํางานของคุณกับ Git ก่อนที่คุณจะทําตามขั้นตอนการควบคุมแหล่งที่มาของสมุดบันทึก สําหรับคําแนะนําในการตั้งค่า โปรดดู เริ่มต้นใช้งานการผสานรวม Git
  • สร้างกฎการปรับใช้สมุดบันทึกในขั้นตอนเป้าหมาย (ตัวอย่างเช่น การทดสอบ หรือ การผลิต) ไม่ใช่ในการพัฒนา
  • เมื่อต้องการสร้างกฎการปรับใช้ คุณต้องเป็นเจ้าของรายการ

การรวมสมุดบันทึก Git

สมุดบันทึก Fabric รองรับการรวม Git กับ Azure DevOps สําหรับการควบคุมแหล่งที่มา คุณสามารถกําหนดเวอร์ชันการเปลี่ยนแปลงสมุดบันทึก ทํางานร่วมกันโดยใช้สาขา และจัดการการอัปเดตวงจรชีวิตสมุดบันทึกได้โดยตรงใน Fabric

เมื่อคุณยอมรับสมุดบันทึกพร้อมกับการขึ้นต่อกันที่แนบมา (ตัวอย่างเช่น สภาพแวดล้อม) การซิงค์กับพื้นที่ทํางานอื่นจะรักษาการผูกเหล่านี้ไว้ Fabric จะผูกสมุดบันทึกกับทรัพยากรที่เกี่ยวข้องในพื้นที่ทํางานใหม่โดยอัตโนมัติ

เพื่อสนับสนุนลักษณะการทํางานนี้ Fabric จะจัดเก็บตัวระบุเชิงตรรกะสําหรับทรัพยากรที่แนบมาในเมตาดาต้าของสมุดบันทึก ด้วยเหตุนี้ Git diffs จึงสามารถแสดงการอัปเดตข้อมูลเมตาจาก ID ทางกายภาพไปยัง ID เชิงตรรกะ

หมายเหตุ

การอัปเดตข้อมูลเมตาที่เกี่ยวข้องกับ ID เชิงตรรกะและการผูกอัตโนมัติสามารถปรากฏในมุมมอง Git diff แม้ว่าโค้ดสมุดบันทึกจะไม่เปลี่ยนแปลงก็ตาม

ตั้งค่าการเชื่อมต่อ

จากการตั้งค่าพื้นที่ทํางาน ให้ตั้งค่าการเชื่อมต่อกับที่เก็บของคุณเพื่อยอมรับและซิงค์การเปลี่ยนแปลง สําหรับคําแนะนําในการตั้งค่า โปรดดู เริ่มต้นใช้งานการผสานรวม Git หลังจากที่คุณเชื่อมต่อ รายการของคุณ รวมถึงสมุดบันทึก จะปรากฏในแผงควบคุมแหล่งที่มา

สกรีนช็อตของแผงควบคุมแหล่งที่มาของพื้นที่ทํางาน

หลังจากที่คุณยอมรับอินสแตนซ์สมุดบันทึกไปยังที่เก็บ Git แล้ว คุณจะเห็นโครงสร้างโฟลเดอร์สมุดบันทึกในที่เก็บ

ตอนนี้คุณสามารถดําเนินการ Git ได้ เช่น สร้างคําขอดึงข้อมูล

การแสดงสมุดบันทึกใน Git

ข้อความต่อไปนี้แสดงโครงสร้างไฟล์สําหรับรายการสมุดบันทึกในที่เก็บ Git:

.
├── Notebook_1.Notebook/
│   ├── Resources/ (Optional)
│   │   └── builtin/
│   │       ├── large_dataset.parquet
│   │       └── model_output.parquet
│   ├── .platform
│   ├── fs-settings.json (Optional)
│   ├── notebook-content.py
│   └── notebook-settings.json (Optional)
└── Readme.md
.
├── Notebook_2.Notebook/
│   ├── Resources/ (Optional)
│   │   └── builtin/
│   │       ├── large_dataset.parquet
│   │       └── model_output.parquet
│   ├── .platform
│   ├── fs-settings.json (Optional)
│   ├── notebook-content.sql
│   └── notebook-settings.json (Optional)
└── Readme.md

เมื่อคุณยอมรับรายการสมุดบันทึก Fabric จะจัดเก็บเป็นไฟล์ต้นฉบับแทนไฟล์มาตรฐาน.ipynb ตัวอย่างเช่น สมุดบันทึก PySpark จะถูกจัดเก็บเป็นnotebook-content.py รูปแบบนี้ง่ายต่อการตรวจสอบใน Git diffs

ไฟล์ต้นฉบับจะเก็บข้อมูลเมตาของสมุดบันทึก (รวมถึงเลคเฮาส์เริ่มต้นและสภาพแวดล้อมที่แนบมา) เซลล์มาร์กดาวน์ และเซลล์โค้ดเป็นส่วนที่แยกจากกัน Fabric ใช้โครงสร้างนี้เพื่อสร้างสมุดบันทึกใหม่เมื่อคุณซิงค์กลับไปยังพื้นที่ทํางาน

ไม่มีเอาต์พุตเซลล์ของสมุดบันทึกเมื่อซิงค์กับ Git

ภาพหน้าจอต่อไปนี้แสดงรูปแบบแหล่งที่มาในที่เก็บ Git:

ภาพหน้าจอของรูปแบบเนื้อหาที่เก็บ Git ของสมุดบันทึก

หมายเหตุ

เก็บสมุดบันทึกและสภาพแวดล้อมที่ขึ้นต่อกันไว้ในพื้นที่ทํางานเดียวกัน และสร้างเวอร์ชันทั้งสมุดบันทึกและรายการ สภาพแวดล้อม ใน Git Fabric แมปความสัมพันธ์เหล่านี้เมื่อคุณซิงค์กับพื้นที่ทํางานใหม่

รหัสเลคเฮาส์เริ่มต้นจะอยู่ในเมตาดาต้าของสมุดบันทึกเมื่อคุณซิงค์จากที่เก็บไปยังพื้นที่ทํางาน Fabric หากจําเป็น ให้ผูกโน้ตบุ๊กกับรายการเลคเฮาส์ใหม่ด้วยตนเอง สําหรับข้อมูลเพิ่มเติม ดู การรวมของ Lakehouse Git

การตั้งค่า Git ของโน้ตบุ๊ค

แผงการตั้งค่า Git ช่วยให้คุณควบคุมวิธีที่สมุดบันทึกโต้ตอบกับการควบคุมแหล่งที่มา รวมถึงตัวเลือกสําหรับการผูก Git และการจัดการไฟล์โฟลเดอร์ทรัพยากรที่รวมอยู่ในการคอมมิต

หมายเหตุ

อย่าแก้ไข notebook-settings.json ในที่เก็บ Git เพื่อควบคุมการผูกอัตโนมัติของ Git หรือทรัพยากร จัดการการตั้งค่าเหล่านี้ผ่านหน้าการตั้งค่าสมุดบันทึกแทน

เลคเฮาส์ผูกอัตโนมัติใน Git

การผูกอัตโนมัติของ Lakehouse ช่วยให้ Fabric แก้ไขเลคเฮาส์เริ่มต้นที่ถูกต้องสําหรับพื้นที่ทํางานที่เชื่อมต่อ Git แต่ละแห่ง ซึ่งจะช่วยลดการผูกใหม่ด้วยตนเองเมื่อคุณย้ายสมุดบันทึกข้ามพื้นที่ทํางานการพัฒนา ทดสอบ และการผลิต

เปิดใช้งานคุณสมบัตินี้จากการตั้งค่าสมุดบันทึก หลังจากที่คุณเปิดใช้งาน Fabric จะ notebook-settings.json สร้างในที่เก็บและจัดการไฟล์นี้โดยอัตโนมัติ อย่าแก้ไขไฟล์นี้ด้วยตนเอง

ภาพหน้าจอของการผูก git ของสมุดบันทึก

หมายเหตุ

การรวม Notebook Git รองรับการคงความสัมพันธ์ที่ผูกมัดระหว่างโน้ตบุ๊กและเลคเฮาส์ที่แนบมาเมื่อซิงค์ระหว่างพื้นที่ทํางาน เมื่อซิงค์สมุดบันทึกกับพื้นที่ทํางานอื่น คุณสามารถเลือกได้ว่าจะผูกกับเลคเฮาส์ในพื้นที่ทํางานต้นทางหรือเลคเฮาส์ในพื้นที่ทํางานใหม่ สําหรับสมุดบันทึกที่มีเวอร์ชันใน Git แล้ว รหัสทางกายภาพของเลคเฮาส์ที่แนบมาในข้อมูลเมตาของสมุดบันทึกจะถูกแทนที่ด้วย ID เชิงตรรกะ การเปลี่ยนแปลงนี้อาจปรากฏในมุมมอง Git diff

การสนับสนุนโฟลเดอร์ทรัพยากรสมุดบันทึกใน Git

หมายเหตุ

โฟลเดอร์ทรัพยากรสภาพแวดล้อมและการรวมกับไปป์ไลน์การปรับใช้และ API สาธารณะไม่ได้รับการสนับสนุนในขณะนี้

โฟลเดอร์ทรัพยากรที่มีอยู่แล้วภายในสามารถผูกมัดกับ Git เพื่อให้สคริปต์และไฟล์การกําหนดค่าถูกกําหนดเวอร์ชันด้วยสมุดบันทึก

คุณลักษณะนี้เป็นทางเลือกและปิดโดยค่าเริ่มต้น เปิดใช้งานจากการตั้งค่าสมุดบันทึกในส่วนการตั้งค่า Git หลังจากที่คุณเปิดใช้งาน ไฟล์ในโฟลเดอร์ ทรัพยากร จะรวมอยู่ในการยอมรับ เนื่องจากการคอมมิตมีขีดจํากัด 50 MB ให้ใช้ .gitignore กฎไฟล์หรือ Git เพื่อยกเว้นไฟล์หรือโฟลเดอร์ขนาดใหญ่หรือชั่วคราว

สกรีนช็อตของทรัพยากรสมุดบันทึกในการกําหนดค่า git

หมายเหตุ

เฉพาะ .gitignore โฟลเดอร์รากของทรัพยากรที่มีอยู่แล้วภายในเท่านั้นที่มีผล

หลังจากที่คุณกําหนดค่ากฎ Git และยอมรับการเปลี่ยนแปลง Fabric จะบันทึกกฎไว้ใน fs-settings.json ที่เก็บ Fabric สร้างและจัดการไฟล์นี้เพื่อให้การกําหนดค่าที่เก็บสอดคล้องกัน นอกจากนี้เราไม่แนะนําให้แก้ไขไฟล์นี้โดยตรงในที่เก็บ Git

สกรีนช็อตของโครงสร้างทรัพยากรสมุดบันทึกในการกําหนดค่า git

สมุดบันทึกในไปป์ไลน์การปรับใช้

ใช้ไปป์ไลน์การปรับใช้เพื่อส่งเสริมการเปลี่ยนแปลงสมุดบันทึกในขั้นตอนต่างๆ เช่น การพัฒนาการทดสอบ และการผลิต ตรวจสอบความถูกต้องของการอัปเดตในขั้นตอนก่อนหน้านี้ก่อนที่คุณจะเลื่อนระดับไปยังการผลิต

การปรับใช้สมุดบันทึกรองรับการผูกอัตโนมัติสําหรับเลคเฮาส์เริ่มต้นและสภาพแวดล้อมที่แนบมาเมื่อรายการที่ขึ้นต่อกันอยู่ในพื้นที่ทํางานเดียวกัน ในระหว่างการปรับใช้ Fabric สามารถผูกการขึ้นต่อกันเหล่านี้กับรายการที่สอดคล้องกันในพื้นที่ทํางานเป้าหมายได้ การเปลี่ยนแปลงข้อมูลเมตาสามารถปรากฏในมุมมองส่วนต่าง

หากคุณต้องการเลคเฮาส์เริ่มต้นของขั้นตอนเป้าหมายที่เฉพาะเจาะจง ให้กําหนดค่ากฎการปรับใช้เพื่อแทนที่การผูกอัตโนมัติ

ขณะนี้มีการใช้ UI ไปป์ไลน์การปรับใช้ใหม่ในบทความนี้ คุณสามารถสลับไปใช้ UI เก่าได้โดยปิดไปป์ไลน์การปรับใช้ใหม่

หมายเหตุ

ปัญหาที่ทราบ: สถานะเซลล์ที่ค้างในสมุดบันทึกจะไม่ถูกเก็บรักษาไว้ระหว่างการปรับใช้

ใช้ขั้นตอนต่อไปนี้เพื่อปรับใช้สมุดบันทึกผ่านไปป์ไลน์การปรับใช้

  1. สร้างไปป์ไลน์การปรับใช้ หรือเปิดไปป์ไลน์ที่มีอยู่ สําหรับข้อมูลเพิ่มเติม โปรดดู เริ่มต้นใช้งานไปป์ไลน์การปรับใช้

  2. กําหนดพื้นที่ทํางานให้กับขั้นตอนที่แตกต่างกันตามเป้าหมายการปรับใช้ของคุณ

  3. เลือก ดู และเปรียบเทียบรายการ รวมถึงสมุดบันทึก ระหว่างขั้นตอน ป้ายที่ไฮไลต์จะแสดงจํานวนรายการที่เปลี่ยนแปลงระหว่างขั้นตอนก่อนหน้าและขั้นตอนปัจจุบัน

    สกรีนช็อตของสมุดบันทึกในไปป์ไลน์การปรับใช้

  4. เลือก ปรับใช้ เพื่อเลื่อนระดับสมุดบันทึกในขั้นตอนการพัฒนาทดสอบ และการผลิต

    สกรีนช็อตของรายการที่เลือกและปรับใช้

  5. ในหน้าต่าง ปรับใช้กับขั้นตอนนี้ ให้ตรวจสอบรายการใหม่และรายการที่เปลี่ยนแปลง เมื่อต้องการปรับใช้ต่อไปแม้ว่ารายการอย่างน้อยหนึ่งรายการจะล้มเหลว ให้เลือก ดําเนินการปรับใช้ต่อไปหากรายการอย่างน้อยหนึ่งรายการล้มเหลว

    หลังจากที่คุณตรวจสอบและยืนยันการเลือกแล้ว ให้เลือก ปรับใช้

    สกรีนช็อตของ pop-up.png ปรับใช้เนื้อหา

  6. (ไม่บังคับ) เมื่อต้องการสร้างกฎการปรับใช้ ให้เลือก กฎการปรับใช้ ในรายการขั้นตอนเป้าหมายในไปป์ไลน์ (ตัวอย่างเช่น ทดสอบ หรือ การผลิต)

    สําหรับลักษณะการทํางานและข้อจํากัดของกฎทั่วไป โปรดดู สร้างกฎการปรับใช้

    สกรีนช็อตของรายการกฎการปรับใช้

  7. กําหนดค่ากฎเลคเฮาส์เริ่มต้นสําหรับการปรับใช้สมุดบันทึกแต่ละครั้ง

    กฎนี้ควบคุมเลคเฮาส์ที่โน้ตบุ๊กเชื่อมต่อกับในขั้นตอนเป้าหมายหลังจากการปรับใช้

    ในบานหน้าต่าง ตั้งค่ากฎการปรับใช้ ให้เลือกไทล์ เลคเฮาส์เริ่มต้น

    ใช้ดรอปดาวน์ จาก และ ถึง เพื่อแมปเลคเฮาส์เริ่มต้นของขั้นตอนต้นทางกับเลคเฮาส์เริ่มต้นของขั้นตอนเป้าหมาย:

    • เช่นเดียวกับเลคเฮาส์ต้นทาง: คงการตั้งค่าเลคเฮาส์เริ่มต้นเหมือนกับสเตจต้นทาง
    • N/A (ไม่มีเลคเฮาส์เริ่มต้น): ลบการตั้งค่าเลคเฮาส์เริ่มต้นในขั้นตอนเป้าหมาย
    • อื่นๆ: แทนที่เลคเฮาส์เริ่มต้นของต้นทางด้วยเลคเฮาส์อื่นในขั้นตอนเป้าหมาย

    หากคุณเลือก อื่นๆ ในดรอปดาวน์ ถึง ให้ระบุรายละเอียดเลคเฮาส์เป้าหมาย:

    • เลคเฮาส์ ID
    • ชื่อเลคเฮาส์
    • รหัสพื้นที่ทํางานเลคเฮาส์

    สกรีนช็อตของการตั้งค่าเริ่มต้นของ lakehouse

    หมายเหตุ

    จําเป็นต้องมี Lakehouse ID เมื่อคุณกําหนดค่ากฎนี้ คุณสามารถรับรหัสเลคเฮาส์ได้จาก URL ของรายการ กฎการปรับใช้มีความสําคัญมากกว่าการผูกอัตโนมัติ หากมีการกําหนดค่ากฎการปรับใช้ จะแทนที่เลคเฮาส์ที่ผูกไว้โดยอัตโนมัติ

  8. ตรวจสอบสถานะการปรับใช้จาก ประวัติการปรับใช้