บทช่วยสอน: ใช้สมุดบันทึกกับ Apache Spark เพื่อคิวรีฐานข้อมูล KQL
สมุดบันทึกเป็นทั้งเอกสารที่สามารถอ่านได้ซึ่งประกอบด้วยคําอธิบายการวิเคราะห์ข้อมูลและผลลัพธ์ และเอกสารที่สามารถเรียกใช้ได้ซึ่งสามารถเรียกใช้เพื่อทําการวิเคราะห์ข้อมูลได้ ในบทความนี้ คุณจะได้เรียนรู้วิธีการใช้สมุดบันทึก Microsoft Fabric เพื่ออ่านและเขียนข้อมูลไปยังฐานข้อมูล KQL โดยใช้ Apache Spark บทช่วยสอนนี้ใช้ชุดข้อมูลและสมุดบันทึกที่กําหนดไว้ล่วงหน้าทั้งในตัวแสดงเวลาจริงและสภาพแวดล้อมวิศวกรข้อมูลใน Microsoft Fabric สําหรับข้อมูลเพิ่มเติมเกี่ยวกับสมุดบันทึก ดู วิธีการใช้สมุดบันทึก Microsoft Fabric
โดยเฉพาะ คุณเรียนรู้วิธีการ:
- สร้างฐานข้อมูล KQL
- นําเข้าสมุดบันทึก
- เขียนข้อมูลไปยังฐานข้อมูล KQL โดยใช้ Apache Spark
- สอบถามข้อมูลจากฐานข้อมูล KQL
ข้อกำหนดเบื้องต้น
- พื้นที่ทํางานที่มีความจุที่เปิดใช้งาน Microsoft Fabric
1- สร้างฐานข้อมูล KQL
เปิดตัวสลับประสบการณ์ที่ด้านล่างของบานหน้าต่างนําทาง และเลือก ตัวแสดงเวลาจริง
เลือก ไทล์ฐานข้อมูล KQL
ในเขตข้อมูล ชื่อฐานข้อมูล KQL ให้ป้อน nycGreenTaxi จากนั้นเลือก สร้าง
ฐานข้อมูล KQL ถูกสร้างขึ้นภายในบริบทของพื้นที่ทํางานที่เลือก
คัดลอก URI คิวรีจากการ์ดรายละเอียดฐานข้อมูลในแดชบอร์ดฐานข้อมูล และวางไว้ในตําแหน่งใดที่หนึ่ง เช่น Notepad เพื่อใช้ในขั้นตอนต่อไป
2- ดาวน์โหลดสมุดบันทึก NYC GreenTaxi
เราได้สร้างสมุดบันทึกตัวอย่างที่จะนําคุณผ่านขั้นตอนที่จําเป็นทั้งหมดสําหรับการโหลดข้อมูลลงในฐานข้อมูลของคุณโดยใช้ตัวเชื่อมต่อ Spark
เปิด ที่เก็บตัวอย่าง Fabric บน GitHub เพื่อดาวน์โหลด สมุดบันทึก NYC GreenTaxi KQL
บันทึกสมุดบันทึกลงในเครื่องของคุณ
หมายเหตุ
สมุดบันทึกต้องถูกบันทึกในรูปแบบ
.ipynb
แฟ้ม
3- นําเข้าสมุดบันทึก
ส่วนที่เหลือของเวิร์กโฟลว์นี้เกิดขึ้นในส่วนวิศวกรข้อมูลของผลิตภัณฑ์ และใช้สมุดบันทึก Spark เพื่อโหลดและคิวรีข้อมูลในฐานข้อมูล KQL ของคุณ
เปิดตัวสลับประสบการณ์การใช้งานที่ด้านล่างของบานหน้าต่างนําทาง และเลือก พัฒนา และพื้นที่ทํางานของคุณ
เลือก นําเข้า>สมุดบันทึก>จากคอมพิวเตอร์นี้>อัปโหลด จากนั้นเลือกสมุดบันทึก NYC GreenTaxi ที่คุณดาวน์โหลดไว้ในขั้นตอนก่อนหน้า
เมื่อการนําเข้าเสร็จสมบูรณ์ ให้เปิดสมุดบันทึกจากพื้นที่ทํางานของคุณ
4- รับข้อมูล
เมื่อต้องการคิวรีฐานข้อมูลของคุณโดยใช้ตัวเชื่อมต่อ Spark คุณจําเป็นต้องให้การเข้าถึงแบบอ่านและเขียนไปยังคอนเทนเนอร์ blob ของ NYC GreenTaxi
เลือกปุ่มเล่นเพื่อเรียกใช้เซลล์ต่อไปนี้ หรือเลือกเซลล์และกด Shift+ Enter ทําซ้ําขั้นตอนนี้สําหรับแต่ละเซลล์ของโค้ด
หมายเหตุ
รอให้เครื่องหมายถูกเสร็จสมบูรณ์ปรากฏขึ้นก่อนที่จะเรียกใช้เซลล์ถัดไป
เรียกใช้เซลล์ต่อไปนี้เพื่อเปิดใช้งานการเข้าถึงคอนเทนเนอร์ blob ของ NYC GreenTaxi
ใน KustoURI ให้ วาง URI คิวรีที่คุณ คัดลอกไว้ก่อนหน้านี้ แทนตัวแทนข้อความ
เปลี่ยนชื่อฐานข้อมูลตัวแทนข้อความเป็น nycGreenTaxi
เปลี่ยนชื่อตารางพื้นที่ที่สํารองไว้เป็น GreenTaxiData
เรียกใช้เซลล์
เรียกใช้เซลล์ถัดไปเพื่อเขียนข้อมูลลงในฐานข้อมูลของคุณ อาจใช้เวลาสักครู่เพื่อให้ขั้นตอนนี้เสร็จสมบูรณ์
ฐานข้อมูลของคุณมีข้อมูลที่โหลดในตารางที่ ชื่อ GreenTaxiData แล้ว
5- เรียกใช้สมุดบันทึก
เรียกใช้สองเซลล์ที่เหลือตามลําดับเพื่อสอบถามข้อมูลจากตารางของคุณ ผลการค้นหาแสดงค่าโดยสารรถแท็กซี่สูงสุดและต่ําสุด 20 อันดับแรกและระยะทางที่บันทึกไว้ตามปี
6- ล้างข้อมูล
ล้างรายการที่สร้างขึ้นโดยการนําทางไปยังพื้นที่ทํางานที่สร้างขึ้น
ในพื้นที่ทํางานของคุณ ให้วางเมาส์เหนือสมุดบันทึกที่คุณต้องการลบ เลือกเมนู เพิ่มเติม [...] >ลบ
เลือก ลบ คุณไม่สามารถกู้คืนสมุดบันทึกของคุณได้เมื่อคุณลบสมุดบันทึกนั้น