เริ่มต้นใช้งานด่วน: รับข้อมูลเข้าสู่ OneLake

OneLake เป็นที่จัดเก็บข้อมูลดิบแบบรวมเดียวสําหรับ Microsoft Fabric ปริมาณงาน Fabric ทุกรายการจะอ่านและเขียนข้อมูลผ่าน OneLake ดังนั้นคุณจึงต้องโหลดข้อมูลเพียงครั้งเดียวเพื่อใช้งานได้ทุกที่ คุณสามารถนําข้อมูลเข้าสู่ OneLake ได้หลายวิธี:

  • อัปโหลดไฟล์ไปยังเลคเฮาส์หรือคลังสินค้าโดยตรง
  • นําเข้าข้อมูลโดยใช้ไปป์ไลน์ กระแสข้อมูล หรือประสบการณ์การสตรีม
  • เชื่อมต่อกับข้อมูลภายนอกโดยใช้ทางลัดหรือการสะท้อนภาพ

ในการเริ่มต้นใช้งานด่วนนี้ คุณจะนําข้อมูลมาไว้ใน OneLake ได้สองวิธี: คุณอัปโหลดไฟล์ CSV ไปยังเลคเฮาส์ และสร้างทางลัด OneLake จากเลคเฮาส์ที่สองที่ชี้กลับไปยังข้อมูลเดียวกันโดยไม่ต้องคัดลอก เมื่อคุณทําเสร็จแล้ว คุณจะมีตารางเดลต้าที่สืบค้นได้และทางลัด ซึ่งทั้งสองอย่างพร้อมใช้งานสําหรับเอ็นจิ้น Fabric ทุกตัวผ่าน OneLake

ข้อกำหนดเบื้องต้น

  • ใบอนุญาต Fabric หรือลงทะเบียนเพื่อทดลองใช้ Fabric ฟรี
  • พื้นที่ทํางานของ Fabric

สร้างเลคเฮ้าส์

เมื่อคุณสร้างรายการ Fabric เช่น เลคเฮาส์ คลังสินค้า หรือบ้านจัดงาน รายการนั้นจะจัดเตรียมที่เก็บข้อมูลใน OneLake ในนามของคุณ ในการเริ่มต้นใช้งานด่วนนี้ คุณจะสร้างเลคเฮาส์ ซึ่งจะให้ทั้งพื้นที่ไฟล์ (ไฟล์) สําหรับข้อมูลที่ไม่มีโครงสร้างหรือกึ่งโครงสร้าง และพื้นที่ตารางเดลต้า (ตาราง) สําหรับข้อมูลที่มีโครงสร้างและคิวรีได้ ทุกสิ่งที่คุณใส่ไว้ในพื้นที่ใดพื้นที่หนึ่งจะถูกจัดเก็บไว้ใน OneLake และเข้าถึงปริมาณงาน Fabric อื่นๆ ได้ทันที

  1. ลงชื่อเข้าใช้พอร์ทัล Fabric และเลือกพื้นที่ทํางานของคุณ

  2. เลือก รายการใหม่

  3. ในบานหน้าต่าง รายการใหม่ ให้ค้นหาและเลือก เลคเฮาส์

  4. ป้อนชื่อ เช่น DataLakehouseจากนั้นเลือก สร้าง

    เลคเฮาส์จะเปิดขึ้นสู่มุมมอง Explorer ซึ่งแสดงส่วน ตาราง และ ไฟล์ ที่ว่างเปล่า ทั้งสองส่วนได้รับการสนับสนุนจาก OneLake แล้วและพร้อมสําหรับเนื้อหา

อัปโหลดข้อมูลตัวอย่าง

ในการเริ่มต้นใช้งานด่วนนี้ คุณใช้ Dim_Products.csv จากชุดข้อมูลตัวอย่าง Fabric ที่พร้อมใช้งานแบบสาธารณะ เป็นตารางข้อมูลผลิตภัณฑ์ขนาดเล็กจากผู้ค้าปลีกกาแฟตัวอย่าง

  1. เปิดเบราว์เซอร์แล้วไปที่https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv
  2. เมื่อได้รับพร้อมท์ ให้บันทึกไฟล์ลงใน Dim_Products.csv โฟลเดอร์บนคอมพิวเตอร์ของคุณ

ในส่วนนี้ คุณอัปโหลด Dim_Products.csv ไปยัง ไฟล์ เพื่อให้คุณมีแหล่งข้อมูลดิบอยู่ใน OneLake พื้นที่ ไฟล์ ของเลคเฮาส์เป็นโซนจัดเก็บเอนกประสงค์ใน OneLake คิดว่ามันเป็นโซนลงจอดสําหรับข้อมูลดิบในรูปแบบใดก็ตามที่มาถึง คุณสามารถวาง CSV, JSON, Parquet, รูปภาพ, บันทึก หรืออะไรก็ได้โดยไม่ต้องกําหนดสคีมาก่อน

  1. ใน lakehouse Explorer ให้วางเมาส์เหนือ ไฟล์ เลือกเมนู ตัวเลือกเพิ่มเติม (...) แล้วเลือก อัปโหลด>ไฟล์

  2. ในบานหน้าต่าง อัปโหลดไฟล์ ให้เลือกไอคอนโฟลเดอร์และเรียกดู Dim_Products.csv บนคอมพิวเตอร์ของคุณ

  3. เลือก อัปโหลด จากนั้นปิดบานหน้าต่างอัปโหลด

  4. เลือกโฟลเดอร์ Files เพื่อดูเนื้อหาและยืนยันว่า Dim_Products.csv ปรากฏขึ้น

  5. เลือก Dim_Products.csv เพื่อดูข้อมูล

    ภาพหน้าจอของพอร์ทัล Fabric ที่แสดงข้อมูล csv ที่ไม่มีโครงสร้างในส่วนไฟล์ของเลคเฮาส์

ตอนนี้ไฟล์อยู่ใน OneLake แต่ในฐานะ CSV ดิบ ยังไม่ใช่สิ่งที่ SQL หรือ Spark สามารถสืบค้นเป็นตารางได้

โหลดไฟล์ลงในตารางเดลต้า

Fabric สร้างมาตรฐานบน Delta Lake เป็นรูปแบบตารางใน OneLake เมื่อคุณโหลดไฟล์ลงในพื้นที่ Tables Fabric จะอ่านไฟล์ต้นฉบับ อนุมาน Schema และเขียนข้อมูลออกเป็นตารางเดลต้า จากจุดนั้นเป็นต้นไป กลไกจัดการ Fabric ทุกตัวสามารถสืบค้นตารางเดียวกันได้โดยไม่ต้องคัดลอกหรือแปลงข้อมูลอีกครั้ง

  1. ใน lakehouse Explorer ให้เปิดโฟลเดอร์ไฟล์

  2. วางเมาส์เหนือDim_Products.csvไฟล์ และเลือกเมนู ตัวเลือกเพิ่มเติม (...) จากนั้นเลือก โหลดไปยังตาราง>ตารางใหม่

  3. ในกล่องโต้ตอบ โหลดไปยังตาราง ให้ป้อนdim_productsชื่อตาราง คงค่าเริ่มต้นไว้ แล้วเลือก โหลด

  4. หลังจากการโหลดเสร็จสิ้น ให้ขยาย ตาราง และเลือก dim_products เพื่อดูตัวอย่างแถว CSV ดิบใน ไฟล์ ไม่เปลี่ยนแปลง และเป็น dim_products ตารางเดลต้าใหม่ที่สร้างขึ้นจากมัน

    ภาพหน้าจอที่แสดงข้อมูลตารางเดลต้าที่มีโครงสร้างในส่วนตารางของเลคเฮาส์

  5. วางเมาส์เหนือdim_productsและเลือกเมนูตัวเลือกเพิ่มเติม (...) จากนั้นเลือกคุณสมบัติ

    หน้าจอ Properties แสดงรายละเอียดต่างๆ สําหรับตาราง รวมถึง URL และเส้นทาง Azure Blob File System (ABFS) ที่คุณสามารถใช้เพื่ออ้างอิงตารางนี้ในกลไกจัดการอื่น

นําข้อมูลกลับมาใช้ใหม่ด้วยทางลัดจากเลคเฮาส์ที่สอง

การอัปโหลดและการโหลดเป็นวิธีหนึ่งในการรับข้อมูลไปยัง OneLake รูปแบบสําคัญอีกรูปแบบหนึ่งคือการอ้างอิงข้อมูลที่มีอยู่แล้วที่อื่นโดยไม่ทําซ้ํา นั่นคือสิ่งที่ทางลัดคือ: ตัวชี้ใน OneLake ที่อ้างอิงข้อมูลที่จัดเก็บไว้ในเลคเฮาส์อื่น ในพื้นที่ทํางาน Fabric อื่น หรือในแหล่งข้อมูลที่รองรับภายนอก Fabric เช่น Azure Data Lake Storage หรือ Amazon S3 ข้อมูลจะไม่ถูกคัดลอก มันอยู่ในตําแหน่งต้นทาง แต่คุณสามารถอ่านผ่าน OneLake ได้ราวกับว่าเป็นท้องถิ่น การอัปเดตแหล่งที่มาจะมองเห็นได้ทันทีผ่านทางลัด คุณจึงไม่ต้องเก็บสําเนาของข้อมูล

ในส่วนนี้ คุณสร้างเลคเฮาส์ที่สองและเพิ่มทางลัดจากเลคเฮาส์กลับไปที่ dim_products โต๊ะในเลคเฮาส์แรกของคุณ สิ่งนี้สะท้อนให้เห็นถึงวิธีการทํางานของทีมโดยทั่วไป โดยที่ทีมหนึ่งเป็นเจ้าของข้อมูลที่ดูแลจัดการ และทีมหรือโครงการอื่นๆ ใช้ข้อมูลนั้นผ่านทางลัดในพื้นที่ทํางานของตนเอง

  1. ในพื้นที่ทํางานของคุณ ให้เลือก รายการใหม่
  2. ในบานหน้าต่าง รายการใหม่ ให้ค้นหาและเลือก เลคเฮาส์
  3. ป้อนชื่อ เช่น ShortcutLakehouseจากนั้นเลือก สร้าง
  4. ใน Explorer ของเลคเฮาส์ใหม่ ให้วางเมาส์เหนือ ตาราง เลือกเมนูตัวเลือกเพิ่มเติม (...) แล้วเลือก ทางลัดใหม่
  5. บนหน้า ทางลัดใหม่ ภายใต้ แหล่งข้อมูลภายใน ให้เลือก Microsoft OneLake
  6. ในเบราว์เซอร์แหล่งข้อมูล ให้เลือกเลคเฮาส์แรกที่คุณสร้างขึ้นสําหรับการเริ่มต้นใช้งานด่วนนี้ แล้วเลือก ถัดไป
  7. ขยาย ตาราง เลือกdim_productsตาราง แล้วเลือก ถัดไป
  8. ตรวจสอบการเลือกและเลือกสร้าง
  9. ขยาย ตาราง ใน ShortcutLakehouse และยืนยันว่า dim_products ปรากฏขึ้นพร้อมกับไอคอนทางลัด (รูปภาพลิงก์ขนาดเล็กเหนือไอคอนตาราง) เลือกเพื่อแสดงตัวอย่างแถว ตารางเหมือนกับในเลคเฮาส์เดิม แต่ไม่มีการคัดลอกข้อมูล
  10. วางเมาส์เหนือdim_productsตาราง แล้วเลือกตัวเลือกเพิ่มเติม (...) จากนั้นเลือก จัดการทางลัด บนบานหน้าต่าง จัดการทางลัด คุณสามารถดูรายละเอียดทางลัด รวมถึงเป้าหมายทางลัดที่จัดเก็บข้อมูลต้นฉบับได้

ล้างแหล่งข้อมูล

หากคุณไม่ได้วางแผนที่จะดําเนินการเริ่มต้นใช้งานด่วน OneLake อื่นๆ ต่อไป ให้ลบเลคเฮาส์เพื่อหลีกเลี่ยงค่าบริการที่เก็บข้อมูล OneLake กับความจุ Fabric ของคุณ

  1. ในพื้นที่ทํางานของคุณ ให้วางเมาส์เหนือเลคเฮาส์ที่คุณต้องการลบ
  2. เลือกเมนูตัวเลือกเพิ่มเติม (...) ถัดจากเลคเฮาส์ เลือก ลบ และยืนยันการลบ

การลบเลคเฮาส์ยังเป็นการลบเนื้อหาภายในนั้นด้วย เช่น ไฟล์ dim_products ที่อัปโหลด ตารางเดลต้า และทางลัด