เชื่อมต่อกับตาราง Delta ใน Azure Data Lake Storage
เชื่อมต่อกับข้อมูลในตาราง Delta แล้วนำมาไว้ใน Dynamics 365 Customer Insights - Data
เหตุผลสำคัญในการเชื่อมต่อข้อมูลที่จัดเก็บในรูปแบบเดลต้า:
- นำเข้าข้อมูลที่จัดรูปแบบเดลต้าโดยตรง เพื่อประหยัดเวลาและความพยายาม
- ขจัดต้นทุนการประมวลผลและพื้นที่จัดเก็บข้อมูลที่เกี่ยวข้องกับการแปลง และจัดเก็บสำเนาข้อมูล Lakehouse ของคุณ
- ปรับปรุงความน่าเชื่อถือของการนำเข้าข้อมูลไปยัง Customer Insights - Data ที่จัดทำโดยการกำหนดเวอร์ชันเดลต้าโดยอัตโนมัติ
คุณสมบัติและเวอร์ชันของ Databricks ที่รองรับ
Customer Insights - Data รองรับฟีเจอร์ Databricks ที่มี 'minReaderVersion' 2 หรือก่อนหน้า ไม่รองรับคุณลักษณะ Databricks ที่ต้องใช้ Databricks ผู้อ่าน เวอร์ชัน 3 ขึ้นไป ตารางแสดงฟีเจอร์ Databricks ที่ได้รับการสนับสนุนและไม่รองรับ
คุณลักษณะที่รองรับ | คุณสมบัติที่ไม่รองรับ |
---|---|
ฟังก์ชันพื้นฐาน | เวกเตอร์การลบ |
เปลี่ยนฟีดข้อมูล | การรวมกลุ่มของเหลว |
ตรวจสอบข้อจำกัด | คุณสมบัติของตารางเขียน |
การแมปคอลัมน์ | ไทม์สแตมป์NTZ |
สร้างคอลัมน์ | การขยายประเภท |
คอลัมน์อัตลักษณ์ | ตัวแปร |
การติดตามแถว | |
ตารางคุณสมบัติอ่าน | |
ยูนิฟอร์ม |
เรียนรู้เพิ่มเติม: Databricks จัดการความเข้ากันได้ของฟีเจอร์ Delta Lake ได้อย่างไร
ข้อกำหนดเบื้องต้น
Azure Data Lake Storage ต้องอยู่ในผู้เช่าและภูมิภาค Azure เดียวกันกับ Customer Insights - Data
หลักการบริการ Customer Insights - Data ต้องมีสิทธิ์ผู้สนับสนุนข้อมูล Blob ของการจัดเก็บเพื่อเข้าถึงบัญชีที่เก็บข้อมูล สำหรับข้อมูลเพิ่มเติม โปรดดู ให้สิทธิ์แก่บริการหลักในการเข้าถึงบัญชีที่เก็บข้อมูล
ผู้ใช้ที่ตั้งค่าหรืออัปเดตแหล่งข้อมูลต้องมีสิทธิ์ของตัวอ่าน Storage Blob Data เป็นอย่างน้อยในบัญชี Azure Data Lake Storage
ข้อมูลที่จัดเก็บในบริการออนไลน์อาจถูกจัดเก็บในตำแหน่งอื่นนอกเหนือจากที่ข้อมูลถูกประมวลผลหรือจัดเก็บ การนำเข้าหรือการเชื่อมต่อไปยังข้อมูลที่จัดเก็บในบริการออนไลน์ หมายถึงคุณยอมรับว่าสามารถถ่ายโอนข้อมูล เรียนรู้เพิ่มเติมได้ที่ศูนย์ความเชื่อถือของ Microsoft
Customer Insights - Data รองรับตัวอ่าน Databricks เวอร์ชัน 2 ไม่รองรับตารางเดลต้าที่ใช้คุณลักษณะที่ต้องใช้ตัวอ่าน Databricks เวอร์ชัน 3 ขึ้นไป เรียนรู้เพิ่มเติม: ฟีเจอร์ Databricks ที่รองรับ
ตารางเดลต้าต้องอยู่ในโฟลเดอร์ในคอนเทนเนอร์ที่เก็บข้อมูล และไม่สามารถอยู่ในไดเร็กทอรีรากของคอนเทนเนอร์ได้ ตัวอย่าง
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
- ข้อมูลใน Azure Data Lake Storage ต้องอยู่ในตาราง Delta Customer Insights - Data อาศัยคุณสมบัติเวอร์ชันในประวัติของตาราง เพื่อระบุการเปลี่ยนแปลงล่าสุดสำหรับการประมวลผลแบบเพิ่มหน่วย
เชื่อมต่อกับข้อมูลเดลต้าจาก Azure Data Lake Storage
ไปที่ ข้อมูล>แหล่งข้อมูล
เลือก เพิ่มแหล่งข้อมูล
เลือก ตาราง Azure Data Lake Delta
ป้อนชื่อแหล่งข้อมูลและคำอธิบายที่ระบุหรือไม่ก็ได้ ชื่อนี้มีการอ้างอิงในกระบวนการดาวน์สตรีมและไม่สามารถเปลี่ยนแปลงได้หลังจากสร้างแหล่งข้อมูลแล้ว
เลือกหนึ่งในตัวเลือกต่อไปนี้สำหรับ เชื่อมต่อที่เก็บข้อมูลของคุณโดยใช้
- การสมัครใช้งาน Azure: เลือก การสมัครใช้งาน จากนั้นเลือก กลุ่มทรัพยากร และ บัญชีที่จัดเก็บข้อมูล
- ทรัพยากร Azure: ป้อน รหัสทรัพยากร
หรือถ้าคุณต้องการนำเข้าข้อมูลจากบัญชีที่เก็บข้อมูลผ่าน Azure Private Link ให้เลือก เปิดใช้งาน Private Link สำหรับข้อมูลเพิ่มเติม โปรดดู Private Link
เลือกชื่อของ คอนเทนเนอร์ ที่มีโฟลเดอร์ข้อมูลของคุณ และเลือก ถัดไป
นำทางไปยังโฟลเดอร์ที่มีข้อมูลในตาราง Delta แล้วเลือก จากนั้นเลือก ถัดไป รายการของตารางที่มีอยู่จะแสดง
เลือกตารางที่คุณต้องการให้รวม
สำหรับตารางที่เลือกซึ่งไม่ได้กำหนดคีย์หลัก จำเป็น จะแสดงภายใต้ คีย์หลัก สำหรับแต่ละตารางเหล่านี้:
- เลือก จำเป็น แผง แก้ไขตาราง จะแสดง
- เลือก คีย์หลัก คีย์หลักคือแอตทริบิวต์ที่ไม่ซ้ำกับตาราง เพื่อให้แอตทริบิวต์เป็นคีย์หลักที่ถูกต้อง ไม่ควรมีค่าที่ซ้ำกัน ค่าที่ขาดหายไป หรือค่า null แอตทริบิวต์ชนิดข้อมูลสตริง จำนวนเต็ม และ GUID ได้รับการสนับสนุนเป็นคีย์หลัก
- เลือก ปิด เพื่อบันทึกและปิดแผง
หากต้องการเปิดใช้งานโปรไฟล์ข้อมูลในคอลัมน์ใดๆ ให้เลือกจำนวน คอลัมน์ สำหรับตาราง หน้า จัดการแอตทริบิวต์ จะแสดง
- เลือก โปรไฟล์ข้อมูล สำหรับทั้งตารางหรือเฉพาะคอลัมน์ โดยค่าเริ่มต้น ไม่มีการเปิดใช้งานตารางสำหรับการทำโปรไฟล์ข้อมูล
- เลือก เสร็จสิ้น
เลือก บันทึก หน้า แหล่งข้อมูล จะเปิดขึ้นเพื่อแสดงแหล่งข้อมูลใหม่ในสถานะ กำลังรีเฟรช
เคล็ดลับ
มี สถานะ สำหรับงานและกระบวนการ กระบวนการส่วนใหญ่ขึ้นอยู่กับกระบวนการต้นทางอื่นๆ เช่น แหล่งข้อมูลและ การรีเฟรช การทำโปรไฟล์ข้อมูล
เลือกสถานะเพื่อเปิดบานหน้าต่าง รายละเอียดความคืบหน้า และดูความคืบหน้าของงาน หากต้องการยกเลิกงาน ให้เลือก ยกเลิกงาน ที่ด้านล่างของบานหน้าต่าง
ในแต่ละงาน คุณสามารถเลือก ดูรายละเอียด เพื่อดูข้อมูลความคืบหน้าเพิ่มเติม เช่น เวลาประมวลผล วันที่ประมวลผลล่าสุด และข้อผิดพลาดและคำเตือนที่เกี่ยวข้องใดๆ ที่เกี่ยวข้องกับงานหรือกระบวนการ เลือก ดูสถานะของระบบ ที่ด้านล่างของแผงเพื่อดูกระบวนการอื่นๆ ในระบบ
การโหลดข้อมูลอาจต้องใช้เวลา หลังจากการรีเฟรชที่สำเร็จ จะสามารถตรวจสอบข้อมูลที่ถูกนำไปใช้ได้จากหน้า ตาราง
จัดการการเปลี่ยนแปลง Schema
เมื่อมีการเพิ่มหรือลบคอลัมน์ออกจาก Schema ของแหล่งข้อมูลโฟลเดอร์ Delta ระบบจะทำการรีเฟรชข้อมูลทั้งหมด การรีเฟรชแบบเต็มจะใช้เวลาในการประมวลผลข้อมูลทั้งหมดนานกว่าการรีเฟรชส่วนเพิ่ม
เพิ่มคอลัมน์
เมื่อมีการเพิ่มคอลัมน์ในแหล่งข้อมูล ข้อมูลจะต่อท้ายข้อมูลโดยอัตโนมัติใน Customer Insights - Data เมื่อมีการรีเฟรชเกิดขึ้น หากมีการกำหนดค่าการรวมสำหรับตารางแล้ว จะต้องเพิ่มคอลัมน์ใหม่ลงในกระบวนการการรวม
จากขั้นตอน ข้อมูลลูกค้า ให้เลือก เลือกตารางและคอลัมน์ และเลือกคอลัมน์ใหม่
ในขั้นตอน มุมมองข้อมูลแบบรวม ตรวจสอบให้แน่ใจว่าคอลัมน์ไม่ได้ถูกตัดออกจากโปรไฟล์ลูกค้า เลือก ที่ไม่รวม และอ่านคอลัมน์นั้น
ในขั้นตอน รันการอัปเดตไปยังโปรไฟล์แบบรวม เลือก โปรไฟล์ลูกค้าแบบรวมและการขึ้นต่อกัน
เปลี่ยนหรือนำคอลัมน์ออก
เมื่อคอลัมน์ถูกลบออกจากแหล่งข้อมูล ระบบจะตรวจสอบการขึ้นต่อกันในกระบวนการอื่น หากมีการขึ้นต่อกันในคอลัมน์ ระบบจะหยุดการรีเฟรช และแสดงข้อผิดพลาดที่ระบุว่าต้องลบการอ้างอิงออก การขึ้นต่อกันเหล่านี้จะแสดงในการแจ้งเตือน เพื่อช่วยคุณค้นหาและลบออก
ตรวจสอบการเปลี่ยนแปลง Schema
หลังจากที่แหล่งข้อมูลรีเฟรชแล้ว ให้ไปที่หน้า ข้อมูล>ตาราง เลือกตารางสำหรับแหล่งข้อมูลและตรวจสอบ Schema
เวลาเดินทางของ Delta Lake และการรีเฟรชข้อมูล
เวลาเดินทางของ Delta Lake คือความสามารถในการสืบค้นผ่านเวอร์ชันของตารางตามการประทับเวลาหรือหมายเลขเวอร์ชัน การเปลี่ยนแปลงในโฟลเดอร์ Delta เป็นไปตามเวอร์ชัน และ Customer Insights - Data ใช้เวอร์ชันโฟลเดอร์ Delta เพื่อติดตามข้อมูลที่จะประมวลผล ในการรีเฟรชตารางเดลต้าปกติ ข้อมูลจะถูกดึงมาจากเวอร์ชันตารางข้อมูลทั้งหมดนับตั้งแต่การรีเฟรชครั้งล่าสุด ตราบใดที่ยังมีเวอร์ชันทั้งหมด Customer Insights - Data สามารถประมวลผลเฉพาะองค์ประกอบที่เปลี่ยนแปลง และให้ผลลัพธ์ที่รวดเร็วยิ่งขึ้น เรียนรู้เพิ่มเติมเกี่ยวกับการเดินทางข้ามเวลา
ตัวอย่างเช่น หาก Customer Insights – Data ซิงโครไนซ์กับข้อมูลโฟลเดอร์ Delta เวอร์ชัน 23 ครั้งล่าสุด ก็คาดว่าจะพบเวอร์ชัน 23 และเวอร์ชันถัดๆ ไปที่พร้อมใช้งาน หากไม่มีเวอร์ชันข้อมูลที่คาดหวัง การซิงโครไนซ์ข้อมูลจะล้มเหลว และต้องมี การรีเฟรชข้อมูลแบบเต็มด้วยตนเอง การซิงโครไนซ์ข้อมูลอาจล้มเหลว ถ้าข้อมูลโฟลเดอร์เดลต้าของคุณถูกลบแล้วสร้างขึ้นใหม่ หรือหาก Customer Insights - Data ไม่สามารถเชื่อมต่อกับโฟลเดอร์เดลต้าของคุณเป็นเวลานานในขณะเวอร์ชันขั้นสูง
เพื่อหลีกเลี่ยงความจำเป็นในการรีเฟรชข้อมูลแบบเต็ม เราขอแนะนำให้คุณรักษาประวัติที่ค้างอยู่อย่างเหมาะสม เช่น 15 วัน
เรียกใช้การรีเฟรชข้อมูลแบบเต็มด้วยตนเองในโฟลเดอร์ตารางเดลต้า
การรีเฟรชแบบเต็มจะนำข้อมูลทั้งหมดจากตารางในรูปแบบเดลต้า และโหลดซ้ำจากตารางเดลต้าเวอร์ชันศูนย์ (0) การเปลี่ยนแปลง Schema โฟลเดอร์เดลต้าจะทริกเกอร์การรีเฟรชแบบเต็มอัตโนมัติ หากต้องการทริกเกอร์การรีเฟรชแบบเต็มด้วนตนเอง ทำตามขั้นตอนต่อไปนี้
ไปที่ ข้อมูล>แหล่งข้อมูล
เลือกแหล่งข้อมูล ตาราง Azure Data Lake Delta
เลือกตารางที่คุณต้องการรีเฟรช บานหน้าต่าง แก้ไขตาราง จะแสดง
เลือก เรียกใช้การรีเฟรชแบบเต็มครั้งเดียว
เลือก บันทึก เพื่อเรียกใช้การรีเฟรช หน้า แหล่งข้อมูล จะเปิดขึ้นเพื่อแสดงแหล่งข้อมูลใหม่ในสถานะ กำลังรีเฟรช แต่เฉพาะตารางที่เลือกเท่านั้นที่กำลังรีเฟรช
ทำซ้ำกระบวนการนี้กับตารางอื่น ถ้ามี
ความล้มเหลวในการซิงโครไนซ์ข้อมูล
การซิงโครไนซ์ข้อมูลอาจล้มเหลว ถ้าข้อมูลโฟลเดอร์เดลต้าของคุณถูกลบแล้วสร้างขึ้นใหม่ หรือหาก Customer Insights - Data ไม่สามารถเชื่อมต่อกับโฟลเดอร์เดลต้าของคุณเป็นเวลานานในขณะเวอร์ชันขั้นสูง หากต้องการลดผลกระทบจากความล้มเหลวของไปป์ไลน์ข้อมูลที่เกิดเป็นระยะๆ ทำให้เกิดความจำเป็นในการรีเฟรชทั้งหมด เราขอแนะนำให้คุณเก็บรักษาประวัติที่ค้างอยู่ให้เหมาะสม เช่น 15 วัน