แยกข้อมูลหลายรูปแบบด้วย Azure Content Understanding
Azure Content Understanding ใช้โมเดล AI ที่ล้ําสมัยเพื่อวิเคราะห์เนื้อหาในหลายรูปแบบ ได้แก่:
- ฟอร์มและเอกสารที่ใช้ข้อความ
- เสียง
- ภาพ
- วิดีโอ
การวิเคราะห์ฟอร์มและเอกสาร
ความสามารถในการวิเคราะห์เอกสารของ Azure Content Understanding เป็นมากกว่าการแยกข้อความที่ใช้ OCR อย่างง่าย เพื่อรวมการแยกฟิลด์และค่าตามสคีมา
ตัวอย่างเช่น สมมติว่าคุณกําหนด schema ที่มีเขตข้อมูลทั่วไปที่พบโดยทั่วไปในใบแจ้งหนี้ เช่น:
- ชื่อผู้จัดจําหน่าย
- หมายเลขใบแจ้งหนี้
- วันที่ในใบแจ้งหนี้
- ชื่อลูกค้า
- ที่อยู่แบบกําหนดเอง
- สินค้า - สินค้าที่สั่ง แต่ละรายการประกอบด้วย:
- คำอธิบายสินค้า
- ราคาต่อหน่วย
- ปริมาณที่สั่ง
- ยอดรวมสินค้าในรายการ
- ผลรวมย่อยของใบแจ้งหนี้
- ภาษี
- ค่าจัดส่ง
- ผลรวมใบแจ้งหนี้
ตอนนี้สมมติว่าคุณต้องแยกข้อมูลนี้ออกจากใบแจ้งหนี้ต่อไปนี้:
Azure Content Understanding สามารถใช้ Schema ใบแจ้งหนี้กับใบแจ้งหนี้ของคุณ และระบุฟิลด์ที่เกี่ยวข้อง แม้ว่าจะมีป้ายชื่อด้วยชื่อที่แตกต่างกัน (หรือไม่มีป้ายชื่อเลย) การวิเคราะห์ผลลัพธ์จะสร้างผลลัพธ์ดังนี้:
สําหรับแต่ละเขตข้อมูลที่ตรวจพบ ค่าจะถูกแยกออกจากใบแจ้งหนี้:
- ชื่อผู้จําหน่าย: รอบงานผจญภัย
- หมายเลขใบแจ้งหนี้: 1234
- วันออกใบแจ้งหนี้: 03/07/2025
- ชื่อลูกค้า: John Smith
- ที่อยู่ที่กําหนดเอง: 123 River Street, Marshtown, England, GL1 234
-
รายการ:
- รายการที่ 1:
- คําอธิบายรายการ: จักรยานเสือหมอบ 38 นิ้ว (สีแดง)
- ราคาต่อหน่วย: 1299.00
- ปริมาณที่สั่งซื้อ: 1
- รายการสินค้าในรายการทั้งหมด: 1299.00
- รายการที่ 2:
- คําอธิบายรายการ: หมวกกันน็อกจักรยาน (สีดํา)
- ราคาต่อหน่วย: 25.99
- ปริมาณที่สั่งซื้อ: 1
- รายการสินค้าในรายการทั้งหมด: 25.99
- รายการที่ 3:
- คําอธิบายรายการ: เสื้อปั่นจักรยาน( l)
- ราคาต่อหน่วย: 42.50
- ปริมาณที่สั่งซื้อ: 2
- รายการทั้งหมด: 85.00
- รายการที่ 1:
- ผลรวมย่อยของใบแจ้งหนี้: 1409.99
- ภาษี: 140.99
- ค่าจัดส่ง: 35.00
- ใบแจ้งหนี้รวม: 1585.98
กําลังวิเคราะห์เสียง
นอกจากเอกสารที่เป็นข้อความแล้ว Azure Content Understanding ยังสามารถวิเคราะห์ไฟล์เสียงเพื่อให้การถอดเสียง สรุป และข้อมูลเชิงลึกที่สําคัญอื่นๆ
สมมติว่าคุณต้องการให้ AI สรุปข้อความเสียงของคุณ คุณอาจกําหนดสคีมาของข้อมูลเชิงลึกหลักเพื่อแยกจากแต่ละการเรียกใช้ที่บันทึกไว้ เช่นนี้:
- แขก
- ข้อมูลสรุปข้อความ
- การดําเนินการที่ร้องขอ
- หมายเลขเรียกกลับ
- รายละเอียดการติดต่ออื่น
ตอนนี้สมมติว่า ผู้โทรออกจากข้อความเสียงต่อไปนี้ให้คุณ:
Hi, this is Ava from Contoso.
Just calling to follow up on our meeting last week.
I wanted to let you know that I've run the numbers and I think we can meet your price expectations.
Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.
Thanks, bye!
การใช้ Azure Content Understanding เพื่อวิเคราะห์การบันทึกเสียงและใช้ Schema ของคุณจะให้ผลลัพธ์ต่อไปนี้:
- ผู้โทร: Ava จาก Contoso
- สรุปข้อความ: Ava จาก Contoso เรียกให้ติดตามการประชุม และกล่าวถึงว่าพวกเขาสามารถตอบสนองความคาดหวังด้านราคาได้ เธอร้องขอการเรียกกลับหรืออีเมลเพื่อพูดคุยเกี่ยวกับขั้นตอนถัดไป
- การดําเนินการที่ร้องขอ: โทรกลับหรือส่งอีเมลเพื่อพูดคุยเกี่ยวกับขั้นตอนถัดไป
- หมายเลขโทรกลับ: 555-12345
- รายละเอียดการติดต่ออื่น: Ava@contoso.com
กําลังวิเคราะห์รูปภาพและวิดีโอ
Azure Content Understanding รองรับการวิเคราะห์รูปภาพและวิดีโอเพื่อดึงข้อมูลตาม Schema แบบกําหนดเอง ตัวอย่างเช่น คุณสามารถวิเคราะห์รูปภาพของการประชุมทางวิดีโอเพื่อแยกรายละเอียดของการเข้าร่วม ตําแหน่งที่ตั้ง และข้อมูลอื่น ๆ
สมมติว่าคุณได้กําหนด Schema ต่อไปนี้สําหรับรูปภาพที่ถ่ายโดยระบบการรับส่งข้อความที่ทํางานร่วมกันที่รวมผู้เข้าร่วมภายในห้องและผู้เข้าร่วมระยะไกลในระบบการโทรประชุม:
- สถานที่
- ผู้เข้าร่วมประชุมด้วยตนเอง
- ผู้เข้าร่วมประชุมระยะไกล
- ผู้เข้าร่วมทั้งหมด
คุณสามารถใช้ Azure Content Understanding เพื่อวิเคราะห์ภาพนิ่งต่อไปนี้จากกล้องห้องประชุม:
เมื่อใช้ Schema ก่อนหน้านี้กับอิมเมจนี้ Azure Content Understanding จะสร้างผลลัพธ์ต่อไปนี้:
- สถานที่: ห้องประชุม
- ผู้เข้าร่วมประชุมด้วยตนเอง: 1
- ผู้เข้าร่วมประชุมระยะไกล: 3
- ผู้เข้าร่วมทั้งหมด: 4
แทนที่จะวิเคราะห์ภาพนิ่ง คุณสามารถสร้างตัววิเคราะห์สําหรับวิดีโอที่บันทึกไว้ของการโทร Schema อาจรวมถึงจํานวนการเข้าร่วมในช่วงเวลาต่าง ๆ รายละเอียดของบุคคลที่พูดในระหว่างการเรียกใช้ และสิ่งที่พวกเขาพูด สรุปการสนทนา และรายการของการดําเนินการที่กําหนดจากการประชุม