แยกข้อมูลหลายรูปแบบด้วย Azure Content Understanding

เสร็จสมบูรณ์เมื่อ

Azure Content Understanding ใช้โมเดล AI ที่ล้ําสมัยเพื่อวิเคราะห์เนื้อหาในหลายรูปแบบ ได้แก่:

  • ฟอร์มและเอกสารที่ใช้ข้อความ
  • เสียง
  • ภาพ
  • วิดีโอ

การวิเคราะห์ฟอร์มและเอกสาร

ความสามารถในการวิเคราะห์เอกสารของ Azure Content Understanding เป็นมากกว่าการแยกข้อความที่ใช้ OCR อย่างง่าย เพื่อรวมการแยกฟิลด์และค่าตามสคีมา

ตัวอย่างเช่น สมมติว่าคุณกําหนด schema ที่มีเขตข้อมูลทั่วไปที่พบโดยทั่วไปในใบแจ้งหนี้ เช่น:

  • ชื่อผู้จัดจําหน่าย
  • หมายเลขใบแจ้งหนี้
  • วันที่ในใบแจ้งหนี้
  • ชื่อลูกค้า
  • ที่อยู่แบบกําหนดเอง
  • สินค้า - สินค้าที่สั่ง แต่ละรายการประกอบด้วย:
    • คำอธิบายสินค้า
    • ราคาต่อหน่วย
    • ปริมาณที่สั่ง
    • ยอดรวมสินค้าในรายการ
  • ผลรวมย่อยของใบแจ้งหนี้
  • ภาษี
  • ค่าจัดส่ง
  • ผลรวมใบแจ้งหนี้

ตอนนี้สมมติว่าคุณต้องแยกข้อมูลนี้ออกจากใบแจ้งหนี้ต่อไปนี้:

รูปถ่ายของใบแจ้งหนี้

Azure Content Understanding สามารถใช้ Schema ใบแจ้งหนี้กับใบแจ้งหนี้ของคุณ และระบุฟิลด์ที่เกี่ยวข้อง แม้ว่าจะมีป้ายชื่อด้วยชื่อที่แตกต่างกัน (หรือไม่มีป้ายชื่อเลย) การวิเคราะห์ผลลัพธ์จะสร้างผลลัพธ์ดังนี้:

ภาพถ่ายของใบแจ้งหนี้ที่วิเคราะห์ซึ่งมีการไฮไลต์เขตข้อมูลที่ตรวจพบ

สําหรับแต่ละเขตข้อมูลที่ตรวจพบ ค่าจะถูกแยกออกจากใบแจ้งหนี้:

  • ชื่อผู้จําหน่าย: รอบงานผจญภัย
  • หมายเลขใบแจ้งหนี้: 1234
  • วันออกใบแจ้งหนี้: 03/07/2025
  • ชื่อลูกค้า: John Smith
  • ที่อยู่ที่กําหนดเอง: 123 River Street, Marshtown, England, GL1 234
  • รายการ:
    • รายการที่ 1:
      • คําอธิบายรายการ: จักรยานเสือหมอบ 38 นิ้ว (สีแดง)
      • ราคาต่อหน่วย: 1299.00
      • ปริมาณที่สั่งซื้อ: 1
      • รายการสินค้าในรายการทั้งหมด: 1299.00
    • รายการที่ 2:
      • คําอธิบายรายการ: หมวกกันน็อกจักรยาน (สีดํา)
      • ราคาต่อหน่วย: 25.99
      • ปริมาณที่สั่งซื้อ: 1
      • รายการสินค้าในรายการทั้งหมด: 25.99
    • รายการที่ 3:
      • คําอธิบายรายการ: เสื้อปั่นจักรยาน( l)
      • ราคาต่อหน่วย: 42.50
      • ปริมาณที่สั่งซื้อ: 2
      • รายการทั้งหมด: 85.00
  • ผลรวมย่อยของใบแจ้งหนี้: 1409.99
  • ภาษี: 140.99
  • ค่าจัดส่ง: 35.00
  • ใบแจ้งหนี้รวม: 1585.98

กําลังวิเคราะห์เสียง

นอกจากเอกสารที่เป็นข้อความแล้ว Azure Content Understanding ยังสามารถวิเคราะห์ไฟล์เสียงเพื่อให้การถอดเสียง สรุป และข้อมูลเชิงลึกที่สําคัญอื่นๆ

สมมติว่าคุณต้องการให้ AI สรุปข้อความเสียงของคุณ คุณอาจกําหนดสคีมาของข้อมูลเชิงลึกหลักเพื่อแยกจากแต่ละการเรียกใช้ที่บันทึกไว้ เช่นนี้:

  • แขก
  • ข้อมูลสรุปข้อความ
  • การดําเนินการที่ร้องขอ
  • หมายเลขเรียกกลับ
  • รายละเอียดการติดต่ออื่น

ตอนนี้สมมติว่า ผู้โทรออกจากข้อความเสียงต่อไปนี้ให้คุณ:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

การใช้ Azure Content Understanding เพื่อวิเคราะห์การบันทึกเสียงและใช้ Schema ของคุณจะให้ผลลัพธ์ต่อไปนี้:

  • ผู้โทร: Ava จาก Contoso
  • สรุปข้อความ: Ava จาก Contoso เรียกให้ติดตามการประชุม และกล่าวถึงว่าพวกเขาสามารถตอบสนองความคาดหวังด้านราคาได้ เธอร้องขอการเรียกกลับหรืออีเมลเพื่อพูดคุยเกี่ยวกับขั้นตอนถัดไป
  • การดําเนินการที่ร้องขอ: โทรกลับหรือส่งอีเมลเพื่อพูดคุยเกี่ยวกับขั้นตอนถัดไป
  • หมายเลขโทรกลับ: 555-12345
  • รายละเอียดการติดต่ออื่น: Ava@contoso.com

กําลังวิเคราะห์รูปภาพและวิดีโอ

Azure Content Understanding รองรับการวิเคราะห์รูปภาพและวิดีโอเพื่อดึงข้อมูลตาม Schema แบบกําหนดเอง ตัวอย่างเช่น คุณสามารถวิเคราะห์รูปภาพของการประชุมทางวิดีโอเพื่อแยกรายละเอียดของการเข้าร่วม ตําแหน่งที่ตั้ง และข้อมูลอื่น ๆ

สมมติว่าคุณได้กําหนด Schema ต่อไปนี้สําหรับรูปภาพที่ถ่ายโดยระบบการรับส่งข้อความที่ทํางานร่วมกันที่รวมผู้เข้าร่วมภายในห้องและผู้เข้าร่วมระยะไกลในระบบการโทรประชุม:

  • สถานที่
  • ผู้เข้าร่วมประชุมด้วยตนเอง
  • ผู้เข้าร่วมประชุมระยะไกล
  • ผู้เข้าร่วมทั้งหมด

คุณสามารถใช้ Azure Content Understanding เพื่อวิเคราะห์ภาพนิ่งต่อไปนี้จากกล้องห้องประชุม:

ภาพถ่ายของบุคคลในห้องประชุมในการโทรที่มีผู้เข้าร่วมประชุมระยะไกลสามคน

เมื่อใช้ Schema ก่อนหน้านี้กับอิมเมจนี้ Azure Content Understanding จะสร้างผลลัพธ์ต่อไปนี้:

  • สถานที่: ห้องประชุม
  • ผู้เข้าร่วมประชุมด้วยตนเอง: 1
  • ผู้เข้าร่วมประชุมระยะไกล: 3
  • ผู้เข้าร่วมทั้งหมด: 4

แทนที่จะวิเคราะห์ภาพนิ่ง คุณสามารถสร้างตัววิเคราะห์สําหรับวิดีโอที่บันทึกไว้ของการโทร Schema อาจรวมถึงจํานวนการเข้าร่วมในช่วงเวลาต่าง ๆ รายละเอียดของบุคคลที่พูดในระหว่างการเรียกใช้ และสิ่งที่พวกเขาพูด สรุปการสนทนา และรายการของการดําเนินการที่กําหนดจากการประชุม