การแยกและการทําแผนที่ภาคสนาม

เสร็จสมบูรณ์เมื่อ

Note

ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!

การแยกฟิลด์เป็นกระบวนการในการนําเอาต์พุตข้อความจาก OCR และแมปค่าข้อความแต่ละค่าไปยังฟิลด์ข้อมูลที่มีป้ายกํากับเฉพาะซึ่งสอดคล้องกับข้อมูลทางธุรกิจที่มีความหมาย แม้ว่า OCR จะบอกคุณว่ามีข้อความ ใด บ้างในเอกสาร แต่การแยกฟิลด์จะบอกคุณ ว่าข้อความนั้นหมายถึงอะไร และอยู่ใน ระบบ ธุรกิจของคุณที่ใด

ไปป์ไลน์การสกัดภาคสนาม

การแยกภาคสนามเป็นไปตามไปป์ไลน์ที่เป็นระบบที่แปลงเอาต์พุต OCR เป็นข้อมูลที่มีโครงสร้าง

แผนผังของไปป์ไลน์การสกัดภาคสนาม

ขั้นตอนในกระบวนการสกัดภาคสนามคือ:

  1. การนําเข้าเอาต์พุต OCR
  2. การตรวจจับภาคสนามและการระบุผู้สมัคร
  3. การแม็ปฟิลด์และการเชื่อมโยง
  4. การทําให้เป็นมาตรฐานและมาตรฐานของข้อมูล
  5. การผสานรวมกับกระบวนการและระบบทางธุรกิจ

มาสํารวจขั้นตอนเหล่านี้โดยละเอียดกัน

ขั้นตอนที่ 1: การนําเข้าเอาต์พุต OCR

กระบวนการเริ่มต้นด้วยเอาต์พุตที่มีโครงสร้างจากไปป์ไลน์ OCR ซึ่งอาจรวมถึง:

  • เนื้อหาข้อความดิบ: อักขระและคําจริงที่ดึงออกมาจากเอกสาร
  • ข้อมูลเมตาของตําแหน่ง: พิกัดกล่องขอบเขต ตําแหน่งของหน้า และการอ่านข้อมูลคําสั่งซื้อ
  • คะแนนความเชื่อมั่น: ระดับความเชื่อมั่นของกลไกจัดการ OCR สําหรับแต่ละองค์ประกอบข้อความ
  • ข้อมูลเค้าโครง: โครงสร้างเอกสาร ตัวแบ่งบรรทัด ขอบเขตย่อหน้า

Note

ซึ่งแตกต่างจากการประมวลผลข้อความธรรมดาการแยกฟิลด์ขึ้นอยู่กับ ตําแหน่ง ที่ปรากฏของข้อความในเอกสารไม่ใช่แค่สิ่งที่พูด ตําแหน่งของ "12345" อาจช่วยระบุว่าเป็นหมายเลขใบแจ้งหนี้ รหัสลูกค้า หรือหมายเลขโทรศัพท์

ขั้นตอนที่ 2: การตรวจหาภาคสนามและการระบุผู้สมัคร

ขั้นตอนนี้ระบุค่าฟิลด์ที่เป็นไปได้ในเอาต์พุต OCR มีหลายวิธีที่สามารถใช้ได้แยกกันหรือใช้ร่วมกันเพื่อกําหนดฟิลด์ที่เป็นไปได้ในผลลัพธ์ OCR

การตรวจจับตามเทมเพลต

เทมเพลตสําหรับการตรวจหาฟิลด์อาศัยการจับคู่รูปแบบตามกฎ การระบุภาคสนามสามารถทําได้โดยใช้เทคนิคต่างๆเช่น:

  • เค้าโครงเอกสารที่กําหนดไว้ล่วงหน้าพร้อมตําแหน่งฟิลด์ที่รู้จักและคําสําคัญ anchor
  • ค้นหาคู่ป้ายกํากับ-ค่า เช่น "Invoice Number:", "Date:", "Total:"
  • นิพจน์ทั่วไปและอัลกอริทึมการจับคู่สตริง

ข้อดี ของวิธีการตามเทมเพลต ได้แก่ ความแม่นยําสูงสําหรับประเภทเอกสารที่รู้จัก การประมวลผลที่รวดเร็ว และผลลัพธ์ที่อธิบายได้

ข้อจํากัด ของวิธีการรวมถึงข้อกําหนดสําหรับการสร้างเทมเพลตด้วยตนเอง และความซับซ้อนที่เกิดจากรูปแบบโครงร่างหรือความไม่สอดคล้องกันของการตั้งชื่อฟิลด์

การตรวจจับตามแมชชีนเลิร์นนิ่ง

แทนที่จะใช้ตรรกะแบบฮาร์ดโค้ดเพื่อแยกฟิลด์ตามชื่อและตําแหน่งที่รู้จัก คุณสามารถใช้คลังข้อมูลของเอกสารตัวอย่างเพื่อฝึกโมเดลแมชชีนเลิร์นนิงที่แยกฟิลด์ตามความสัมพันธ์ที่เรียนรู้ โดยเฉพาะอย่างยิ่งโมเดลที่ใช้หม้อแปลงไฟฟ้านั้นเก่งในการใช้ตัวชี้นําตามบริบทเพื่อระบุรูปแบบ และมักเป็นพื้นฐานของโซลูชันการตรวจจับภาคสนาม

แนวทางการฝึกอบรมสําหรับโมเดลแมชชีนเลิร์นนิงการตรวจจับภาคสนาม ได้แก่ :

  • การเรียนรู้ภายใต้การดูแล: ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่มีป้ายกํากับพร้อมตําแหน่งฟิลด์ที่รู้จัก
  • การเรียนรู้ด้วยตนเอง: ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับคลังข้อมูลเอกสารขนาดใหญ่เพื่อทําความเข้าใจรูปแบบเค้าโครง
  • การเรียนรู้แบบหลายรูปแบบ: รวมคุณลักษณะข้อความ ภาพ และตําแหน่ง
  • สถาปัตยกรรมแบบจําลองขั้นสูง เช่น:
    • โครงข่ายประสาทเทียมกราฟ (GNN) ที่จําลองความสัมพันธ์เชิงพื้นที่ระหว่างองค์ประกอบข้อความเป็นการเชื่อมต่อกราฟ
    • กลไกความสนใจ ที่มุ่งเน้นไปที่ขอบเขตเอกสารที่เกี่ยวข้องเมื่อคาดการณ์ค่าเขตข้อมูล
    • โมเดลลําดับต่อลําดับ ที่แปลงลําดับข้อความที่ไม่มีโครงสร้างเป็นการกําหนดฟิลด์ที่มีโครงสร้าง

Generative AI สําหรับการแยกตามสคีมา

ความก้าวหน้าล่าสุดในโมเดลภาษาขนาดใหญ่ (LLM) ได้นําไปสู่การเกิดขึ้นของเทคนิคการตรวจจับภาคสนามที่ใช้ AI เชิงกําเนิด ซึ่งช่วยให้การตรวจจับภาคสนามมีประสิทธิภาพและประสิทธิผลมากขึ้นผ่าน:

  • การแยกตามพร้อมท์ที่คุณให้ LLM ด้วยข้อความเอกสารและข้อกําหนด Schema และจับคู่ข้อความกับเขตข้อมูลใน Schema
  • การเรียนรู้เพียงไม่กี่ช็อต ซึ่งคุณสามารถฝึกโมเดลด้วยตัวอย่างน้อยที่สุดเพื่อแยกฟิลด์ที่กําหนดเอง
  • การให้เหตุผลแบบห่วงโซ่ความคิด ที่แนะนําโมเดลผ่านตรรกะการระบุฟิลด์ทีละขั้นตอน

ขั้นตอนที่ 3: การแม็ปและการเชื่อมโยงฟิลด์

หลังจากระบุค่าผู้สมัครแล้ว จะต้องแม็ปกับฟิลด์ Schema เฉพาะ:

เทคนิคการจับคู่คีย์-ค่า

ในหลายกรณี ฟิลด์ข้อมูลในเอกสารหรือฟอร์มเป็นค่าที่ไม่ต่อเนื่องที่สามารถแม็ปกับคีย์ ตัวอย่างเช่น ชื่อผู้จัดจําหน่าย วันที่ และยอดเงินรวมในใบเสร็จรับเงินหรือใบแจ้งหนี้ เทคนิคทั่วไปที่ใช้สําหรับการจับคู่คีย์-ค่า ได้แก่

  • การวิเคราะห์ความใกล้ชิด:

    • การจัดกลุ่มเชิงพื้นที่: จัดกลุ่มองค์ประกอบข้อความใกล้เคียงโดยใช้อัลกอริทึมระยะทาง
    • การวิเคราะห์ลําดับการอ่าน: ทําตามโฟลว์ข้อความธรรมชาติเพื่อเชื่อมโยงป้ายชื่อกับค่า
    • ความสัมพันธ์ทางเรขาคณิต: ใช้รูปแบบการจัดตําแหน่ง การเยื้อง และการวางตําแหน่ง
  • การจดจํารูปแบบภาษาศาสตร์:

    • การรับรู้เอนทิตีที่มีชื่อ (NER): ระบุชนิดเอนทิตีเฉพาะ (วันที่ ยอดเงิน ชื่อ)
    • การติดแท็กส่วนของคําพูด: ทําความเข้าใจความสัมพันธ์ทางไวยากรณ์ระหว่างป้ายกํากับและค่า
    • การแยกวิเคราะห์การพึ่งพา: วิเคราะห์ความสัมพันธ์ทางวากยสัมพันธ์ในข้อความ

การประมวลผลเนื้อหาแบบตารางและเนื้อหาที่มีโครงสร้าง

เอกสารบางฉบับมีโครงสร้างข้อความที่ซับซ้อนมากขึ้น เช่น ตาราง ตัวอย่างเช่น ใบเสร็จรับเงินหรือใบแจ้งหนี้อาจรวมตารางของสินค้าในรายการที่มีคอลัมน์สําหรับชื่อสินค้า ราคา และปริมาณที่ซื้อ

การมีอยู่ของตารางสามารถกําหนดได้โดยใช้เทคนิคหลายอย่าง ได้แก่ :

  • สถาปัตยกรรมโครงข่ายประสาทเทียมแบบ convolutional (CNN) เฉพาะสําหรับการจดจําโครงสร้างตาราง
  • วิธีการตรวจจับวัตถุที่ปรับให้เข้ากับการระบุเซลล์ตาราง
  • วิธีการแยกวิเคราะห์ตามกราฟที่สร้างแบบจําลองโครงสร้างตารางเป็นความสัมพันธ์ของกราฟระหว่างเซลล์

เมื่อต้องการแมปค่าในเซลล์ในตารางกับเขตข้อมูล โซลูชันการแยกเขตข้อมูลอาจใช้เทคนิคต่อไปนี้อย่างน้อยหนึ่งอย่าง:

  • การเชื่อมโยงแถวและคอลัมน์ เพื่อแมปเซลล์ตารางกับสคีมาฟิลด์เฉพาะ
  • การตรวจหาส่วนหัวเพื่อระบุส่วนหัวของคอลัมน์เพื่อทําความเข้าใจความหมายของฟิลด์
  • การประมวลผลแบบลําดับชั้น เพื่อจัดการโครงสร้างตารางที่ซ้อนกันและผลรวมย่อย

การให้คะแนนและความเชื่อมั่นและการตรวจสอบความถูกต้อง

ความแม่นยําในการแยกภาคสนามขึ้นอยู่กับหลายปัจจัย และอัลกอริทึมและโมเดลที่ใช้ในการนําโซลูชันไปใช้อาจมีข้อผิดพลาดในการระบุผิดพลาดหรือการตีความค่า เพื่อพิจารณาเรื่องนี้จึงใช้เทคนิคต่างๆเพื่อประเมินความถูกต้องของค่าฟิลด์ที่คาดการณ์ไว้ รวมถึง:

  • ความเชื่อมั่น OCR: สืบทอดคะแนนความเชื่อมั่นจากการรู้จําข้อความพื้นฐาน
  • ความเชื่อมั่นในการจับคู่รูปแบบ: การให้คะแนนตามการแยกข้อมูลที่ตรงกับรูปแบบที่คาดไว้
  • การตรวจสอบบริบท: การตรวจสอบว่าค่าฟิลด์นั้นสมเหตุสมผลในบริบทของเอกสาร
  • การตรวจสอบความถูกต้องข้ามฟิลด์: การตรวจสอบความสัมพันธ์ระหว่างฟิลด์ที่แยกออกมา (ตัวอย่างเช่น การยืนยันว่าผลรวมย่อยของรายการเฉพาะรายการเป็นผลรวมของใบแจ้งหนี้โดยรวม)

ขั้นตอนที่ 4: การทําให้เป็นมาตรฐานและมาตรฐานของข้อมูล

โดยทั่วไปค่าดิบที่แยกออกมาจะถูกแปลงเป็นรูปแบบที่สอดคล้องกัน (ตัวอย่างเช่น เพื่อให้แน่ใจว่าวันที่ที่แยกทั้งหมดจะแสดงในรูปแบบวันที่เดียวกัน) และตรวจสอบความถูกต้อง

จัดรูปแบบมาตรฐาน

ตัวอย่างของการกําหนดมาตรฐานรูปแบบที่สามารถนําไปใช้ได้ ได้แก่ :

  • การทําให้เป็นมาตรฐานวันที่:

    • การตรวจจับรูปแบบ: ระบุรูปแบบวันที่ต่างๆ (MM/DD/YYYY, DD-MM-YYYY เป็นต้น)
    • อัลกอริทึมการแยกวิเคราะห์: แปลงเป็นรูปแบบ ISO มาตรฐาน
    • การแก้ไขความคลุมเครือ: จัดการกรณีที่รูปแบบวันที่ไม่ชัดเจน
  • การประมวลผลสกุลเงินและตัวเลข:

    • การจดจําสัญลักษณ์: จัดการสัญลักษณ์สกุลเงินต่างๆ และตัวคั่นหลักพัน
    • การทําให้เป็นมาตรฐานของทศนิยม: กําหนดมาตรฐานการแสดงจุดทศนิยมในตําแหน่งที่ตั้ง
    • การแปลงหน่วย: แปลงระหว่างหน่วยการวัดต่างๆ ตามต้องการ
  • การกําหนดมาตรฐานข้อความ:

    • การทําให้เป็นมาตรฐานของตัวพิมพ์ใหญ่: ใช้กฎการใช้ตัวพิมพ์ใหญ่ที่สอดคล้องกัน
    • มาตรฐานการเข้ารหัส: จัดการการเข้ารหัสอักขระและอักขระพิเศษที่แตกต่างกัน
    • การขยายตัวย่อ: แปลงตัวย่อทั่วไปเป็นรูปแบบเต็ม

การตรวจสอบความถูกต้องของข้อมูลและการประกันคุณภาพ

กระบวนการสร้างมาตรฐานยังช่วยให้สามารถตรวจสอบความถูกต้องเพิ่มเติมของค่าที่แยกออกมาผ่านเทคนิคต่างๆ เช่น:

  • การตรวจสอบตามกฎ:

    • การตรวจสอบรูปแบบ: ตรวจสอบว่าค่าที่แยกออกมาตรงกับรูปแบบที่คาดไว้ (หมายเลขโทรศัพท์ ที่อยู่อีเมล)
    • การตรวจสอบช่วง: ตรวจสอบให้แน่ใจว่าค่าตัวเลขอยู่ในขอบเขตที่เหมาะสม
    • การตรวจสอบฟิลด์ที่จําเป็น: ยืนยันว่ามีฟิลด์บังคับทั้งหมดอยู่
  • การตรวจสอบความถูกต้องทางสถิติ:

    • การตรวจหาค่าผิดปกติ: ระบุค่าที่สูงหรือต่ําผิดปกติที่อาจบ่งบอกถึงข้อผิดพลาดในการแยกข้อมูล
    • การวิเคราะห์การแจกแจง: เปรียบเทียบค่าที่แยกออกมากับรูปแบบในอดีต
    • การตรวจสอบความถูกต้องข้ามเอกสาร: ตรวจสอบความสอดคล้องของเอกสารที่เกี่ยวข้อง

ขั้นตอนที่ 5: การผสานรวมกับกระบวนการและระบบทางธุรกิจ

ขั้นตอนสุดท้ายของกระบวนการมักจะเกี่ยวข้องกับการรวมค่าฟิลด์ที่แยกออกมาเข้ากับกระบวนการทางธุรกิจหรือระบบ:

การแม็ป Schema

ฟิลด์ที่แยกออกมาอาจต้องได้รับการแปลงหรือจัดรูปแบบใหม่เพิ่มเติมเพื่อให้สอดคล้องกับสคีมาของแอปพลิเคชันที่ใช้สําหรับการนําเข้าข้อมูลไปยังระบบดาวน์สตรีม เช่น:

  • คีมาฐานข้อมูล: แมปฟิลด์ที่แยกออกมากับคอลัมน์และตารางฐานข้อมูลเฉพาะ
  • เพย์โหลด API: จัดรูปแบบข้อมูลสําหรับการใช้ REST API โดยระบบดาวน์สตรีม
  • คิวข้อความ: เตรียมข้อความที่มีโครงสร้างสําหรับการประมวลผลแบบอะซิงโครนัส

กระบวนการแม็ป Schema อาจเกี่ยวข้องกับการแปลง เช่น:

  • การเปลี่ยนชื่อฟิลด์: แมปชื่อฟิลด์ที่แยกออกมากับข้อตกลงของระบบเป้าหมาย
  • การแปลงประเภทข้อมูล: ตรวจสอบว่าค่าตรงกับประเภทข้อมูลที่คาดไว้ในระบบเป้าหมาย
  • ตรรกะแบบมีเงื่อนไข: ใช้กฎทางธุรกิจสําหรับการแปลงฟิลด์และการได้มา

เมตริกคุณภาพและการรายงาน

งานทั่วไปอีกอย่างหนึ่งหลังจากกระบวนการแยกเสร็จสิ้นคือการประเมินและรายงานคุณภาพของข้อมูลที่แยกออกมา รายงานสามารถมีข้อมูลเช่น:

  • คะแนนความเชื่อมั่นระดับฟิลด์: คะแนนความเชื่อมั่นแต่ละรายการสําหรับแต่ละฟิลด์ที่แยกออกมา
  • การประเมินคุณภาพระดับเอกสาร: เมตริกความสําเร็จในการสกัดโดยรวม
  • การจัดหมวดหมู่ข้อผิดพลาด: จําแนกความล้มเหลวในการแยกตามประเภทและสาเหตุ