การแยกและการทําแผนที่ภาคสนาม

3 นาที

Note

ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!

การแยกฟิลด์เป็นกระบวนการในการนําเอาต์พุตข้อความจาก OCR และแมปค่าข้อความแต่ละค่าไปยังฟิลด์ข้อมูลที่มีป้ายกํากับเฉพาะซึ่งสอดคล้องกับข้อมูลทางธุรกิจที่มีความหมาย แม้ว่า OCR จะบอกคุณว่ามีข้อความ ใด บ้างในเอกสาร แต่การแยกฟิลด์จะบอกคุณ ว่าข้อความนั้นหมายถึงอะไร และอยู่ใน ระบบ ธุรกิจของคุณที่ใด

ไปป์ไลน์การสกัดภาคสนาม

การแยกภาคสนามเป็นไปตามไปป์ไลน์ที่เป็นระบบที่แปลงเอาต์พุต OCR เป็นข้อมูลที่มีโครงสร้าง

แผนผังของไปป์ไลน์การสกัดภาคสนาม

ขั้นตอนในกระบวนการสกัดภาคสนามคือ:

การนําเข้าเอาต์พุต OCR
การตรวจจับภาคสนามและการระบุผู้สมัคร
การแม็ปฟิลด์และการเชื่อมโยง
การทําให้เป็นมาตรฐานและมาตรฐานของข้อมูล
การผสานรวมกับกระบวนการและระบบทางธุรกิจ

มาสํารวจขั้นตอนเหล่านี้โดยละเอียดกัน

ขั้นตอนที่ 1: การนําเข้าเอาต์พุต OCR

กระบวนการเริ่มต้นด้วยเอาต์พุตที่มีโครงสร้างจากไปป์ไลน์ OCR ซึ่งอาจรวมถึง:

เนื้อหาข้อความดิบ: อักขระและคําจริงที่ดึงออกมาจากเอกสาร
ข้อมูลเมตาของตําแหน่ง: พิกัดกล่องขอบเขต ตําแหน่งของหน้า และการอ่านข้อมูลคําสั่งซื้อ
คะแนนความเชื่อมั่น: ระดับความเชื่อมั่นของกลไกจัดการ OCR สําหรับแต่ละองค์ประกอบข้อความ
ข้อมูลเค้าโครง: โครงสร้างเอกสาร ตัวแบ่งบรรทัด ขอบเขตย่อหน้า

Note

ซึ่งแตกต่างจากการประมวลผลข้อความธรรมดาการแยกฟิลด์ขึ้นอยู่กับ ตําแหน่ง ที่ปรากฏของข้อความในเอกสารไม่ใช่แค่สิ่งที่พูด ตําแหน่งของ "12345" อาจช่วยระบุว่าเป็นหมายเลขใบแจ้งหนี้ รหัสลูกค้า หรือหมายเลขโทรศัพท์

ขั้นตอนที่ 2: การตรวจหาภาคสนามและการระบุผู้สมัคร

ขั้นตอนนี้ระบุค่าฟิลด์ที่เป็นไปได้ในเอาต์พุต OCR มีหลายวิธีที่สามารถใช้ได้แยกกันหรือใช้ร่วมกันเพื่อกําหนดฟิลด์ที่เป็นไปได้ในผลลัพธ์ OCR

การตรวจจับตามเทมเพลต

เทมเพลตสําหรับการตรวจหาฟิลด์อาศัยการจับคู่รูปแบบตามกฎ การระบุภาคสนามสามารถทําได้โดยใช้เทคนิคต่างๆเช่น:

เค้าโครงเอกสารที่กําหนดไว้ล่วงหน้าพร้อมตําแหน่งฟิลด์ที่รู้จักและคําสําคัญ anchor
ค้นหาคู่ป้ายกํากับ-ค่า เช่น "Invoice Number:", "Date:", "Total:"
นิพจน์ทั่วไปและอัลกอริทึมการจับคู่สตริง

ข้อดี ของวิธีการตามเทมเพลต ได้แก่ ความแม่นยําสูงสําหรับประเภทเอกสารที่รู้จัก การประมวลผลที่รวดเร็ว และผลลัพธ์ที่อธิบายได้

ข้อจํากัด ของวิธีการรวมถึงข้อกําหนดสําหรับการสร้างเทมเพลตด้วยตนเอง และความซับซ้อนที่เกิดจากรูปแบบโครงร่างหรือความไม่สอดคล้องกันของการตั้งชื่อฟิลด์

การตรวจจับตามแมชชีนเลิร์นนิ่ง

แทนที่จะใช้ตรรกะแบบฮาร์ดโค้ดเพื่อแยกฟิลด์ตามชื่อและตําแหน่งที่รู้จัก คุณสามารถใช้คลังข้อมูลของเอกสารตัวอย่างเพื่อฝึกโมเดลแมชชีนเลิร์นนิงที่แยกฟิลด์ตามความสัมพันธ์ที่เรียนรู้ โดยเฉพาะอย่างยิ่งโมเดลที่ใช้หม้อแปลงไฟฟ้านั้นเก่งในการใช้ตัวชี้นําตามบริบทเพื่อระบุรูปแบบ และมักเป็นพื้นฐานของโซลูชันการตรวจจับภาคสนาม

แนวทางการฝึกอบรมสําหรับโมเดลแมชชีนเลิร์นนิงการตรวจจับภาคสนาม ได้แก่ :

การเรียนรู้ภายใต้การดูแล: ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่มีป้ายกํากับพร้อมตําแหน่งฟิลด์ที่รู้จัก
การเรียนรู้ด้วยตนเอง: ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับคลังข้อมูลเอกสารขนาดใหญ่เพื่อทําความเข้าใจรูปแบบเค้าโครง
การเรียนรู้แบบหลายรูปแบบ: รวมคุณลักษณะข้อความ ภาพ และตําแหน่ง
สถาปัตยกรรมแบบจําลองขั้นสูง เช่น:
- โครงข่ายประสาทเทียมกราฟ (GNN) ที่จําลองความสัมพันธ์เชิงพื้นที่ระหว่างองค์ประกอบข้อความเป็นการเชื่อมต่อกราฟ
- กลไกความสนใจ ที่มุ่งเน้นไปที่ขอบเขตเอกสารที่เกี่ยวข้องเมื่อคาดการณ์ค่าเขตข้อมูล
- โมเดลลําดับต่อลําดับ ที่แปลงลําดับข้อความที่ไม่มีโครงสร้างเป็นการกําหนดฟิลด์ที่มีโครงสร้าง

Generative AI สําหรับการแยกตามสคีมา

ความก้าวหน้าล่าสุดในโมเดลภาษาขนาดใหญ่ (LLM) ได้นําไปสู่การเกิดขึ้นของเทคนิคการตรวจจับภาคสนามที่ใช้ AI เชิงกําเนิด ซึ่งช่วยให้การตรวจจับภาคสนามมีประสิทธิภาพและประสิทธิผลมากขึ้นผ่าน:

การแยกตามพร้อมท์ที่คุณให้ LLM ด้วยข้อความเอกสารและข้อกําหนด Schema และจับคู่ข้อความกับเขตข้อมูลใน Schema
การเรียนรู้เพียงไม่กี่ช็อต ซึ่งคุณสามารถฝึกโมเดลด้วยตัวอย่างน้อยที่สุดเพื่อแยกฟิลด์ที่กําหนดเอง
การให้เหตุผลแบบห่วงโซ่ความคิด ที่แนะนําโมเดลผ่านตรรกะการระบุฟิลด์ทีละขั้นตอน

ขั้นตอนที่ 3: การแม็ปและการเชื่อมโยงฟิลด์

หลังจากระบุค่าผู้สมัครแล้ว จะต้องแม็ปกับฟิลด์ Schema เฉพาะ:

เทคนิคการจับคู่คีย์-ค่า

ในหลายกรณี ฟิลด์ข้อมูลในเอกสารหรือฟอร์มเป็นค่าที่ไม่ต่อเนื่องที่สามารถแม็ปกับคีย์ ตัวอย่างเช่น ชื่อผู้จัดจําหน่าย วันที่ และยอดเงินรวมในใบเสร็จรับเงินหรือใบแจ้งหนี้ เทคนิคทั่วไปที่ใช้สําหรับการจับคู่คีย์-ค่า ได้แก่

การวิเคราะห์ความใกล้ชิด:
- การจัดกลุ่มเชิงพื้นที่: จัดกลุ่มองค์ประกอบข้อความใกล้เคียงโดยใช้อัลกอริทึมระยะทาง
- การวิเคราะห์ลําดับการอ่าน: ทําตามโฟลว์ข้อความธรรมชาติเพื่อเชื่อมโยงป้ายชื่อกับค่า
- ความสัมพันธ์ทางเรขาคณิต: ใช้รูปแบบการจัดตําแหน่ง การเยื้อง และการวางตําแหน่ง
การจดจํารูปแบบภาษาศาสตร์:
- การรับรู้เอนทิตีที่มีชื่อ (NER): ระบุชนิดเอนทิตีเฉพาะ (วันที่ ยอดเงิน ชื่อ)
- การติดแท็กส่วนของคําพูด: ทําความเข้าใจความสัมพันธ์ทางไวยากรณ์ระหว่างป้ายกํากับและค่า
- การแยกวิเคราะห์การพึ่งพา: วิเคราะห์ความสัมพันธ์ทางวากยสัมพันธ์ในข้อความ

การประมวลผลเนื้อหาแบบตารางและเนื้อหาที่มีโครงสร้าง

เอกสารบางฉบับมีโครงสร้างข้อความที่ซับซ้อนมากขึ้น เช่น ตาราง ตัวอย่างเช่น ใบเสร็จรับเงินหรือใบแจ้งหนี้อาจรวมตารางของสินค้าในรายการที่มีคอลัมน์สําหรับชื่อสินค้า ราคา และปริมาณที่ซื้อ

การมีอยู่ของตารางสามารถกําหนดได้โดยใช้เทคนิคหลายอย่าง ได้แก่ :

สถาปัตยกรรมโครงข่ายประสาทเทียมแบบ convolutional (CNN) เฉพาะสําหรับการจดจําโครงสร้างตาราง
วิธีการตรวจจับวัตถุที่ปรับให้เข้ากับการระบุเซลล์ตาราง
วิธีการแยกวิเคราะห์ตามกราฟที่สร้างแบบจําลองโครงสร้างตารางเป็นความสัมพันธ์ของกราฟระหว่างเซลล์

เมื่อต้องการแมปค่าในเซลล์ในตารางกับเขตข้อมูล โซลูชันการแยกเขตข้อมูลอาจใช้เทคนิคต่อไปนี้อย่างน้อยหนึ่งอย่าง:

การเชื่อมโยงแถวและคอลัมน์ เพื่อแมปเซลล์ตารางกับสคีมาฟิลด์เฉพาะ
การตรวจหาส่วนหัวเพื่อระบุส่วนหัวของคอลัมน์เพื่อทําความเข้าใจความหมายของฟิลด์
การประมวลผลแบบลําดับชั้น เพื่อจัดการโครงสร้างตารางที่ซ้อนกันและผลรวมย่อย

การให้คะแนนและความเชื่อมั่นและการตรวจสอบความถูกต้อง

ความแม่นยําในการแยกภาคสนามขึ้นอยู่กับหลายปัจจัย และอัลกอริทึมและโมเดลที่ใช้ในการนําโซลูชันไปใช้อาจมีข้อผิดพลาดในการระบุผิดพลาดหรือการตีความค่า เพื่อพิจารณาเรื่องนี้จึงใช้เทคนิคต่างๆเพื่อประเมินความถูกต้องของค่าฟิลด์ที่คาดการณ์ไว้ รวมถึง:

ความเชื่อมั่น OCR: สืบทอดคะแนนความเชื่อมั่นจากการรู้จําข้อความพื้นฐาน
ความเชื่อมั่นในการจับคู่รูปแบบ: การให้คะแนนตามการแยกข้อมูลที่ตรงกับรูปแบบที่คาดไว้
การตรวจสอบบริบท: การตรวจสอบว่าค่าฟิลด์นั้นสมเหตุสมผลในบริบทของเอกสาร
การตรวจสอบความถูกต้องข้ามฟิลด์: การตรวจสอบความสัมพันธ์ระหว่างฟิลด์ที่แยกออกมา (ตัวอย่างเช่น การยืนยันว่าผลรวมย่อยของรายการเฉพาะรายการเป็นผลรวมของใบแจ้งหนี้โดยรวม)

ขั้นตอนที่ 4: การทําให้เป็นมาตรฐานและมาตรฐานของข้อมูล

โดยทั่วไปค่าดิบที่แยกออกมาจะถูกแปลงเป็นรูปแบบที่สอดคล้องกัน (ตัวอย่างเช่น เพื่อให้แน่ใจว่าวันที่ที่แยกทั้งหมดจะแสดงในรูปแบบวันที่เดียวกัน) และตรวจสอบความถูกต้อง

จัดรูปแบบมาตรฐาน

ตัวอย่างของการกําหนดมาตรฐานรูปแบบที่สามารถนําไปใช้ได้ ได้แก่ :

การทําให้เป็นมาตรฐานวันที่:
- การตรวจจับรูปแบบ: ระบุรูปแบบวันที่ต่างๆ (MM/DD/YYYY, DD-MM-YYYY เป็นต้น)
- อัลกอริทึมการแยกวิเคราะห์: แปลงเป็นรูปแบบ ISO มาตรฐาน
- การแก้ไขความคลุมเครือ: จัดการกรณีที่รูปแบบวันที่ไม่ชัดเจน
การประมวลผลสกุลเงินและตัวเลข:
- การจดจําสัญลักษณ์: จัดการสัญลักษณ์สกุลเงินต่างๆ และตัวคั่นหลักพัน
- การทําให้เป็นมาตรฐานของทศนิยม: กําหนดมาตรฐานการแสดงจุดทศนิยมในตําแหน่งที่ตั้ง
- การแปลงหน่วย: แปลงระหว่างหน่วยการวัดต่างๆ ตามต้องการ
การกําหนดมาตรฐานข้อความ:
- การทําให้เป็นมาตรฐานของตัวพิมพ์ใหญ่: ใช้กฎการใช้ตัวพิมพ์ใหญ่ที่สอดคล้องกัน
- มาตรฐานการเข้ารหัส: จัดการการเข้ารหัสอักขระและอักขระพิเศษที่แตกต่างกัน
- การขยายตัวย่อ: แปลงตัวย่อทั่วไปเป็นรูปแบบเต็ม

การตรวจสอบความถูกต้องของข้อมูลและการประกันคุณภาพ

กระบวนการสร้างมาตรฐานยังช่วยให้สามารถตรวจสอบความถูกต้องเพิ่มเติมของค่าที่แยกออกมาผ่านเทคนิคต่างๆ เช่น:

การตรวจสอบตามกฎ:
- การตรวจสอบรูปแบบ: ตรวจสอบว่าค่าที่แยกออกมาตรงกับรูปแบบที่คาดไว้ (หมายเลขโทรศัพท์ ที่อยู่อีเมล)
- การตรวจสอบช่วง: ตรวจสอบให้แน่ใจว่าค่าตัวเลขอยู่ในขอบเขตที่เหมาะสม
- การตรวจสอบฟิลด์ที่จําเป็น: ยืนยันว่ามีฟิลด์บังคับทั้งหมดอยู่
การตรวจสอบความถูกต้องทางสถิติ:
- การตรวจหาค่าผิดปกติ: ระบุค่าที่สูงหรือต่ําผิดปกติที่อาจบ่งบอกถึงข้อผิดพลาดในการแยกข้อมูล
- การวิเคราะห์การแจกแจง: เปรียบเทียบค่าที่แยกออกมากับรูปแบบในอดีต
- การตรวจสอบความถูกต้องข้ามเอกสาร: ตรวจสอบความสอดคล้องของเอกสารที่เกี่ยวข้อง

ขั้นตอนที่ 5: การผสานรวมกับกระบวนการและระบบทางธุรกิจ

ขั้นตอนสุดท้ายของกระบวนการมักจะเกี่ยวข้องกับการรวมค่าฟิลด์ที่แยกออกมาเข้ากับกระบวนการทางธุรกิจหรือระบบ:

การแม็ป Schema

ฟิลด์ที่แยกออกมาอาจต้องได้รับการแปลงหรือจัดรูปแบบใหม่เพิ่มเติมเพื่อให้สอดคล้องกับสคีมาของแอปพลิเคชันที่ใช้สําหรับการนําเข้าข้อมูลไปยังระบบดาวน์สตรีม เช่น:

สคีมาฐานข้อมูล: แมปฟิลด์ที่แยกออกมากับคอลัมน์และตารางฐานข้อมูลเฉพาะ
เพย์โหลด API: จัดรูปแบบข้อมูลสําหรับการใช้ REST API โดยระบบดาวน์สตรีม
คิวข้อความ: เตรียมข้อความที่มีโครงสร้างสําหรับการประมวลผลแบบอะซิงโครนัส

กระบวนการแม็ป Schema อาจเกี่ยวข้องกับการแปลง เช่น:

การเปลี่ยนชื่อฟิลด์: แมปชื่อฟิลด์ที่แยกออกมากับข้อตกลงของระบบเป้าหมาย
การแปลงประเภทข้อมูล: ตรวจสอบว่าค่าตรงกับประเภทข้อมูลที่คาดไว้ในระบบเป้าหมาย
ตรรกะแบบมีเงื่อนไข: ใช้กฎทางธุรกิจสําหรับการแปลงฟิลด์และการได้มา

เมตริกคุณภาพและการรายงาน

งานทั่วไปอีกอย่างหนึ่งหลังจากกระบวนการแยกเสร็จสิ้นคือการประเมินและรายงานคุณภาพของข้อมูลที่แยกออกมา รายงานสามารถมีข้อมูลเช่น:

คะแนนความเชื่อมั่นระดับฟิลด์: คะแนนความเชื่อมั่นแต่ละรายการสําหรับแต่ละฟิลด์ที่แยกออกมา
การประเมินคุณภาพระดับเอกสาร: เมตริกความสําเร็จในการสกัดโดยรวม
การจัดหมวดหมู่ข้อผิดพลาด: จําแนกความล้มเหลวในการแยกตามประเภทและสาเหตุ

คำติชม

หน้านี้มีประโยชน์หรือไม่