แยกข้อมูลด้วยตัวทําดัชนี
Tip
ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!
หัวใจของโซลูชันการค้นหา Azure AI คือการสร้างดัชนีดัชนีที่ประกอบด้วยเนื้อหาที่ค้นหาได้ของคุณและสร้างและอัปเดตไม่น่าแปลกใจโดยนักจัดทําดัชนี
กระบวนการทําดัชนีเริ่มต้นด้วยแหล่งข้อมูล: ตําแหน่งที่เก็บข้อมูลของวัตถุข้อมูลต้นฉบับของคุณ ตัวอย่างเช่น คอนเทนเนอร์ Azure blob store ที่เต็มไปด้วยเอกสาร ฐานข้อมูล หรือร้านค้าอื่น
ตัวทําดัชนีจะแยกและจัดทําดัชนี เขตข้อมูล โดยอัตโนมัติผ่าน ไปป์ไลน์การเสริมสร้างซึ่งใช้ การแตกเอกสาร เพื่อแยกเนื้อหาของเอกสารต้นทางและใช้ขั้นตอนแบบเพิ่มหน่วยเพื่อสร้างเอกสารแบบลําดับชั้น (ตาม JSON) ด้วยเขตข้อมูลที่จําเป็นสําหรับข้อกําหนดดัชนี
ผลลัพธ์คือ ดัชนีที่มีการเติมข้อมูล ซึ่งสามารถสอบถามเพื่อส่งกลับเขตข้อมูลที่ระบุจากเอกสารที่ตรงกับเกณฑ์คิวรี
วิธีการสร้างเอกสารในระหว่างการจัดทําดัชนี
กระบวนการทําดัชนีทํางานโดยการสร้างเอกสารสําหรับแต่ละเอนทิตีที่จัดทําดัชนี ในระหว่างการทําดัชนี ไปป์ไลน์ที่สมบูรณ์จะสร้างเอกสารที่รวมเมตาดาต้าจากแหล่งข้อมูลด้วยเขตข้อมูลที่สมบูรณ์ซึ่งแยกหรือสร้างขึ้นด้วยทักษะ คุณสามารถนึกภาพแต่ละเอกสารที่มีดัชนีเป็นโครงสร้าง JSON ซึ่งในขั้นต้นประกอบด้วยเอกสารที่มีเขตข้อมูลดัชนีที่คุณได้แมปกับเขตข้อมูลที่แยกออกมาโดยตรงจากข้อมูลต้นฉบับ ดังนี้:
-
เอกสาร
- metadata_storage_name
- metadata_author
- เนื้อหา
เมื่อเอกสารในแหล่งข้อมูลมีรูปภาพ คุณสามารถกําหนดตัวทําดัชนีเพื่อแยกข้อมูลรูปภาพ และวางแต่ละรูปในคอลเลกชัน normalized_images ดังนี้:
-
เอกสาร
- metadata_storage_name
- metadata_author
- เนื้อหา
-
normalized_images
- image0
- image1
การทําให้ข้อมูลภาพเป็นมาตรฐานด้วยวิธีนี้ช่วยให้คุณสามารถใช้คอลเลกชันรูปภาพเป็นข้อมูลป้อนเข้าสําหรับทักษะที่ดึงข้อมูลจากข้อมูลรูปภาพ
แต่ละทักษะจะเพิ่มเขตข้อมูลลงใน เอกสาร ตัวอย่างเช่น ทักษะที่ตรวจหา ภาษา ที่เขียนเอกสารอาจเก็บเอาพุตในฟิลด์ ภาษา ดังนี้:
-
เอกสาร
- metadata_storage_name
- metadata_author
- เนื้อหา
-
normalized_images
- image0
- image1
- ภาษา
เอกสารมีโครงสร้างตามลําดับชั้น และทักษะจะถูกนําไปใช้กับ บริบท เฉพาะภายในลําดับชั้น ทําให้คุณสามารถเรียกใช้ทักษะสําหรับสินค้าแต่ละรายการในระดับเฉพาะของเอกสารได้ ตัวอย่างเช่น คุณสามารถเรียกใช้ทักษะการรู้จําตัวอักษรด้วยแสง (OCR) สําหรับแต่ละภาพในคอลเลกชันภาพปกติเพื่อแยกข้อความใด ๆ ที่มี:
-
เอกสาร
- metadata_storage_name
- metadata_author
- เนื้อหา
-
normalized_images
-
image0
- ข้อความ
-
image1
- ข้อความ
-
image0
- ภาษา
เขตข้อมูลผลลัพธ์จากแต่ละทักษะสามารถใช้เป็นข้อมูลป้อนเข้าสําหรับทักษะอื่น ๆ ในภายหลังในไปป์ไลน์ ซึ่งจะจัดเก็บเอาต์พุต ของตน ในโครงสร้างเอกสารตามลําดับ ตัวอย่างเช่น เราสามารถใช้ทักษะ การผสาน เพื่อรวมเนื้อหาข้อความต้นฉบับกับข้อความที่แยกจากแต่ละรูปภาพเพื่อสร้างเขตข้อมูล merged_content ใหม่ที่ประกอบด้วยข้อความทั้งหมดในเอกสาร รวมถึงข้อความรูปภาพ
-
เอกสาร
- metadata_storage_name
- metadata_author
- เนื้อหา
-
normalized_images
-
image0
- ข้อความ
-
image1
- ข้อความ
-
image0
- ภาษา
- merged_content
ฟิลด์ในโครงสร้างเอกสารขั้นสุดท้ายที่ส่วนท้ายของไปป์ไลน์จะถูกแมปไปยังเขตข้อมูลดัชนีโดยตัวทําดัชนีในหนึ่งในสองวิธี:
- เขตข้อมูลที่แยกจากข้อมูลต้นทางโดยตรงจะถูกแมปกับเขตข้อมูลดัชนี การแมปเหล่านี้อาจ เกิดขึ้นโดยนัย (เขตข้อมูลจะถูกแมปโดยอัตโนมัติไปยังในเขตข้อมูลที่มีชื่อเดียวกันในดัชนี) หรือ ชัดเจน (มีการกําหนดการแมปเพื่อให้ตรงกับเขตข้อมูลต้นทางกับเขตข้อมูลดัชนี มักจะเปลี่ยนชื่อเขตข้อมูลเป็นชื่อที่มีประโยชน์มากขึ้นหรือเพื่อใช้ฟังก์ชันกับค่าข้อมูลตามที่แมปไว้)
- เขตข้อมูลผลลัพธ์จากทักษะใน skillset จะถูกแมปอย่างชัดเจนจากตําแหน่งลําดับชั้นในผลลัพธ์ไปยังเขตข้อมูลเป้าหมายในดัชนี