แยกข้อมูลด้วยตัวทําดัชนี

5 นาที

Tip

ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!

หัวใจของโซลูชันการค้นหา Azure AI คือการสร้างดัชนีดัชนีที่ประกอบด้วยเนื้อหาที่ค้นหาได้ของคุณและสร้างและอัปเดตไม่น่าแปลกใจโดยนักจัดทําดัชนี

แผนภาพของตัวทําดัชนีที่แยกเอกสารจากแหล่งที่มาและสร้างดัชนี

กระบวนการทําดัชนีเริ่มต้นด้วยแหล่งข้อมูล: ตําแหน่งที่เก็บข้อมูลของวัตถุข้อมูลต้นฉบับของคุณ ตัวอย่างเช่น คอนเทนเนอร์ Azure blob store ที่เต็มไปด้วยเอกสาร ฐานข้อมูล หรือร้านค้าอื่น

ตัวทําดัชนีจะแยกและจัดทําดัชนี เขตข้อมูล โดยอัตโนมัติผ่าน ไปป์ไลน์การเสริมสร้างซึ่งใช้ การแตกเอกสาร เพื่อแยกเนื้อหาของเอกสารต้นทางและใช้ขั้นตอนแบบเพิ่มหน่วยเพื่อสร้างเอกสารแบบลําดับชั้น (ตาม JSON) ด้วยเขตข้อมูลที่จําเป็นสําหรับข้อกําหนดดัชนี

ผลลัพธ์คือ ดัชนีที่มีการเติมข้อมูล ซึ่งสามารถสอบถามเพื่อส่งกลับเขตข้อมูลที่ระบุจากเอกสารที่ตรงกับเกณฑ์คิวรี

วิธีการสร้างเอกสารในระหว่างการจัดทําดัชนี

กระบวนการทําดัชนีทํางานโดยการสร้างเอกสารสําหรับแต่ละเอนทิตีที่จัดทําดัชนี ในระหว่างการทําดัชนี ไปป์ไลน์ที่สมบูรณ์จะสร้างเอกสารที่รวมเมตาดาต้าจากแหล่งข้อมูลด้วยเขตข้อมูลที่สมบูรณ์ซึ่งแยกหรือสร้างขึ้นด้วยทักษะ คุณสามารถนึกภาพแต่ละเอกสารที่มีดัชนีเป็นโครงสร้าง JSON ซึ่งในขั้นต้นประกอบด้วยเอกสารที่มีเขตข้อมูลดัชนีที่คุณได้แมปกับเขตข้อมูลที่แยกออกมาโดยตรงจากข้อมูลต้นฉบับ ดังนี้:

เอกสาร
- metadata_storage_name
- metadata_author
- เนื้อหา

เมื่อเอกสารในแหล่งข้อมูลมีรูปภาพ คุณสามารถกําหนดตัวทําดัชนีเพื่อแยกข้อมูลรูปภาพ และวางแต่ละรูปในคอลเลกชัน normalized_images ดังนี้:

เอกสาร
- metadata_storage_name
- metadata_author
- เนื้อหา
- normalized_images
  - image0
  - image1

การทําให้ข้อมูลภาพเป็นมาตรฐานด้วยวิธีนี้ช่วยให้คุณสามารถใช้คอลเลกชันรูปภาพเป็นข้อมูลป้อนเข้าสําหรับทักษะที่ดึงข้อมูลจากข้อมูลรูปภาพ

แต่ละทักษะจะเพิ่มเขตข้อมูลลงใน เอกสาร ตัวอย่างเช่น ทักษะที่ตรวจหา ภาษา ที่เขียนเอกสารอาจเก็บเอาพุตในฟิลด์ ภาษา ดังนี้:

เอกสาร
- metadata_storage_name
- metadata_author
- เนื้อหา
- normalized_images
  - image0
  - image1
- ภาษา

เอกสารมีโครงสร้างตามลําดับชั้น และทักษะจะถูกนําไปใช้กับ บริบท เฉพาะภายในลําดับชั้น ทําให้คุณสามารถเรียกใช้ทักษะสําหรับสินค้าแต่ละรายการในระดับเฉพาะของเอกสารได้ ตัวอย่างเช่น คุณสามารถเรียกใช้ทักษะการรู้จําตัวอักษรด้วยแสง (OCR) สําหรับแต่ละภาพในคอลเลกชันภาพปกติเพื่อแยกข้อความใด ๆ ที่มี:

เอกสาร
- metadata_storage_name
- metadata_author
- เนื้อหา
- normalized_images
  - image0
    - ข้อความ
  - image1
    - ข้อความ
- ภาษา

เขตข้อมูลผลลัพธ์จากแต่ละทักษะสามารถใช้เป็นข้อมูลป้อนเข้าสําหรับทักษะอื่น ๆ ในภายหลังในไปป์ไลน์ ซึ่งจะจัดเก็บเอาต์พุต ของตน ในโครงสร้างเอกสารตามลําดับ ตัวอย่างเช่น เราสามารถใช้ทักษะ การผสาน เพื่อรวมเนื้อหาข้อความต้นฉบับกับข้อความที่แยกจากแต่ละรูปภาพเพื่อสร้างเขตข้อมูล merged_content ใหม่ที่ประกอบด้วยข้อความทั้งหมดในเอกสาร รวมถึงข้อความรูปภาพ

เอกสาร
- metadata_storage_name
- metadata_author
- เนื้อหา
- normalized_images
  - image0
    - ข้อความ
  - image1
    - ข้อความ
- ภาษา
- merged_content

ฟิลด์ในโครงสร้างเอกสารขั้นสุดท้ายที่ส่วนท้ายของไปป์ไลน์จะถูกแมปไปยังเขตข้อมูลดัชนีโดยตัวทําดัชนีในหนึ่งในสองวิธี:

เขตข้อมูลที่แยกจากข้อมูลต้นทางโดยตรงจะถูกแมปกับเขตข้อมูลดัชนี การแมปเหล่านี้อาจ เกิดขึ้นโดยนัย (เขตข้อมูลจะถูกแมปโดยอัตโนมัติไปยังในเขตข้อมูลที่มีชื่อเดียวกันในดัชนี) หรือ ชัดเจน (มีการกําหนดการแมปเพื่อให้ตรงกับเขตข้อมูลต้นทางกับเขตข้อมูลดัชนี มักจะเปลี่ยนชื่อเขตข้อมูลเป็นชื่อที่มีประโยชน์มากขึ้นหรือเพื่อใช้ฟังก์ชันกับค่าข้อมูลตามที่แมปไว้)
เขตข้อมูลผลลัพธ์จากทักษะใน skillset จะถูกแมปอย่างชัดเจนจากตําแหน่งลําดับชั้นในผลลัพธ์ไปยังเขตข้อมูลเป้าหมายในดัชนี

คำติชม

หน้านี้มีประโยชน์หรือไม่