แยกข้อมูลด้วยตัวทําดัชนี

เสร็จสมบูรณ์เมื่อ

Tip

ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!

หัวใจของโซลูชันการค้นหา Azure AI คือการสร้างดัชนีดัชนีที่ประกอบด้วยเนื้อหาที่ค้นหาได้ของคุณและสร้างและอัปเดตไม่น่าแปลกใจโดยนักจัดทําดัชนี

แผนภาพของตัวทําดัชนีที่แยกเอกสารจากแหล่งที่มาและสร้างดัชนี

กระบวนการทําดัชนีเริ่มต้นด้วยแหล่งข้อมูล: ตําแหน่งที่เก็บข้อมูลของวัตถุข้อมูลต้นฉบับของคุณ ตัวอย่างเช่น คอนเทนเนอร์ Azure blob store ที่เต็มไปด้วยเอกสาร ฐานข้อมูล หรือร้านค้าอื่น

ตัวทําดัชนีจะแยกและจัดทําดัชนี เขตข้อมูล โดยอัตโนมัติผ่าน ไปป์ไลน์การเสริมสร้างซึ่งใช้ การแตกเอกสาร เพื่อแยกเนื้อหาของเอกสารต้นทางและใช้ขั้นตอนแบบเพิ่มหน่วยเพื่อสร้างเอกสารแบบลําดับชั้น (ตาม JSON) ด้วยเขตข้อมูลที่จําเป็นสําหรับข้อกําหนดดัชนี

ผลลัพธ์คือ ดัชนีที่มีการเติมข้อมูล ซึ่งสามารถสอบถามเพื่อส่งกลับเขตข้อมูลที่ระบุจากเอกสารที่ตรงกับเกณฑ์คิวรี

วิธีการสร้างเอกสารในระหว่างการจัดทําดัชนี

กระบวนการทําดัชนีทํางานโดยการสร้างเอกสารสําหรับแต่ละเอนทิตีที่จัดทําดัชนี ในระหว่างการทําดัชนี ไปป์ไลน์ที่สมบูรณ์จะสร้างเอกสารที่รวมเมตาดาต้าจากแหล่งข้อมูลด้วยเขตข้อมูลที่สมบูรณ์ซึ่งแยกหรือสร้างขึ้นด้วยทักษะ คุณสามารถนึกภาพแต่ละเอกสารที่มีดัชนีเป็นโครงสร้าง JSON ซึ่งในขั้นต้นประกอบด้วยเอกสารที่มีเขตข้อมูลดัชนีที่คุณได้แมปกับเขตข้อมูลที่แยกออกมาโดยตรงจากข้อมูลต้นฉบับ ดังนี้:

  • เอกสาร
    • metadata_storage_name
    • metadata_author
    • เนื้อหา

เมื่อเอกสารในแหล่งข้อมูลมีรูปภาพ คุณสามารถกําหนดตัวทําดัชนีเพื่อแยกข้อมูลรูปภาพ และวางแต่ละรูปในคอลเลกชัน normalized_images ดังนี้:

  • เอกสาร
    • metadata_storage_name
    • metadata_author
    • เนื้อหา
    • normalized_images
      • image0
      • image1

การทําให้ข้อมูลภาพเป็นมาตรฐานด้วยวิธีนี้ช่วยให้คุณสามารถใช้คอลเลกชันรูปภาพเป็นข้อมูลป้อนเข้าสําหรับทักษะที่ดึงข้อมูลจากข้อมูลรูปภาพ

แต่ละทักษะจะเพิ่มเขตข้อมูลลงใน เอกสาร ตัวอย่างเช่น ทักษะที่ตรวจหา ภาษา ที่เขียนเอกสารอาจเก็บเอาพุตในฟิลด์ ภาษา ดังนี้:

  • เอกสาร
    • metadata_storage_name
    • metadata_author
    • เนื้อหา
    • normalized_images
      • image0
      • image1
    • ภาษา

เอกสารมีโครงสร้างตามลําดับชั้น และทักษะจะถูกนําไปใช้กับ บริบท เฉพาะภายในลําดับชั้น ทําให้คุณสามารถเรียกใช้ทักษะสําหรับสินค้าแต่ละรายการในระดับเฉพาะของเอกสารได้ ตัวอย่างเช่น คุณสามารถเรียกใช้ทักษะการรู้จําตัวอักษรด้วยแสง (OCR) สําหรับแต่ละภาพในคอลเลกชันภาพปกติเพื่อแยกข้อความใด ๆ ที่มี:

  • เอกสาร
    • metadata_storage_name
    • metadata_author
    • เนื้อหา
    • normalized_images
      • image0
        • ข้อความ
      • image1
        • ข้อความ
    • ภาษา

เขตข้อมูลผลลัพธ์จากแต่ละทักษะสามารถใช้เป็นข้อมูลป้อนเข้าสําหรับทักษะอื่น ๆ ในภายหลังในไปป์ไลน์ ซึ่งจะจัดเก็บเอาต์พุต ของตน ในโครงสร้างเอกสารตามลําดับ ตัวอย่างเช่น เราสามารถใช้ทักษะ การผสาน เพื่อรวมเนื้อหาข้อความต้นฉบับกับข้อความที่แยกจากแต่ละรูปภาพเพื่อสร้างเขตข้อมูล merged_content ใหม่ที่ประกอบด้วยข้อความทั้งหมดในเอกสาร รวมถึงข้อความรูปภาพ

  • เอกสาร
    • metadata_storage_name
    • metadata_author
    • เนื้อหา
    • normalized_images
      • image0
        • ข้อความ
      • image1
        • ข้อความ
    • ภาษา
    • merged_content

ฟิลด์ในโครงสร้างเอกสารขั้นสุดท้ายที่ส่วนท้ายของไปป์ไลน์จะถูกแมปไปยังเขตข้อมูลดัชนีโดยตัวทําดัชนีในหนึ่งในสองวิธี:

  • เขตข้อมูลที่แยกจากข้อมูลต้นทางโดยตรงจะถูกแมปกับเขตข้อมูลดัชนี การแมปเหล่านี้อาจ เกิดขึ้นโดยนัย (เขตข้อมูลจะถูกแมปโดยอัตโนมัติไปยังในเขตข้อมูลที่มีชื่อเดียวกันในดัชนี) หรือ ชัดเจน (มีการกําหนดการแมปเพื่อให้ตรงกับเขตข้อมูลต้นทางกับเขตข้อมูลดัชนี มักจะเปลี่ยนชื่อเขตข้อมูลเป็นชื่อที่มีประโยชน์มากขึ้นหรือเพื่อใช้ฟังก์ชันกับค่าข้อมูลตามที่แมปไว้)
  • เขตข้อมูลผลลัพธ์จากทักษะใน skillset จะถูกแมปอย่างชัดเจนจากตําแหน่งลําดับชั้นในผลลัพธ์ไปยังเขตข้อมูลเป้าหมายในดัชนี