Az Azure AI Searchben használt tartalom metaadat-tulajdonságai

Az indexelő által támogatott adatforrások közül több, például az Azure Blob Storage, az Azure Data Lake Storage Gen2 és a SharePoint különálló fájlokat vagy beágyazott objektumokat tartalmaz különböző tartalomtípusokból. Sok ilyen tartalomtípus rendelkezik olyan metaadat-tulajdonságokkal, amelyek hasznosak lehetnek az indexeléshez. Ugyanúgy létrehozhat keresési mezőket a szabványos blobtulajdonságokhoz, mint például metadata_storage_namea keresési indexben a dokumentumformátumra jellemző metaadat-tulajdonságok.

Támogatott dokumentumformátumok

Az Azure AI Search támogatja a blobindexelést és a SharePoint-dokumentumindexelést a következő dokumentumformátumokhoz:

  • CSV (lásd : CSV-blobok indexelése)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (lásd : JSON-blobok indexelése)
  • KML (XML földrajzi ábrázolásokhoz)
  • Microsoft Office-formátumok: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-mailek), XML (2003 és 2006 WORD XML)
  • Dokumentumformátumok megnyitása: ODT, ODS, ODP
  • PDF
  • Egyszerű szöveges fájlok (lásd még : Egyszerű szöveg indexelése)
  • RTF
  • XML
  • ZIP

Tulajdonságok dokumentumformátum szerint

Az alábbi táblázat összefoglalja az egyes dokumentumformátumok feldolgozását, és ismerteti a blobindexelő és a SharePoint Online-indexelő által kinyert metaadat-tulajdonságokat.

Dokumentumformátum/tartalomtípus Kinyert metaadatok Részletek feldolgozása
CSV (szöveg/csv) metadata_content_type
metadata_content_encoding
Szöveg kinyerése
MEGJEGYZÉS: Ha több dokumentummezőt kell kinyernie egy CSV-blobból, a részletekért lásd : CSV-blobok indexelése
DOC (alkalmazás/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
EML (üzenet/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Szöveg kinyerése a mellékletekkel együtt
EPUB (alkalmazás/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Szöveg kinyerése az archívum összes dokumentumából
GZ (alkalmazás/gzip) metadata_content_type Szöveg kinyerése az archívum összes dokumentumából
HTML (szöveg/html vagy alkalmazás/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Html-korrektúra csíkozása és szöveg kinyere
JSON (alkalmazás/json) metadata_content_type
metadata_content_encoding
Szöveg kinyerése
MEGJEGYZÉS: Ha több dokumentummezőt kell kinyernie egy JSON-blobból, a részletekért lásd : JSON-blobok indexelése
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Xml-korrektúra csíkozása és szöveg kinyere
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Szöveg kinyerése, beleértve a mellékletekből kinyert szöveget is. metadata_message_to_email, metadata_message_cc_email és metadata_message_bcc_email sztringgyűjtemények, a többi mező sztring.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
PDF (alkalmazás/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Szöveg kinyerése beágyazott dokumentumokkal együtt (a képek kivételével)
Egyszerű szöveg (szöveg/egyszerű) metadata_content_type
metadata_content_encoding
metadata_language
Szöveg kinyerése
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
RTF (alkalmazás/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Szöveg kinyerése
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Xml-korrektúra csíkozása és szöveg kinyere
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Xml-korrektúra csíkozása és szöveg kinyere
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Szöveg kinyerés, beleértve a beágyazott dokumentumokat is
XML (alkalmazás/xml) metadata_content_type
metadata_content_encoding
metadata_language
Xml-korrektúra csíkozása és szöveg kinyere
ZIP (alkalmazás/zip) metadata_content_type Szöveg kinyerése az archívum összes dokumentumából

Lásd még