Vlastnosti metadat obsahu používané ve službě Azure AI Search

Několik zdrojů dat podporovaných indexerem, včetně Azure Blob Storage, Azure Data Lake Storage Gen2 a SharePointu, obsahuje samostatné soubory nebo vložené objekty různých typů obsahu. Mnoho z těchto typů obsahu má vlastnosti metadat, které mohou být užitečné k indexování. Stejně jako můžete vytvořit vyhledávací pole pro standardní vlastnosti objektu blob, jako je metadata_storage_name, můžete v indexu vyhledávání vytvořit vlastnosti metadat, které jsou specifické pro formát dokumentu.

Podporované formáty dokumentů

Azure AI Search podporuje indexování objektů blob a indexování dokumentů SharePointu pro následující formáty dokumentů:

  • CSV (viz indexování objektů blob CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (viz indexování objektů blob JSON)
  • KML (XML pro geografické reprezentace)
  • formáty systém Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPTM, MSG (e-maily Outlooku), XML (2003 i 2006 WORD XML)
  • Formáty otevřených dokumentů: ODT, ODS, ODP
  • PDF
  • Soubory ve formátu prostého textu (viz také indexování prostého textu)
  • RTF
  • XML
  • ZIP

Vlastnosti podle formátu dokumentu

Následující tabulka shrnuje zpracování pro každý formát dokumentu a popisuje vlastnosti metadat extrahované indexerem objektů blob a indexerem SharePointu Online.

Formát dokumentu / typ obsahu Extrahovaná metadata Zpracování podrobností
CSV (text/csv) metadata_content_type
metadata_content_encoding
Extrakce textu
POZNÁMKA: Pokud potřebujete extrahovat více polí dokumentu z objektu blob CSV, podrobnosti najdete v tématu Indexování objektů blob CSV.
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahování textu včetně vložených dokumentů
DOCM (aplikace/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahování textu včetně vložených dokumentů
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahování textu včetně vložených dokumentů
EML (zpráva/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Extrahování textu včetně příloh
EPUB (aplikace/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Extrahování textu ze všech dokumentů v archivu
GZ (application/gzip) metadata_content_type Extrahování textu ze všech dokumentů v archivu
HTML (text/html nebo application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Odstranění kódu HTML a extrakce textu
JSON (application/json) metadata_content_type
metadata_content_encoding
Extrakce textu
POZNÁMKA: Pokud potřebujete extrahovat více polí dokumentu z objektu blob JSON, podrobnosti najdete v tématu Indexování objektů blob JSON.
KML (aplikace/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Odstranění kódu XML a extrakce textu
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Extrahujte text, včetně textu extrahovaného z příloh. metadata_message_to_emailmetadata_message_cc_email a metadata_message_bcc_email jsou to kolekce řetězců, zbytek polí jsou řetězce.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Extrahování textu včetně vložených dokumentů
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahování textu včetně vložených dokumentů
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahování textu včetně vložených dokumentů
PDF (aplikace/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Extrahování textu včetně vložených dokumentů (s výjimkou obrázků)
Prostý text (text/prostý) metadata_content_type
metadata_content_encoding
metadata_language
Extrakce textu
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrahování textu včetně vložených dokumentů
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrahování textu včetně vložených dokumentů
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrahování textu včetně vložených dokumentů
RTF (aplikace/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrakce textu
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Odstranění kódu XML a extrakce textu
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Odstranění kódu XML a extrakce textu
XLS (aplikace/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahování textu včetně vložených dokumentů
XLSM (aplikace/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahování textu včetně vložených dokumentů
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahování textu včetně vložených dokumentů
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Odstranění kódu XML a extrakce textu
ZIP (aplikace/zip) metadata_content_type Extrahování textu ze všech dokumentů v archivu

Viz také