Condividi tramite


Proprietà dei metadati del contenuto usate in Azure AI Search

Diverse origini dati supportate dall'indicizzatore, tra cui Archiviazione BLOB di Azure, Azure Data Lake Storage Gen2 e SharePoint, contengono file autonomi o oggetti incorporati di vari tipi di contenuto. Molti di questi tipi di contenuto hanno proprietà di metadati che possono essere utili per l'indicizzazione. Proprio come è possibile creare campi di ricerca per proprietà BLOB standard come metadata_storage_name, è possibile creare campi in un indice di ricerca per le proprietà dei metadati specifiche di un formato di documento.

Formati di documento supportati

Azure AI Search supporta l'indicizzazione BLOB e l'indicizzazione dei documenti di SharePoint per i formati di documento seguenti:

  • CSV (vedere Indicizzazione di BLOB CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (vedere Indicizzazione di BLOB JSON)
  • KML (XML per le rappresentazioni geografiche)
  • Formati di Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPTM, MSG (messaggi di posta elettronica di Outlook), XML (sia 2003 che 2006 WORD XML)
  • Formati di documento aperti: ODT, ODS, ODP
  • PDF
  • File di testo normale (vedere anche Indicizzazione di testo normale)
  • RTF
  • XML
  • ZIP

Proprietà del formato documento

La tabella seguente riepiloga l'elaborazione per ogni formato di documento e descrive le proprietà dei metadati estratte da un indicizzatore di BLOB e dall'indicizzatore di SharePoint Online.

Formato documento/tipo di contenuto Metadati estratti Dettagli elaborazione
CSV (text/csv) metadata_content_type
metadata_content_encoding
Estrazione del testo
NOTA: se è necessario estrarre più campi di documento da un BLOB CSV, vedere Indicizzare BLOB CSV
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Estrazione del testo, inclusi i documenti incorporati
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Estrazione del testo, inclusi i documenti incorporati
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Estrazione del testo, inclusi i documenti incorporati
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Estrazione del testo, inclusi gli allegati
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Estrazione del testo da tutti i documenti nell'archivio
GZ (application/gzip) metadata_content_type Estrazione del testo da tutti i documenti nell'archivio
HTML (text/html o application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Rimuovere elementi HTML ed estrarre testo
JSON (applicazione/JSON) metadata_content_type
metadata_content_encoding
Estrazione del testo
NOTA: se è necessario estrarre più campi di documento da un BLOB JSON, vedere Indicizzare BLOB JSON
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Rimuovere elementi XML ed estrarre testo
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Estrarre il testo, incluso il testo estratto dagli allegati. metadata_message_to_email, metadata_message_cc_emaile metadata_message_bcc_email sono raccolte di stringhe. Il resto dei campi sono stringhe.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Estrazione del testo, inclusi i documenti incorporati
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Estrazione del testo, inclusi i documenti incorporati
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Estrazione del testo, inclusi i documenti incorporati
PDF (application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Estrazione del testo, inclusi i documenti incorporati (escluse le immagini)
Testo normale (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Estrazione del testo
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Estrazione del testo, inclusi i documenti incorporati
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Estrazione del testo, inclusi i documenti incorporati
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Estrazione del testo, inclusi i documenti incorporati
RTF (application/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Estrazione del testo
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Rimuovere elementi XML ed estrarre testo
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Rimuovere elementi XML ed estrarre testo
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Estrazione del testo, inclusi i documenti incorporati
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Estrazione del testo, inclusi i documenti incorporati
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Estrazione del testo, inclusi i documenti incorporati
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Rimuovere elementi XML ed estrarre testo
ZIP (application/zip) metadata_content_type Estrazione del testo da tutti i documenti nell'archivio