Proprietà dei metadati del contenuto usate in Ricerca di intelligenza artificiale di Azure

Diverse origini dati supportate dall'indicizzatore, tra cui Archiviazione BLOB di Azure, Azure Data Lake Archiviazione Gen2 e SharePoint, contengono file autonomi o oggetti incorporati di vari tipi di contenuto. Molti di questi tipi di contenuto hanno proprietà di metadati che possono essere utili per l'indicizzazione. Proprio come è possibile creare campi di ricerca per proprietà blob standard come metadata_storage_name, è possibile creare campi in un indice di ricerca per le proprietà dei metadati specifiche di un formato di documento.

Formati di documento supportati

Ricerca di intelligenza artificiale di Azure supporta l'indicizzazione BLOB e l'indicizzazione dei documenti di SharePoint per i formati di documento seguenti:

  • CSV (vedere Indicizzazione di BLOB CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (vedere Indicizzazione di BLOB JSON)
  • KML (XML per le rappresentazioni geografiche)
  • Formati di Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPTM, MSG (messaggi di posta elettronica di Outlook), XML (xml sia 2003 che 2006 WORD XML)
  • Formati di documento aperti: ODT, ODS, ODP
  • PDF
  • File di testo normale (vedere anche Indicizzazione di testo normale)
  • RTF
  • XML
  • ZIP

Proprietà in base al formato documento

La tabella seguente riepiloga l'elaborazione per ogni formato di documento e descrive le proprietà dei metadati estratte da un indicizzatore BLOB e dall'indicizzatore di SharePoint Online.

Formato documento/tipo di contenuto Metadati estratti Dettagli elaborazione
CSV (testo/csv) metadata_content_type
metadata_content_encoding
Estrazione del testo
NOTA: se è necessario estrarre più campi di documento da un BLOB CSV, vedere Indicizzazione di BLOB CSV per informazioni dettagliate
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Estrazione del testo, inclusi i documenti incorporati
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Estrazione del testo, inclusi i documenti incorporati
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Estrazione del testo, inclusi i documenti incorporati
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Estrazione del testo, inclusi gli allegati
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Estrazione del testo da tutti i documenti nell'archivio
GZ (application/gzip) metadata_content_type Estrazione del testo da tutti i documenti nell'archivio
HTML (text/html o application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Rimozione del markup HTML ed estrazione del testo
JSON (application/json) metadata_content_type
metadata_content_encoding
Estrazione del testo
NOTA: per conoscere i dettagli su come estrarre più campi documento da un BLOB JSON, vedere Indicizzazione di BLOB JSON
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Rimozione del markup XML ed estrazione del testo
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Estrarre testo, incluso il testo estratto dagli allegati. metadata_message_to_emaile metadata_message_cc_emailmetadata_message_bcc_email sono raccolte di stringhe, il resto dei campi è costituito da stringhe.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Estrazione del testo, inclusi i documenti incorporati
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Estrazione del testo, inclusi i documenti incorporati
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Estrazione del testo, inclusi i documenti incorporati
PDF (applicazione/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Estrazione del testo, inclusi i documenti incorporati (escluse le immagini)
Testo normale (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Estrazione del testo
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Estrazione del testo, inclusi i documenti incorporati
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Estrazione del testo, inclusi i documenti incorporati
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Estrazione del testo, inclusi i documenti incorporati
RTF (application/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Estrazione del testo
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Rimozione del markup XML ed estrazione del testo
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Rimozione del markup XML ed estrazione del testo
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Estrazione del testo, inclusi i documenti incorporati
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Estrazione del testo, inclusi i documenti incorporati
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Estrazione del testo, inclusi i documenti incorporati
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Rimozione del markup XML ed estrazione del testo
ZIP (application/zip) metadata_content_type Estrazione del testo da tutti i documenti nell'archivio

Vedi anche