Proprietà dei metadati del contenuto usate in Ricerca di intelligenza artificiale di Azure
Diverse origini dati supportate dall'indicizzatore, tra cui Archiviazione BLOB di Azure, Azure Data Lake Archiviazione Gen2 e SharePoint, contengono file autonomi o oggetti incorporati di vari tipi di contenuto. Molti di questi tipi di contenuto hanno proprietà di metadati che possono essere utili per l'indicizzazione. Proprio come è possibile creare campi di ricerca per proprietà blob standard come metadata_storage_name
, è possibile creare campi in un indice di ricerca per le proprietà dei metadati specifiche di un formato di documento.
Formati di documento supportati
Ricerca di intelligenza artificiale di Azure supporta l'indicizzazione BLOB e l'indicizzazione dei documenti di SharePoint per i formati di documento seguenti:
- CSV (vedere Indicizzazione di BLOB CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (vedere Indicizzazione di BLOB JSON)
- KML (XML per le rappresentazioni geografiche)
- Formati di Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPTM, MSG (messaggi di posta elettronica di Outlook), XML (xml sia 2003 che 2006 WORD XML)
- Formati di documento aperti: ODT, ODS, ODP
- File di testo normale (vedere anche Indicizzazione di testo normale)
- RTF
- XML
- ZIP
Proprietà in base al formato documento
La tabella seguente riepiloga l'elaborazione per ogni formato di documento e descrive le proprietà dei metadati estratte da un indicizzatore BLOB e dall'indicizzatore di SharePoint Online.
Formato documento/tipo di contenuto | Metadati estratti | Dettagli elaborazione |
---|---|---|
CSV (testo/csv) | metadata_content_type metadata_content_encoding |
Estrazione del testo NOTA: se è necessario estrarre più campi di documento da un BLOB CSV, vedere Indicizzazione di BLOB CSV per informazioni dettagliate |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Estrazione del testo, inclusi i documenti incorporati |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Estrazione del testo, inclusi i documenti incorporati |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Estrazione del testo, inclusi i documenti incorporati |
EML (message/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Estrazione del testo, inclusi gli allegati |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Estrazione del testo da tutti i documenti nell'archivio |
GZ (application/gzip) | metadata_content_type |
Estrazione del testo da tutti i documenti nell'archivio |
HTML (text/html o application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Rimozione del markup HTML ed estrazione del testo |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Estrazione del testo NOTA: per conoscere i dettagli su come estrarre più campi documento da un BLOB JSON, vedere Indicizzazione di BLOB JSON |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Rimozione del markup XML ed estrazione del testo |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Estrarre testo, incluso il testo estratto dagli allegati. metadata_message_to_email e metadata_message_cc_email metadata_message_bcc_email sono raccolte di stringhe, il resto dei campi è costituito da stringhe. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Estrazione del testo, inclusi i documenti incorporati |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Estrazione del testo, inclusi i documenti incorporati |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Estrazione del testo, inclusi i documenti incorporati |
PDF (applicazione/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Estrazione del testo, inclusi i documenti incorporati (escluse le immagini) |
Testo normale (text/plain) | metadata_content_type metadata_content_encoding metadata_language |
Estrazione del testo |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Estrazione del testo, inclusi i documenti incorporati |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Estrazione del testo, inclusi i documenti incorporati |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Estrazione del testo, inclusi i documenti incorporati |
RTF (application/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Estrazione del testo |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Rimozione del markup XML ed estrazione del testo |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Rimozione del markup XML ed estrazione del testo |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Estrazione del testo, inclusi i documenti incorporati |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Estrazione del testo, inclusi i documenti incorporati |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Estrazione del testo, inclusi i documenti incorporati |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
Rimozione del markup XML ed estrazione del testo |
ZIP (application/zip) | metadata_content_type |
Estrazione del testo da tutti i documenti nell'archivio |