Proprietà dei metadati del contenuto usate in Azure AI Search
Diverse origini dati supportate dall'indicizzatore, tra cui Archiviazione BLOB di Azure, Azure Data Lake Storage Gen2 e SharePoint, contengono file autonomi o oggetti incorporati di vari tipi di contenuto. Molti di questi tipi di contenuto hanno proprietà di metadati che possono essere utili per l'indicizzazione. Proprio come è possibile creare campi di ricerca per proprietà BLOB standard come metadata_storage_name
, è possibile creare campi in un indice di ricerca per le proprietà dei metadati specifiche di un formato di documento.
Formati di documento supportati
Azure AI Search supporta l'indicizzazione BLOB e l'indicizzazione dei documenti di SharePoint per i formati di documento seguenti:
- CSV (vedere Indicizzazione di BLOB CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (vedere Indicizzazione di BLOB JSON)
- KML (XML per le rappresentazioni geografiche)
- Formati di Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPTM, MSG (messaggi di posta elettronica di Outlook), XML (sia 2003 che 2006 WORD XML)
- Formati di documento aperti: ODT, ODS, ODP
- File di testo normale (vedere anche Indicizzazione di testo normale)
- RTF
- XML
- ZIP
Proprietà del formato documento
La tabella seguente riepiloga l'elaborazione per ogni formato di documento e descrive le proprietà dei metadati estratte da un indicizzatore di BLOB e dall'indicizzatore di SharePoint Online.
Formato documento/tipo di contenuto | Metadati estratti | Dettagli elaborazione |
---|---|---|
CSV (text/csv) | metadata_content_type metadata_content_encoding |
Estrazione del testo NOTA: se è necessario estrarre più campi di documento da un BLOB CSV, vedere Indicizzare BLOB CSV |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Estrazione del testo, inclusi i documenti incorporati |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Estrazione del testo, inclusi i documenti incorporati |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Estrazione del testo, inclusi i documenti incorporati |
EML (message/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Estrazione del testo, inclusi gli allegati |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Estrazione del testo da tutti i documenti nell'archivio |
GZ (application/gzip) | metadata_content_type |
Estrazione del testo da tutti i documenti nell'archivio |
HTML (text/html o application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Rimuovere elementi HTML ed estrarre testo |
JSON (applicazione/JSON) | metadata_content_type metadata_content_encoding |
Estrazione del testo NOTA: se è necessario estrarre più campi di documento da un BLOB JSON, vedere Indicizzare BLOB JSON |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Rimuovere elementi XML ed estrarre testo |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Estrarre il testo, incluso il testo estratto dagli allegati. metadata_message_to_email , metadata_message_cc_email e metadata_message_bcc_email sono raccolte di stringhe. Il resto dei campi sono stringhe. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Estrazione del testo, inclusi i documenti incorporati |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Estrazione del testo, inclusi i documenti incorporati |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Estrazione del testo, inclusi i documenti incorporati |
PDF (application/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Estrazione del testo, inclusi i documenti incorporati (escluse le immagini) |
Testo normale (text/plain) | metadata_content_type metadata_content_encoding metadata_language |
Estrazione del testo |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Estrazione del testo, inclusi i documenti incorporati |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Estrazione del testo, inclusi i documenti incorporati |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Estrazione del testo, inclusi i documenti incorporati |
RTF (application/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Estrazione del testo |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Rimuovere elementi XML ed estrarre testo |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Rimuovere elementi XML ed estrarre testo |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Estrazione del testo, inclusi i documenti incorporati |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Estrazione del testo, inclusi i documenti incorporati |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Estrazione del testo, inclusi i documenti incorporati |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
Rimuovere elementi XML ed estrarre testo |
ZIP (application/zip) | metadata_content_type |
Estrazione del testo da tutti i documenti nell'archivio |