Compartir vía


Propiedades de metadatos de contenido usadas en Azure AI Search

Varios orígenes de datos admitidos por el indexador, como Azure Blob Storage, Azure Data Lake Storage Gen2 y SharePoint, contienen archivos independientes o objetos incrustados de varios tipos de contenido. Muchos de esos tipos de contenido tienen propiedades de metadatos que pueden ser útiles para indexar. Del mismo modo que se pueden crear campos de búsqueda para las propiedades de estándar de los blobs, como metadata_storage_name, también se pueden crear en un índice de búsqueda para las propiedades de los metadatos que son específicas de un formato de documento.

Formatos de documento admitidos

Azure AI Search admite la indexación de blobs y la indexación de documentos de SharePoint con los siguientes formatos de documento:

Propiedades de formato de documento

En la siguiente tabla se resume el procesamiento para cada formato de documento y se describen las propiedades de metadatos que extrae un indexador de blobs y el indexador de SharePoint Online.

Formato de documento/Tipo de contenido Metadatos extraídos Detalles de procesamiento
CSV (text/csv) metadata_content_type
metadata_content_encoding
Extraer texto
NOTA: Si necesita extraer varios campos de documento de un blob CSV, consulte indexar blobs CSV
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extraer texto, incluyendo los documentos insertados
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extraer texto, incluyendo los documentos insertados
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extraer texto, incluyendo los documentos insertados
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Extraer texto, incluidos los datos adjuntos
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Extraer el texto de todos los documentos en el archivo
GZ (application/gzip) metadata_content_type Extraer el texto de todos los documentos en el archivo
HTML (text/html o application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Quitar elementos HTML y extraer texto
JSON (application/json) metadata_content_type
metadata_content_encoding
Extraer texto
NOTA: Si necesita extraer varios campos de documento de un blob JSON, consulte indexar blobs de JSON
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Quitar elementos XML y extraer texto
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Extraer texto, incluyendo el texto extraído de los datos adjuntos. metadata_message_to_email, metadata_message_cc_email y metadata_message_bcc_email son colecciones de cadenas. El resto de los campos son cadenas.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Extraer texto, incluyendo los documentos insertados
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extraer texto, incluyendo los documentos insertados
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extraer texto, incluyendo los documentos insertados
PDF (application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Extraer texto, incluyendo los documentos insertados (excepto las imágenes)
Plain text (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Extraer texto
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extraer texto, incluyendo los documentos insertados
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extraer texto, incluyendo los documentos insertados
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extraer texto, incluyendo los documentos insertados
RTF (aplicación/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extraer texto
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Quitar elementos XML y extraer texto
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Quitar elementos XML y extraer texto
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extraer texto, incluyendo los documentos insertados
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extraer texto, incluyendo los documentos insertados
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extraer texto, incluyendo los documentos insertados
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Quitar elementos XML y extraer texto
ZIP (application/zip) metadata_content_type Extraer el texto de todos los documentos en el archivo