Propiedades de metadatos de contenido usadas en Azure AI Search
Varios orígenes de datos admitidos por el indexador, como Azure Blob Storage, Azure Data Lake Storage Gen2 y SharePoint, contienen archivos independientes o objetos incrustados de varios tipos de contenido. Muchos de esos tipos de contenido tienen propiedades de metadatos que pueden ser útiles para indexar. Del mismo modo que se pueden crear campos de búsqueda para las propiedades de estándar de los blobs, como metadata_storage_name
, también se pueden crear en un índice de búsqueda para las propiedades de los metadatos que son específicas de un formato de documento.
Formatos de documento admitidos
Azure AI Search admite la indexación de blobs y la indexación de documentos de SharePoint con los siguientes formatos de documento:
- CSV (consulte Indexación de blobs CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (vea Indexación de blobs JSON)
- KML (XML para representaciones geográficas)
- Formatos de Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (correos electrónicos de Outlook), XML (WORD XML 2003 y 2006)
- Formatos de Open Document: ODT, ODS, ODP
- Archivos de texto sin formato (vea también Indexing plain text (Indexación de texto sin formato))
- RTF
- XML
- ZIP
Propiedades de formato de documento
En la siguiente tabla se resume el procesamiento para cada formato de documento y se describen las propiedades de metadatos que extrae un indexador de blobs y el indexador de SharePoint Online.
Formato de documento/Tipo de contenido | Metadatos extraídos | Detalles de procesamiento |
---|---|---|
CSV (text/csv) | metadata_content_type metadata_content_encoding |
Extraer texto NOTA: Si necesita extraer varios campos de documento de un blob CSV, consulte indexar blobs CSV |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extraer texto, incluyendo los documentos insertados |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extraer texto, incluyendo los documentos insertados |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extraer texto, incluyendo los documentos insertados |
EML (message/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Extraer texto, incluidos los datos adjuntos |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Extraer el texto de todos los documentos en el archivo |
GZ (application/gzip) | metadata_content_type |
Extraer el texto de todos los documentos en el archivo |
HTML (text/html o application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Quitar elementos HTML y extraer texto |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Extraer texto NOTA: Si necesita extraer varios campos de documento de un blob JSON, consulte indexar blobs de JSON |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Quitar elementos XML y extraer texto |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Extraer texto, incluyendo el texto extraído de los datos adjuntos. metadata_message_to_email , metadata_message_cc_email y metadata_message_bcc_email son colecciones de cadenas. El resto de los campos son cadenas. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Extraer texto, incluyendo los documentos insertados |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extraer texto, incluyendo los documentos insertados |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extraer texto, incluyendo los documentos insertados |
PDF (application/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Extraer texto, incluyendo los documentos insertados (excepto las imágenes) |
Plain text (text/plain) | metadata_content_type metadata_content_encoding metadata_language |
Extraer texto |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extraer texto, incluyendo los documentos insertados |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extraer texto, incluyendo los documentos insertados |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extraer texto, incluyendo los documentos insertados |
RTF (aplicación/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extraer texto |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Quitar elementos XML y extraer texto |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Quitar elementos XML y extraer texto |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extraer texto, incluyendo los documentos insertados |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extraer texto, incluyendo los documentos insertados |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extraer texto, incluyendo los documentos insertados |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
Quitar elementos XML y extraer texto |
ZIP (application/zip) | metadata_content_type |
Extraer el texto de todos los documentos en el archivo |