Propriedades de metadados de conteúdo usadas na IA do Azure Search
Várias das fontes de dados compatíveis com indexador, incluindo Armazenamento de Blobs do Azure, Azure Data Lake Storage Gen2 e SharePoint, contêm arquivos autônomos ou objetos inseridos de vários tipos de conteúdo. Muitos desses tipos de conteúdo têm propriedades de metadados cuja indexação pode ser útil. Da mesma forma que é possível criar campos de pesquisa para propriedades de blob padrão, como metadata_storage_name
, também é possível criar campos em um índice de pesquisa para propriedades de metadados específicas a um formato de documento.
Formatos de documento com suporte
A IA do Azure Search dá suporte à indexação de blobs e à indexação de documentos do SharePoint para os seguintes formatos de documento:
- CSV (consulte Indexando BLOBs CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (consulte Como indexar blobs JSON)
- KML (XML para representações geográficas)
- Formatos do Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (emails do Outlook) e XML (WORD XML 2003 e 2006)
- Abrir formatos de documento: ODT, ODS, ODP
- Arquivos de texto sem formatação (consulte também Como indexar texto sem formatação)
- RTF
- XML
- ZIP
Propriedades por formato de documento
A tabela a seguir resume o processamento para cada formato de documento e descreve as propriedades de metadados extraídas por um indexador de blobs e pelo indexador do SharePoint Online.
Formato de documento/tipo de conteúdo | Metadados extraídos | Detalhes do processamento |
---|---|---|
CSV (text/csv) | metadata_content_type metadata_content_encoding |
Extrair texto OBSERVAÇÃO: se você precisar extrair vários campos de documento de um blob CSV, consulte Como indexar blobs CSV para obter detalhes |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extração de texto, incluindo documentos incorporados |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extração de texto, incluindo documentos incorporados |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extração de texto, incluindo documentos incorporados |
EML (message/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Extração do texto, incluindo anexos |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Extração do texto de todos os documentos no arquivo |
GZ (application/gzip) | metadata_content_type |
Extração do texto de todos os documentos no arquivo |
HTML (text/html ou application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Remoção da marcação HTML e extração do texto |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Extrair texto OBSERVAÇÃO: se você precisar extrair vários campos de documento de um blob JSON, consulte Como indexar blobs JSON para obter detalhes |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Remoção da marcação XML e extração do texto |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Extração de texto, incluindo texto extraído de anexos. metadata_message_to_email , metadata_message_cc_email e metadata_message_bcc_email são coleções de cadeias de caracteres, o restante dos campos são cadeias de caracteres. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Extração de texto, incluindo documentos incorporados |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extração de texto, incluindo documentos incorporados |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extração de texto, incluindo documentos incorporados |
PDF (application/PDF) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Extração do texto, incluindo documentos incorporados (excluindo imagens) |
Texto sem formatação (text/plain) | metadata_content_type metadata_content_encoding metadata_language |
Extrair texto |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extração de texto, incluindo documentos incorporados |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extração de texto, incluindo documentos incorporados |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extração de texto, incluindo documentos incorporados |
RTF (aplicativo/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrair texto |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Remoção da marcação XML e extração do texto |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Remoção da marcação XML e extração do texto |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extração de texto, incluindo documentos incorporados |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extração de texto, incluindo documentos incorporados |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extração de texto, incluindo documentos incorporados |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
Remoção da marcação XML e extração do texto |
ZIP (application/zip) | metadata_content_type |
Extração do texto de todos os documentos no arquivo |