Propriedades de metadados de conteúdo usadas na IA do Azure Search

Várias das fontes de dados compatíveis com indexador, incluindo Armazenamento de Blobs do Azure, Azure Data Lake Storage Gen2 e SharePoint, contêm arquivos autônomos ou objetos inseridos de vários tipos de conteúdo. Muitos desses tipos de conteúdo têm propriedades de metadados cuja indexação pode ser útil. Da mesma forma que é possível criar campos de pesquisa para propriedades de blob padrão, como metadata_storage_name, também é possível criar campos em um índice de pesquisa para propriedades de metadados específicas a um formato de documento.

Formatos de documento com suporte

A IA do Azure Search dá suporte à indexação de blobs e à indexação de documentos do SharePoint para os seguintes formatos de documento:

  • CSV (consulte Indexando BLOBs CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (consulte Como indexar blobs JSON)
  • KML (XML para representações geográficas)
  • Formatos do Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (emails do Outlook) e XML (WORD XML 2003 e 2006)
  • Abrir formatos de documento: ODT, ODS, ODP
  • PDF
  • Arquivos de texto sem formatação (consulte também Como indexar texto sem formatação)
  • RTF
  • XML
  • ZIP

Propriedades por formato de documento

A tabela a seguir resume o processamento para cada formato de documento e descreve as propriedades de metadados extraídas por um indexador de blobs e pelo indexador do SharePoint Online.

Formato de documento/tipo de conteúdo Metadados extraídos Detalhes do processamento
CSV (text/csv) metadata_content_type
metadata_content_encoding
Extrair texto
OBSERVAÇÃO: se você precisar extrair vários campos de documento de um blob CSV, consulte Como indexar blobs CSV para obter detalhes
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extração de texto, incluindo documentos incorporados
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extração de texto, incluindo documentos incorporados
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extração de texto, incluindo documentos incorporados
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Extração do texto, incluindo anexos
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Extração do texto de todos os documentos no arquivo
GZ (application/gzip) metadata_content_type Extração do texto de todos os documentos no arquivo
HTML (text/html ou application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Remoção da marcação HTML e extração do texto
JSON (application/json) metadata_content_type
metadata_content_encoding
Extrair texto
OBSERVAÇÃO: se você precisar extrair vários campos de documento de um blob JSON, consulte Como indexar blobs JSON para obter detalhes
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Remoção da marcação XML e extração do texto
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Extração de texto, incluindo texto extraído de anexos. metadata_message_to_email, metadata_message_cc_email e metadata_message_bcc_email são coleções de cadeias de caracteres, o restante dos campos são cadeias de caracteres.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Extração de texto, incluindo documentos incorporados
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extração de texto, incluindo documentos incorporados
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extração de texto, incluindo documentos incorporados
PDF (application/PDF) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Extração do texto, incluindo documentos incorporados (excluindo imagens)
Texto sem formatação (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Extrair texto
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extração de texto, incluindo documentos incorporados
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extração de texto, incluindo documentos incorporados
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extração de texto, incluindo documentos incorporados
RTF (aplicativo/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrair texto
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Remoção da marcação XML e extração do texto
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Remoção da marcação XML e extração do texto
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extração de texto, incluindo documentos incorporados
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extração de texto, incluindo documentos incorporados
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extração de texto, incluindo documentos incorporados
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Remoção da marcação XML e extração do texto
ZIP (application/zip) metadata_content_type Extração do texto de todos os documentos no arquivo

Confira também