Compartilhar via


Propriedades de metadados de conteúdo usadas na IA do Azure Search

Várias das fontes de dados compatíveis com indexador, incluindo Armazenamento de Blobs do Azure, Azure Data Lake Storage Gen2 e SharePoint, contêm arquivos autônomos ou objetos inseridos de vários tipos de conteúdo. Muitos desses tipos de conteúdo têm propriedades de metadados cuja indexação pode ser útil. Da mesma forma que é possível criar campos de pesquisa para propriedades de blob padrão, como metadata_storage_name, também é possível criar campos em um índice de pesquisa para propriedades de metadados específicas a um formato de documento.

Formatos de documento com suporte

A IA do Azure Search dá suporte à indexação de blobs e à indexação de documentos do SharePoint para os seguintes formatos de documento:

  • CSV (consulte Indexando BLOBs CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (consulte Como indexar blobs JSON)
  • KML (XML para representações geográficas)
  • Formatos do Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (emails do Outlook) e XML (WORD XML 2003 e 2006)
  • Abrir formatos de documento: ODT, ODS, ODP
  • PDF
  • Arquivos de texto sem formatação (consulte também Como indexar texto sem formatação)
  • RTF
  • XML
  • ZIP

Propriedades por formato de documento

A tabela a seguir resume o processamento para cada formato de documento e descreve as propriedades de metadados extraídas por um indexador de blobs e pelo indexador do SharePoint Online.

Formato de documento/tipo de conteúdo Metadados extraídos Detalhes do processamento
CSV (text/csv) metadata_content_type
metadata_content_encoding
Extrair texto
OBSERVAÇÃO: se você precisar extrair vários campos de documento de um blob CSV, consulte Como indexar blobs CSV para obter detalhes
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extração de texto, incluindo documentos incorporados
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extração de texto, incluindo documentos incorporados
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extração de texto, incluindo documentos incorporados
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Extração do texto, incluindo anexos
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Extração do texto de todos os documentos no arquivo
GZ (application/gzip) metadata_content_type Extração do texto de todos os documentos no arquivo
HTML (text/html ou application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Remoção da marcação HTML e extração do texto
JSON (application/json) metadata_content_type
metadata_content_encoding
Extrair texto
OBSERVAÇÃO: se você precisar extrair vários campos de documento de um blob JSON, consulte Como indexar blobs JSON para obter detalhes
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Remoção da marcação XML e extração do texto
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Extração de texto, incluindo texto extraído de anexos. metadata_message_to_email, metadata_message_cc_email e metadata_message_bcc_email são coleções de cadeias de caracteres, o restante dos campos são cadeias de caracteres.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Extração de texto, incluindo documentos incorporados
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extração de texto, incluindo documentos incorporados
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extração de texto, incluindo documentos incorporados
PDF (application/PDF) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Extração do texto, incluindo documentos incorporados (excluindo imagens)
Texto sem formatação (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Extrair texto
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extração de texto, incluindo documentos incorporados
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extração de texto, incluindo documentos incorporados
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extração de texto, incluindo documentos incorporados
RTF (aplicativo/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrair texto
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Remoção da marcação XML e extração do texto
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Remoção da marcação XML e extração do texto
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extração de texto, incluindo documentos incorporados
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extração de texto, incluindo documentos incorporados
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extração de texto, incluindo documentos incorporados
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Remoção da marcação XML e extração do texto
ZIP (application/zip) metadata_content_type Extração do texto de todos os documentos no arquivo

Confira também