Azure AI 搜尋服務中使用的內容中繼資料屬性

數個索引子支援的資料來源,包括 Azure Blob 儲存體、Azure Data Lake Storage Gen2 和 SharePoint,包含各種內容類型的獨立檔案或内嵌物件。 其中許多內容類型都有中繼資料屬性,對索引很有用。 就如同您可以為標準 Blob 屬性 (如 metadata_storage_name) 建立搜尋欄位,您可以在搜尋索引中為文件格式特定的中繼資料屬性建立欄位。

支援的文件格式

Azure AI 搜尋服務支援下列文件格式的 Blob 編製索引和 SharePoint 文件編製索引:

  • CSV (請參閱編製 CSV Blob 的索引)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (請參閱編製 JSON Blob 的索引)
  • KML (用於地理標記法的 XML)
  • Microsoft Office 格式:DOCX/DOC/DOCM、XLSX/XLS/XLSM、PPTX/PPT/PPTM、MSG (Outlook 電子郵件)、XML (2003 和 2006 WORD XML)
  • 開放式文件格式:ODT、ODS、ODP
  • PDF
  • 純文字檔案 (另請參閱編制純文字的索引)
  • RTF
  • XML
  • ZIP

依文件格式的屬性

下表摘要說明每個檔格式的處理,並描述 Blob 索引器和 SharePoint Online 索引器所擷取的元數據屬性。

文件格式/內容類型 擷取的中繼資料 處理詳細資料
CSV (text/csv) metadata_content_type
metadata_content_encoding
擷取文字
注意:如果您需要從 CSV Blob 擷取多個文件欄位,請參閱編製索引 CSV Blob 以取得詳細資料
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
擷取文字,包括內嵌文件
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
擷取文字,包括內嵌文件
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
擷取文字,包括內嵌文件
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
擷取文字,包括附件
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
從封存中的所有文件擷取文字
GZ (application/gzip) metadata_content_type 從封存中的所有文件擷取文字
HTML (text/html 或 application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
移除 HTML 標記並且擷取文字
JSON (應用程式/json) metadata_content_type
metadata_content_encoding
擷取文字
注意:如果您需要從 JSON Blob 擷取多個文件欄位,請參閱編製索引 JSON Blob 的詳細資訊
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
移除 XML 標記並且擷取文字
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
擷取文字,包括從附件擷取的文字。 metadata_message_to_emailmetadata_message_cc_emailmetadata_message_bcc_email 是字串集合,其餘欄位是字串。
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
擷取文字,包括內嵌文件
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
擷取文字,包括內嵌文件
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
擷取文字,包括內嵌文件
PDF (application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
擷取文字,包括內嵌文件 (不含影像)
純文字 (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
擷取文字
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
擷取文字,包括內嵌文件
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
擷取文字,包括內嵌文件
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
擷取文字,包括內嵌文件
RTF (應用程式/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
擷取文字
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
移除 XML 標記並且擷取文字
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
移除 XML 標記並且擷取文字
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
擷取文字,包括內嵌文件
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
擷取文字,包括內嵌文件
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
擷取文字,包括內嵌文件
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
移除 XML 標記並且擷取文字
ZIP (application/zip) metadata_content_type 從封存中的所有文件擷取文字

另請參閱