Azure AI 搜尋中使用的內容元數據屬性
數個索引器支持的數據源,包括 Azure Blob 儲存體、Azure Data Lake 儲存體 Gen2 和 SharePoint,包含各種內容類型的獨立檔案或內嵌物件。 其中許多內容類型都有元數據屬性,對索引很有用。 如同您可以建立標準 Blob 屬性的搜尋欄位,例如 metadata_storage_name
,您可以在搜尋索引中建立檔類型專屬元數據屬性的欄位。
支援的檔案格式
Azure AI 搜尋支援下列檔格式的 Blob 索引編制和 SharePoint 文件索引:
- CSV (請參閱 編製 CSV Blob 的索引)
- EML
- EPUB
- GZ
- HTML
- JSON (請參閱 編製 JSON Blob 的索引)
- KML (地理表示法的 XML)
- Microsoft Office 格式:DOCX/DOC/DOCM、XLSX/XLS/XLSM、PPTX/PPT/PPTM、MSG(Outlook 電子郵件)、XML(2003 和 2006 WORD XML)
- 開啟檔案格式:ODT、ODS、ODP
- 純文字檔案(另 請參閱編制純文字索引)
- RTF
- XML
- ZIP
依檔案格式的屬性
下表摘要說明針對每個檔格式完成的處理,並描述 Blob 索引器和 SharePoint 索引器所擷取的元數據屬性。
檔案格式/內容類型 | 擷取的元數據 | 處理詳細數據 |
---|---|---|
CSV (text/csv) | metadata_content_type metadata_content_encoding |
擷取 注意:如果您需要從 CSV Blob 擷取多個檔欄位,請參閱 編制 CSV Blob 的 索引以取得詳細數據 |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
擷取文字,包括內嵌的檔 |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
擷取文字,包括內嵌的檔 |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
擷取文字,包括內嵌的檔 |
EML (message/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
擷取文字,包括附件 |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
從封存中的所有檔擷取文字 |
GZ (application/gzip) | metadata_content_type |
從封存中的所有檔擷取文字 |
HTML (text/html 或 application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
等量 HTML 標記並擷取文字 |
JSON (應用程式/json) | metadata_content_type metadata_content_encoding |
擷取 注意:如果您需要從 JSON Blob 擷取多個檔欄位,請參閱 編制 JSON Blob 的 索引以取得詳細數據 |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
等量 XML 標記和擷取文字 |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
擷取文字,包括從附件擷取的文字。 metadata_message_to_email 、 metadata_message_cc_email 和 metadata_message_bcc_email 是字串集合,其餘欄位是字串。 |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
擷取文字,包括內嵌的檔 |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
擷取文字,包括內嵌的檔 |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
擷取文字,包括內嵌的檔 |
PDF (應用程式/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
擷取文字,包括內嵌檔(不包括影像) |
純文字 (文字/純文字) | metadata_content_type metadata_content_encoding metadata_language |
擷取 |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
擷取文字,包括內嵌的檔 |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
擷取文字,包括內嵌的檔 |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
擷取文字,包括內嵌的檔 |
RTF (application/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
擷取 |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
等量 XML 標記和擷取文字 |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
等量 XML 標記和擷取文字 |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
擷取文字,包括內嵌的檔 |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
擷取文字,包括內嵌的檔 |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
擷取文字,包括內嵌的檔 |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
等量 XML 標記和擷取文字 |
ZIP (應用程式/zip) | metadata_content_type |
從封存中的所有檔擷取文字 |