數個索引器支持的數據源,包括 Azure Blob 儲存體、Azure Data Lake Storage Gen2 和 SharePoint,包含各種內容類型的獨立檔案或內嵌物件。 其中許多內容類型都有中繼資料屬性,對索引很有用。 就如同您可以為標準 Blob 屬性 (如 metadata_storage_name) 建立搜尋欄位,您可以在搜尋索引中為文件格式特定的中繼資料屬性建立欄位。
支援的文件格式
Azure AI 搜尋服務支援下列文件格式的 Blob 編製索引和 SharePoint 文件編製索引:
- CSV (請參閱編製 CSV Blob 的索引)
- EML
- EPUB
- GZ
- HTML
- JSON (請參閱編製 JSON Blob 的索引)
- KML (用於地理標記法的 XML)
- Microsoft Office 格式:DOCX/DOC/DOCM、XLSX/XLS/XLSM、PPTX/PPT/PPTM、MSG (Outlook 電子郵件)、XML (2003 和 2006 WORD XML)
- 開放式文件格式:ODT、ODS、ODP
- 純文字檔案 (另請參閱編制純文字的索引)
- RTF
- XML
- ZIP
檔案格式屬性
下表摘要說明每種文件格式的處理,並說明 Blob 索引子和 SharePoint 索引子所擷取的中繼資料屬性。
| 文件格式/內容類型 | 擷取的中繼資料 | 處理詳細資料 |
|---|---|---|
| CSV (文字/csv) | metadata_content_typemetadata_content_encoding |
擷取文字 注意:如果您需要從 CSV Blob 擷取多個檔欄位,請參閱 索引 CSV Blob |
| DOC (應用程式/msword) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
擷取文字,包括內嵌文件 |
| DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
擷取文字,包括內嵌文件 |
| DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
擷取文字,包括內嵌文件 |
| EML (訊息/rfc822) | metadata_content_typemetadata_message_frommetadata_message_tometadata_message_ccmetadata_creation_datemetadata_subject |
擷取文字,包括附件 |
| EPUB (應用程式/epub+zip) | metadata_content_typemetadata_authormetadata_creation_datemetadata_titlemetadata_descriptionmetadata_languagemetadata_keywordsmetadata_identifiermetadata_publisher |
從封存中的所有文件擷取文字 |
| GZ(應用程序/gzip) | metadata_content_type |
從封存中的所有文件擷取文字 |
| HTML (text/html 或 application/xhtml+xml) | metadata_content_encodingmetadata_content_typemetadata_languagemetadata_descriptionmetadata_keywordsmetadata_title |
拿掉 HTML 元素並擷取文字 |
| JSON (應用程式/json) | metadata_content_typemetadata_content_encoding |
擷取文字 注意:如果您需要從 JSON Blob 擷取多個檔欄位,請參閱 編制 JSON Blob 的索引 |
| KML (應用程式/vnd.google-earth.kml+xml) | metadata_content_typemetadata_content_encodingmetadata_language |
拿掉 XML 元素並擷取文字 |
| MSG (application/vnd.ms-outlook) | metadata_content_typemetadata_message_frommetadata_message_from_emailmetadata_message_tometadata_message_to_emailmetadata_message_ccmetadata_message_cc_emailmetadata_message_bccmetadata_message_bcc_emailmetadata_creation_datemetadata_last_modifiedmetadata_subject |
擷取文字,包括從附件擷取的文字。
metadata_message_to_email、 metadata_message_cc_email和 metadata_message_bcc_email 是字串集合。 其餘欄位是字串。 |
| ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_title |
擷取文字,包括內嵌文件 |
| ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
擷取文字,包括內嵌文件 |
| ODT (application/vnd.oasis.opendocument.text) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
擷取文字,包括內嵌文件 |
| PDF(申請/pdf) | metadata_content_typemetadata_languagemetadata_authormetadata_titlemetadata_creation_date |
擷取文字,包括內嵌文件 (不含影像) |
| 純文字 (text/plain) | metadata_content_typemetadata_content_encodingmetadata_language |
擷取文字 |
| PPT(應用程式/vnd.ms-powerpoint) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
擷取文字,包括內嵌文件 |
| PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
擷取文字,包括內嵌文件 |
| PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
擷取文字,包括內嵌文件 |
| RTF (應用程式/rtf) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
擷取文字 |
| WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_typemetadata_authormetadata_creation_date |
拿掉 XML 元素並擷取文字 |
| WORD XML (application/vnd.ms-word2006ml) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
拿掉 XML 元素並擷取文字 |
| XLS (application/vnd.ms-excel) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
擷取文字,包括內嵌文件 |
| XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
擷取文字,包括內嵌文件 |
| XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
擷取文字,包括內嵌文件 |
| XML (應用程式/xml) | metadata_content_typemetadata_content_encodingmetadata_language |
拿掉 XML 元素並擷取文字 |
| 郵政編碼(應用程序/郵政編碼) | metadata_content_type |
從封存中的所有文件擷取文字 |