Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Beberapa sumber data yang didukung pengindeks, termasuk Azure Blob Storage, Azure Data Lake Storage Gen2, dan SharePoint, berisi file mandiri atau objek yang disematkan dari berbagai jenis konten. Banyak dari jenis konten tersebut memiliki properti metadata yang dapat berguna untuk diindeks. Sama seperti Anda dapat membuat bidang pencarian untuk properti blob standar seperti metadata_storage_name, Anda dapat membuat bidang dalam indeks pencarian untuk properti metadata yang khusus untuk format dokumen.
Format dokumen yang didukung
Azure AI Search mendukung pengindeksan blob dan pengindeksan dokumen SharePoint untuk format dokumen berikut:
- CSV (lihat Mengindeks blob CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (lihat Mengindeks blob JSON)
- KML (XML untuk representasi geografis)
- Format Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (email Outlook), XML (XML WORD 2003 dan 2006)
- Format Dokumen Terbuka: ODT, ODS, ODP
- File teks biasa (lihat juga Mengindeks teks biasa)
- RTF
- XML
- ZIP
Properti format dokumen
Tabel berikut ini meringkas pemrosesan untuk setiap format dokumen, dan menjelaskan properti metadata yang diekstrak oleh pengindeks blob dan pengindeks SharePoint.
| Format dokumen/tipe konten | Metadata yang diekstrak | Detail pemrosesan |
|---|---|---|
| CSV (text/csv) | metadata_content_typemetadata_content_encoding |
Ekstrak teks CATATAN: Jika Anda perlu mengekstrak beberapa bidang dokumen dari blob CSV, lihat Mengindeks blob CSV |
| DOC (application/msword) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.documen) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| EML (message/rfc822) | metadata_content_typemetadata_message_frommetadata_message_tometadata_message_ccmetadata_creation_datemetadata_subject |
Ekstrak teks, termasuk lampiran |
| EPUB (application/epub+zip) | metadata_content_typemetadata_authormetadata_creation_datemetadata_titlemetadata_descriptionmetadata_languagemetadata_keywordsmetadata_identifiermetadata_publisher |
Ekstrak teks dari semua dokumen dalam arsip |
| GZ (application/gzip) | metadata_content_type |
Ekstrak teks dari semua dokumen dalam arsip |
| HTML (text/html atau application/xhtml+xml) | metadata_content_encodingmetadata_content_typemetadata_languagemetadata_descriptionmetadata_keywordsmetadata_title |
Menghapus elemen HTML dan mengekstrak teks |
| JSON (aplikasi/json) | metadata_content_typemetadata_content_encoding |
Ekstrak teks CATATAN: Jika Anda perlu mengekstrak beberapa bidang dokumen dari blob JSON, lihat Mengindeks blob JSON |
| KML (application/vnd.google-earth.kml+xml) | metadata_content_typemetadata_content_encodingmetadata_language |
Menghapus elemen XML dan mengekstrak teks |
| MSG (application/vnd.ms-outlook) | metadata_content_typemetadata_message_frommetadata_message_from_emailmetadata_message_tometadata_message_to_emailmetadata_message_ccmetadata_message_cc_emailmetadata_message_bccmetadata_message_bcc_emailmetadata_creation_datemetadata_last_modifiedmetadata_subject |
Ekstrak teks, termasuk teks yang diekstrak dari lampiran.
metadata_message_to_email, metadata_message_cc_email, dan metadata_message_bcc_email adalah koleksi string. Bidang lainnya adalah string. |
| ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_title |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| ODT (application/vnd.oasis.opendocument.text) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| PDF (aplikasi/pdf) | metadata_content_typemetadata_languagemetadata_authormetadata_titlemetadata_creation_date |
Ekstrak teks, termasuk dokumen yang dilampirkan (tidak termasuk gambar) |
| Teks biasa (text/plain) | metadata_content_typemetadata_content_encodingmetadata_language |
Ekstrak teks |
| PPT (application/vnd.ms-powerpoint) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| RTF (aplikasi/rtf) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Ekstrak teks |
| WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_typemetadata_authormetadata_creation_date |
Menghapus elemen XML dan mengekstrak teks |
| WORD XML (application/vnd.ms-word2006ml) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Menghapus elemen XML dan mengekstrak teks |
| XLS (application/vnd.ms-excel) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Ekstrak teks, termasuk dokumen yang dilampirkan |
| XML (aplikasi/xml) | metadata_content_typemetadata_content_encodingmetadata_language |
Menghapus elemen XML dan mengekstrak teks |
| ZIP (aplikasi/zip) | metadata_content_type |
Ekstrak teks dari semua dokumen dalam arsip |