Properti metadata konten yang digunakan dalam Pencarian Azure AI
Beberapa sumber data yang didukung pengindeks, termasuk Azure Blob Storage, Azure Data Lake Storage Gen2, dan SharePoint, berisi file mandiri atau objek yang disematkan dari berbagai jenis konten. Banyak dari jenis konten tersebut memiliki properti metadata yang dapat berguna untuk diindeks. Sama seperti Anda dapat membuat bidang pencarian untuk properti blob standar seperti metadata_storage_name
, Anda dapat membuat bidang dalam indeks pencarian untuk properti metadata yang khusus untuk format dokumen.
Format dokumen yang didukung
Azure AI Search mendukung pengindeksan blob dan pengindeksan dokumen SharePoint untuk format dokumen berikut:
- CSV (lihat Mengindeks blob CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (lihat Mengindeks blob JSON)
- KML (XML untuk representasi geografis)
- Format Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (email Outlook), XML (XML WORD 2003 dan 2006)
- Format Dokumen Terbuka: ODT, ODS, ODP
- File teks biasa (lihat juga Mengindeks teks biasa)
- RTF
- XML
- ZIP
Properti format dokumen
Tabel berikut ini meringkas pemrosesan untuk setiap format dokumen, dan menjelaskan properti metadata yang diekstrak oleh pengindeks blob dan pengindeks SharePoint Online.
Format dokumen/tipe konten | Metadata yang diekstrak | Detail pemrosesan |
---|---|---|
CSV (text/csv) | metadata_content_type metadata_content_encoding |
Ekstrak teks CATATAN: Jika Anda perlu mengekstrak beberapa bidang dokumen dari blob CSV, lihat Mengindeks blob CSV |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Ekstrak teks, termasuk dokumen yang dilampirkan |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Ekstrak teks, termasuk dokumen yang dilampirkan |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.documen) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Ekstrak teks, termasuk dokumen yang dilampirkan |
EML (message/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Ekstrak teks, termasuk lampiran |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Ekstrak teks dari semua dokumen dalam arsip |
GZ (application/gzip) | metadata_content_type |
Ekstrak teks dari semua dokumen dalam arsip |
HTML (text/html atau application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Menghapus elemen HTML dan mengekstrak teks |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Ekstrak teks CATATAN: Jika Anda perlu mengekstrak beberapa bidang dokumen dari blob JSON, lihat Mengindeks blob JSON |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Menghapus elemen XML dan mengekstrak teks |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Ekstrak teks, termasuk teks yang diekstrak dari lampiran. metadata_message_to_email , metadata_message_cc_email , dan metadata_message_bcc_email adalah koleksi string. Bidang lainnya adalah string. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Ekstrak teks, termasuk dokumen yang dilampirkan |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Ekstrak teks, termasuk dokumen yang dilampirkan |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Ekstrak teks, termasuk dokumen yang dilampirkan |
PDF (application/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Ekstrak teks, termasuk dokumen yang dilampirkan (tidak termasuk gambar) |
Teks biasa (text/plain) | metadata_content_type metadata_content_encoding metadata_language |
Ekstrak teks |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Ekstrak teks, termasuk dokumen yang dilampirkan |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Ekstrak teks, termasuk dokumen yang dilampirkan |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Ekstrak teks, termasuk dokumen yang dilampirkan |
RTF (application/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Ekstrak teks |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Menghapus elemen XML dan mengekstrak teks |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Menghapus elemen XML dan mengekstrak teks |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Ekstrak teks, termasuk dokumen yang dilampirkan |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Ekstrak teks, termasuk dokumen yang dilampirkan |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Ekstrak teks, termasuk dokumen yang dilampirkan |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
Menghapus elemen XML dan mengekstrak teks |
ZIP (application/zip) | metadata_content_type |
Ekstrak teks dari semua dokumen dalam arsip |