Bagikan melalui


Properti metadata konten yang digunakan dalam Pencarian Azure AI

Beberapa sumber data yang didukung pengindeks, termasuk Azure Blob Storage, Azure Data Lake Storage Gen2, dan SharePoint, berisi file mandiri atau objek yang disematkan dari berbagai jenis konten. Banyak dari jenis konten tersebut memiliki properti metadata yang dapat berguna untuk diindeks. Sama seperti Anda dapat membuat bidang pencarian untuk properti blob standar seperti metadata_storage_name, Anda dapat membuat bidang dalam indeks pencarian untuk properti metadata yang khusus untuk format dokumen.

Format dokumen yang didukung

Azure AI Search mendukung pengindeksan blob dan pengindeksan dokumen SharePoint untuk format dokumen berikut:

  • CSV (lihat Mengindeks blob CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (lihat Mengindeks blob JSON)
  • KML (XML untuk representasi geografis)
  • Format Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (email Outlook), XML (XML WORD 2003 dan 2006)
  • Format Dokumen Terbuka: ODT, ODS, ODP
  • PDF
  • File teks biasa (lihat juga Mengindeks teks biasa)
  • RTF
  • XML
  • ZIP

Properti format dokumen

Tabel berikut ini meringkas pemrosesan untuk setiap format dokumen, dan menjelaskan properti metadata yang diekstrak oleh pengindeks blob dan pengindeks SharePoint Online.

Format dokumen/tipe konten Metadata yang diekstrak Detail pemrosesan
CSV (text/csv) metadata_content_type
metadata_content_encoding
Ekstrak teks
CATATAN: Jika Anda perlu mengekstrak beberapa bidang dokumen dari blob CSV, lihat Mengindeks blob CSV
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Ekstrak teks, termasuk dokumen yang dilampirkan
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Ekstrak teks, termasuk dokumen yang dilampirkan
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.documen) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Ekstrak teks, termasuk dokumen yang dilampirkan
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Ekstrak teks, termasuk lampiran
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Ekstrak teks dari semua dokumen dalam arsip
GZ (application/gzip) metadata_content_type Ekstrak teks dari semua dokumen dalam arsip
HTML (text/html atau application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Menghapus elemen HTML dan mengekstrak teks
JSON (application/json) metadata_content_type
metadata_content_encoding
Ekstrak teks
CATATAN: Jika Anda perlu mengekstrak beberapa bidang dokumen dari blob JSON, lihat Mengindeks blob JSON
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Menghapus elemen XML dan mengekstrak teks
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Ekstrak teks, termasuk teks yang diekstrak dari lampiran. metadata_message_to_email, metadata_message_cc_email, dan metadata_message_bcc_email adalah koleksi string. Bidang lainnya adalah string.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Ekstrak teks, termasuk dokumen yang dilampirkan
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Ekstrak teks, termasuk dokumen yang dilampirkan
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Ekstrak teks, termasuk dokumen yang dilampirkan
PDF (application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Ekstrak teks, termasuk dokumen yang dilampirkan (tidak termasuk gambar)
Teks biasa (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Ekstrak teks
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Ekstrak teks, termasuk dokumen yang dilampirkan
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Ekstrak teks, termasuk dokumen yang dilampirkan
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Ekstrak teks, termasuk dokumen yang dilampirkan
RTF (application/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Ekstrak teks
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Menghapus elemen XML dan mengekstrak teks
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Menghapus elemen XML dan mengekstrak teks
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Ekstrak teks, termasuk dokumen yang dilampirkan
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Ekstrak teks, termasuk dokumen yang dilampirkan
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Ekstrak teks, termasuk dokumen yang dilampirkan
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Menghapus elemen XML dan mengekstrak teks
ZIP (application/zip) metadata_content_type Ekstrak teks dari semua dokumen dalam arsip