Freigeben über


Metadateneigenschaften von Inhalten, die in Azure KI Search verwendet werden

Einige der vom Indexer unterstützten Datenquellen, einschließlich Azure Blob Storage, Azure Data Lake Storage Gen2 und SharePoint, enthalten eigenständige Dateien oder eingebettete Objekte verschiedener Inhaltstypen. Viele dieser Inhaltstypen verfügen über Metadateneigenschaften, die für die Indizierung nützlich sein können. So wie Sie Suchfelder für standardmäßige Blobeigenschaften wie metadata_storage_name erstellen können, lassen sich in einem Suchindex auch Felder für Metadateneigenschaften erstellen, die für ein Dokumentformat spezifisch sind.

Unterstützte Dokumentformate

Azure KI Search unterstützt die Blobindizierung und die SharePoint-Dokumentindizierung für die folgenden Dokumentformate:

Eigenschaften nach Dokumentformat

In der folgenden Tabelle ist die Verarbeitung für jedes Dokumentformat zusammengefasst, und es werden die Metadateneigenschaften beschrieben, die von einem Blobindexer und dem SharePoint Online-Indexer extrahiert werden.

Dokumentformat/Inhaltstyp Extrahierte Metadaten Verarbeitungsdetails
CSV (text/csv) metadata_content_type
metadata_content_encoding
Extrahieren von Text
HINWEIS: Wenn Sie mehrere Felder des Dokuments aus einem CSV-Blob extrahieren möchten, helfen Ihnen die ausführlichen Informationen unter Indizierung der CSV-Blobs weiter
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahieren von Text, z. B. eingebettete Dokumente
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahieren von Text, z. B. eingebettete Dokumente
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahieren von Text, z. B. eingebettete Dokumente
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Extrahieren von Text, einschließlich Anlagen
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Extrahieren von Text aus allen Dokumenten im Archiv
GZ (application/gzip) metadata_content_type Extrahieren von Text aus allen Dokumenten im Archiv
HTML (text/html oder application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Entfernen von HTML-Markup und Extrahieren von Text
JSON (application/json) metadata_content_type
metadata_content_encoding
Extrahieren von Text
HINWEIS: Wenn Sie mehrere Felder des Dokuments aus einem JSON-Blob extrahieren möchten, helfen Ihnen die ausführlichen Informationen unter Indizierung der JSON-Blobs weiter.
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Entfernen von XML-Markup und Extrahieren von Text
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Extrahieren von Text (einschließlich aus Anlagen extrahierter Text). metadata_message_to_email, metadata_message_cc_email und metadata_message_bcc_email sind Zeichenfolgensammlungen, die übrigen Felder sind Zeichenfolgen.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Extrahieren von Text, z. B. eingebettete Dokumente
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahieren von Text, z. B. eingebettete Dokumente
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahieren von Text, z. B. eingebettete Dokumente
PDF (application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Extrahieren von Text, z. B. eingebettete Dokumente (mit Ausnahme von Bildern)
Nur-Text (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Extrahieren von Text
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrahieren von Text, z. B. eingebettete Dokumente
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrahieren von Text, z. B. eingebettete Dokumente
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrahieren von Text, z. B. eingebettete Dokumente
RTF (application/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahieren von Text
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Entfernen von XML-Markup und Extrahieren von Text
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Entfernen von XML-Markup und Extrahieren von Text
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahieren von Text, z. B. eingebettete Dokumente
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahieren von Text, z. B. eingebettete Dokumente
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahieren von Text, z. B. eingebettete Dokumente
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Entfernen von XML-Markup und Extrahieren von Text
ZIP (application/zip) metadata_content_type Extrahieren von Text aus allen Dokumenten im Archiv

Siehe auch