Propriétés des métadonnées de contenu utilisées dans Recherche Azure AI

Parmi les sources de données prises en charge par un indexeur, notamment Stockage Blob Azure, Azure Data Lake Storage Gen2 et SharePoint, certaines contiennent des fichiers autonomes ou des objets incorporés de différents types de contenu. La plupart de ces types de contenu ont des propriétés de métadonnées qu’il peut être utile d’indexer. De la même façon que vous pouvez créer des champs de recherche pour les propriétés d’objet blob standard comme metadata_storage_name, vous pouvez créer des champs dans un index de recherche pour les propriétés de métadonnées propres à un format de document.

Formats de document pris en charge

Recherche Azure AI prend en charge l’indexation de blobs et l’indexation de documents SharePoint pour les formats de document suivants :

Propriétés par format de document

Le tableau suivant résume le traitement pour chaque format de document. On y trouve également une description des propriétés des métadonnées extraites par un indexeur d'objets blob et par l'indexeur de SharePoint Online.

Format de document/type de contenu Métadonnées extraites Détails du traitement
CSV (texte/CSV) metadata_content_type
metadata_content_encoding
Extraction du texte
REMARQUE : Si vous devez extraire plusieurs champs de document à partir d’un objet blob CSV, consultez Indexation d’objets blob CSV pour plus de détails
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extraction du texte, y compris les documents incorporés
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extraction du texte, y compris les documents incorporés
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extraction du texte, y compris les documents incorporés
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Extraction du texte, y compris les pièces jointes
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Extraction du texte de tous les documents figurant dans l’archive
GZ (application/gzip) metadata_content_type Extraction du texte de tous les documents figurant dans l’archive
HTML (texte/HTML ou application/XHTML+XML) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Suppression du balisage HTML et extraction du texte
JSON (application/json) metadata_content_type
metadata_content_encoding
Extraction du texte
REMARQUE : si vous devez extraire plusieurs champs de document à partir d’un objet blob JSON, consultez Indexation d’objets blob JSON pour plus de détails
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Suppression du balisage XML et extraction du texte
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Extrayez le texte, y compris celui des pièces jointes. metadata_message_to_email, metadata_message_cc_email et metadata_message_bcc_email sont des collections de chaînes ; les autres champs sont des chaînes.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Extraction du texte, y compris les documents incorporés
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extraction du texte, y compris les documents incorporés
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extraction du texte, y compris les documents incorporés
PDF (application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Extraction du texte, y compris les documents incorporés (à l’exclusion des images)
Texte brut (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Extraction du texte
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extraction du texte, y compris les documents incorporés
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extraction du texte, y compris les documents incorporés
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extraction du texte, y compris les documents incorporés
RTF (application/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extraction du texte
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Suppression du balisage XML et extraction du texte
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Suppression du balisage XML et extraction du texte
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extraction du texte, y compris les documents incorporés
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extraction du texte, y compris les documents incorporés
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extraction du texte, y compris les documents incorporés
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Suppression du balisage XML et extraction du texte
ZIP (application/zip) metadata_content_type Extraction du texte de tous les documents figurant dans l’archive

Voir aussi