Propriétés des métadonnées de contenu utilisées dans Recherche Azure AI
Parmi les sources de données prises en charge par un indexeur, notamment Stockage Blob Azure, Azure Data Lake Storage Gen2 et SharePoint, certaines contiennent des fichiers autonomes ou des objets incorporés de différents types de contenu. La plupart de ces types de contenu ont des propriétés de métadonnées qu’il peut être utile d’indexer. De la même façon que vous pouvez créer des champs de recherche pour les propriétés d’objet blob standard comme metadata_storage_name
, vous pouvez créer des champs dans un index de recherche pour les propriétés de métadonnées propres à un format de document.
Formats de document pris en charge
Recherche Azure AI prend en charge l’indexation de blobs et l’indexation de documents SharePoint pour les formats de document suivants :
- CSV (consultez Indexation d’objets blob CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (consultez l’indexation d’objets JSON blobs)
- KML (XML pour les représentations géographiques)
- Formats Microsoft Office : DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (e-mails Outlook), XML (XML WORD 2003 et 2006)
- Formats de document ouverts : ODT, ODS, ODP
- Fichiers de texte brut (voir aussi l’indexation de texte brut)
- RTF
- XML
- ZIP
Propriétés par format de document
Le tableau suivant résume le traitement pour chaque format de document. On y trouve également une description des propriétés des métadonnées extraites par un indexeur d'objets blob et par l'indexeur de SharePoint Online.
Format de document/type de contenu | Métadonnées extraites | Détails du traitement |
---|---|---|
CSV (texte/CSV) | metadata_content_type metadata_content_encoding |
Extraction du texte REMARQUE : si vous devez extraire plusieurs champs de document à partir d’un objet blob CSV, consultez Indexer des objets blob CSV |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extraction du texte, y compris les documents incorporés |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extraction du texte, y compris les documents incorporés |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extraction du texte, y compris les documents incorporés |
EML (message/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Extraction du texte, y compris les pièces jointes |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Extraction du texte de tous les documents figurant dans l’archive |
GZ (application/gzip) | metadata_content_type |
Extraction du texte de tous les documents figurant dans l’archive |
HTML (texte/HTML ou application/XHTML+XML) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Supprimer des éléments HTML et extraire du texte |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Extraction du texte REMARQUE : si vous devez extraire plusieurs champs de document à partir d’un objet blob JSON, consultez Indexer des objets blob CSV |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Supprimer des éléments XML et extraire du texte |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Extrayez le texte, y compris celui des pièces jointes. metadata_message_to_email , metadata_message_cc_email et metadata_message_bcc_email sont des collections de chaînes. Les champs restants sont des chaînes. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Extraction du texte, y compris les documents incorporés |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extraction du texte, y compris les documents incorporés |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extraction du texte, y compris les documents incorporés |
PDF (application/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Extraction du texte, y compris les documents incorporés (à l’exclusion des images) |
Texte brut (text/plain) | metadata_content_type metadata_content_encoding metadata_language |
Extraction du texte |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extraction du texte, y compris les documents incorporés |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extraction du texte, y compris les documents incorporés |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extraction du texte, y compris les documents incorporés |
RTF (application/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extraction du texte |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Supprimer des éléments XML et extraire du texte |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Supprimer des éléments XML et extraire du texte |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extraction du texte, y compris les documents incorporés |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extraction du texte, y compris les documents incorporés |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extraction du texte, y compris les documents incorporés |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
Supprimer des éléments XML et extraire du texte |
ZIP (application/zip) | metadata_content_type |
Extraction du texte de tous les documents figurant dans l’archive |