Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Verschillende door indexeerfuncties ondersteunde gegevensbronnen, waaronder Azure Blob Storage, Azure Data Lake Storage Gen2 en SharePoint, bevatten zelfstandige bestanden of ingesloten objecten van verschillende inhoudstypen. Veel van deze inhoudstypen hebben metagegevenseigenschappen die nuttig kunnen zijn om te indexeren. Net zoals u zoekvelden kunt maken voor standaardblobeigenschappen zoals metadata_storage_name, kunt u velden maken in een zoekindex voor metagegevenseigenschappen die specifiek zijn voor een documentindeling.
Ondersteunde documentindelingen
Azure AI Search biedt ondersteuning voor blobindexering en SharePoint-documentindexering voor de volgende documentindelingen:
- CSV (zie CSV-blobs indexeren)
- EML
- EPUB
- GZ
- HTML
- JSON (zie JSON-blobs indexeren)
- KML (XML voor geografische weergaven)
- Microsoft Office-indelingen: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (e-mailberichten van Outlook), XML (zowel 2003 als 2006 WORD XML)
- Documentindelingen openen: ODT, ODS, ODP
- Tekstbestanden zonder opmaak (zie ook Indexering van tekst zonder opmaak)
- RTF
- XML
- ZIP
Eigenschappen van documentindeling
De volgende tabel bevat een overzicht van de verwerking voor elke documentindeling en beschrijft de metagegevenseigenschappen die zijn geëxtraheerd door een blobindexeerfunctie en de SharePoint-indexeerfunctie.
| Documentindeling/inhoudstype | Geëxtraheerde metagegevens | Verwerkingsdetails |
|---|---|---|
| CSV (tekst/csv) | metadata_content_typemetadata_content_encoding |
Tekst extraheren OPMERKING: Als u meerdere documentvelden uit een CSV-blob wilt extraheren, raadpleegt u CSV-blobs indexeren |
| DOC (application/msword) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Tekst extraheren, inclusief ingesloten documenten |
| DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Tekst extraheren, inclusief ingesloten documenten |
| DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Tekst extraheren, inclusief ingesloten documenten |
| EML (bericht/rfc822) | metadata_content_typemetadata_message_frommetadata_message_tometadata_message_ccmetadata_creation_datemetadata_subject |
Tekst extraheren, inclusief bijlagen |
| EPUB (toepassing/epub+zip) | metadata_content_typemetadata_authormetadata_creation_datemetadata_titlemetadata_descriptionmetadata_languagemetadata_keywordsmetadata_identifiermetadata_publisher |
Tekst extraheren uit alle documenten in het archief |
| GZ (toepassing/gzip) | metadata_content_type |
Tekst extraheren uit alle documenten in het archief |
| HTML (tekst/html of toepassing/xhtml+xml) | metadata_content_encodingmetadata_content_typemetadata_languagemetadata_descriptionmetadata_keywordsmetadata_title |
HTML-elementen stripen en tekst extraheren |
| JSON (applicatie/json) | metadata_content_typemetadata_content_encoding |
Tekst extraheren OPMERKING: Als u meerdere documentvelden uit een JSON-blob wilt extraheren, raadpleegt u JSON-blobs indexeren |
| KML (application/vnd.google-earth.kml+xml) | metadata_content_typemetadata_content_encodingmetadata_language |
XML-elementen stripen en tekst extraheren |
| MSG (application/vnd.ms-outlook) | metadata_content_typemetadata_message_frommetadata_message_from_emailmetadata_message_tometadata_message_to_emailmetadata_message_ccmetadata_message_cc_emailmetadata_message_bccmetadata_message_bcc_emailmetadata_creation_datemetadata_last_modifiedmetadata_subject |
Extraheer tekst, inclusief tekst die uit bijlagen is geëxtraheerd.
metadata_message_to_email, metadata_message_cc_emailen metadata_message_bcc_email zijn tekenreeksverzamelingen. De rest van de velden zijn tekenreeksen. |
| ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_title |
Tekst extraheren, inclusief ingesloten documenten |
| ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Tekst extraheren, inclusief ingesloten documenten |
| ODT (application/vnd.oasis.opendocument.text) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Tekst extraheren, inclusief ingesloten documenten |
| PDF (toepassing/pdf) | metadata_content_typemetadata_languagemetadata_authormetadata_titlemetadata_creation_date |
Tekst extraheren, inclusief ingesloten documenten (met uitzondering van afbeeldingen) |
| Tekst zonder opmaak (tekst/tekst zonder opmaak) | metadata_content_typemetadata_content_encodingmetadata_language |
Tekst extraheren |
| PPT (application/vnd.ms-powerpoint) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
Tekst extraheren, inclusief ingesloten documenten |
| PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
Tekst extraheren, inclusief ingesloten documenten |
| PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modifiedmetadata_slide_countmetadata_title |
Tekst extraheren, inclusief ingesloten documenten |
| RTF (toepassing/rtf) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
Tekst extraheren |
| WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_typemetadata_authormetadata_creation_date |
XML-elementen stripen en tekst extraheren |
| WORD XML (application/vnd.ms-word2006ml) | metadata_content_typemetadata_authormetadata_character_countmetadata_creation_datemetadata_last_modifiedmetadata_page_countmetadata_word_count |
XML-elementen stripen en tekst extraheren |
| XLS (application/vnd.ms-excel) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Tekst extraheren, inclusief ingesloten documenten |
| XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Tekst extraheren, inclusief ingesloten documenten |
| XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_typemetadata_authormetadata_creation_datemetadata_last_modified |
Tekst extraheren, inclusief ingesloten documenten |
| XML (toepassing/xml) | metadata_content_typemetadata_content_encodingmetadata_language |
XML-elementen stripen en tekst extraheren |
| ZIP (toepassing/zip) | metadata_content_type |
Tekst extraheren uit alle documenten in het archief |