Share via


Azure AI 검색에서 사용하는 콘텐츠 메타데이터 속성

Azure Blob Storage, Azure Data Lake Storage Gen2 및 SharePoint를 비롯한 여러 인덱서 지원 데이터 원본에는 독립 실행형 파일 또는 다양한 콘텐츠 형식의 포함된 개체가 포함되어 있습니다. 이러한 콘텐츠 유형의 대부분에는 인덱싱에 유용한 메타데이터 속성이 있습니다. metadata_storage_name과 같은 표준 Blob 속성 관련 검색 필드를 생성할 수 있는 것과 마찬가지로 문서 형식에 대해 지정된 메타데이터 속성에 대해 검색 인덱스에서 필드를 만들 수 있습니다.

지원되는 문서 형식

Azure AI 검색은 다음 문서 형식에 대해 Blob 인덱싱과 SharePoint 문서 인덱싱을 지원합니다.

  • CSV(CSV Blob 인덱싱 참조)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON(JSON BLOB 인덱싱 참조)
  • KML(지리적 표현을 위한 XML)
  • Microsoft Office 형식: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG(Outlook 메일), XML(2003 및 2006 WORD XML 모두)
  • 오픈 문서 형식: ODT, ODS, ODP
  • PDF
  • 일반 텍스트 파일(일반 텍스트 인덱싱도 참조)
  • RTF
  • XML
  • ZIP

문서 형식별 속성

다음 표에서는 각 문서 형식에 대한 처리를 요약하고 Blob 인덱서 및 SharePoint Online 인덱서에서 추출한 메타데이터 속성에 관해 설명합니다.

문서 형식/콘텐츠 형식 추출한 메타데이터 처리 세부 정보
CSV(text/csv) metadata_content_type
metadata_content_encoding
텍스트 추출
참고: CSV blob에서 여러 문서 필드를 추출해야 하는 경우 자세한 내용은 CSV blob 인덱싱을 참조하세요.
DOC(application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
포함된 문서를 비롯한 텍스트 추출
DOCM(application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
포함된 문서를 비롯한 텍스트 추출
DOCX(application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
포함된 문서를 비롯한 텍스트 추출
EML(메시지/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
첨부 파일을 비롯한 텍스트 추출
EPUB(application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
보관 파일의 모든 문서에서 텍스트 추출
GZ(application/gzip) metadata_content_type 보관 파일의 모든 문서에서 텍스트 추출
HTML(text/html 또는 application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
HTML 태그를 제거하고 텍스트 추출
JSON (application/json) metadata_content_type
metadata_content_encoding
텍스트 추출
참고: JSON BLOB에서 여러 문서 필드를 추출해야 하는 경우 자세한 내용은 JSON BLOB 인덱싱을 참조하세요.
KML(application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
XML 태그를 제거하고 텍스트 추출
MSG(application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
첨부 파일에서 추출한 텍스트를 포함해 텍스트를 추출합니다. metadata_message_to_email, metadata_message_cc_email, metadata_message_bcc_email은 문자열 컬렉션이며 나머지 필드는 문자열입니다.
ODP(application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
포함된 문서를 비롯한 텍스트 추출
ODS(application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
포함된 문서를 비롯한 텍스트 추출
ODT(application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
포함된 문서를 비롯한 텍스트 추출
PDF(application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
포함된 문서를 비롯한 텍스트 추출(이미지 제외)
일반 텍스트(text/plain) metadata_content_type
metadata_content_encoding
metadata_language
텍스트 추출
PPT(application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
포함된 문서를 비롯한 텍스트 추출
PPTM(application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
포함된 문서를 비롯한 텍스트 추출
PPTX(application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
포함된 문서를 비롯한 텍스트 추출
RTF(application/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
텍스트 추출
WORD 2003 XML(application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
XML 태그를 제거하고 텍스트 추출
WORD XML(application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
XML 태그를 제거하고 텍스트 추출
XLS(application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
포함된 문서를 비롯한 텍스트 추출
XLSM(application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
포함된 문서를 비롯한 텍스트 추출
XLSX(application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
포함된 문서를 비롯한 텍스트 추출
XML(application/xml) metadata_content_type
metadata_content_encoding
metadata_language
XML 태그를 제거하고 텍스트 추출
ZIP(application/zip) metadata_content_type 보관 파일의 모든 문서에서 텍스트 추출

참고 항목