투명도 참고: Azure AI 검색

중요합니다

영어가 아닌 번역은 편의를 위해서만 제공됩니다. 최종 버전은 이 문서의 EN-US 버전 참조하세요.

투명성 노트란 무엇인가요?

AI 시스템에는 기술뿐만 아니라 기술을 사용하는 사람, 영향을 받는 사람, 배포되는 환경이 포함됩니다. 의도한 목적에 맞는 시스템을 만들려면 기술의 작동 방식, 기능 및 제한 사항 및 최상의 성능을 달성하는 방법에 대한 이해가 필요합니다. Microsoft의 투명성 고지는 Microsoft의 AI 기술의 작동 방식, 시스템 소유자가 시스템 성능과 동작에 영향을 줄 수 있는 선택 사항 그리고 기술, 사람, 환경을 포함한 전체 시스템에 대한 사고의 중요성을 이해하는 데 도움을 주기 위한 것입니다. 고유한 시스템을 개발하거나 배포할 때 투명도 메모를 사용하거나 시스템의 영향을 받는 사용자와 공유할 수 있습니다.

Microsoft의 투명성 고지는 AI 원칙을 실천하기 위한 Microsoft의 광범위한 노력의 일환입니다. 자세한 내용은 Microsoft AI 원칙을 참조하세요.

Azure AI 검색 기본 사항

소개

Azure AI 검색 개발자 도구, API 및 SDK를 제공하여 웹, 모바일 및 엔터프라이즈 애플리케이션에서 다른 유형의 프라이빗 콘텐츠를 통해 풍부한 검색 환경을 구축할 수 있습니다. 검색은 사용자에게 데이터를 표시하는 모든 애플리케이션의 기초입니다. 일반적인 시나리오에는 카탈로그 또는 문서 검색, 온라인 소매점 또는 독점 콘텐츠에 대한 데이터 탐색이 포함됩니다.

검색 가능한 데이터는 텍스트 또는 벡터 형식이고 데이터 원본에서 as-is 수집하거나 AI를 사용하여 보강하여 전체 검색 환경을 개선할 수 있습니다. 개발자는 외부 machine learning 모델(포함 모델이라고 함)을 호출하도록 선택하여 데이터 int를 숫자 표현(벡터라고 함)으로 변환할 수 있습니다. 인덱서는 필요에 따라 Foundry 도구의 다양한 Azure 언어 기능을 통해 강력한 데이터 보강 제품군을 지원하는 기술 집합을 포함할 수 있습니다. 이름 지정된 엔터티 인식 (NER), 개인 식별 가능 정보 (PII) 검색과 같은 기능, 그리고 Azure 비전(Foundry 도구 내) 기능을 통한 광학 문자 인식 (OCR), 이미지 분석을 포함하는 기능들이 있습니다.

Foundry 도구 또는 다른 AI 시스템을 사용하여 고객 콘텐츠의 의도, 의미 체계 및 암시적 구조를 더 잘 이해함으로써 Azure AI 검색 검색 환경을 개선하는 방법에 대한 자세한 내용은 다음 탭을 참조하세요.

AI 보강은 원시 형식으로 쉽게 검색할 수 없는 콘텐츠에 대해 Foundry 도구의 machine learning 모델을 적용합니다. 보강을 통해 분석 및 유추를 사용하여 이전에 존재하지 않았던 검색 가능한 콘텐츠와 구조를 만듭니다.

AI 강화는 고객의 검색 서비스와 동일한 지역에 있는 Foundry 도구에 연결하는 Azure AI 검색 인덱서 파이프라인의 선택적 확장입니다. 보강 파이프라인에는 일반적인 인덱서(인덱서, 데이터 원본, 인덱스)와 동일한 핵심 구성 요소와 원자성 보강 단계를 지정하는 기술 집합이 있습니다. 기술 집합은 사용자가 제공하는 외부 코드를 실행하는 Vision 및 Language 또는 custom skills 같은 Foundry Tools API를 기반으로 하는 기본 제공 기술을 사용하여 어셈블할 수 있습니다.

벡터 검색은 문서와 쿼리가 일반 텍스트가 아닌 벡터로 인덱스에 표시되는 정보 검색 방법입니다. 벡터 검색에서 Azure AI 검색 외부에서 호스트되는 머신 러닝 모델은 텍스트, 이미지, 오디오 또는 비디오 콘텐츠 등의 원본 입력의 벡터 표현을 생성합니다. 벡터 포함이라고 하는 이러한 수학적 및 정규화된 콘텐츠 표현은 검색 시나리오에 대한 일반적인 기초를 제공합니다.

모든 항목이 벡터인 경우 연결된 원본 콘텐츠가 이미지와 텍스트 또는 쿼리와 언어와 같은 다른 미디어 형식에 있더라도 쿼리는 벡터 공간에서 일치 항목을 찾을 수 있습니다. 검색 엔진은 인덱스를 검색하여 쿼리의 벡터와 가장 유사한 벡터 콘텐츠, 즉 가장 가까운 벡터 콘텐츠를 찾습니다. 키워드 대신 수학 벡터 표현에서 일치하면 의미 체계적 의미를 공유하지만 "car" 및 "auto"와 같이 텍스트로 구분되는 일치 항목을 찾을 가능성이 훨씬 더 높습니다. 이렇게 하면 벡터 포함 및 유사성 알고리즘의 작동 방식에 대한 자세한 소개가 있습니다.

주요 용어

기간	Definition
벡터 임베딩	이미지, 오디오, 비디오 또는 텍스트에서 machine learning 모델에서 추출한 의미와 이해를 반영하는 데이터를 나타내는 고도로 최적화된 방법입니다. 콘텐츠는 인덱싱 및 쿼리 시간에 모두 벡터 포함으로 변환됩니다. 벡터 검색은 쿼리에 제공된 포함을 사용하고 인덱스에서 가장 유사한 포함을 찾는 데 해당합니다. 결과는 일반적으로 유사성 정도별로 정렬됩니다.
임베딩 공간	단일 필드에 대한 모음의 모든 벡터는 유사한 항목이 서로 가까이 있고 서로 다른 항목이 더 멀리 떨어져 있는 동일한 포함 공간을 차지합니다. 포함 공간의 차원을 높이면 단일 벡터에 더 많은 정보가 포함될 수 있으며 검색 환경이 크게 향상되지만 인덱스 storage 크기 및 쿼리 대기 시간이 크게 증가합니다.

기간

Definition

벡터 임베딩

이미지, 오디오, 비디오 또는 텍스트에서 machine learning 모델에서 추출한 의미와 이해를 반영하는 데이터를 나타내는 고도로 최적화된 방법입니다. 콘텐츠는 인덱싱 및 쿼리 시간에 모두 벡터 포함으로 변환됩니다. 벡터 검색은 쿼리에 제공된 포함을 사용하고 인덱스에서 가장 유사한 포함을 찾는 데 해당합니다. 결과는 일반적으로 유사성 정도별로 정렬됩니다.

임베딩 공간

단일 필드에 대한 모음의 모든 벡터는 유사한 항목이 서로 가까이 있고 서로 다른 항목이 더 멀리 떨어져 있는 동일한 포함 공간을 차지합니다. 포함 공간의 차원을 높이면 단일 벡터에 더 많은 정보가 포함될 수 있으며 검색 환경이 크게 향상되지만 인덱스 storage 크기 및 쿼리 대기 시간이 크게 증가합니다.

의미 체계 순위는 쿼리의 컨텍스트 또는 의미 체계 의미를 사용하여 원래 쿼리의 의도에 가장 가까운 결과를 위쪽으로 승격하는 새 관련성 점수를 계산합니다. 초기 결과 집합은 BM25 순위 검색, 벡터 검색, 또는 둘 다 결합한 하이브리드 검색의 키워드 검색에서 올 수 있습니다. 또한 검색 결과에서 찾은 정확한 콘텐츠를 추출하여 "캡션"을 만들고 반환하고, 검색 결과에서 중요한 콘텐츠를 강조 표시하기 위해 "강조 표시"도 합니다. 또한 쿼리에 질문의 특성("물의 동결점이란")이 있고 결과에 답변의 특징이 있는 텍스트("물은 0°C 또는 32°F에서 동결됨")가 포함된 경우 "답변"을 반환할 수 있습니다.

주요 용어

기간	Definition
의미 순위매기기	쿼리의 문맥과 의미론적 의미를 활용하여, language understanding을 통해 검색 결과의 순위를 재조정함으로써 검색 관련성을 향상시킵니다.
시맨틱 캡션 및 강조 표시	콘텐츠를 가장 잘 요약하는 문서에서 문장과 구를 추출하고, 주요 구절을 강조 표시하여 쉽게 검색할 수 있습니다. 결과를 요약하는 캡션은 개별 콘텐츠 필드가 결과 페이지에 비해 너무 조밀한 경우에 유용합니다. 강조 표시된 텍스트는 사용자가 일치 항목으로 간주되는 이유를 빠르게 확인할 수 있도록 가장 관련성이 높은 용어와 구를 승격시킵니다.
의미론적 답변	의미 체계 쿼리에서 반환된 선택적 및 추가 하위 구조를 제공합니다. 질문처럼 보이는 쿼리에 직접 답변을 제공합니다. 문서에 대답의 특성이 있는 텍스트가 있어야 합니다.

GenAI 프롬프트 기술은 Azure AI 검색 기술 카탈로그의 일부로, 고객이 데이터를 기반으로 AI 생성 콘텐츠를 사용하여 검색 인덱스를 향상시킬 수 있도록 합니다. 이 기술은 고객의 조직 자체 데이터 및 기본 설정을 사용하여 특정 요구 사항에 맞는 맞춤형 요약, 답변 또는 인사이트를 생성하는 데 도움이 됩니다.

즉, 최종 사용자가 AI Search를 통해 고객의 콘텐츠를 검색할 때 AI에서 생성된 콘텐츠는 더 많은 정보와 컨텍스트 인식 결과를 제공하여 사용자가 찾고 있는 정보를 더 쉽게 찾을 수 있도록 합니다.

주요 용어

기간	Definition
기술	Azure AI 검색 기술은 Azure AI 검색 보강 파이프라인 내의 모듈식 처리 구성 요소입니다. 이러한 기술은 인덱싱 중에 텍스트, 이미지 또는 문서와 같은 원시 콘텐츠에 AI 기반 변환을 적용하여 구조화되지 않은 데이터에서 구조화되고 검색 가능한 정보를 추출할 수 있도록 합니다.
프롬프트	API 호출에서 서비스에 보내는 텍스트입니다. 그런 다음 이 텍스트가 모델에 입력됩니다. 예를 들어 다음 프롬프트를 입력할 수 있습니다. 질문을 명령으로 변환합니다. Q: Constance에게 우리가 빵이 필요한지 물어보세요 send-msg `find constance` 우리 빵이 필요한가요? Q: 그렉에게 메시지를 보내 수요일에 준비가 되었는지 알아내세요. A: Send-msg `find greg` 수요일 준비되셨나요?
인덱스 검색	Azure AI 검색 인덱스는 검색 가능한 콘텐츠를 보관하고, 저장 방법을 정의하며, 쿼리를 실행할 때 서비스에서 해석하는 방법을 제어하는 데이터 구조입니다.

에이전트 검색은 LLM(대화형 대규모 언어 모델)을 "쿼리 planner"로 사용하는 병렬 쿼리 처리 아키텍처입니다. LLM은 필요에 따라 사용자의 대화 기록을 하나 또는 여러 개의 포커스가 있는 하위 쿼리로 바꿉니다. 이러한 하위 쿼리는 Azure AI 검색 인덱스에 동시에 실행되고 서비스는 상위 결과를 병합하여 반환합니다.

가장 관련성이 큰 구절(접지 데이터)을 포함하는 단일 콘텐츠 문자열입니다.
전체 원본 문서 또는 청크를 노출하는 참조 배열(선택 사항)입니다.
비용 추적 및 디버깅을 지원하기 위해 모든 작업, 토큰 수 및 대기 시간을 나열하는 활동 배열입니다.

주요 용어

기간	Definition

에이전트 검색	이는 AI 에이전트가 일련의 단계를 계획하고 실행하여 접지 원본에서 정보를 검색하는 것을 의미합니다. 여기에는 쿼리에 대한 가장 관련성이 큰 정보를 얻기 위한 검색 쿼리 및 구체화와 같은 작업이 포함됩니다.
접지 데이터	에이전트 검색에서 반환된 문서/정보 집합입니다. 외부 LLM이 자연어 답변으로 인용하거나 변환하여 추적 가능성을 보장하고 환각 위험을 줄일 수 있는 사실적인 기초 역할을 합니다.
쿼리 계획자	대화 기록을 하위 쿼리로 분할하여 기본 검색 쿼리에 가장 관련성이 큰 접지 데이터를 찾습니다.
하위 쿼리	LLM에 의해 생성된 단일 쿼리입니다. 하위 쿼리는 요청의 사용자 질문, 채팅 기록 및 매개 변수를 기반으로 합니다. 하위 쿼리는 Azure AI 검색 인덱싱된 문서(일반 텍스트 및 벡터)를 대상으로 합니다.

역량

시스템 동작

여러 내장된 기능은 Azure AI 검색의 Foundry 도구를 활용하여 AI 강화에 이점을 제공합니다. 기술 사용을 선택할 때 고려 사항은 아래에 연결된 각 기본 제공 기술에 대한 투명도 메모를 참조하세요.

핵심 구문 추출 기능: Language - 주요 구문 추출
언어 감지 기술: 언어 감지
엔터티 링크 설정 기술: 언어 - 엔터티 링크 설정
엔터티 인식 기술: 언어 - NER(명명된 엔터티 인식)
PII 검색 기술: 언어 - PII 검색
감정 기술: Language - 감정 분석
이미지 분석 기술: 비전 - 이미지 분석
OCR 기술: Vision - OCR
문서 레이아웃 기술: 도큐먼트 인텔리전스

통합 및 책임 있는 사용을 위한 각 기능, 제한 사항, 성능, 평가 및 방법에 대해 자세히 알아보려면 각 기술에 대한 설명서를 참조하세요. 이러한 기술을 함께 사용하면 복합 효과가 발생할 수 있습니다(예를 들어 OCR을 사용할 때 발생하는 오류는 핵심 구 추출을 사용할 때 수행됩니다).

사용 사례

사용 사례 예

Azure AI 검색 전체 텍스트 검색 솔루션이므로 AI 보강의 목적은 구조화되지 않은 콘텐츠의 검색 유틸리티를 개선하는 것입니다. 기본 제공 기술에서 지원하는 콘텐츠 보강 시나리오의 몇 가지 예는 다음과 같습니다.

번역 및 언어 검색 을 통해 다국어를 검색할 수 있습니다.
엔터티 인식 은 텍스트의 큰 덩어리에서 사람 , 장소 및 기타 엔터티 를 추출합니다.
핵심 구 추출 은 중요한 용어를 식별한 다음 출력합니다.
OCR 은 이진 파일에서 인쇄 및 필기 텍스트를 인식합니다.
이미지 분석은 이미지 콘텐츠를 설명하고 설명을 검색 가능한 텍스트 필드로 출력합니다.
통합된 벡터화는 Azure OpenAI 임베딩 모델을 호출하여 데이터를 벡터화하고 유사성 검색을 위해 Azure AI 검색에 임베딩을 저장하는 미리 보기 기능입니다.

제한점

Azure AI 검색 AI 보강은 서비스의 인덱서 및 데이터 원본 기능을 사용하여 Foundry Tools를 호출하여 콘텐츠 보강을 수행합니다. 이 프로세스에 사용되는 인덱서 및 데이터 원본의 제한 사항이 적용됩니다. 이러한 관련 제한 사항에 대한 자세한 내용은 인덱서 및 데이터 원본 설명서를 검토하세요. Azure AI 검색 AI 보강 파이프라인에서 사용하는 각 Foundry 도구의 제한 사항도 적용됩니다. 이러한 제한 사항에 대한 자세한 내용은 각 서비스에 관한 투명성 노트를 참조하세요.

투명도 참고: Azure AI 검색

투명성 노트란 무엇인가요?

Azure AI 검색 기본 사항

소개

역량

시스템 동작

사용 사례

사용 사례 예

제한점

책임감 있는 AI에 대해 자세히 알아보기

Azure AI 검색 대해 자세히 알아보기

피드백

추가 리소스