쿼리에 패싯 추가 - Azure AI Search

2025-04-22

패싯 탐색은 애플리케이션이 문서 그룹(예: 범주 또는 브랜드)에 대한 검색 범위를 지정하기 위한 양식 컨트롤을 제공하는 검색 앱에서 쿼리 결과에 대한 자체 방향 필터링에 사용되며, Azure AI Search는 환경을 뒷받침하기 위한 데이터 구조와 필터를 제공합니다.

이 문서에서는 Azure AI Search에서 패싯 탐색 구조를 반환하는 단계를 알아봅니다. 기본 개념 및 클라이언트에 익숙해지면, 기본 패싯과 고유한 수를 포함한 다양한 사용 사례에 대한 구문을 이해하기 위해 패싯 예제로 계속 진행하십시오.

미리 보기 API를 통해 더 많은 패싯 기능을 사용할 수 있습니다.

계층적 패싯 구조체
패싯 필터링
패싯 집계

패싯 탐색 예제는 미리 보기 기능에 대한 구문 및 사용을 제공합니다.

패싯은 각 특정 쿼리 결과 집합을 기반으로 하므로 동적입니다. 검색 응답은 결과에서 문서를 탐색하는 데 사용되는 모든 패싯 버킷을 제공합니다. 쿼리를 먼저 실행한 다음, 현재 결과에서 패싯을 끌어와 패싯 탐색 구조로 어셈블합니다.

Azure AI Search에서 패싯은 한 계층 깊이이며 미리 보기 API를 사용하지 않는 한 계층적일 수 없습니다. 패싯 탐색 구조에 익숙하지 않은 경우 다음 예제에서 왼쪽에 있는 항목을 참조하세요. 개수는 각 패싯의 일치 항목 수를 나타냅니다. 동일한 문서가 여러 패싯으로 나타날 수 있습니다.

패싯을 사용하면 원하는 항목을 쉽게 찾을 수 있으며 항상 결과를 얻을 수 있습니다. 개발자는 패싯을 통해 검색 인덱스를 탐색하는 데 가장 유용한 검색 조건을 노출할 수 있습니다.

패싯은 인덱스에서 지원되는 필드에서 활성화된 후 쿼리에 지정됩니다. 패싯 탐색 구조는 응답의 시작 부분에 반환되고 그 다음에 결과가 반환됩니다.

다음 REST 예제는 전체 인덱스로 범위가 지정된 빈 쿼리("search": "*")입니다( 기본 제공 호텔 샘플 참조). 매개 변수는 facets "범주" 필드를 지정합니다.

POST https://{{service_name}}.search.windows.net/indexes/hotels/docs/search?api-version={{api_version}}
{
    "search": "*",
    "queryType": "simple",
    "select": "",
    "searchFields": "",
    "filter": "",
    "facets": [ "Category"], 
    "orderby": "",
    "count": true
}

예제에 대한 응답은 계층적 탐색 구조로 시작합니다. 구조는 "Category" 값과 각각의 호텔 수로 구성됩니다. 그 뒤에는 나머지 검색 결과가 이어지며, 간결함을 위해 여기서는 하나의 문서로 축소되었습니다. 이 예제는 여러 가지 이유로 잘 작동합니다. 이 필드의 패싯 수는 한도(기본값: 10) 이내이므로 모두 표시되고 50개 호텔 인덱스의 모든 호텔이 정확히 이러한 범주 중 하나로 표시됩니다.

{
    "@odata.context": "https://demo-search-svc.search.windows.net/indexes('hotels')/$metadata#docs(*)",
    "@odata.count": 50,
    "@search.facets": {
        "Category": [
            {
                "count": 13,
                "value": "Budget"
            },
            {
                "count": 12,
                "value": "Resort and Spa"
            },
            {
                "count": 9,
                "value": "Luxury"
            },
            {
                "count": 7,
                "value": "Boutique"
            },
            {
                "count": 5,
                "value": "Suite"
            },
            {
                "count": 4,
                "value": "Extended-Stay"
            }
        ]
    },
    "value": [
        {
            "@search.score": 1.0,
            "HotelId": "1",
            "HotelName": "Stay-Kay City Hotel",
            "Description": "The hotel is ideally located on the main commercial artery of the city in the heart of New York. A few minutes away is Time's Square and the historic centre of the city, as well as other places of interest that make New York one of America's most attractive and cosmopolitan cities.",
            "Category": "Boutique",
            "Tags": [
                "pool",
                "air conditioning",
                "concierge"
            ],
            "ParkingIncluded": false,
        },
        . . . 
    ]
}

일반 텍스트 또는 숫자 콘텐츠를 포함하는 새 필드에 패싯을 추가할 수 있습니다. 지원되는 데이터 형식에는 문자열, 날짜, 부울 필드 및 숫자 필드(벡터가 아님)가 포함됩니다.

Azure PORTAL, REST API, Azure SDK 또는 Azure AI Search에서 인덱스 스키마를 만들거나 업데이트하는 방법을 사용할 수 있습니다. 첫 번째 단계로 패싯에 사용할 필드를 식별합니다.

특성을 지정할 필드 선택

패싯은 단일 값 필드 및 컬렉션에 대해 계산될 수 있습니다. 패싯 탐색에서 가장 잘 작동하는 필드에는 다음과 같은 특성이 있습니다.

사람이 읽을 수 있는(비벡터) 콘텐츠입니다.
낮은 카디널리티(검색 모음의 문서 전체에서 반복되는 몇 가지 고유 값).
탐색 트리에서 멋지게 렌더링되는 짧은 설명 값(하나 또는 두 단어)입니다.

필드 이름 자체가 아닌 필드 내의 값은 패싯 탐색 구조에서 패싯을 생성합니다. 패싯이 Color라는 문자열 필드인 경우 패싯은 파란색, 녹색 및 해당 필드의 다른 모든 값이 됩니다. 필드 값을 검토하여 오타, null 또는 대/소문자 차이가 없는지 확인합니다. 텍스트의 사소한 변형을 부드럽게 하려면 필터링 가능 및 패싯 가능 필드에 표준 변환기를 할당 하는 것이 좋습니다. 예를 들어 "Canada", "CANADA" 및 "canada"는 모두 하나의 버킷으로 정규화됩니다.

지원되지 않는 필드 방지

기존 필드, 벡터 필드 또는 Edm.GeographyPoint나 Collection(Edm.GeographyPoint) 형식의 필드에서 패싯을 설정할 수 없습니다.

복합 필드 컬렉션에서 "facetable"은 null이어야 합니다.

새 필드 정의로 시작

필드를 만들 때만 필드를 인덱싱하는 방법에 영향을 주는 특성을 설정할 수 있습니다. 이 제한은 패싯 및 필터에 적용됩니다.

인덱스가 이미 있는 경우 패싯을 제공하는 새 필드 정의를 추가할 수 있습니다. 인덱스 내의 기존 문서는 새 필드에 대한 null 값을 가져옵니다. 이 null 값은 다음에 인덱스 새로 고칠 때 대체됩니다.

인덱스 스키마를 정의할 때, 인덱스에 추가하는 새 필드에서 "facetable": true을(를) 설정하면 facet이 활성화됩니다. 반드시 필요한 것은 아니지만, 검색 애플리케이션의 패싯 탐색 기능을 개선하기 위해 필요한 필터를 구축할 수 있도록 "필터링 가능한" 속성을 설정하는 것이 가장 좋습니다.

인덱스 만들기 또는 업데이트 요청으로 시작하고 필드 컬렉션을 지정합니다.

다음은 호텔 샘플 인덱스의 JSON 예제로, 단일 값 또는 짧은 구("Category", "Tags", "Rating")를 포함하는 낮은 카디널리티 필드에 "facetable" 및 "filterable"을 표시합니다.

{
  "name": "hotels",  
  "fields": [
    { "name": "hotelId", "type": "Edm.String", "key": true, "searchable": false, "sortable": false, "facetable": false },
    { "name": "Description", "type": "Edm.String", "filterable": false, "sortable": false, "facetable": false },
    { "name": "HotelName", "type": "Edm.String", "facetable": false },
    { "name": "Category", "type": "Edm.String", "filterable": true, "facetable": true },
    { "name": "Tags", "type": "Collection(Edm.String)", "filterable": true, "facetable": true },
    { "name": "Rating", "type": "Edm.Int32", "filterable": true, "facetable": true },
    { "name": "Location", "type": "Edm.GeographyPoint" }
  ]
}

REST의 기본값

Azure Portal과 REST API 모두 데이터 형식을 기반으로 필드 특성에 대한 기본값을 갖습니다. 다음 데이터 형식은 기본적으로 "filterable" 및 "facetable"입니다.

Edm.String 및 Collection(Edm.String)
Edm.DateTimeOffset 및 Collection(Edm.DateTimeOffset)
Edm.Boolean 및Collection(Edm.Boolean)
Edm.Int32, Edm.Int64, Edm.Double및 해당 컬렉션에 해당하는 항목

패싯은 쿼리 응답의 결과에서 동적으로 계산됩니다. 현재 쿼리에서 찾은 문서에 대한 패싯만 가져옵니다.

Azure Portal
REST

패싯은 쿼리 시간에 구성됩니다. 검색 POST 또는 검색 GET 요청 또는 동등한 Azure SDK API를 사용하여 패싯을 지정합니다.

요청에서 패싯 쿼리 매개 변수를 설정합니다. 검색 POST에서 facets은(는) 검색 쿼리에 적용할 패싯 표현식의 배열입니다. 각 패싯 식에는 필드 이름이 포함되며, 필요에 따라 이름-값 쌍의 쉼표로 구분된 목록이 뒤따릅니다. 유효한 패싯 매개 변수는 count, sort, intervalvalues및 timeoffset.

패싯 매개 변수	설명 및 사용량
`count`	구조당 최대 패싯 용어 수; 기본값은 10입니다. 예제는 `Tags,count:5`입니다. 용어 수에는 상한이 없지만 값이 높을수록 성능이 저하됩니다. 특히 패싯 필드에 많은 수의 고유 용어가 포함된 경우 성능이 저하됩니다. 이는 패싯 쿼리가 분할된 데이터베이스에서 분산된 방식 때문입니다. count를 0으로 설정하거나 "facetable" 필드의 고유 값 수보다 크거나 같은 값으로 설정하여 모든 샤드에서 정확한 개수를 얻을 수 있습니다. 이 절충안의 결과로 대기 시간이 증가합니다.
`sort`	`count`, `-count`, `value`, `-value`로 설정합니다. 개수별로 내림차순을 정렬하는 데 사용합니다 `count` . `-count`을 사용하여 개수 기준 오름차순으로 정렬합니다. 값을 기준으로 오름차순을 정렬하는 데 사용합니다 `value` . 값으로 내림차순을 정렬하는 데 사용합니다 `-value` (예를 들어 `"facet=category,count:3,sort:count"` 패싯 결과에서 상위 3개 범주를 각 범주 이름의 문서 수만큼 내림차순으로 가져옵니다). 상위 3개 범주가 버짓, 모텔, 럭셔리이고 버짓이 5개, 모텔이 6개, 럭셔리가 4개인 경우, 버킷은 모텔, 버짓, 럭셔리 순입니다. `"facet=rating,sort:-value"` 의 경우 `-value`가능한 모든 등급에 대한 버킷을 값별로 내림차순으로 생성합니다(예: 등급이 1에서 5인 경우 버킷은 각 등급과 일치하는 문서 수에 관계없이 5, 4, 3, 2, 1로 정렬됨).
`values`	파이프 구분 기호를 사용한 숫자 또는 `Edm.DateTimeOffset` 값으로 설정하여 패싯 항목 값의 동적 집합을 지정합니다. 예: `"facet=baseRate,values:10 \| 20"`은 각각 기본 요금이 0~9, 10~19 및 20 이상인 버킷 3개를 생성합니다. 문자열 `"facet=lastRenovationDate,values:2010-02-01T00:00:00Z"` 은 2010년 2월 이전에 개조된 호텔용 버킷과 2010년 2월 1일 이상 개조된 호텔용 버킷 등 두 개의 버킷을 생성합니다. 예상 결과를 얻으려면 값을 순차적으로 오름차순으로 나열해야 합니다.
`interval`	날짜 시간 값에 대한 숫자 또는 분, 시간, 일, 주, 월, 분기, 연도의 경우 0보다 큰 정수 간격입니다. 예를 들어 `"facet=baseRate,interval:100"` 크기 100의 기본 속도 범위를 기반으로 버킷을 생성합니다. 기본 요금이 모두 $60에서 $600 사이인 경우 0-100, 100-200, 200-300, 300-400, 400-500 및 500-600에 대한 버킷이 있습니다. 이 문자열 `"facet=lastRenovationDate,interval:year"` 은 호텔을 개조할 때 매년 하나의 버킷을 생성합니다.
`timeoffset`	(`[+-]hh:mm, [+-]hhmm, or [+-]hh`)로 설정할 수 있습니다. 매개 변수를 사용하는 경우 매개 변수를 `timeoffset` 간격 옵션과 결합해야 하며 형식 `Edm.DateTimeOffset`필드에 적용된 경우에만 사용해야 합니다. 값은 시간 경계를 설정할 때 고려할 UTC 시간 오프셋을 지정합니다. 예를 들어 `"facet=lastRenovationDate,interval:day,timeoffset:-01:00"` 01:00:00 UTC(대상 표준 시간대의 자정)에 시작하는 일 경계를 사용합니다.

count와 sort는 동일한 패싯 사양에서 결합할 수 있지만, interval 또는 values와 결합할 수 없으며, interval와 values도 함께 결합할 수 없습니다.

지정되지 않은 경우 timeoffset 날짜 시간의 간격 패싯은 UTC 시간을 기준으로 계산됩니다. 예를 들어 "facet=lastRenovationDate,interval:day"날짜 경계는 00:00:00 UTC에서 시작됩니다.

이 섹션은 애플리케이션 개발에 도움이 되는 팁과 해결 방법의 모음입니다.

C#: 웹 앱에 검색 추가하기를 추천합니다. 이는 프레젠테이션 계층의 코드를 포함한 패싯 탐색의 예제입니다. 샘플에는 필터, 제안 및 자동 완성도 포함되어 있습니다. 프레젠테이션 계층에 JavaScript 및 React를 사용합니다.

열린 쿼리("search": "*")를 사용하여 검색 페이지를 초기화하여 계층적 탐색 구조를 완전히 채우는 것이 유용합니다. 요청에 쿼리 용어를 전달하는 즉시 패싯 탐색 구조의 범위가 전체 인덱스가 아닌 결과의 일치 항목으로 지정됩니다. 이 방법은 테스트 중에 패싯 및 필터 동작을 확인하는 데 유용합니다. 쿼리에 일치 조건을 포함하면 일치하지 않는 문서가 응답에서 제외되며, 이는 패싯의 배제를 포함할 수 있는 잠재적인 후속 효과를 초래할 수 있습니다.

사용자 환경을 디자인할 때 패싯을 지우기 위한 메커니즘을 추가해야 합니다. 패싯을 지우는 일반적인 방법은 페이지를 다시 설정하기 위해 열린 쿼리를 실행하는 것입니다.

패싯을 사용하지 않도록 설정하여 스토리지에 저장하고 성능 향상

성능 및 스토리지 최적화의 경우 패싯으로 사용해서는 안 되는 필드에 대해 설정합니다 "facetable": false . 예를 들어 ID나 제품 이름과 같은 고유 값에 대해 문자열 필드를 사용하여 패싯 탐색에서의 실수로 인한 비효율적인 사용을 방지할 수 있습니다. 이 모범 사례는 기본적으로 문자열 필드에서 필터 및 패싯을 사용하도록 설정하는 REST API에 특히 중요합니다.

Edm.GeographyPoint 또는 Collection(Edm.GeographyPoint) 필드를 패싯 탐색에서 사용할 수 없습니다. 패싯은 카디널리티가 낮은 필드에서 가장 잘 작동한다는 점을 기억하세요. 지역 좌표가 확인되는 방식 때문에 지정된 데이터 세트에서 두 좌표 집합이 같은 경우는 드뭅니다. 따라서 지리적 좌표에는 패싯이 지원되지 않습니다. 도시 또는 지역 필드를 사용하여 위치별로 패싯해야 합니다.

잘못된 데이터 확인

인덱싱을 위해 데이터를 준비할 때 null 값, 맞춤법 오류 또는 대/소문자 불일치, 동일한 단어의 단일 및 복수 버전에 대한 필드를 확인합니다. 기본적으로 필터와 패싯은 어휘 분석이나 맞춤법 검사를 거치지 않습니다. 즉, 단어의 한 문자가 다르더라도 "facetable" 필드의 모든 값이 잠재적인 패싯입니다.

노멀라이저는 데이터 불일치를 완화하여 대/소문자 및 문자 차이를 수정할 수 있습니다. 그렇지 않은 경우 데이터를 검사하려면 원본에서 필드를 확인하거나 인덱스에서 값을 반환하는 쿼리를 실행할 수 있습니다.

인덱스는 null 또는 잘못된 값을 수정하기에 가장 좋은 위치가 아닙니다. 데이터베이스 또는 영구 스토리지 또는 인덱싱 전에 수행하는 데이터 정리 단계에서 원본의 데이터 문제를 해결해야 합니다.

버킷 내에서 정렬할 수 있지만 탐색 구조 전체에서 패싯 버킷의 순서를 제어하는 매개 변수는 없습니다. 패싯 버킷을 특정 순서로 원하는 경우 애플리케이션 코드에 제공해야 합니다.

특정 상황에서는 분할 아키텍처로 인해 패싯 수가 완전히 정확하지 않을 수 있습니다. 모든 검색 인덱스는 여러 개의 분할된 데이터베이스에 분할되며, 각 분할된 데이터베이스는 문서 수에 따라 상위 N개의 패싯을 보고합니다. 이 값이 단일 결과로 통합됩니다. 각 분할된 데이터베이스의 상위 N개 패싯만 해당하므로 패싯 응답에서 일치하는 문서를 놓치거나 과소 계수할 수 있습니다.

정확도를 보장하기 위해 count:<number>를 인위적으로 큰 숫자로 늘려 각 분할된 데이터베이스에서 전체 보고를 강제로 적용할 수 있습니다. 무제한 패싯의 경우 "count": "0"을 지정하면 됩니다. 또는 "count"를 패싯 필드의 고유 값 수보다 크거나 같은 값으로 설정할 수 있습니다. 예를 들어 고유 값이 5개인 "size" 필드로 패싯하는 경우 모든 일치 항목이 패싯 응답에 표시되도록 "count:5"를 설정할 수 있습니다.

이 해결 방법은 쿼리 대기 시간이 늘어나는 단점이 있으므로 꼭 필요한 경우에만 사용합니다.

Azure AI Search에서는 현재 결과에 대해서만 패싯이 존재합니다. 그러나 사용자가 역방향으로 탐색하여 검색 콘텐츠를 통해 대체 경로를 탐색할 수 있도록 정적 패싯 집합을 유지하는 것이 일반적인 애플리케이션 요구 사항입니다.

동적 드릴다운 환경과 함께 정적 패싯 집합을 원하는 경우 필터링된 두 쿼리를 사용하여 구현할 수 있습니다. 하나는 결과로 범위가 지정되고 다른 하나는 탐색 목적으로 패싯의 정적 목록을 만드는 데 사용됩니다.

너무 큰 검색 결과 및 패싯 결과는 필터를 추가하여 트리밍할 수 있습니다. 다음 예제에서는 클라우드 컴퓨팅 쿼리에서 254개 항목에 콘텐츠 형식으로 내부 사양 이 있습니다. 결과가 너무 크면 필터를 추가하면 사용자가 조건을 더 추가하여 쿼리를 구체화하는 데 도움이 될 수 있습니다.

항목은 상호 배타적이지 않습니다. 하나의 항목이 두 필터 조건을 모두 충족하는 경우에는 각각 하나로 계수됩니다. 이 중복은 주로 문서 태깅을 구현하는 데 사용되는 Collection(Edm.String) 필드를 패싯할 때 발생합니다.

Search term: "cloud computing"
Content type
   Internal specification (254)
   Video (10)

다음 단계

패싯 탐색 예제

다음을 통해 공유

검색 결과에 패싯 탐색 추가

검색 페이지의 범주형 탐색

코드에서 다각적 탐색

필드에 패싯 사용

특성을 지정할 필드 선택

지원되지 않는 필드 방지

새 필드 정의로 시작

쿼리에서 특정한 속성 반환

패싯 작업에 대한 모범 사례

정규화되지 않거나 빈 검색 문자열을 사용하여 패싯 탐색 구조 초기화

패싯 지우기

패싯을 사용하지 않도록 설정하여 스토리지에 저장하고 성능 향상

잘못된 데이터 확인

패싯 버킷 순서 지정

패싯 수의 불일치

비동기적으로 필터링된 결과와 별개로 페싯 탐색 구조를 유지하세요.

필터를 통해 큰 패싯 수 오프셋

다음 단계

피드백

추가 리소스