$sampleRate

연산자는 $sampleRate 지정된 확률 속도에 따라 컬렉션에서 문서를 임의로 샘플링합니다. 이 연산자는 대표적인 샘플이 필요한 대규모 데이터 세트를 사용할 때 통계 분석, 하위 집합 데이터로 테스트 및 성능 최적화에 유용합니다.

문법

{
  $match: {
    $sampleRate: <number>
  }
}

매개 변수

매개 변수 Description
number 문서가 샘플에 포함될 확률을 나타내는 0에서 1 사이의 부동 소수점 숫자입니다. 예를 들어 0.33은 약 33%의 문서가 샘플링됨을 의미합니다.

예시

스토어 컬렉션에서 이 샘플 문서를 고려합니다.

{
    "_id": "0fcc0bf0-ed18-4ab8-b558-9848e18058f4",
    "name": "First Up Consultants | Beverage Shop - Satterfieldmouth",
    "location": {
        "lat": -89.2384,
        "lon": -46.4012
    },
    "staff": {
        "totalStaff": {
            "fullTime": 8,
            "partTime": 20
        }
    },
    "sales": {
        "totalSales": 75670,
        "salesByCategory": [
            {
                "categoryName": "Wine Accessories",
                "totalSales": 34440
            },
            {
                "categoryName": "Bitters",
                "totalSales": 39496
            },
            {
                "categoryName": "Rum",
                "totalSales": 1734
            }
        ]
    },
    "promotionEvents": [
        {
            "eventName": "Unbeatable Bargain Bash",
            "promotionalDates": {
                "startDate": {
                    "Year": 2024,
                    "Month": 6,
                    "Day": 23
                },
                "endDate": {
                    "Year": 2024,
                    "Month": 7,
                    "Day": 2
                }
            },
            "discounts": [
                {
                    "categoryName": "Whiskey",
                    "discountPercentage": 7
                },
                {
                    "categoryName": "Bitters",
                    "discountPercentage": 15
                },
                {
                    "categoryName": "Brandy",
                    "discountPercentage": 8
                },
                {
                    "categoryName": "Sports Drinks",
                    "discountPercentage": 22
                },
                {
                    "categoryName": "Vodka",
                    "discountPercentage": 19
                }
            ]
        },
        {
            "eventName": "Steal of a Deal Days",
            "promotionalDates": {
                "startDate": {
                    "Year": 2024,
                    "Month": 9,
                    "Day": 21
                },
                "endDate": {
                    "Year": 2024,
                    "Month": 9,
                    "Day": 29
                }
            },
            "discounts": [
                {
                    "categoryName": "Organic Wine",
                    "discountPercentage": 19
                },
                {
                    "categoryName": "White Wine",
                    "discountPercentage": 20
                },
                {
                    "categoryName": "Sparkling Wine",
                    "discountPercentage": 19
                },
                {
                    "categoryName": "Whiskey",
                    "discountPercentage": 17
                },
                {
                    "categoryName": "Vodka",
                    "discountPercentage": 23
                }
            ]
        }
    ]
}

예제 1: 기본 무작위 샘플링

이 쿼리는 매장 컬렉션에 있는 모든 문서의 3분의 1을 임의로 선택하여 반환합니다.

db.stores.aggregate([{
    $match: {
        $sampleRate: 0.33
    }
}])

예제 2: 더 많은 필터를 사용하여 샘플링

이 쿼리는 먼저 판매량이 50,000을 초과하는 저장소를 필터링한 다음 일치하는 문서의 50개% 무작위로 샘플링합니다.

db.stores.aggregate([
  { $match: { 
    "sales.totalSales": { $gt: 50000 },
    $sampleRate: 0.5 
  }}
])

예제 3: 통계 분석을 위한 샘플링

이 쿼리는 25개% 저장소를 샘플링하고 샘플링된 데이터에 대한 통계 측정값을 계산합니다.

db.stores.aggregate([
  { $match: { $sampleRate: 0.25 } },
  { $group: {
    _id: null,
    averageSales: { $avg: "$sales.totalSales" },
    totalStores: { $sum: 1 },
    maxSales: { $max: "$sales.totalSales" },
    minSales: { $min: "$sales.totalSales" }
  }}
])

$sampleRate 연산자는 모든 문서를 처리하는 데 계산 비용이 많이 드는 큰 데이터 세트로 작업할 때 통계 분석 및 데이터 탐색에 유용합니다. 성능 테스트, 품질 보증 유효성 검사 및 기계 학습 데이터 세트 생성을 위한 대표적인 샘플을 효율적으로 만듭니다. 연산자는 통계 정확도가 허용되고 처리 속도가 정확한 정밀도보다 우선 순위가 지정된 대략적인 보고 시나리오에 적합합니다.