연산자는 $sampleRate 지정된 확률 속도에 따라 컬렉션에서 문서를 임의로 샘플링합니다. 이 연산자는 대표적인 샘플이 필요한 대규모 데이터 세트를 사용할 때 통계 분석, 하위 집합 데이터로 테스트 및 성능 최적화에 유용합니다.
문법
{
$match: {
$sampleRate: <number>
}
}
매개 변수
| 매개 변수 | Description |
|---|---|
number |
문서가 샘플에 포함될 확률을 나타내는 0에서 1 사이의 부동 소수점 숫자입니다. 예를 들어 0.33은 약 33%의 문서가 샘플링됨을 의미합니다. |
예시
스토어 컬렉션에서 이 샘플 문서를 고려합니다.
{
"_id": "0fcc0bf0-ed18-4ab8-b558-9848e18058f4",
"name": "First Up Consultants | Beverage Shop - Satterfieldmouth",
"location": {
"lat": -89.2384,
"lon": -46.4012
},
"staff": {
"totalStaff": {
"fullTime": 8,
"partTime": 20
}
},
"sales": {
"totalSales": 75670,
"salesByCategory": [
{
"categoryName": "Wine Accessories",
"totalSales": 34440
},
{
"categoryName": "Bitters",
"totalSales": 39496
},
{
"categoryName": "Rum",
"totalSales": 1734
}
]
},
"promotionEvents": [
{
"eventName": "Unbeatable Bargain Bash",
"promotionalDates": {
"startDate": {
"Year": 2024,
"Month": 6,
"Day": 23
},
"endDate": {
"Year": 2024,
"Month": 7,
"Day": 2
}
},
"discounts": [
{
"categoryName": "Whiskey",
"discountPercentage": 7
},
{
"categoryName": "Bitters",
"discountPercentage": 15
},
{
"categoryName": "Brandy",
"discountPercentage": 8
},
{
"categoryName": "Sports Drinks",
"discountPercentage": 22
},
{
"categoryName": "Vodka",
"discountPercentage": 19
}
]
},
{
"eventName": "Steal of a Deal Days",
"promotionalDates": {
"startDate": {
"Year": 2024,
"Month": 9,
"Day": 21
},
"endDate": {
"Year": 2024,
"Month": 9,
"Day": 29
}
},
"discounts": [
{
"categoryName": "Organic Wine",
"discountPercentage": 19
},
{
"categoryName": "White Wine",
"discountPercentage": 20
},
{
"categoryName": "Sparkling Wine",
"discountPercentage": 19
},
{
"categoryName": "Whiskey",
"discountPercentage": 17
},
{
"categoryName": "Vodka",
"discountPercentage": 23
}
]
}
]
}
예제 1: 기본 무작위 샘플링
이 쿼리는 매장 컬렉션에 있는 모든 문서의 3분의 1을 임의로 선택하여 반환합니다.
db.stores.aggregate([{
$match: {
$sampleRate: 0.33
}
}])
예제 2: 더 많은 필터를 사용하여 샘플링
이 쿼리는 먼저 판매량이 50,000을 초과하는 저장소를 필터링한 다음 일치하는 문서의 50개% 무작위로 샘플링합니다.
db.stores.aggregate([
{ $match: {
"sales.totalSales": { $gt: 50000 },
$sampleRate: 0.5
}}
])
예제 3: 통계 분석을 위한 샘플링
이 쿼리는 25개% 저장소를 샘플링하고 샘플링된 데이터에 대한 통계 측정값을 계산합니다.
db.stores.aggregate([
{ $match: { $sampleRate: 0.25 } },
{ $group: {
_id: null,
averageSales: { $avg: "$sales.totalSales" },
totalStores: { $sum: 1 },
maxSales: { $max: "$sales.totalSales" },
minSales: { $min: "$sales.totalSales" }
}}
])
$sampleRate 연산자는 모든 문서를 처리하는 데 계산 비용이 많이 드는 큰 데이터 세트로 작업할 때 통계 분석 및 데이터 탐색에 유용합니다. 성능 테스트, 품질 보증 유효성 검사 및 기계 학습 데이터 세트 생성을 위한 대표적인 샘플을 효율적으로 만듭니다. 연산자는 통계 정확도가 허용되고 처리 속도가 정확한 정밀도보다 우선 순위가 지정된 대략적인 보고 시나리오에 적합합니다.