Azure AI Search-prestatiebenchmarks

Artikel
04/22/2024

Belangrijk

Deze benchmarks zijn van toepassing op zoekservices die vóór 3 april 2024 zijn gemaakt op implementaties die worden uitgevoerd op oudere infrastructuur. De benchmarks zijn ook alleen van toepassing op niet-ctorworkloads. Updates zijn in behandeling voor services en workloads op de nieuwe limieten.

Prestatiebenchmarks zijn handig voor het schatten van mogelijke prestaties onder vergelijkbare configuraties. De werkelijke prestaties zijn afhankelijk van verschillende factoren, waaronder de grootte van uw zoekservice en de typen query's die u verzendt.

Om u te helpen de grootte van de zoekservice te schatten die nodig is voor uw workload, hebben we verschillende benchmarks uitgevoerd om de prestaties voor verschillende zoekservices en configuraties te documenteren.

Om een aantal verschillende use cases te behandelen, hebben we benchmarks uitgevoerd voor twee hoofdscenario's:

E-commerce zoeken - Met deze benchmark wordt een echt e-commercescenario geëmuleren en is gebaseerd op het Scandinavische e-commercebedrijf CDON.
Document zoeken : dit scenario bestaat uit trefwoordzoekopdrachten voor volledige-tekstdocumenten van Semantic Scholar. Hiermee wordt een typische oplossing voor documentzoekopdrachten geëmuleren.

Hoewel deze scenario's verschillende use cases weerspiegelen, is elk scenario verschillend, dus we raden u altijd aan om uw individuele workload te testen. We hebben een oplossing voor prestatietests gepubliceerd met behulp van JMeter , zodat u vergelijkbare tests kunt uitvoeren voor uw eigen service.

Testmethodologie

Om de prestaties van Azure AI Search te benchmarken, hebben we tests uitgevoerd voor twee verschillende scenario's op verschillende lagen en combinaties van replica's/partities.

Voor het maken van deze benchmarks is de volgende methodologie gebruikt:

De test begint bij X query's per seconde (QPS) gedurende 180 seconden. Dit was meestal 5 of 10 QPS.
QPS nam vervolgens toe X en liep gedurende nog eens 180 seconden
Elke 180 seconden nam de test met X QPS toe totdat de gemiddelde latentie hoger was dan 1000 ms of minder dan 99% van de query's.

In de volgende grafiek ziet u een visueel voorbeeld van hoe de querybelasting van de test eruitziet:

Voorbeeldtest

Elk scenario heeft ten minste 10.000 unieke query's gebruikt om te voorkomen dat tests te veel scheef worden geslagen door caching.

Belangrijk

Deze tests omvatten alleen queryworkloads. Als u verwacht een groot aantal indexeringsbewerkingen te hebben, moet u rekening houden met uw schatting en prestatietests. In deze zelfstudie vindt u voorbeeldcode voor het simuleren van indexering.

Definities

Maximum aantal QPS - de maximale QPS-getallen zijn gebaseerd op de hoogste QPS die is bereikt in een test waarbij 99% van de query's is voltooid zonder beperking en gemiddelde latentie onder de 1000 ms bleef.
Percentage van het maximum aantal QPS- een percentage van het maximum aantal QPS's dat voor een bepaalde test is bereikt. Als een bepaalde test bijvoorbeeld een maximum van 100 QPS heeft bereikt, is 20% van het maximum aantal QPS's 20 QPS.
Latentie: de latentie van de server voor een query; deze getallen bevatten geen retourvertraging (RTT). Waarden bevinden zich in milliseconden (ms).

Vrijwaring testen

De code die we hebben gebruikt om deze benchmarks uit te voeren, is beschikbaar in de opslagplaats azure-search-performance-testing . Het is de moeite waard om te vermelden dat we iets lagere QPS-niveaus hebben waargenomen met de oplossing voor het testen van JMeter-prestaties dan in de benchmarks. De verschillen kunnen worden toegeschreven aan verschillen in de stijl van de tests. Dit spreekt voor het belang van uw prestatietests zo veel mogelijk vergelijkbaar te maken met uw productieworkload.

Belangrijk

Deze benchmarks garanderen op geen enkele manier een bepaald prestatieniveau van uw service, maar kunnen u een idee geven van de prestaties die u kunt verwachten op basis van uw scenario.

Als u vragen of zorgen hebt, neem dan contact met ons op azuresearch_contact@microsoft.com.

Benchmark 1: E-commerce zoeken

Deze benchmark is opgericht in samenwerking met het e-commercebedrijf CDON, de grootste online marketplace van de Scandinavische regio met activiteiten in Zweden, Finland, Noorwegen en Denemarken. Door zijn 1500 verkopers biedt CDON een breed assortiment met meer dan 8 miljoen producten. In 2020 had CDON meer dan 120 miljoen bezoekers en 2 miljoen actieve klanten. In dit artikel vindt u meer informatie over het gebruik van Azure AI Search van CDON.

Om deze tests uit te voeren, hebben we een momentopname van de productiezoekindex van CDON en duizenden unieke query's van hun website gebruikt.

Scenariodetails

Aantal documenten: 6.000.000
Indexgrootte: 20 GB
Indexschema: een brede index met totaal 250 velden, 25 doorzoekbare velden en 200 facetable/filterbare velden
Querytypen: zoekquery's in volledige tekst, waaronder facetten, filters, volgorde en scoreprofielen

S1-prestaties

Query's per seconde

In de volgende grafiek ziet u de hoogste querybelasting die een service gedurende langere tijd kan verwerken in termen van query's per seconde (QPS).

Hoogst onderhoudbare QPS e-commerce s1

Querylatentie

Querylatentie varieert op basis van de belasting van de service en services onder hogere stress hebben een hogere gemiddelde querylatentie. In de volgende tabel ziet u de 25e, 50e, 75e, 90e, 95e en 99e percentielen van querylatentie voor drie verschillende gebruiksniveaus.

Percentage van het maximum aantal QPS's	Gemiddelde latentie	25%	75%	90%	95%	99%
20%	104 ms	35 ms	115 ms	177 ms	257 ms	738 ms
50%	140 ms	47 ms	144 ms	241 ms	400 ms	1175 ms
80%	239 ms	77 ms	248 ms	466 ms	763 ms	1752 ms

S2-prestaties

Query's per seconde

In de volgende grafiek ziet u de hoogste querybelasting die een service gedurende langere tijd kan verwerken in termen van query's per seconde (QPS).

Hoogst onderhoudbare QPS e-commerce s2

Querylatentie

Percentage van het maximum aantal QPS's	Gemiddelde latentie	25%	75%	90%	95%	99%
20%	56 ms	21 ms	68 ms	106 ms	132 ms	210 ms
50%	71 ms	26 ms	83 ms	132 ms	177 ms	329 ms
80%	140 ms	47 ms	153 ms	293 ms	452 ms	924 ms

S3-prestaties

Query's per seconde

In de volgende grafiek ziet u de hoogste querybelasting die een service gedurende langere tijd kan verwerken in termen van query's per seconde (QPS).

Hoogst onderhoudbare QPS e-commerce s3

In dit geval zien we dat het toevoegen van een tweede partitie het maximumaantal QPS aanzienlijk verhoogt, maar het toevoegen van een derde partitie vermindert marginale rendementen. De kleinere verbetering is waarschijnlijk omdat alle gegevens al met slechts twee partities in het actieve S3-geheugen worden opgehaald.

Querylatentie

Percentage van het maximum aantal QPS's	Gemiddelde latentie	25%	75%	90%	95%	99%
20%	50 ms	20 ms	64 ms	83 ms	98 ms	160 ms
50%	62 ms	24 ms	80 ms	107 ms	130 ms	253 ms
80%	115 ms	38 ms	121 ms	218 ms	352 ms	828 ms