Prestandamått för Azure AI Search

Artikel
04/25/2024

Viktigt!

Dessa riktmärken gäller för söktjänster som skapats före den 3 april 2024 och gäller endast för icke-klientbaserade arbetsbelastningar. Uppdateringar väntar på tjänster och arbetsbelastningar på de nya gränserna.

Prestandamått är användbara för att uppskatta potentiella prestanda under liknande konfigurationer. Faktisk prestanda beror på en mängd olika faktorer, inklusive söktjänstens storlek och vilka typer av frågor du skickar.

För att hjälpa dig att uppskatta storleken på söktjänsten som behövs för din arbetsbelastning körde vi flera prestandamått för att dokumentera prestanda för olika söktjänster och konfigurationer.

För att täcka en rad olika användningsfall körde vi benchmarks för två huvudscenarier:

E-handelssökning – Det här riktmärket emulerar ett verkligt e-handelsscenario och baseras på det nordiska e-handelsföretaget CDON.
Dokumentsökning – Det här scenariot består av nyckelordssökning över fulltextdokument från Semantic Scholar. Detta emulerar en typisk lösning för dokumentsökning.

Även om dessa scenarier återspeglar olika användningsfall, är varje scenario annorlunda, så vi rekommenderar alltid prestandatestning av din enskilda arbetsbelastning. Vi har publicerat en lösning för prestandatestning med hjälp av JMeter så att du kan köra liknande tester mot din egen tjänst.

Testmetod

För att jämföra Prestanda för Azure AI Search körde vi tester för två olika scenarier på olika nivåer och replik-/partitionskombinationer.

För att skapa dessa riktmärken användes följande metod:

Testet börjar vid X frågor per sekund (QPS) i 180 sekunder. Detta var vanligtvis 5 eller 10 QPS.
QPS ökade sedan med X och kördes i ytterligare 180 sekunder
Var 180:e sekund ökade testet med X QPS tills den genomsnittliga svarstiden ökade över 1 000 ms eller mindre än 99 % av frågorna lyckades.

I följande diagram visas ett visuellt exempel på hur testets frågebelastning ser ut:

Exempeltest

Varje scenario använde minst 10 000 unika frågor för att undvika att tester blir alltför skeva av cachelagring.

Viktigt!

Dessa tester omfattar endast frågearbetsbelastningar. Om du förväntar dig att ha en stor mängd indexeringsåtgärder bör du ta med det i uppskattnings- och prestandatestningen. Exempelkod för att simulera indexering finns i den här självstudien.

Definitioner

Maximalt antal QPS – det maximala antalet QPS baseras på den högsta QPS som uppnåtts i ett test där 99 % av frågorna slutfördes utan begränsning och den genomsnittliga svarstiden stannade under 1 000 ms.
Procentandel av högsta QPS – En procentandel av det högsta antal QPS som uppnåtts för ett visst test. Om ett givet test till exempel har nått högst 100 QPS skulle 20 % av den högsta QPS vara 20 QPS.
Svarstid – serverns svarstid för en fråga. Dessa siffror inkluderar inte fördröjning av tur och retur (RTT). Värdena finns i millisekunder (ms).

Testa ansvarsfriskrivning

Koden som vi använde för att köra dessa riktmärken är tillgänglig på lagringsplatsen azure-search-performance-testing . Det är värt att notera att vi observerade något lägre QPS-nivåer med JMeter-prestandatestningslösningen än i riktmärkena. Skillnaderna kan tillskrivas skillnader i testernas stil. Detta talar om vikten av att göra dina prestandatester så lika din produktionsarbetsbelastning som möjligt.

Viktigt!

Dessa prestandamått garanterar inte på något sätt en viss prestandanivå från din tjänst, men kan ge dig en uppfattning om de prestanda du kan förvänta dig baserat på ditt scenario.

Om du har några frågor eller problem kan du kontakta oss på azuresearch_contact@microsoft.com.

Benchmark 1: Sökning efter e-handel

Det här riktmärket skapades i samarbete med e-handelsföretaget CDON, Nordens största marknadsplats online med verksamhet i Sverige, Finland, Norge och Danmark. Genom sina 1 500 köpmän erbjuder CDON ett brett sortiment som innehåller över 8 miljoner produkter. År 2020 hade CDON över 120 miljoner besökare och 2 miljoner aktiva kunder. Du kan läsa mer om CDON:s användning av Azure AI Search i den här artikeln.

För att köra dessa tester använde vi en ögonblicksbild av CDON:s produktionssökningsindex och tusentals unika frågor från deras webbplats.

Scenarioinformation

Antal dokument: 6 000 000
Indexstorlek: 20 GB
Indexschema: ett brett index med totalt 250 fält, 25 sökbara fält och 200 fasettbara/filterbara fält
Frågetyper: sökfrågor i fulltext, inklusive fasetter, filter, ordning och bedömningsprofiler

S1-prestanda

Frågor per sekund

I följande diagram visas den högsta frågebelastningen som en tjänst kan hantera under en längre tid när det gäller frågor per sekund (QPS).

Högsta underhållsbara QPS e-handel s1

Frågesvarstid

Frågefördröjningen varierar beroende på belastningen på tjänsten och tjänster under högre stress har en högre genomsnittlig frågefördröjning. I följande tabell visas den 25:e, 50:e, 75:e, 90:e, 95:e och 99:e percentilen av frågesvarstid för tre olika användningsnivåer.

Procentandel av maximalt antal QPS	Genomsnittlig svarstid	25 %	75 %	90 %	95 %	99 %
20 %	104 ms	35 ms	115 ms	177 ms	257 ms	738 ms
50 %	140 ms	47 ms	144 ms	241 ms	400 ms	1175 ms
80 %	239 ms	77 ms	248 ms	466 ms	763 ms	1752 ms

S2-prestanda

Frågor per sekund

I följande diagram visas den högsta frågebelastningen som en tjänst kan hantera under en längre tid när det gäller frågor per sekund (QPS).

Högsta underhållsbara QPS e-handel s2

Frågesvarstid

Procentandel av maximalt antal QPS	Genomsnittlig svarstid	25 %	75 %	90 %	95 %	99 %
20 %	56 ms	21 ms	68 ms	106 ms	132 ms	210 ms
50 %	71 ms	26 ms	83 ms	132 ms	177 ms	329 ms
80 %	140 ms	47 ms	153 ms	293 ms	452 ms	924 ms

S3-prestanda

Frågor per sekund

I följande diagram visas den högsta frågebelastningen som en tjänst kan hantera under en längre tid när det gäller frågor per sekund (QPS).

Högsta underhållsbara QPS e-handel s3

I det här fallet ser vi att om du lägger till en andra partition ökar det maximala antalet QPS avsevärt, men att lägga till en tredje partition ger minskande marginalavkastning. Den mindre förbättringen beror sannolikt på att alla data redan hämtas till S3:s aktiva minne med bara två partitioner.

Frågesvarstid

Procentandel av maximalt antal QPS	Genomsnittlig svarstid	25 %	75 %	90 %	95 %	99 %
20 %	50 ms	20 ms	64 ms	83 ms	98 ms	160 ms
50 %	62 ms	24 ms	80 ms	107 ms	130 ms	253 ms
80 %	115 ms	38 ms	121 ms	218 ms	352 ms	828 ms