Srovnávací testy výkonu služby Azure AI Search

Článek
04/22/2024

Důležité

Tyto srovnávací testy platí pro vyhledávací služby vytvořené před 3. dubnem 2024 v nasazeních, která běží ve starší infrastruktuře. Srovnávací testy platí také pouze pro úlohy bezvectoru. Aktualizace čekají na služby a úlohy na nových limitech.

Srovnávací testy výkonu jsou užitečné pro odhad potenciálního výkonu v rámci podobných konfigurací. Skutečný výkon závisí na různých faktorech, včetně velikosti vyhledávací služby a typů dotazů, které odesíláte.

Abychom vám pomohli odhadnout velikost vyhledávací služby potřebné pro vaši úlohu, spustili jsme několik srovnávacích testů, abychom zdokumentovali výkon různých vyhledávacích služeb a konfigurací.

Abychom mohli pokrýt celou řadu různých případů použití, spustili jsme srovnávací testy pro dva hlavní scénáře:

Vyhledávání v elektronickém obchodování – tento srovnávací test emuluje skutečný scénář elektronického obchodování a je založen na společnosti CDON severské elektronické obchodování.
Hledání dokumentů – tento scénář se skládá z hledání klíčových slov přes fulltextové dokumenty od sémantického vědce. Tím se emuluje typické řešení hledání dokumentů.

I když tyto scénáře odrážejí různé případy použití, každý scénář se liší, takže vždy doporučujeme testování výkonu jednotlivých úloh. Publikovali jsme řešení pro testování výkonu pomocí JMeter , abyste mohli spouštět podobné testy s vlastní službou.

Metodologie testování

Abychom mohli testovat výkon služby Azure AI Search, spustili jsme testy pro dva různé scénáře na různých úrovních a kombinacích replik a oddílů.

K vytvoření těchto srovnávacích testů se použila následující metodologie:

Test začíná na X dotazech za sekundu (QPS) po dobu 180 sekund. Obvykle to bylo 5 nebo 10 QPS.
QPS se pak zvýšil o X dalších 180 sekund a běžel po dobu dalších 180 sekund.
Každých 180 sekund se test zvýšil o X QPS, dokud se průměrná latence nezvýšila nad 1 000 ms nebo méně než 99 % úspěšných dotazů.

Následující graf poskytuje vizuální příklad toho, jak vypadá zatížení dotazu testu:

Příklad testu

Každý scénář používal alespoň 10 000 jedinečných dotazů, aby se zabránilo příliš nerovnoměrné distribuci testů ukládáním do mezipaměti.

Důležité

Tyto testy zahrnují pouze úlohy dotazů. Pokud očekáváte, že budete mít velký objem indexovacích operací, nezapomeňte do odhadu a testování výkonu zohlednit. Vzorový kód pro simulaci indexování najdete v tomto kurzu.

Definice

Maximální počet QPS – maximální počet QPS vychází z nejvyššího počtu QPS dosažených v testu, kdy 99 % dotazů bylo úspěšně dokončeno bez omezování a průměrné latence zůstala pod 1 000 ms.
Procento maximálního počtu QPS – procento maximálního počtu QPS dosaženého pro konkrétní test Pokud například daný test dosáhl maximálního počtu 100 QPS, 20 % maximálního počtu QPS by bylo 20 QPS.
Latence – latence serveru pro dotaz; tato čísla nezahrnují zpoždění odezvy (RTT). Hodnoty jsou v milisekundách (ms).

Právní omezení pro testování

Kód, který jsme použili ke spuštění těchto srovnávacích testů, je k dispozici v úložišti azure-search-performance-testing . Je vhodné poznamenat, že jsme zaznamenali mírně nižší úrovně QPS s řešením testování výkonu JMeter než v srovnávacích testech. Rozdíly můžou být přiřazovat rozdílům ve stylu testů. To hovoří o důležitosti, aby testy výkonnosti byly co nejvíce podobné produkčním úlohám.

Důležité

Tyto srovnávací testy nijak nezaručují určitou úroveň výkonu vaší služby, ale můžou vám poskytnout představu o výkonu, který můžete očekávat na základě vašeho scénáře.

Pokud máte nějaké dotazy nebo obavy, kontaktujte nás na adrese azuresearch_contact@microsoft.com.

Srovnávací test 1: Vyhledávání elektronického obchodování

Tento srovnávací test byl vytvořen ve spolupráci se společností elektronického obchodování, CDON, největším online marketplace regionu Nordic region s provozem ve Švédsku, Finsku, Norsku a Dánsku. Prostřednictvím svých 1 500 obchodníků nabízí CDON široký sortiment, který zahrnuje více než 8 milionů produktů. V roce 2020 měla CDON více než 120 milionů návštěvníků a 2 miliony aktivních zákazníků. Další informace o používání služby Azure AI Search pro CDON najdete v tomto článku.

Ke spuštění těchto testů jsme použili snímek produkčního vyhledávacího indexu CDON a tisíce jedinečných dotazů z jejich webu.

Podrobnosti scénáře

Počet dokumentů: 6 000 000
Velikost indexu: 20 GB
Schéma indexu: široký index s celkovým počtem 250 polí, 25 prohledávatelných polí a 200 fasetových nebo filtrovatelných polí
Typy dotazů: Fulltextové vyhledávací dotazy, včetně omezujících vlastností, filtrů, řazení a profilů bodování

Výkon S1

Dotazy za sekundu

Následující graf ukazuje nejvyšší zatížení dotazů, které může služba zpracovat po delší dobu z hlediska dotazů za sekundu (QPS).

Nejvyšší udržovatelné elektronické obchodování QPS s1

Latence dotazů

Latence dotazů se liší v závislosti na zatížení služby a služeb s vyšším zatížením, které mají vyšší průměrnou latenci dotazů. Následující tabulka ukazuje 25. , 50. , 75. , 90. , 95. a 99. percentil latence dotazu pro tři různé úrovně využití.

Procento maximálního počtu QPS	Průměrná latence	25 %	75 %	90 %	95 %	99 %
20 %	104 ms	35 ms	115 ms	177 ms	257 ms	738 ms
50 %	140 ms	47 ms	144 ms	241 ms	400 ms	1175 ms
80 %	239 ms	77 ms	248 ms	466 ms	763 ms	1752 ms

Výkon S2

Dotazy za sekundu

Následující graf ukazuje nejvyšší zatížení dotazů, které může služba zpracovat po delší dobu z hlediska dotazů za sekundu (QPS).

Nejvyšší udržovatelné elektronické obchodování QPS s2

Latence dotazů

Procento maximálního počtu QPS	Průměrná latence	25 %	75 %	90 %	95 %	99 %
20 %	56 ms	21 ms	68 ms	106 ms	132 ms	210 ms
50 %	71 ms	26 ms	83 ms	132 ms	177 ms	329 ms
80 %	140 ms	47 ms	153 ms	293 ms	452 ms	924 ms

Výkon S3

Dotazy za sekundu

Následující graf ukazuje nejvyšší zatížení dotazů, které může služba zpracovat po delší dobu z hlediska dotazů za sekundu (QPS).

Nejvyšší udržovatelné elektronické obchodování QPS s3

V tomto případě vidíme, že přidání druhého oddílu výrazně zvyšuje maximální počet QPS, ale přidání třetího oddílu snižuje mezní výnosy. Menší vylepšení je pravděpodobné, že všechna data se už načítají do aktivní paměti S3 s pouhými dvěma oddíly.

Latence dotazů

Procento maximálního počtu QPS	Průměrná latence	25 %	75 %	90 %	95 %	99 %
20 %	50 ms	20 ms	64 ms	83 ms	98 ms	160 ms
50 %	62 ms	24 ms	80 ms	107 ms	130 ms	253 ms
80 %	115 ms	38 ms	121 ms	218 ms	352 ms	828 ms