Sdílet prostřednictvím


Vysvětlení vkládání ve službě Azure OpenAI

Vkládání je speciální formát reprezentace dat, který můžou snadno používat modely a algoritmy strojového učení. Vkládání je informace hustá reprezentace sémantického významu části textu. Každé vložení je vektor čísel s plovoucí desetinou čárkou, aby vzdálenost mezi dvěma vkládáními ve vektorovém prostoru odpovídala sémantické podobnosti mezi dvěma vstupy v původním formátu. Pokud jsou například dva texty podobné, měly by být jejich vektorové reprezentace také podobné. Vkládání vyhledávání vektorů výkonu do systémů načítání, jako je Azure AI Search (doporučeno) a do databází Azure, jako je Azure Cosmos DB for MongoDB vCore , Azure SQL Database a Flexibilní server Azure Database for PostgreSQL.

Vkládání modelů

Vkládání usnadňuje strojové učení u velkých vstupů představujících slova zachycením sémantických podobností ve vektorovém prostoru. Proto můžete pomocí vkládání určit, jestli jsou dva bloky textu sémanticky související nebo podobné, a poskytnout skóre pro vyhodnocení podobnosti.

Kosinusová podobnost

Vkládání Azure OpenAI často závisí na kosinusové podobnosti při výpočtu podobnosti mezi dokumenty a dotazem.

Z matematické perspektivy kosinus měří kosinus úhlu mezi dvěma vektory promítanými v multidimenzionálním prostoru. Toto měření je výhodné, protože pokud jsou dva dokumenty daleko od sebe vzhledem k euklidovské vzdálenosti, mohly by mezi nimi stále mít menší úhel, a proto vyšší kosinus podobnost. Další informace o kosinus podobnosti rovnic naleznete v tématu Kosinus podobnosti.

Alternativní metodou identifikace podobných dokumentů je spočítat počet běžných slov mezi dokumenty. Tento přístup se škáluje, protože rozšíření velikosti dokumentu pravděpodobně povede k většímu počtu zjištěných slov i mezi různorodými tématy. Z tohoto důvodu může kosinus podobnost nabídnout efektivnější alternativu.

Další kroky