Sdílet prostřednictvím


Pochopte vnoření v Azure OpenAI v modelech Azure AI Foundry

Vkládání je speciální formát reprezentace dat, který můžou snadno používat modely a algoritmy strojového učení. Vložení je hustá informace, která reprezentuje sémantický význam části textu. Každé zapuštění je vektor čísel s pohyblivou desetinnou čárkou, takže vzdálenost mezi dvěma zapuštěními ve vektorovém prostoru je spojena se sémantickou podobností mezi dvěma vstupy v původním formátu. Pokud jsou například dva texty podobné, měly by být jejich vektorové reprezentace také podobné. Embeddování umožňuje vektorové vyhledávání ve vyhledávacích systémech, jako je Azure AI Search (doporučeno), a v databázích Azure, jako je Azure Cosmos DB for MongoDB vCore, Azure SQL Database a Azure Database for PostgreSQL - Flexibilní Server.

Vkládání modelů

Vkládání usnadňuje strojové učení u velkých vstupů představujících slova zachycením sémantických podobností ve vektorovém prostoru. Proto můžete pomocí vkládání určit, jestli jsou dva bloky textu sémanticky související nebo podobné, a poskytnout skóre pro vyhodnocení podobnosti.

Kosinusová podobnost

Embeddingy Azure OpenAI často spoléhají na kosinusovou podobnost při výpočtu podobnosti mezi dokumenty a dotazem.

Z matematického hlediska míra kosinusové podobnosti měří kosinus úhlu mezi dvěma vektory promítanými v multidimenzionálním prostoru. Toto měření je výhodné, protože pokud jsou dva dokumenty daleko od sebe vzhledem k euklidovské vzdálenosti, mohly by mezi nimi stále mít menší úhel, a proto vyšší kosinus podobnost. Další informace o rovnicích kosinové podobnosti naleznete v Kosinová podobnost.

Alternativní metodou identifikace podobných dokumentů je spočítat počet běžných slov mezi dokumenty. Tento přístup není škálovatelný, protože rozšíření velikosti dokumentu pravděpodobně povede k tomu, že bude zjištěno větší množství běžných slov, dokonce i mezi nesourodými tématy. Z tohoto důvodu může kosinus podobnost nabídnout efektivnější alternativu.

Další kroky