Porozumět vkládáním v Azure OpenAI a modelech Microsoft Foundry

Poznámka:

Tento dokument se týká portálu Microsoft Foundry (Classic).

🔍Informace o novém portálu najdete v dokumentaci k Microsoft Foundry (nové).

Vkládání je speciální formát reprezentace dat, který můžou snadno používat modely a algoritmy strojového učení. Vložení je hustá informace, která reprezentuje sémantický význam části textu. Každé vestavění je vektor čísel s plovoucí desetinnou čárkou tak, že vzdálenost mezi dvěma vestavěními ve vektorovém prostoru je korelována se sémantickou podobností mezi dvěma vstupy v původním formátu. Pokud jsou například dva texty podobné, měly by být jejich vektorové reprezentace také podobné. Embeddování umožňuje vektorové vyhledávání ve vyhledávacích systémech, jako je Azure AI Search (doporučeno), a v databázích Azure, jako je Azure Cosmos DB for MongoDB vCore, Azure SQL Database a Azure Database for PostgreSQL - Flexibilní Server.

Vkládání modelů

Vkládání usnadňuje strojové učení u velkých vstupů představujících slova zachycením sémantických podobností ve vektorovém prostoru. Proto můžete pomocí vkládání určit, jestli jsou dva bloky textu sémanticky související nebo podobné, a poskytnout skóre pro vyhodnocení podobnosti.

Kosinusová podobnost

Embeddingy Azure OpenAI často spoléhají na kosinusovou podobnost při výpočtu podobnosti mezi dokumenty a dotazem.

Z matematického hlediska míra kosinusové podobnosti měří kosinus úhlu mezi dvěma vektory promítanými v multidimenzionálním prostoru. Toto měření je výhodné, protože pokud jsou dva dokumenty daleko od sebe vzhledem k euklidovské vzdálenosti, mohly by mezi nimi stále mít menší úhel, a proto vyšší kosinus podobnost. Další informace o rovnicích kosinové podobnosti naleznete v Kosinová podobnost.

Alternativní metodou identifikace podobných dokumentů je spočítat počet běžných slov mezi dokumenty. Tento přístup není škálovatelný, protože rozšíření velikosti dokumentu pravděpodobně povede k tomu, že bude zjištěno větší množství běžných slov, dokonce i mezi nesourodými tématy. Z tohoto důvodu může kosinus podobnost nabídnout efektivnější alternativu.

Další kroky

Zjistěte více o používání Azure OpenAI a embeddingů k vyhledávání dokumentů s naším kurzem embeddingů.
Ukládejte svá vložení a provádějte vyhledávání vektorů (podobnosti) pomocí Azure Cosmos DB pro MongoDB vCore, Azure Cosmos DB pro NoSQL, Azure SQL Database nebo Azure Database pro PostgreSQL – Flexibilní server.
Použijte Eventhouse v Real-Time Intelligence v Microsoft Fabric jako vektorovou databázi.
- Pro vyhledávání podobnosti použijte funkci series_cosine_similarity.

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-12-06