Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Vkládání je speciální formát reprezentace dat, který můžou snadno používat modely a algoritmy strojového učení. Vložení je hustá informace, která reprezentuje sémantický význam části textu. Každé zapuštění je vektor čísel s pohyblivou desetinnou čárkou, takže vzdálenost mezi dvěma zapuštěními ve vektorovém prostoru je spojena se sémantickou podobností mezi dvěma vstupy v původním formátu. Pokud jsou například dva texty podobné, měly by být jejich vektorové reprezentace také podobné. Embeddování umožňuje vektorové vyhledávání ve vyhledávacích systémech, jako je Azure AI Search (doporučeno), a v databázích Azure, jako je Azure Cosmos DB for MongoDB vCore, Azure SQL Database a Azure Database for PostgreSQL - Flexibilní Server.
Vkládání modelů
Vkládání usnadňuje strojové učení u velkých vstupů představujících slova zachycením sémantických podobností ve vektorovém prostoru. Proto můžete pomocí vkládání určit, jestli jsou dva bloky textu sémanticky související nebo podobné, a poskytnout skóre pro vyhodnocení podobnosti.
Kosinusová podobnost
Embeddingy Azure OpenAI často spoléhají na kosinusovou podobnost při výpočtu podobnosti mezi dokumenty a dotazem.
Z matematického hlediska míra kosinusové podobnosti měří kosinus úhlu mezi dvěma vektory promítanými v multidimenzionálním prostoru. Toto měření je výhodné, protože pokud jsou dva dokumenty daleko od sebe vzhledem k euklidovské vzdálenosti, mohly by mezi nimi stále mít menší úhel, a proto vyšší kosinus podobnost. Další informace o rovnicích kosinové podobnosti naleznete v Kosinová podobnost.
Alternativní metodou identifikace podobných dokumentů je spočítat počet běžných slov mezi dokumenty. Tento přístup není škálovatelný, protože rozšíření velikosti dokumentu pravděpodobně povede k tomu, že bude zjištěno větší množství běžných slov, dokonce i mezi nesourodými tématy. Z tohoto důvodu může kosinus podobnost nabídnout efektivnější alternativu.
Další kroky
- Zjistěte více o používání Azure OpenAI a embeddingů k vyhledávání dokumentů s naším kurzem embeddingů.
- Ukládejte svá vložení a provádějte vyhledávání vektorů (podobnosti) pomocí Azure Cosmos DB pro MongoDB vCore, Azure Cosmos DB pro NoSQL, Azure SQL Database nebo Azure Database pro PostgreSQL – Flexibilní server.
- Použijte Eventhouse v Real-Time Intelligence v Microsoft Fabric jako vektorovou databázi.