Vysvětlení vkládání ve službě Azure OpenAI
Vkládání je speciální formát reprezentace dat, který můžou snadno používat modely a algoritmy strojového učení. Vkládání je informace hustá reprezentace sémantického významu části textu. Každé vložení je vektor čísel s plovoucí desetinou čárkou, aby vzdálenost mezi dvěma vkládáními ve vektorovém prostoru odpovídala sémantické podobnosti mezi dvěma vstupy v původním formátu. Pokud jsou například dva texty podobné, měly by být jejich vektorové reprezentace také podobné. Vkládání vyhledávání vektorů výkonu do systémů načítání, jako je Azure AI Search (doporučeno) a do databází Azure, jako je Azure Cosmos DB for MongoDB vCore , Azure SQL Database a Flexibilní server Azure Database for PostgreSQL.
Vkládání modelů
Vkládání usnadňuje strojové učení u velkých vstupů představujících slova zachycením sémantických podobností ve vektorovém prostoru. Proto můžete pomocí vkládání určit, jestli jsou dva bloky textu sémanticky související nebo podobné, a poskytnout skóre pro vyhodnocení podobnosti.
Kosinusová podobnost
Vkládání Azure OpenAI často závisí na kosinusové podobnosti při výpočtu podobnosti mezi dokumenty a dotazem.
Z matematické perspektivy kosinus měří kosinus úhlu mezi dvěma vektory promítanými v multidimenzionálním prostoru. Toto měření je výhodné, protože pokud jsou dva dokumenty daleko od sebe vzhledem k euklidovské vzdálenosti, mohly by mezi nimi stále mít menší úhel, a proto vyšší kosinus podobnost. Další informace o kosinus podobnosti rovnic naleznete v tématu Kosinus podobnosti.
Alternativní metodou identifikace podobných dokumentů je spočítat počet běžných slov mezi dokumenty. Tento přístup se škáluje, protože rozšíření velikosti dokumentu pravděpodobně povede k většímu počtu zjištěných slov i mezi různorodými tématy. Z tohoto důvodu může kosinus podobnost nabídnout efektivnější alternativu.
Další kroky
- Přečtěte si další informace o používání Azure OpenAI a vkládání k provádění hledání dokumentů pomocí našeho kurzu vkládání.
- Ukládání vložených objektů a provádění vyhledávání vektorů (podobnosti) pomocí virtuálních jader Azure Cosmos DB pro MongoDB, Azure Cosmos DB for NoSQL, Azure SQL Database nebo Azure Database for PostgreSQL – Flexibilní server
- Použití eventhouse v sadě Real-Time Intelligence v Microsoft Fabric jako vektorové databázi