Memahami penyematan di Azure OpenAI Service
Penyematan adalah format khusus representasi data yang dapat digunakan oleh model dan algoritma pembelajaran mesin. Penyematan adalah representasi padat informasi dari arti semantik dari sepotong teks. Setiap penyematan adalah vektor angka floating-point, sehingga jarak antara dua penyematan di ruang vektor berkorelasi dengan kesamaan semantik antara dua input dalam format asli. Misalnya, jika ada dua teks serupa, maka representasi vektornya juga harus serupa. Menyematkan pencarian kesamaan vektor daya dalam sistem pengambilan seperti Azure AI Search (disarankan) dan di database Azure seperti Azure Cosmos DB untuk MongoDB vCore , Azure SQL Database, dan Azure Database for PostgreSQL - Server Fleksibel.
Menyematkan model
Penyematan memudahkan untuk melakukan pembelajaran mesin pada input besar yang mewakili kata-kata dengan menangkap kesamaan semantik dalam ruang vektor. Oleh karena itu, Anda dapat menggunakan penyematan untuk menentukan apakah dua gugus teks terkait secara semantik atau serupa, dan memberikan skor untuk menilai kesamaan.
Kesamaan kosinus
Penyematan Azure OpenAI sering mengandalkan kesamaan kosinus dengan kesamaan komputasi antara dokumen dan kueri.
Dari perspektif matematika, kesamaan kosinus mengukur kosinus sudut antara dua vektor yang diproyeksikan dalam ruang multidmensional. Pengukuran ini bermanfaat, karena jika dua dokumen jauh terpisah dengan jarak Euclidean karena ukuran, mereka masih bisa memiliki sudut yang lebih kecil di antara mereka dan oleh karena itu kesamaan kosinus yang lebih tinggi. Untuk informasi selengkapnya tentang persamaan kesamaan kosinus, lihat Kesamaan Kosinus.
Metode alternatif untuk mengidentifikasi dokumen serupa adalah dengan menghitung jumlah kata umum antar dokumen. Pendekatan ini tidak menskalakan karena ekspansi dalam ukuran dokumen kemungkinan akan menyebabkan lebih banyak kata umum yang terdeteksi bahkan di antara topik yang berbeda. Untuk alasan ini, kesamaan kosinus dapat menawarkan alternatif yang lebih efektif.
Langkah berikutnya
- Pelajari selengkapnya tentang menggunakan Azure OpenAI dan penyematan untuk melakukan pencarian dokumen dengan tutorial penyematan kami.
- Simpan penyematan Anda dan lakukan pencarian vektor (kesamaan) menggunakan Azure Cosmos DB untuk MongoDB vCore, Azure Cosmos DB for NoSQL , Azure SQL Database , atau Azure Database for PostgreSQL - Server Fleksibel.
- Menggunakan Eventhouse dalam Kecerdasan Real Time di Microsoft Fabric sebagai database Vektor
- Gunakan fungsi series_cosine_similarity untuk pencarian kesamaan.