Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Hanya berlaku untuk:Foundry Portal (klasik). Artikel ini tidak tersedia untuk portal Foundry baru.
Pelajari selengkapnya tentang portal baru.
Catatan
Tautan dalam artikel ini mungkin membuka konten dalam dokumentasi Microsoft Foundry baru alih-alih dokumentasi Foundry (klasik) yang Anda lihat sekarang.
Penyematan adalah format khusus representasi data yang dapat digunakan oleh model dan algoritma pembelajaran mesin. Penyematan adalah representasi padat informasi dari arti semantik dari sepotong teks. Setiap penyematan adalah vektor angka floating-point, sehingga jarak antara dua penyematan di ruang vektor berkorelasi dengan kesamaan semantik antara dua input dalam format asli. Misalnya, jika dua teks serupa, maka representasi vektornya juga harus serupa. Embedding mendukung pencarian kesamaan vektor dalam sistem temu kembali seperti Pencarian Azure AI (disarankan) dan dalam database di Azure seperti Azure Cosmos DB for MongoDB vCore, Azure SQL Database, dan Azure Database for PostgreSQL - Flexible Server.
Menyematkan model
Penyematan memudahkan untuk melakukan pembelajaran mesin pada input besar yang mewakili kata-kata dengan menangkap kesamaan semantik dalam ruang vektor. Oleh karena itu, Anda dapat menggunakan penyematan untuk menentukan apakah dua gugus teks terkait secara semantik atau serupa, dan memberikan skor untuk menilai kesamaan.
Kesamaan kosinus
Embedding Azure OpenAI sering mengandalkan kesamaan kosinus untuk menghitung kesamaan antara dokumen dan kueri.
Dari perspektif matematika, kesamaan kosinus mengukur kosinus sudut antara dua vektor yang diproyeksikan dalam ruang multidmensional. Pengukuran ini bermanfaat, karena jika dua dokumen jauh terpisah dengan jarak Euclidean karena ukuran, mereka masih bisa memiliki sudut yang lebih kecil di antara mereka dan oleh karena itu kesamaan kosinus yang lebih tinggi. Untuk informasi selengkapnya tentang persamaan kesamaan kosinus, lihat Kesamaan Kosinus.
Metode alternatif untuk mengidentifikasi dokumen serupa adalah dengan menghitung jumlah kata umum antar dokumen. Pendekatan ini tidak menskalakan karena ekspansi dalam ukuran dokumen kemungkinan akan menyebabkan lebih banyak kata umum yang terdeteksi bahkan di antara topik yang berbeda. Untuk alasan ini, kesamaan kosinus dapat menawarkan alternatif yang lebih efektif.
Langkah berikutnya
- Pelajari lebih lanjut tentang penggunaan Azure OpenAI dan penyematan untuk mencari dokumen dengan menggunakan tutorial embeddings kami.
- Simpan penyematan Anda dan lakukan pencarian vektor (kesamaan) menggunakan Azure Cosmos DB untuk MongoDB vCore, Azure Cosmos DB untuk NoSQL , Azure SQL Database atau Azure Database for PostgreSQL - Server Fleksibel.
- Gunakan Eventhouse dalam Real-Time Intelligence di Microsoft Fabric sebagai database Vector
- Gunakan fungsi series_cosine_similarity untuk pencarian kesamaan.