Pelajari cara membuat penyematan dengan Azure OpenAI

Artikel
11/12/2024

Penyematan adalah format khusus representasi data yang dapat dengan mudah digunakan oleh model dan algoritma pembelajaran mesin. Penyematan adalah representasi padat informasi dari arti semantik dari sepotong teks. Setiap penyematan adalah vektor angka titik yang mengambang, sehingga jarak antara dua penyematan di ruang vektor berkorelasi dengan kesamaan semantik antara dua input dalam format asli. Misalnya, jika ada dua teks serupa, maka representasi vektornya juga harus serupa. Menyematkan pencarian kesamaan vektor daya di Azure Databases seperti Azure Cosmos DB untuk MongoDB vCore , Azure SQL Database atau Azure Database for PostgreSQL - Server Fleksibel.

Cara mendapatkan penyematan

Untuk mendapatkan vektor penyematan untuk sepotong teks, kita membuat permintaan ke titik akhir penyematan seperti yang ditunjukkan dalam cuplikan kode berikut:

curl https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/embeddings?api-version=2024-02-01\
  -H 'Content-Type: application/json' \
  -H 'api-key: YOUR_API_KEY' \
  -d '{"input": "Sample Document goes here"}'

import os
from openai import AzureOpenAI

client = AzureOpenAI(
  api_key = os.getenv("AZURE_OPENAI_API_KEY"),  
  api_version = "2024-06-01",
  azure_endpoint =os.getenv("AZURE_OPENAI_ENDPOINT") 
)

response = client.embeddings.create(
    input = "Your text string goes here",
    model= "text-embedding-3-large"
)

print(response.model_dump_json(indent=2))

Catatan

Versi 0.28.1 pustaka OpenAI Python tidak digunakan lagi. Sebaiknya gunakan 1.x. Lihat panduan migrasi kami untuk informasi tentang berpindah dari 0.28.1 ke 1.x.

import openai

openai.api_type = "azure"
openai.api_key = YOUR_API_KEY
openai.api_base = "https://YOUR_RESOURCE_NAME.openai.azure.com"
openai.api_version = "2024-06-01"

response = openai.Embedding.create(
    input="Your text string goes here",
    engine="YOUR_DEPLOYMENT_NAME"
)
embeddings = response['data'][0]['embedding']
print(embeddings)

using Azure;
using Azure.AI.OpenAI;

Uri oaiEndpoint = new ("https://YOUR_RESOURCE_NAME.openai.azure.com");
string oaiKey = "YOUR_API_KEY";

AzureKeyCredential credentials = new (oaiKey);

OpenAIClient openAIClient = new (oaiEndpoint, credentials);

EmbeddingsOptions embeddingOptions = new()
{
    DeploymentName = "text-embedding-3-large",
    Input = { "Your text string goes here" },
};

var returnValue = openAIClient.GetEmbeddings(embeddingOptions);

foreach (float item in returnValue.Value.Data[0].Embedding.ToArray())
{
    Console.WriteLine(item);
}

# Azure OpenAI metadata variables
$openai = @{
    api_key     = $Env:AZURE_OPENAI_API_KEY
    api_base    = $Env:AZURE_OPENAI_ENDPOINT # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
    api_version = '2024-02-01' # this may change in the future
    name        = 'YOUR-DEPLOYMENT-NAME-HERE' #This will correspond to the custom name you chose for your deployment when you deployed a model.
}

$headers = [ordered]@{
    'api-key' = $openai.api_key
}

$text = 'Your text string goes here'

$body = [ordered]@{
    input = $text
} | ConvertTo-Json

$url = "$($openai.api_base)/openai/deployments/$($openai.name)/embeddings?api-version=$($openai.api_version)"

$response = Invoke-RestMethod -Uri $url -Headers $headers -Body $body -Method Post -ContentType 'application/json'
return $response.data.embedding

Praktik terbaik

Verifikasi input jangan melebihi panjang maksimum

Panjang maksimum teks input untuk model penyematan terbaru kami adalah 8.192 token. Anda harus memverifikasi bahwa input Anda tidak melebihi batas ini sebelum membuat permintaan.
Jika mengirim array input dalam satu permintaan penyematan, ukuran array maks adalah 2048.
Saat mengirim array input dalam satu permintaan, ingatlah bahwa jumlah token per menit dalam permintaan Anda harus tetap di bawah batas kuota yang ditetapkan pada penyebaran model. Secara default, model penyematan generasi 3 terbaru tunduk pada batas 350 K TPM per wilayah.

Batasan & risiko

Model penyematan kami mungkin tidak dapat diandalkan atau menimbulkan risiko sosial dalam kasus tertentu, dan dapat membahayakan tanpa adanya mitigasi. Harap tinjau konten AI yang Bertanggung Jawab kami untuk mengetahui informasi selengkapnya tentang cara mendekati penggunanya secara bertanggung jawab.

Langkah berikutnya

Pelajari selengkapnya tentang menggunakan Azure OpenAI dan penyematan untuk melakukan pencarian dokumen dengan tutorial penyematan kami.
Pelajari selengkapnya tentang model yang mendasari yang mendukung Azure OpenAI.
Simpan penyematan Anda dan lakukan pencarian vektor (kesamaan) menggunakan pilihan layanan Anda:

Bagikan melalui