Azure OpenAI beágyazási képesség
Fontos
Ez a funkció nyilvános előzetes verzióban érhető el a kiegészítő használati feltételek alatt. A 2023-10-01-es verziójú REST API támogatja a funkció első iterációját. A 2024-05-01-es verziójú REST API további tulajdonságokat ad hozzá, és több szöveges beágyazási modellt támogat az Azure OpenAI-ban.
Az Azure OpenAI beágyazási képessége egy üzembe helyezett beágyazási modellhez csatlakozik az Azure OpenAI-erőforráson , hogy beágyazásokat hozzon létre az indexelés során. Az adatok feldolgozása a Geo-ban történik, ahol a modell üzembe van helyezve.
Az Adatok importálása és vektorizálása varázsló az Azure Portalon az Azure OpenAI beágyazási képesség használatával vektorizálja a tartalmat. Futtassa a varázslót, és tekintse át a létrehozott készségkészletet, hogy lássa, hogyan építi ki a varázsló a text-embedding-ada-002 modellhez tartozó készséget.
Feljegyzés
Ez a képesség az Azure OpenAI-hoz van kötve, és a meglévő Azure OpenAI használatalapú fizetéses áron kerül felszámításra.
@odata.type
Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill
Adatkorlátok
A szövegbevitel maximális mérete 8000 token lehet. Ha a bemenet meghaladja a megengedett maximális értéket, a modell érvénytelen kérési hibát jelez. További információkért tekintse meg a tokenek kulcsfogalmát az Azure OpenAI dokumentációjában. Fontolja meg a Szöveg felosztása készség használatát, ha adatrészletezésre van szüksége.
Képességparaméterek
A paraméterek megkülönböztetik a kis- és nagybetűket.
Bevitelek | Leírás |
---|---|
resourceUri |
Egy modellszolgáltató URI-ja, például egy Azure OpenAI-erőforrás vagy egy OpenAI URL-cím. |
apiKey |
A modell eléréséhez használt titkos kulcs. Ha megad egy kulcsot, hagyja authIdentity üresen. Ha mindkettőt apiKey authIdentity beállítja, akkor a rendszer a apiKey kapcsolatot használja. |
deploymentId |
Az üzembe helyezett Azure OpenAI-beágyazási modell neve. A modellnek beágyazási modellnek kell lennie, például text-embedding-ada-002. A támogatott modellekhez tekintse meg az Azure OpenAI-modellek listáját. |
authIdentity |
A keresési szolgáltatás által az Azure OpenAI-hoz való csatlakozáshoz használt, felhasználó által felügyelt identitás. Rendszer- vagy felhasználó által felügyelt identitást is használhat. Ha rendszerszintű identitást szeretne használni, hagyja meg apiKey és authIdentity hagyja üresen. A rendszer által felügyelt identitást a rendszer automatikusan használja. A felügyelt identitásoknak Cognitive Services OpenAI felhasználói engedélyekkel kell rendelkezniük ahhoz, hogy szöveget küldjenek az Azure OpenAI-ba. |
modelName |
Ez a tulajdonság akkor szükséges, ha a képességkészlet a 2024-05-01-preview REST API használatával jön létre. Állítsa be ezt a tulajdonságot egy Azure OpenAI-beágyazási modell üzembe helyezésének nevére, amely a megadott szolgáltatón keresztül resourceUri van üzembe helyezve, és amelyen keresztül deploymentId azonosítható. Jelenleg a támogatott értékek a következőktext-embedding-ada-002 : és text-embedding-3-large text-embedding-3-small . |
dimensions |
(Nem kötelező, a 2024-05-01-preview REST API-ban vezettük be). A beágyazások azon méretei, amelyeket létre szeretne hozni, ha a modell támogatja a beágyazási dimenziók csökkentését. A támogatott tartományok alább láthatók. Ha nincs megadva, alapértelmezés szerint az egyes modellek maximális méretei lesznek megadva. A 2023-10-01 előzetes verzióval létrehozott készségkészletek esetében a dimenziók 1536-ban vannak rögzítve. |
Támogatott dimenziók a következő szerint: modelName
Az Azure OpenAI beágyazási képességeinek támogatott dimenziói a modelName
konfigurálttól függenek.
modelName |
Minimális méretek | Maximális méretek |
---|---|---|
text-embedding-ada-002 | 1536 | 1536 |
text-embedding-3-large | 0 | 3072 |
text-embedding-3-small | 0 | 1536 |
Készségbemenetek
Bevitel | Leírás |
---|---|
text |
A vektorizálandó bemeneti szöveg. Ha adattömb-készítést használ, a forrás lehet /document/pages/* . |
Képességkimenetek
Hozam | Leírás |
---|---|
embedding |
Vektoros beágyazás a bemeneti szöveghez. |
Mintadefiníció
Fontolja meg a következő mezőket tartalmazó rekordot:
{
"content": "Microsoft released Windows 10."
}
Ezután a képességdefiníció a következőhöz hasonlóan nézhet ki:
{
"@odata.type": "#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill",
"description": "Connects a deployed embedding model.",
"resourceUri": "https://my-demo-openai-eastus.openai.azure.com/",
"deploymentId": "my-text-embedding-ada-002-model",
"modelName": "text-embedding-ada-002",
"dimensions": 1536,
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "embedding"
}
]
}
Példakimenet
A megadott bemeneti szöveghez vektoros beágyazási kimenet jön létre.
{
"embedding": [
0.018990106880664825,
-0.0073809814639389515,
....
0.021276434883475304,
]
}
A kimenet a memóriában található. Ha ezt a kimenetet a keresési index egy mezőjébe szeretné küldeni, meg kell adnia egy outputFieldMapping értéket, amely a vektoros beágyazási kimenetet (amely tömb) egy vektormezőre képezi le. Feltéve, hogy a képességkimenet a dokumentum beágyazási csomópontjában található, és content_vector a keresési index mezője, az indexelő kimeneti Mezőmetszőjének a következőképpen kell kinéznie:
"outputFieldMappings": [
{
"sourceFieldName": "/document/embedding/*",
"targetFieldName": "content_vector"
}
]
Ajánlott eljárások
Az alábbiakban néhány ajánlott eljárást kell figyelembe vennie, amikor ezt a képességet használja:
Ha eléri az Azure OpenAI TPM (tokenek percenkénti) korlátját, fontolja meg a kvótakorlátokkal kapcsolatos tanácsadást , hogy ennek megfelelően kezelhesse. Az Azure OpenAI-példány teljesítményével kapcsolatos további információkért tekintse meg az Azure OpenAI monitorozási dokumentációját.
Az Ehhez a képességhez használt Azure OpenAI-beágyazási modell üzembe helyezésének ideális esetben el kell különülnie az egyéb használati esetekhez használt üzembe helyezéstől, beleértve a lekérdezésvektort is. Ez segít az egyes üzemelő példányokat az adott használati esethez igazítani, ami optimalizált teljesítményhez vezet, és könnyen azonosítja az indexelőtől és az indexbe ágyazott hívásoktól érkező forgalmat.
Az Azure OpenAI-példánynak ugyanabban a régióban vagy legalább földrajzilag közel kell lennie ahhoz a régióhoz, ahol az AI-Search szolgáltatás üzemeltetik. Ez csökkenti a késést, és javítja a szolgáltatások közötti adatátvitel sebességét.
Ha az alapértelmezettnél nagyobb Azure OpenAI TPM -korláttal (tokenek percenként) rendelkezik a kvóták és a korlátok dokumentációjában közzétettek szerint, nyisson támogatási esetet az Azure AI Search csapatánál, hogy ennek megfelelően módosítható legyen. Ez segít abban, hogy az indexelési folyamatot ne lassítsa szükségtelenül a dokumentált alapértelmezett TPM-korlát, ha magasabb korlátokkal rendelkezik.
Az alábbi hivatkozásokon példákat és működő kódmintákat találhat a jártasság használatával:
Hibák és figyelmeztetések
Feltétel | Eredmény |
---|---|
Null vagy érvénytelen URI | Hiba |
Null vagy érvénytelen üzembehelyezési azonosító | Hiba |
A szöveg üres | Figyelmeztetés |
A szöveg nagyobb, mint 8000 jogkivonat | Hiba |
Lásd még
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: