Azure OpenAI beágyazási képesség

Cikk
05/28/2024

Fontos

Ez a funkció nyilvános előzetes verzióban érhető el a kiegészítő használati feltételek alatt. A 2023-10-01-es verziójú REST API támogatja a funkció első iterációját. A 2024-05-01-es verziójú REST API további tulajdonságokat ad hozzá, és több szöveges beágyazási modellt támogat az Azure OpenAI-ban.

Az Azure OpenAI beágyazási képessége egy üzembe helyezett beágyazási modellhez csatlakozik az Azure OpenAI-erőforráson , hogy beágyazásokat hozzon létre az indexelés során. Az adatok feldolgozása a Geo-ban történik, ahol a modell üzembe van helyezve.

Az Adatok importálása és vektorizálása varázsló az Azure Portalon az Azure OpenAI beágyazási képesség használatával vektorizálja a tartalmat. Futtassa a varázslót, és tekintse át a létrehozott készségkészletet, hogy lássa, hogyan építi ki a varázsló a text-embedding-ada-002 modellhez tartozó készséget.

Feljegyzés

Ez a képesség az Azure OpenAI-hoz van kötve, és a meglévő Azure OpenAI használatalapú fizetéses áron kerül felszámításra.

@odata.type

Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Adatkorlátok

A szövegbevitel maximális mérete 8000 token lehet. Ha a bemenet meghaladja a megengedett maximális értéket, a modell érvénytelen kérési hibát jelez. További információkért tekintse meg a tokenek kulcsfogalmát az Azure OpenAI dokumentációjában. Fontolja meg a Szöveg felosztása készség használatát, ha adatrészletezésre van szüksége.

Képességparaméterek

A paraméterek megkülönböztetik a kis- és nagybetűket.

Bevitelek	Leírás
`resourceUri`	Egy modellszolgáltató URI-ja, például egy Azure OpenAI-erőforrás vagy egy OpenAI URL-cím.
`apiKey`	A modell eléréséhez használt titkos kulcs. Ha megad egy kulcsot, hagyja `authIdentity` üresen. Ha mindkettőt `apiKeyauthIdentity`beállítja, akkor a rendszer a `apiKey` kapcsolatot használja.
`deploymentId`	Az üzembe helyezett Azure OpenAI-beágyazási modell neve. A modellnek beágyazási modellnek kell lennie, például text-embedding-ada-002. A támogatott modellekhez tekintse meg az Azure OpenAI-modellek listáját.
`authIdentity`	A keresési szolgáltatás által az Azure OpenAI-hoz való csatlakozáshoz használt, felhasználó által felügyelt identitás. Rendszer- vagy felhasználó által felügyelt identitást is használhat. Ha rendszerszintű identitást szeretne használni, hagyja meg `apiKey` és `authIdentity` hagyja üresen. A rendszer által felügyelt identitást a rendszer automatikusan használja. A felügyelt identitásoknak Cognitive Services OpenAI felhasználói engedélyekkel kell rendelkezniük ahhoz, hogy szöveget küldjenek az Azure OpenAI-ba.
`modelName`	Ez a tulajdonság akkor szükséges, ha a képességkészlet a 2024-05-01-preview REST API használatával jön létre. Állítsa be ezt a tulajdonságot egy Azure OpenAI-beágyazási modell üzembe helyezésének nevére, amely a megadott szolgáltatón keresztül `resourceUri` van üzembe helyezve, és amelyen keresztül `deploymentId`azonosítható. Jelenleg a támogatott értékek a következők`text-embedding-ada-002`: és `text-embedding-3-largetext-embedding-3-small`.
`dimensions`	(Nem kötelező, a 2024-05-01-preview REST API-ban vezettük be). A beágyazások azon méretei, amelyeket létre szeretne hozni, ha a modell támogatja a beágyazási dimenziók csökkentését. A támogatott tartományok alább láthatók. Ha nincs megadva, alapértelmezés szerint az egyes modellek maximális méretei lesznek megadva. A 2023-10-01 előzetes verzióval létrehozott készségkészletek esetében a dimenziók 1536-ban vannak rögzítve.

Támogatott dimenziók a következő szerint: `modelName`

Az Azure OpenAI beágyazási képességeinek támogatott dimenziói a modelName konfigurálttól függenek.

`modelName`	Minimális méretek	Maximális méretek
text-embedding-ada-002	1536	1536
text-embedding-3-large	0	3072
text-embedding-3-small	0	1536

Készségbemenetek

Bevitel	Leírás
`text`	A vektorizálandó bemeneti szöveg. Ha adattömb-készítést használ, a forrás lehet `/document/pages/*`.

Képességkimenetek

Hozam	Leírás
`embedding`	Vektoros beágyazás a bemeneti szöveghez.

Mintadefiníció

Fontolja meg a következő mezőket tartalmazó rekordot:

{
    "content": "Microsoft released Windows 10."
}

Ezután a képességdefiníció a következőhöz hasonlóan nézhet ki:

{
  "@odata.type": "#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill",
  "description": "Connects a deployed embedding model.",
  "resourceUri": "https://my-demo-openai-eastus.openai.azure.com/",
  "deploymentId": "my-text-embedding-ada-002-model",
  "modelName": "text-embedding-ada-002",
  "dimensions": 1536,
  "inputs": [
    {
      "name": "text",
      "source": "/document/content"
    }
  ],
  "outputs": [
    {
      "name": "embedding"
    }
  ]
}

Példakimenet

A megadott bemeneti szöveghez vektoros beágyazási kimenet jön létre.

{
  "embedding": [
        0.018990106880664825,
        -0.0073809814639389515,
        .... 
        0.021276434883475304,
      ]
}

A kimenet a memóriában található. Ha ezt a kimenetet a keresési index egy mezőjébe szeretné küldeni, meg kell adnia egy outputFieldMapping értéket, amely a vektoros beágyazási kimenetet (amely tömb) egy vektormezőre képezi le. Feltéve, hogy a képességkimenet a dokumentum beágyazási csomópontjában található, és content_vector a keresési index mezője, az indexelő kimeneti Mezőmetszőjének a következőképpen kell kinéznie:

  "outputFieldMappings": [
    {
      "sourceFieldName": "/document/embedding/*",
      "targetFieldName": "content_vector"
    }
  ]

Ajánlott eljárások

Az alábbiakban néhány ajánlott eljárást kell figyelembe vennie, amikor ezt a képességet használja:

Ha eléri az Azure OpenAI TPM (tokenek percenkénti) korlátját, fontolja meg a kvótakorlátokkal kapcsolatos tanácsadást , hogy ennek megfelelően kezelhesse. Az Azure OpenAI-példány teljesítményével kapcsolatos további információkért tekintse meg az Azure OpenAI monitorozási dokumentációját.
Az Ehhez a képességhez használt Azure OpenAI-beágyazási modell üzembe helyezésének ideális esetben el kell különülnie az egyéb használati esetekhez használt üzembe helyezéstől, beleértve a lekérdezésvektort is. Ez segít az egyes üzemelő példányokat az adott használati esethez igazítani, ami optimalizált teljesítményhez vezet, és könnyen azonosítja az indexelőtől és az indexbe ágyazott hívásoktól érkező forgalmat.
Az Azure OpenAI-példánynak ugyanabban a régióban vagy legalább földrajzilag közel kell lennie ahhoz a régióhoz, ahol az AI-Search szolgáltatás üzemeltetik. Ez csökkenti a késést, és javítja a szolgáltatások közötti adatátvitel sebességét.
Ha az alapértelmezettnél nagyobb Azure OpenAI TPM -korláttal (tokenek percenként) rendelkezik a kvóták és a korlátok dokumentációjában közzétettek szerint, nyisson támogatási esetet az Azure AI Search csapatánál, hogy ennek megfelelően módosítható legyen. Ez segít abban, hogy az indexelési folyamatot ne lassítsa szükségtelenül a dokumentált alapértelmezett TPM-korlát, ha magasabb korlátokkal rendelkezik.
Az alábbi hivatkozásokon példákat és működő kódmintákat találhat a jártasság használatával:

Hibák és figyelmeztetések

Feltétel	Eredmény
Null vagy érvénytelen URI	Hiba
Null vagy érvénytelen üzembehelyezési azonosító	Hiba
A szöveg üres	Figyelmeztetés
A szöveg nagyobb, mint 8000 jogkivonat	Hiba

Megosztás a következőn keresztül:

Azure OpenAI beágyazási képesség

@odata.type

Adatkorlátok

Képességparaméterek

Támogatott dimenziók a következő szerint: `modelName`

Készségbemenetek

Képességkimenetek

Mintadefiníció

Példakimenet

Ajánlott eljárások

Hibák és figyelmeztetések

Lásd még

Visszajelzés

Visszajelzés

További források

Megosztás a következőn keresztül:

Azure OpenAI beágyazási képesség

@odata.type

Adatkorlátok

Képességparaméterek

Támogatott dimenziók a következő szerint: modelName

Készségbemenetek

Képességkimenetek

Mintadefiníció

Példakimenet

Ajánlott eljárások

Hibák és figyelmeztetések

Lásd még

Visszajelzés

Visszajelzés

További források

Támogatott dimenziók a következő szerint: `modelName`