Azure AI Vision multimodális beágyazási képesség
Fontos
Ez a képesség nyilvános előzetes verzióban érhető el a kiegészítő használati feltételek alatt. A 2024-05-01-preview REST API támogatja ezt a funkciót.
Az Azure AI Vision multimodális beágyazási képessége az Azure AI Vision multimodális beágyazási API-jával készít beágyazásokat kép- vagy szövegbevitelhez.
A készség csak olyan régióban található keresési szolgáltatásokban támogatott, amely támogatja az Azure AI Vision Multimodal beágyazási API-t. Tekintse át a régiók rendelkezésre állását a multimodális beágyazásokhoz. Az adatok feldolgozása a Geo-ban történik, ahol a modell üzembe van helyezve.
Feljegyzés
Ez a képesség az Azure AI-szolgáltatásokhoz van kötve, és számlázható erőforrást igényel olyan tranzakciókhoz, amelyek indexelőnként naponta 20 dokumentumot meghaladóak. A beépített készségek végrehajtásáért a meglévő Azure AI-szolgáltatások használatalapú fizetéses díját számítjuk fel.
Emellett a rendszerképek kinyerése az Azure AI Search által számlázható.
@odata.type
Microsoft.Skills.Vision.VectorizeSkill
Adatkorlátok
A képesség bemeneti korlátait az Azure AI Vision képekre és szövegekre vonatkozó dokumentációjában találja. Fontolja meg a Szöveg felosztása készség használatát, ha adattömbökre van szüksége a szövegbevitelhez.
Képességparaméterek
A paraméterek megkülönböztetik a kis- és nagybetűket.
Bevitelek | Leírás |
---|---|
modelVersion |
(Kötelező) Az Azure AI Vision multimodális beágyazási API-nak átadandó modellverzió beágyazások létrehozásához. Fontos, hogy az adott indexmezőben tárolt összes beágyazás ugyanazzal modelVersion a módszerrel legyen létrehozva. A modell verziótámogatásával kapcsolatos információkért tekintse meg a multimodális beágyazásokat. |
Készségbemenetek
Bevitel | Leírás |
---|---|
text |
A vektorizálandó bemeneti szöveg. Ha adattömb-készítést használ, a forrás lehet /document/pages/* . |
image |
Összetett típus. Jelenleg csak a "/document/normalized_images" mezővel működik, amelyet az Azure blobindexelő állít elő, ha imageAction nem none a . |
url |
A vektorizálandó kép letöltésének URL-címe. |
queryString |
A vektorizálandó kép letöltéséhez használt URL-cím lekérdezési sztringje. Akkor hasznos, ha az URL-címet és az SAS-jogkivonatot külön elérési utakon tárolja. |
A képességnek csak az egyik text
image
példánya konfigurálható vagyqueryString
url
/konfigurálható. Ha a képeket és a szöveget is ugyanabban a képességkészletben szeretné vektorizálni, a készségkészlet definíciójában szerepeljen a képesség két példánya, egyet pedig minden használni kívánt bemeneti típushoz.
Képességkimenetek
Hozam | Leírás |
---|---|
vector |
A bemeneti szöveg vagy kép lebegőpontos tömbjének kimeneti beágyazása. |
Mintadefiníció
Szövegbevitelhez fontolja meg a következő mezőket tartalmazó rekordot:
{
"content": "Microsoft released Windows 10."
}
Ezután a képességdefiníció a következőhöz hasonlóan nézhet ki:
{
"@odata.type": "#Microsoft.Skills.Vision.VectorizeSkill",
"context": "/document",
"modelVersion": "2023-04-15",
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "vector"
}
]
}
Képbemenet esetén a képességdefiníció a következőképpen nézhet ki:
{
"@odata.type": "#Microsoft.Skills.Vision.VectorizeSkill",
"context": "/document/normalized_images/*",
"modelVersion": "2023-04-15",
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "vector"
}
]
}
Ha közvetlenül a Blob Storage-adatforrásból szeretne képeket vektorizálni, a képességdefiníció a következőképpen nézhet ki:
{
"@odata.type": "#Microsoft.Skills.Vision.VectorizeSkill",
"context": "/document",
"modelVersion": "2023-04-15",
"inputs": [
{
"name": "url",
"source": "/document/metadata_storage_path"
},
{
"name": "queryString",
"source": "/document/metadata_storage_sas_token"
}
],
"outputs": [
{
"name": "vector"
}
]
}
Példakimenet
A megadott bemeneti szöveghez vektoros beágyazási kimenet jön létre.
{
"vector": [
0.018990106880664825,
-0.0073809814639389515,
....
0.021276434883475304,
]
}
A kimenet a memóriában található. Ha ezt a kimenetet a keresési index egy mezőjébe szeretné küldeni, meg kell adnia egy outputFieldMapping értéket, amely a vektoros beágyazási kimenetet (amely tömb) egy vektormezőre képezi le. Feltételezve, hogy a képességkimenet a dokumentum vektorcsomópontjában található, és content_vector a keresési index mezője, az indexelőben a outputFieldMapping értéknek a következőképpen kell kinéznie:
"outputFieldMappings": [
{
"sourceFieldName": "/document/vector/*",
"targetFieldName": "content_vector"
}
]
A képbeágyazások indexhez való leképezéséhez az Index-vetítések funkciót kell használnia. A hasznos adatok a indexProjections
következőképpen nézhetnek ki:
"indexProjections": {
"selectors": [
{
"targetIndexName": "myTargetIndex",
"parentKeyFieldName": "ParentKey",
"sourceContext": "/document/normalized_images/*",
"mappings": [
{
"name": "content_vector",
"source": "/document/normalized_images/*/vector"
}
]
}
]
}