Egyéni beszédmodell betanítása
Ebből a cikkből megtudhatja, hogyan taníthat be egyéni modelleket a Microsoft alapmodellből származó felismerési pontosság javítása érdekében. Az egyéni beszédmodellek beszédfelismerési pontossága és minősége konzisztens marad, még akkor is, ha új alapmodellt ad ki.
Feljegyzés
Az egyéni beszédmodellek használatáért és a végpontok üzemeltetéséért fizetnie kell. Ha az alapmodell 2023. október 1-jén és később jött létre, az egyéni beszédmodell betanításáért is díjat számítunk fel. A betanításért nem kell fizetnie, ha az alapmodell 2023 októbere előtt lett létrehozva. További információ: Az Azure AI Speech díjszabása és a Speech to Text 3.2 migrálási útmutatójának adaptálási díja című szakasza.
A modellek betanítása általában iteratív folyamat. Először válasszon ki egy alapmodellt, amely egy új modell kiindulópontja. Betanított egy modellt olyan adathalmazokkal , amelyek tartalmazhatnak szöveget és hangot, majd tesztelheti. Ha a felismerés minősége vagy pontossága nem felel meg a követelményeknek, létrehozhat egy új modellt több vagy módosított betanítási adattal, majd újra tesztelheti.
Az egyéni modellt a betanítása után korlátozott ideig használhatja. A jobb pontosság és minőség érdekében rendszeresen újra létre kell hoznia és át kell igazítania az egyéni modellt a legújabb alapmodellből. További információ: Modell és végpont életciklusa.
Fontos
Ha egyéni modellt fog betanításra hangadatokkal, válasszon egy beszéderőforrás-régiót dedikált hardverrel a hangadatok betanításához. A modell betanítása után szükség szerint átmásolhatja azt egy másik régióban található Speech-erőforrásba .
Az egyéni beszédtanításhoz dedikált hardverrel rendelkező régiókban a Speech szolgáltatás legfeljebb 100 órányi hangbetanítási adatot fog használni, és naponta körülbelül 10 órányi adatot képes feldolgozni. További információkért tekintse meg a Régiók táblában található lábjegyzeteket.
Modell létrehozása
A betanítási adathalmazok feltöltése után kövesse az alábbi utasításokat a modell betanításának megkezdéséhez:
Jelentkezzen be a Speech Studióba.
Egyéni beszéd> kiválasztása A projekt neve >Egyéni modellek betanítása.
Válassza az Új modell betanítása lehetőséget.
Az Alapmodell kiválasztása lapon válasszon ki egy alapmodellt, majd válassza a Tovább lehetőséget. Ha nem biztos benne, válassza ki a legújabb modellt a lista tetején. Az alapmodell neve YYYYMMDD formátumban való kiadásának dátumának felel meg. Az alapmodell testreszabási képességei zárójelben jelennek meg a Speech Studióban a modell neve után.
Fontos
Jegyezze fel az alkalmazkodási dátum lejáratát. Ez az utolsó dátum, amikor az alapmodellt használhatja a betanításhoz. További információ: Modell és végpont életciklusa.
Az Adatok kiválasztása lapon válasszon ki egy vagy több adatkészletet, amelyet betanításhoz szeretne használni. Ha nincs elérhető adathalmaz, szakítsa meg a beállítást, majd lépjen a Speech adathalmazok menübe az adathalmazok feltöltéséhez.
Adja meg az egyéni modell nevét és leírását, majd válassza a Tovább gombot.
A következő lépésben jelölje be a Teszt hozzáadása jelölőnégyzetet. Ha kihagyja ezt a lépést, később ugyanazokat a teszteket futtathatja. További információ: Test recognition quality and Test model quantitatively.
Válassza a Mentés és a Közel lehetőséget az egyéni modell buildjének elindításához.
Térjen vissza az egyéni modellek betanítása lapra.
Fontos
Jegyezze fel a lejárati dátumot. Ez az utolsó dátum, amikor az egyéni modellt használhatja a beszédfelismeréshez. További információ: Modell és végpont életciklusa.
Ha betanításhoz adatkészleteket tartalmazó modellt szeretne létrehozni, használja a spx csr model create
parancsot. A kérelemparamétereket az alábbi utasítások szerint hozhatja létre:
- Állítsa a
project
paramétert egy meglévő projekt azonosítójára. Ez a paraméter ajánlott, hogy a modellt a Speech Studióban is megtekinthesse és felügyelhesse. Futtathatja a parancsot azspx csr project list
elérhető projektek lekéréséhez. - Állítsa be a szükséges
dataset
paramétert a betanításhoz használni kívánt adathalmaz azonosítójára. Több adathalmaz megadásához állítsa be adatasets
(többes szám) paramétert, és válassza el az azonosítókat pontosvesszővel. - Adja meg a szükséges
language
paramétert. Az adathalmaz területi beállításának meg kell egyeznie a projekt területi beállításával. A területi beállítás később nem módosítható. A Speech CLIlanguage
paraméter megfelel alocale
JSON-kérés és -válasz tulajdonságának. - Adja meg a szükséges
name
paramétert. Ez a paraméter a Speech Studióban megjelenített név. A Speech CLIname
paraméter megfelel adisplayName
JSON-kérés és -válasz tulajdonságának. - Igény szerint beállíthatja a tulajdonságot
base
. Például:--base 5988d691-0893-472c-851e-8e36a0fe7aaf
Ha nem adja meg abase
beállítást, a rendszer az alapértelmezett alapmodellt használja a területi beállításhoz. A Speech CLIbase
paraméter megfelel abaseModel
JSON-kérés és -válasz tulajdonságának.
Íme egy példa Speech CLI-parancsra, amely egy modellt hoz létre adatkészletekkel a betanításhoz:
spx csr model create --api-version v3.2 --project YourProjectId --name "My Model" --description "My Model Description" --dataset YourDatasetId --language "en-US"
Feljegyzés
Ebben a példában nincs beállítva a base
beállítás, ezért a területi beállítás alapértelmezett alapmodellje lesz használva. A válaszban az alapmodell URI-ja lesz visszaadva.
A válasz törzsének a következő formátumban kell érkeznie:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd",
"baseModel": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"
},
"datasets": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23"
}
],
"links": {
"manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/manifest",
"copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd:copy",
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"properties": {
"deprecationDates": {
"transcriptionDateTime": "2026-07-15T00:00:00Z"
},
"customModelWeightPercent": 30,
"features": {
"supportsTranscriptions": true,
"supportsEndpoints": true,
"supportsTranscriptionsOnSpeechContainers": false,
"supportedOutputFormats": [
"Display",
"Lexical"
]
}
},
"lastActionDateTime": "2024-07-14T21:38:40Z",
"status": "Running",
"createdDateTime": "2024-07-14T21:38:40Z",
"locale": "en-US",
"displayName": "My Model",
"description": "My Model Description"
}
Fontos
Jegyezze fel a tulajdonság dátumát adaptationDateTime
. Ez az utolsó dátum, amikor az alapmodellt használhatja a betanításhoz. További információ: Modell és végpont életciklusa.
Jegyezze fel a tulajdonság dátumát transcriptionDateTime
. Ez az utolsó dátum, amikor az egyéni modellt használhatja a beszédfelismeréshez. További információ: Modell és végpont életciklusa.
A válasz törzsének legfelső szintű self
tulajdonsága a modell URI-ja. Ezzel az URI-val részletes információkat kaphat a modell projektjéről, jegyzékadatairól és elavulásáról. Ezzel az URI-val is frissíthet vagy törölhet egy modellt.
A Speech CLI modellekkel kapcsolatos súgójához futtassa a következő parancsot:
spx help csr model
Ha adatkészleteket tartalmazó modellt szeretne létrehozni a betanításhoz, használja a Speech to text REST API Models_Create műveletét. A kérelem törzsének összeállítása az alábbi utasítások szerint:
- Állítsa a
project
tulajdonságot egy meglévő projekt URI-jára. Ez a tulajdonság azért ajánlott, hogy a Modellt a Speech Studióban is megtekinthesse és felügyelhesse. Projects_List kérést is kérhet az elérhető projektek beszerzéséhez. - Állítsa be a szükséges
datasets
tulajdonságot a betanításhoz használni kívánt adathalmazok URI-jára. - Állítsa be a szükséges
locale
tulajdonságot. A modell területi beállításának meg kell egyeznie a projekt és az alapmodell területi beállításával. A területi beállítás később nem módosítható. - Állítsa be a szükséges
displayName
tulajdonságot. Ez a tulajdonság a Speech Studióban megjelenített név. - Igény szerint beállíthatja a tulajdonságot
baseModel
. Például:"baseModel": {"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"}
Ha nem adja meg abaseModel
beállítást, a rendszer az alapértelmezett alapmodellt használja a területi beállításhoz.
Http POST-kérés létrehozása az URI használatával az alábbi példában látható módon. Cserélje le YourSubscriptionKey
a Speech erőforráskulcsát, cserélje le YourServiceRegion
a Speech erőforrásterületre, és állítsa be a kérés törzstulajdonságait a korábban leírtak szerint.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"displayName": "My Model",
"description": "My Model Description",
"baseModel": null,
"datasets": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23"
}
],
"locale": "en-US"
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models"
Feljegyzés
Ebben a példában nincs beállítva a baseModel
beállítás, ezért a területi beállítás alapértelmezett alapmodellje lesz használva. A válaszban az alapmodell URI-ja lesz visszaadva.
A válasz törzsének a következő formátumban kell érkeznie:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd",
"baseModel": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"
},
"datasets": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23"
}
],
"links": {
"manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/manifest",
"copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd:copy",
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9e240dc1-3d2d-4ac9-98ec-1be05ba0e9dd/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"properties": {
"deprecationDates": {
"transcriptionDateTime": "2026-07-15T00:00:00Z"
},
"customModelWeightPercent": 30,
"features": {
"supportsTranscriptions": true,
"supportsEndpoints": true,
"supportsTranscriptionsOnSpeechContainers": false,
"supportedOutputFormats": [
"Display",
"Lexical"
]
}
},
"lastActionDateTime": "2024-07-14T21:38:40Z",
"status": "Running",
"createdDateTime": "2024-07-14T21:38:40Z",
"locale": "en-US",
"displayName": "My Model",
"description": "My Model Description"
}
Fontos
Jegyezze fel a tulajdonság dátumát adaptationDateTime
. Ez az utolsó dátum, amikor az alapmodellt használhatja a betanításhoz. További információ: Modell és végpont életciklusa.
Jegyezze fel a tulajdonság dátumát transcriptionDateTime
. Ez az utolsó dátum, amikor az egyéni modellt használhatja a beszédfelismeréshez. További információ: Modell és végpont életciklusa.
A válasz törzsének legfelső szintű self
tulajdonsága a modell URI-ja. Ezzel az URI-val részletes információkat kaphat a modell projektjéről, jegyzékadatairól és elavulásáról. Ezzel az URI-val is frissítheti vagy törölheti a modellt.
Modell másolása
A modellt átmásolhatja egy másik projektbe, amely ugyanazt a területi beállításokat használja. Ha például egy modellt hangadatokkal tanít be egy olyan régióban , amely dedikált hardverrel rendelkezik a betanításhoz, szükség szerint átmásolhatja azokat egy másik régióban található Speech-erőforrásba.
Az alábbi utasításokat követve másolhat egy modellt egy másik régióban lévő projektbe:
- Jelentkezzen be a Speech Studióba.
- Egyéni beszéd> kiválasztása A projekt neve >Egyéni modellek betanítása.
- Válassza a Másolás elemet.
- A Beszédmodell másolása lapon válassza ki azt a célrégiót, ahová a modellt át szeretné másolni.
- Válasszon ki egy Speech-erőforrást a célrégióban, vagy hozzon létre egy új Speech-erőforrást.
- Jelölje ki azt a projektet, amelybe a modellt át szeretné másolni, vagy hozzon létre egy új projektet.
- Válassza a Másolás lehetőséget.
A modell sikeres másolása után értesítést kap, és megtekintheti azt a célprojektben.
A Speech CLI nem támogatja a modellek egy másik régióban lévő projektbe való közvetlen másolását. A Speech Studio vagy a Speech rest API használatával egy másik régióban lévő projektbe másolhat egy modellt.
Ha egy modellt egy másik Speech-erőforrásba szeretne másolni, használja a Speech to text REST API Models_Copy műveletét. A kérelem törzsének összeállítása az alábbi utasítások szerint:
- Állítsa be a szükséges
targetSubscriptionKey
tulajdonságot a cél speech erőforrás kulcsára.
Http POST-kérés létrehozása az URI használatával az alábbi példában látható módon. Használja annak a modellnek a régióját és URI-ját, amelyből másolni szeretne. Cserélje le YourModelId
a modellazonosítót, cserélje le YourSubscriptionKey
a Speech erőforráskulcsra, cserélje le YourServiceRegion
a Speech erőforrásrégiójára, és állítsa be a kérelem törzstulajdonságait a korábban leírtak szerint.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"targetSubscriptionKey": "ModelDestinationSpeechResourceKey"
} ' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models/YourModelId:copy"
Feljegyzés
Csak a targetSubscriptionKey
kérelem törzsében lévő tulajdonság rendelkezik információval a Cél beszéd erőforrásról.
A válasz törzsének a következő formátumban kell érkeznie:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae",
"baseModel": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/eb5450a7-3ca2-461a-b2d7-ddbb3ad96540"
},
"links": {
"manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae/manifest",
"copy": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae:copy"
},
"properties": {
"deprecationDates": {
"adaptationDateTime": "2023-01-15T00:00:00Z",
"transcriptionDateTime": "2024-07-15T00:00:00Z"
}
},
"lastActionDateTime": "2022-05-22T23:15:27Z",
"status": "NotStarted",
"createdDateTime": "2022-05-22T23:15:27Z",
"locale": "en-US",
"displayName": "My Model",
"description": "My Model Description",
"customProperties": {
"PortalAPIVersion": "3",
"Purpose": "",
"VadKind": "None",
"ModelClass": "None",
"UsesHalide": "False",
"IsDynamicGrammarSupported": "False"
}
}
Modell csatlakoztatása
Előfordulhat, hogy a modelleket a Speech CLI vagy a REST API használatával másolták át egy projektből anélkül, hogy egy másik projekthez csatlakoztak volna. A modell csatlakoztatása a modellnek a projektre való hivatkozással történő frissítésével kapcsolatos.
Ha a Speech Studióban kéri a rendszer, a Csatlakozás gombra kattintva csatlakoztathatja őket.
Ha egy modellt egy projekthez szeretne csatlakoztatni, használja a spx csr model update
parancsot. A kérelemparamétereket az alábbi utasítások szerint hozhatja létre:
- Állítsa a paramétert
project
egy meglévő projekt URI-jára. Ez a paraméter ajánlott, hogy a modellt a Speech Studióban is megtekinthesse és felügyelhesse. Futtathatja a parancsot azspx csr project list
elérhető projektek lekéréséhez. - Állítsa a szükséges
modelId
paramétert a projekthez csatlakozni kívánt modell azonosítójára.
Íme egy példa a Speech CLI-parancsra, amely egy modellt csatlakoztat egy projekthez:
spx csr model update --api-version v3.2 --model YourModelId --project YourProjectId
A válasz törzsének a következő formátumban kell érkeznie:
{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
}
A Speech CLI modellekkel kapcsolatos súgójához futtassa a következő parancsot:
spx help csr model
Ha új modellt szeretne csatlakoztatni annak a Speech-erőforrásnak a projektéhez, amelyben a modellt másolták, használja a Speech és a REST API Models_Update műveletét. A kérelem törzsének összeállítása az alábbi utasítások szerint:
- Állítsa be a szükséges
project
tulajdonságot egy meglévő projekt URI-jára. Ez a tulajdonság azért ajánlott, hogy a Modellt a Speech Studióban is megtekinthesse és felügyelhesse. Projects_List kérést is kérhet az elérhető projektek beszerzéséhez.
Hozzon létre egy HTTP PATCH-kérést az URI használatával az alábbi példában látható módon. Használja az új modell URI-ját. Az új modellazonosítót a Models_Copy választörzs tulajdonságából self
szerezheti be. Cserélje le YourSubscriptionKey
a Speech erőforráskulcsát, cserélje le YourServiceRegion
a Speech erőforrásterületre, és állítsa be a kérés törzstulajdonságait a korábban leírtak szerint.
curl -v -X PATCH -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/models"
A válasz törzsének a következő formátumban kell érkeznie:
{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
}