Elfogadott egyéni hangulatelemzési adatformátumok
Ha egyéni hangulatelemzésbe próbálja importálni az adatokat , annak egy adott formátumot kell követnie. Ha nincs importálandó adata, létrehozhatja a projektet , és a Language Studióval címkézheti a dokumentumokat.
Címkék fájlformátuma
A Címkék fájlnak az json
alábbi formátumban kell lennie ahhoz, hogy a címkéket egy projektbe importálhassa .
{
"projectFileVersion": "2023-04-15-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomTextSentiment",
"storageInputContainerName": "custom-sentiment-2",
"projectName": "sa-test",
"multilingual": false,
"description": "",
"language": "en-us"
},
"assets": {
"projectKind": "CustomTextSentiment",
"documents": [
{
"location": "document_1.txt",
"language": "en-us",
"sentimentSpans": [
{
"category": "positive",
"offset": 0,
"length": 60
},
{
"category": "neutral",
"offset": 61,
"length": 31
}
],
"dataset": "Train"
},
{
"location": "document_2.txt",
"language": "en-us",
"sentimentSpans": [
{
"category": "positive",
"offset": 0,
"length": 50
},
{
"category": "positive",
"offset": 51,
"length": 49
},
{
"category": "positive",
"offset": 101,
"length": 26
}
],
"dataset": "Train"
}
]
}
}
Kulcs | Helyőrző | Érték | Példa |
---|---|---|---|
multilingual |
true |
Logikai érték, amely lehetővé teszi, hogy a dokumentumok több nyelven jelenjenek meg az adathalmazban, és a modell üzembe helyezésekor a modellt bármilyen támogatott nyelven lekérdezheti (ez nem feltétlenül szerepel a betanítási dokumentumokban). A többnyelvű támogatásról további információt a nyelvi támogatás című témakörben talál. | true |
projectName |
{PROJECT-NAME} |
Projektnév | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Tárolónév | mycontainer |
sentimentSpans |
A dokumentum összes hangulatát és helyét tartalmazó tömb. | ||
documents |
Tömb, amely tartalmazza a projekt összes dokumentumát és az egyes dokumentumokban címkézett entitások listáját. | [] | |
location |
{DOCUMENT-NAME} |
A dokumentumok helye a tárolóban. Mivel az összes dokumentum a tároló gyökerében található, ennek a dokumentumnévnek kell lennie. | doc1.txt |
dataset |
{DATASET} |
Az a tesztkészlet, amelyre a fájl a betanítás előtt felosztáskor kerül. További információ az adatok felosztásáról itt . A mező lehetséges értékei a és Test a.Train |
Train |
offset |
A szövegben lévő hangulat kezdetének befogadó karakterpozíciója. | 0 |
|
length |
A határolókeret hossza UTF16 karakterekkel. A betanítás csak az ebben a régióban lévő adatokat veszi figyelembe. | 500 |
|
category |
A megadott szövegtartományhoz társított hangulat. | positive |
|
offset |
Az entitás szövegének kezdőpozíciója. | 25 |
|
length |
Az entitás hossza UTF16 karakterben. | 20 |
|
language |
{LANGUAGE-CODE} |
A projektben használt dokumentum nyelvkódját meghatározó sztring. Ha a projekt többnyelvű projekt, válassza ki a dokumentumok többségének nyelvi kódját. A támogatott nyelvi kódokkal kapcsolatos további információkért lásd: Nyelvi támogatás . | en-us |
Következő lépések
- A címkézett adatokat közvetlenül importálhatja a projektbe. A projekt importálásának ismertetése
- Az adatok címkézéséről további információt az útmutatóban talál. Ha végzett az adatok címkézésével, betanítheti a modellt.