Elfogadott egyéni hangulatelemzési adatformátumok

Ha egyéni hangulatelemzésbe próbálja importálni az adatokat , annak egy adott formátumot kell követnie. Ha nincs importálandó adata, létrehozhatja a projektet , és a Language Studióval címkézheti a dokumentumokat.

Címkék fájlformátuma

A Címkék fájlnak az json alábbi formátumban kell lennie ahhoz, hogy a címkéket egy projektbe importálhassa .

{
  "projectFileVersion": "2023-04-15-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomTextSentiment",
    "storageInputContainerName": "custom-sentiment-2",
    "projectName": "sa-test",
    "multilingual": false,
    "description": "",
    "language": "en-us"
  },
  "assets": {
    "projectKind": "CustomTextSentiment",
    "documents": [
      {
        "location": "document_1.txt",
        "language": "en-us",
        "sentimentSpans": [
          {
            "category": "positive",
            "offset": 0,
            "length": 60
          },
          {
            "category": "neutral",
            "offset": 61,
            "length": 31
          }
        ],
        "dataset": "Train"
      },
      {
        "location": "document_2.txt",
        "language": "en-us",
        "sentimentSpans": [
          {
            "category": "positive",
            "offset": 0,
            "length": 50
          },
          {
            "category": "positive",
            "offset": 51,
            "length": 49
          },
          {
            "category": "positive",
            "offset": 101,
            "length": 26
          }
        ],
        "dataset": "Train"
      }
    ]
  }
}

Kulcs Helyőrző Érték Példa
multilingual true Logikai érték, amely lehetővé teszi, hogy a dokumentumok több nyelven jelenjenek meg az adathalmazban, és a modell üzembe helyezésekor a modellt bármilyen támogatott nyelven lekérdezheti (ez nem feltétlenül szerepel a betanítási dokumentumokban). A többnyelvű támogatásról további információt a nyelvi támogatás című témakörben talál. true
projectName {PROJECT-NAME} Projektnév myproject
storageInputContainerName {CONTAINER-NAME} Tárolónév mycontainer
sentimentSpans A dokumentum összes hangulatát és helyét tartalmazó tömb.
documents Tömb, amely tartalmazza a projekt összes dokumentumát és az egyes dokumentumokban címkézett entitások listáját. []
location {DOCUMENT-NAME} A dokumentumok helye a tárolóban. Mivel az összes dokumentum a tároló gyökerében található, ennek a dokumentumnévnek kell lennie. doc1.txt
dataset {DATASET} Az a tesztkészlet, amelyre a fájl a betanítás előtt felosztáskor kerül. További információ az adatok felosztásáról itt . A mező lehetséges értékei a és Testa.Train Train
offset A szövegben lévő hangulat kezdetének befogadó karakterpozíciója. 0
length A határolókeret hossza UTF16 karakterekkel. A betanítás csak az ebben a régióban lévő adatokat veszi figyelembe. 500
category A megadott szövegtartományhoz társított hangulat. positive
offset Az entitás szövegének kezdőpozíciója. 25
length Az entitás hossza UTF16 karakterben. 20
language {LANGUAGE-CODE} A projektben használt dokumentum nyelvkódját meghatározó sztring. Ha a projekt többnyelvű projekt, válassza ki a dokumentumok többségének nyelvi kódját. A támogatott nyelvi kódokkal kapcsolatos további információkért lásd: Nyelvi támogatás . en-us

Következő lépések