Accepterade anpassade NER-dataformat

Artikel
12/19/2023

Om du försöker importera dina data till anpassad NER måste den följa ett visst format. Om du inte har data att importera kan du skapa projektet och använda Language Studio för att märka dina dokument.

Filformat för etiketter

Filen Etiketter bör vara i formatet json nedan för att användas för att importera etiketterna till ett projekt.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Nyckel	Platshållare	Värde	Exempel
`multilingual`	`true`	Ett booleskt värde som gör att du kan ha dokument på flera språk i din datauppsättning och när din modell distribueras kan du fråga modellen på valfritt språk som stöds (inte nödvändigtvis i dina träningsdokument). Mer information om flerspråkigt stöd finns i språkstöd .	`true`
`projectName`	`{PROJECT-NAME}`	Projektnamn	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	Containerns namn	`mycontainer`
`entities`		Matris som innehåller alla entitetstyper som du har i projektet. Det här är de entitetstyper som kommer att extraheras från dina dokument till.
`documents`		Matris som innehåller alla dokument i projektet och en lista över de entiteter som är märkta i varje dokument.	[]
`location`	`{DOCUMENT-NAME}`	Platsen för dokumenten i lagringscontainern. Eftersom alla dokument finns i roten i containern bör detta vara dokumentnamnet.	`doc1.txt`
`dataset`	`{DATASET}`	Testuppsättningen som den här filen ska gå till vid delning före träning. Läs mer om datadelning här . Möjliga värden för det här fältet är `Train` och `Test`.	`Train`
`regionOffset`		Den inkluderande teckenpositionen i början av texten.	`0`
`regionLength`		Avgränsningsrutans längd i termer av UTF16-tecken. Utbildningen tar endast hänsyn till data i den här regionen.	`500`
`category`		Den typ av entitet som är associerad med det angivna textintervallet.	`Entity1`
`offset`		Startpositionen för entitetstexten.	`25`
`length`		Entitetens längd i termer av UTF16-tecken.	`20`
`language`	`{LANGUAGE-CODE}`	En sträng som anger språkkoden för dokumentet som används i projektet. Om projektet är ett flerspråkigt projekt väljer du språkkoden för de flesta dokumenten. Mer information om språkkoder som stöds finns i Språkstöd .	`en-us`

Nästa steg

Du kan importera etiketterade data till projektet direkt. Lär dig hur du importerar projekt
Mer information om hur du etiketterar dina data finns i artikeln om instruktioner. När du är klar med att märka dina data kan du träna din modell.

Dela via

Accepterade anpassade NER-dataformat

Filformat för etiketter

Nästa steg

Feedback

Feedback

Ytterligare resurser