Zaakceptowane niestandardowe formaty danych NER

Artykuł
12/19/2023

Jeśli próbujesz zaimportować dane do niestandardowego modułu NER, musi on mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.

Format pliku etykiet

Plik Labels powinien być w json formacie poniżej, który będzie używany podczas importowania etykiet do projektu.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Klucz	Symbol zastępczy	Wartość	Przykład
`multilingual`	`true`	Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków , aby dowiedzieć się więcej o obsłudze wielojęzycznej.	`true`
`projectName`	`{PROJECT-NAME}`	Project name (Nazwa projektu)	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	Nazwa kontenera	`mycontainer`
`entities`		Tablica zawierająca wszystkie typy jednostek, które znajdują się w projekcie. Są to typy jednostek, które zostaną wyodrębnione z dokumentów.
`documents`		Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie.	[]
`location`	`{DOCUMENT-NAME}`	Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, powinna to być nazwa dokumentu.	`doc1.txt`
`dataset`	`{DATASET}`	Zestaw testowy, do którego ten plik zostanie podzielony przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to `Train` i `Test`.	`Train`
`regionOffset`		Położenie znaku inkluzywnego początku tekstu.	`0`
`regionLength`		Długość pola ograniczenia pod względem znaków UTF16. Trenowanie uwzględnia tylko dane w tym regionie.	`500`
`category`		Typ jednostki skojarzonej z określonym zakresem tekstu.	`Entity1`
`offset`		Pozycja początkowa dla tekstu jednostki.	`25`
`length`		Długość jednostki pod względem znaków UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości dokumentów. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka .	`en-us`

Następne kroki

Dane z etykietami można zaimportować bezpośrednio do projektu. Dowiedz się, jak zaimportować projekt
Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych. Po zakończeniu etykietowania danych możesz wytrenować model.

Zaakceptowane niestandardowe formaty danych NER

Format pliku etykiet

Następne kroki

Dodatkowe zasoby