Zaakceptowane niestandardowe formaty danych NER

Jeśli próbujesz zaimportować dane do niestandardowego modułu NER, musi on mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.

Format pliku etykiet

Plik Labels powinien być w json formacie poniżej, który będzie używany podczas importowania etykiet do projektu.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Klucz Symbol zastępczy Wartość Przykład
multilingual true Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków , aby dowiedzieć się więcej o obsłudze wielojęzycznej. true
projectName {PROJECT-NAME} Project name (Nazwa projektu) myproject
storageInputContainerName {CONTAINER-NAME} Nazwa kontenera mycontainer
entities Tablica zawierająca wszystkie typy jednostek, które znajdują się w projekcie. Są to typy jednostek, które zostaną wyodrębnione z dokumentów.
documents Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie. []
location {DOCUMENT-NAME} Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, powinna to być nazwa dokumentu. doc1.txt
dataset {DATASET} Zestaw testowy, do którego ten plik zostanie podzielony przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to Train i Test. Train
regionOffset Położenie znaku inkluzywnego początku tekstu. 0
regionLength Długość pola ograniczenia pod względem znaków UTF16. Trenowanie uwzględnia tylko dane w tym regionie. 500
category Typ jednostki skojarzonej z określonym zakresem tekstu. Entity1
offset Pozycja początkowa dla tekstu jednostki. 25
length Długość jednostki pod względem znaków UTF16. 20
language {LANGUAGE-CODE} Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości dokumentów. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka . en-us

Następne kroki