Sdílet prostřednictvím


Akceptované vlastní formáty dat NER

Pokud se pokoušíte importovat data do vlastního NER, musí být v určitém formátu. Pokud nemáte data k importu, můžete vytvořit projekt a použít Language Studio k označení dokumentů.

Formát souboru popisků

Soubor Popisky by měl být v json následujícím formátu, aby se použil při importu popisků do projektu.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Klíč Zástupný symbol Hodnota Příklad
multilingual true Logická hodnota, která umožňuje mít v datové sadě dokumenty v několika jazycích, a když je model nasazený, můžete se na model dotazovat v libovolném podporovaném jazyce (nemusí být nutně součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v tématu Podpora jazyků . true
projectName {PROJECT-NAME} Název projektu myproject
storageInputContainerName {CONTAINER-NAME} Název kontejneru mycontainer
entities Pole obsahující všechny typy entit, které máte v projektu. Jedná se o typy entit, do které se budou extrahovat z vašich dokumentů.
documents Pole obsahující všechny dokumenty v projektu a seznam entit označených v jednotlivých dokumentech. []
location {DOCUMENT-NAME} Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měl by to být název dokumentu. doc1.txt
dataset {DATASET} Testovací sada, do které tento soubor přejde při rozdělení před trénováním. Další informace o rozdělení dat najdete tady . Možné hodnoty pro toto pole jsou Train a Test. Train
regionOffset Pozice inkluzivního znaku začátku textu. 0
regionLength Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti. 500
category Typ entity přidružené k zadanému rozsahu textu. Entity1
offset Počáteční pozice pro text entity. 25
length Délka entity z hlediska znaků UTF16. 20
language {LANGUAGE-CODE} Řetězec určující kód jazyka pro dokument použitý v projektu. Pokud se jedná o vícejazyčný projekt, zvolte kód jazyka většiny dokumentů. Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. en-us

Další kroky