Condividi tramite


Formati di dati NER personalizzati

Se si sta tentando di importare i dati in NER personalizzati, è necessario seguire un formato specifico. Se non si hanno dati da importare, è possibile creare il progetto e usare Language Studio per etichettare i documenti.

Formato file etichette

Il file Etichette deve essere nel json formato seguente da usare per importare le etichette in un progetto.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Chiave Segnaposto Valore Esempio
multilingual true Valore booleano che consente di avere documenti in più lingue nel set di dati e quando il modello viene distribuito è possibile eseguire query sul modello in qualsiasi linguaggio supportato (non necessariamente incluso nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto linguistico. true
projectName {PROJECT-NAME} Project name (Nome progetto) myproject
storageInputContainerName {CONTAINER-NAME} Nome contenitore mycontainer
entities Matrice contenente tutti i tipi di entità presenti nel progetto. Questi sono i tipi di entità che verranno estratti dai documenti in.
documents Matrice contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento. []
location {DOCUMENT-NAME} Percorso dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questo deve essere il nome del documento. doc1.txt
dataset {DATASET} Il test impostato su cui verrà eseguito questo file quando viene suddiviso prima del training. Altre informazioni sulla suddivisione dei dati qui . I valori possibili per questo campo sono Train e Test. Train
regionOffset Posizione del carattere inclusivo dell'inizio del testo. 0
regionLength Lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in questa area. 500
category Tipo di entità associata all'intervallo di testo specificato. Entity1
offset Posizione iniziale per il testo dell'entità. 25
length Lunghezza dell'entità in termini di caratteri UTF16. 20
language {LANGUAGE-CODE} Stringa che specifica il codice della lingua per il documento usato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice linguistico della maggior parte dei documenti. Per altre informazioni sui codici linguistici supportati, vedere Supporto della lingua. en-us

Passaggi successivi