Condividi tramite


Formati di dati Riconoscimento entità denominata personalizzati accettati

Se si sta tentando di importare i dati in un NER personalizzato, è necessario seguire un formato specifico. Se non si hanno dati da importare, è possibile creare il progetto e usare Microsoft Foundry per etichettare i documenti.

Formato del file delle etichette

Il file Labels deve essere in json formato da usare per importare le etichette in un progetto.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Chiave Segnaposto valore Esempio
multilingual true Valore booleano che consente l’inclusione di documenti in diverse lingue nel set di dati; quando il modello viene distribuito, è possibile eseguire query sul modello in qualunque lingua supportata (non necessariamente inclusa nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto lingue. true
projectName {PROJECT-NAME} Project name (Nome progetto) myproject
storageInputContainerName {CONTAINER-NAME} Nome contenitore mycontainer
entities Array contenente tutti i tipi di entità inclusi nel progetto. Tipi di entità estratti dai documenti.
documents Array contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento. []
location {DOCUMENT-NAME} Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questa posizione dovrebbe essere il nome del documento. doc1.txt
dataset {DATASET} Set di test a cui verrà sottoposto il file quando viene diviso prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui. I valori possibili per questo campo sono Train e Test. Train
regionOffset La posizione del carattere inclusivo dell'inizio del testo. 0
regionLength La lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in quest’area. 500
category Il tipo di entità associata all'intervallo di testo specificato. Entity1
offset La posizione iniziale per il testo dell'entità. 25
length La lunghezza dell’entità in termini di caratteri UTF16. 20
language {LANGUAGE-CODE} Una stringa che specifica il codice lingua per il documento usato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice della lingua per la maggior parte dei documenti. Per altre informazioni, vedereSupporto delle lingue. en-us

Passaggi successivi