Formati di dati Riconoscimento entità denominata personalizzati accettati

Se si sta tentando di importare i dati in un NER personalizzato, è necessario seguire un formato specifico. Se non si hanno dati da importare, è possibile creare il progetto e usare Microsoft Foundry per etichettare i documenti.

Formato del file delle etichette

Il file Labels deve essere in json formato da usare per importare le etichette in un progetto.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Chiave	Segnaposto	valore	Esempio
`multilingual`	`true`	Valore booleano che consente l’inclusione di documenti in diverse lingue nel set di dati; quando il modello viene distribuito, è possibile eseguire query sul modello in qualunque lingua supportata (non necessariamente inclusa nei documenti di training). Per altre informazioni sul supporto multilingue, vedere Supporto lingue.	`true`
`projectName`	`{PROJECT-NAME}`	Project name (Nome progetto)	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	Nome contenitore	`mycontainer`
`entities`		Array contenente tutti i tipi di entità inclusi nel progetto. Tipi di entità estratti dai documenti.
`documents`		Array contenente tutti i documenti nel progetto e l'elenco delle entità etichettate all'interno di ogni documento.	[]
`location`	`{DOCUMENT-NAME}`	Posizione dei documenti nel contenitore di archiviazione. Poiché tutti i documenti si trovano nella radice del contenitore, questa posizione dovrebbe essere il nome del documento.	`doc1.txt`
`dataset`	`{DATASET}`	Set di test a cui verrà sottoposto il file quando viene diviso prima del training. Altre informazioni sulla suddivisione dei dati sono disponibili qui. I valori possibili per questo campo sono `Train` e `Test`.	`Train`
`regionOffset`		La posizione del carattere inclusivo dell'inizio del testo.	`0`
`regionLength`		La lunghezza del rettangolo di selezione in termini di caratteri UTF16. Il training considera solo i dati in quest’area.	`500`
`category`		Il tipo di entità associata all'intervallo di testo specificato.	`Entity1`
`offset`		La posizione iniziale per il testo dell'entità.	`25`
`length`		La lunghezza dell’entità in termini di caratteri UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Una stringa che specifica il codice lingua per il documento usato nel progetto. Se il progetto è un progetto multilingue, scegliere il codice della lingua per la maggior parte dei documenti. Per altre informazioni, vedereSupporto delle lingue.	`en-us`

Passaggi successivi

È possibile importare direttamente i dati etichettati nel progetto. Informazioni su come importare un progetto
Per altre informazioni sull’etichettatura dei dati, vedere l’articolo esplicativo. Dopo aver etichettato i dati, è possibile eseguire il training del modello.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-11-18

Condividi tramite

Formati di dati Riconoscimento entità denominata personalizzati accettati

Formato del file delle etichette

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive