Udostępnij za pośrednictwem


Zaakceptowane formaty danych

Jeśli próbujesz zaimportować dane do niestandardowej klasyfikacji tekstu, musi ona być określoną formatem. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.

Format pliku etykiet

Plik Etykiety powinien być w json formacie poniżej. Umożliwi to zaimportowanie etykiet do projektu.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
Klucz Symbol zastępczy Wartość Przykład
Wielojęzycznych true Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków , aby dowiedzieć się więcej o obsłudze wielojęzycznej. true
projectName {PROJECT-NAME} Project name (Nazwa projektu) Myproject
storageInputContainerName {CONTAINER-NAME} Nazwa kontenera mycontainer
Klasy [] Tablica zawierająca wszystkie klasy, które znajdują się w projekcie. Są to klasy, do których chcesz sklasyfikować dokumenty. []
dokumenty [] Tablica zawierająca wszystkie dokumenty w projekcie i klasy oznaczone dla tego dokumentu. []
location {DOCUMENT-NAME} Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, ta wartość powinna być nazwą dokumentu. doc1.txt
Dataset {DATASET} Zestaw testowy, do którego ten plik zostanie podzielony przed rozpoczęciem trenowania. Aby uzyskać więcej informacji, zobacz How to train a model (Jak trenować model ). Możliwe wartości dla tego pola to Train i Test. Train

Następne kroki