Sdílet prostřednictvím


Formáty přijatých dat

Pokud se pokoušíte importovat data do vlastní klasifikace textu, musí být v určitém formátu. Pokud nemáte data k importu, můžete vytvořit projekt a použít Language Studio k označení dokumentů.

Formát souboru popisků

Váš soubor Labels by měl být ve json formátu níže. To vám umožní importovat popisky do projektu.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
Klíč Zástupný symbol Hodnota Příklad
Vícejazyčné true Logická hodnota, která umožňuje mít v datové sadě dokumenty v několika jazycích, a když je model nasazený, můžete se na model dotazovat v libovolném podporovaném jazyce (nemusí být nutně součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v tématu Podpora jazyků . true
projectName {PROJECT-NAME} Název projektu Myproject
storageInputContainerName {CONTAINER-NAME} Název kontejneru mycontainer
Třídy [] Pole obsahující všechny třídy, které máte v projektu. Toto jsou třídy, do které chcete dokumenty klasifikovat. []
V dokumentech [] Pole obsahující všechny dokumenty v projektu a třídy označené pro tento dokument. []
location {DOCUMENT-NAME} Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měla by tato hodnota být název dokumentu. doc1.txt
Dataset {DATASET} Testovací sada, do které tento soubor přejde při rozdělení před trénováním. Další informace najdete v tématu Postup trénování modelu . Možné hodnoty pro toto pole jsou Train a Test. Train

Další kroky