Akzeptierte Datenformate

Wenn Sie versuchen, Ihre Daten in eine benutzerdefinierte Textklassifizierung zu importieren, müssen sie ein bestimmtes Format haben. Wenn Sie keine Daten importieren müssen, können Sie Ihr Projekt erstellen und Language Studio zum Beschriften Ihrer Dokumente verwenden.

Format der Bezeichnungsdatei

Ihre Bezeichnungsdatei sollte das unten angegebene json-Format haben. Auf diese Weise können Sie Ihre Bezeichnungen in ein Projekt importieren.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
Schlüssel Platzhalter Wert Beispiel
multilingual true Dies ist ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Dokumente in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (die nicht zwangsläufig in Ihren Trainingsdokumenten enthalten ist). Informationen zur Unterstützung mehrerer Sprachen finden Sie unter Sprachunterstützung. true
projectName {PROJECT-NAME} Projektname myproject
storageInputContainerName {CONTAINER-NAME} Containername mycontainer
Klassen [] Hierbei handelt es sich um ein Array mit allen Klassen, die im Projekt enthalten sind. Dies sind die Klassen, denen Sie Ihre Dokumente zuordnen möchten. []
Dokumente [] Dies ist ein Array, das alle Dokumente in Ihrem Projekt und die für dieses Dokument beschrifteten Klassen enthält. []
location {DOCUMENT-NAME} Dies ist der Speicherort der Dokumente im Speichercontainer. Da sich alle Dokumente im Stammverzeichnis des Containers befinden, sollte dieser Wert dem Dokumentnamen entsprechen. doc1.txt
dataset {DATASET} Dies ist der Testsatz, in den diese Datei bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen finden Sie unter Trainieren eines Modells. Mögliche Werte für dieses Feld sind Train und Test. Train

Nächste Schritte

  • Sie können Ihre beschrifteten Daten direkt in Ihr Projekt importieren. Unter Erstellen eines Projekts erfahren Sie mehr über das Importieren von Projekten.
  • Weitere Informationen zum Beschriften Ihrer Daten finden Sie im Anleitungsartikel. Wenn Sie die Beschriftung Ihrer Daten abgeschlossen haben, können Sie Ihr Modell trainieren.