Freigeben über


Formatieren von Daten für Erkennung benannter Entitäten (NER)

NER-Dataset-Formen:

  • Schlüsselinformationsdatei: Die Schlüsselinformationsdatei enthält eine Liste von Entitäten, die als wichtige Informationen für die Trainingsdaten dient.
  • Trainingsdaten: Trainingsdaten bestehen aus einer Datei (.txt, .tsv), die durch TAB-Zeichen getrennte Spalten enthält. Eine dieser Spalten ist eine Satzspalte, während die anderen Bezeichnungen für Token in dieser Satzspalte darstellen.