Formatieren von Daten für Erkennung benannter Entitäten (NER)
NER-Dataset-Formen:
- Schlüsselinformationsdatei: Die Schlüsselinformationsdatei enthält eine Liste von Entitäten, die als wichtige Informationen für die Trainingsdaten dient.
- Trainingsdaten: Trainingsdaten bestehen aus einer Datei (.txt, .tsv), die durch TAB-Zeichen getrennte Spalten enthält. Eine dieser Spalten ist eine Satzspalte, während die anderen Bezeichnungen für Token in dieser Satzspalte darstellen.
Zusammenarbeit auf GitHub
Die Quelle für diesen Inhalt finden Sie auf GitHub, wo Sie auch Issues und Pull Requests erstellen und überprüfen können. Weitere Informationen finden Sie in unserem Leitfaden für Mitwirkende.
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Issues stufenweise als Feedbackmechanismus für Inhalte abbauen und durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unterFeedback senden und anzeigen für