Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Jeśli próbujesz zaimportować dane do niestandardowego modułu NER, musi on mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć narzędzia Microsoft Foundry do etykietowania dokumentów.
Format etykiet pliku
Plik Labels powinien być w json formacie używanym podczas importowania etykiet do projektu.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
| Klucz | Symbol zastępczy | Wartość | Przykład |
|---|---|---|---|
multilingual |
true |
Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków, aby dowiedzieć się więcej o obsłudze wielojęzycznej. | true |
projectName |
{PROJECT-NAME} |
Nazwa projektu | myproject |
| storageInputContainerName | {CONTAINER-NAME} |
Nazwa kontenera | mycontainer |
entities |
Tablica zawierająca wszystkie typy jednostek, które znajdują się w projekcie. Typy jednostek wyodrębnione z dokumentów. | ||
documents |
Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie. | [] | |
location |
{DOCUMENT-NAME} |
Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, ta lokalizacja powinna być nazwą dokumentu. | doc1.txt |
dataset |
{DATASET} |
Zestaw testowy, do którego ten plik przechodzi po podzieleniu przed szkoleniem. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to Train i Test. |
Train |
regionOffset |
Pozycja inkluzywnego znaku na początku tekstu. | 0 |
|
regionLength |
Długość pola ograniczenia pod względem znaków UTF16. Szkolenie uwzględnia tylko dane w tym regionie. | 500 |
|
category |
Typ jednostki skojarzonej z określonym zakresem tekstu. | Entity1 |
|
offset |
Pozycja początkowa tekstu jednostki. | 25 |
|
length |
Długość jednostki pod względem znaków UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest wielojęzycznym projektem, wybierz kod języka dla większości dokumentów. Aby uzyskać więcej informacji, zobaczObsługa języka. | en-us |
Następne kroki
- Dane z etykietami można zaimportować bezpośrednio do projektu. Dowiedz się, jak zaimportować projekt
- Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych. Po zakończeniu etykietowania danych możesz przeprowadzić trening modelu.