Niestandardowe definicje i terminy rozpoznawania nazwanych jednostek
Skorzystaj z tego artykułu, aby dowiedzieć się więcej o niektórych definicjach i terminach, które mogą wystąpić podczas korzystania z niestandardowego modułu NER.
Encja
Jednostka jest zakresem tekstu, który wskazuje określony typ informacji. Zakres tekstu może składać się z co najmniej jednego słowa. W zakresie niestandardowego modułu NER jednostki reprezentują informacje, które użytkownik chce wyodrębnić z tekstu. Deweloperzy tagują jednostki w danych przy użyciu wymaganych jednostek przed przekazaniem ich do modelu na potrzeby trenowania. Na przykład "Numer faktury", "Data rozpoczęcia", "Numer przesyłki", "Miejsce urodzenia", "Miasto pochodzenia", "Nazwa dostawcy" lub "Adres klienta".
Na przykład w zdaniu "John pożyczył 25 000 USD od Freda". Jednostki mogą być następujące:
Nazwa/typ jednostki | Encja |
---|---|
Nazwa kredytobiorcy | John |
Nazwa pożyczkodawcy | Fred |
Kwota pożyczki | 25 000 USD |
Wynik F1
Wynik F1 jest funkcją precyzji i kompletności. Jest to konieczne, gdy szukasz równowagi między precyzją a kompletnością.
Model
Model jest obiektem, który jest szkolony do wykonywania określonego zadania, w tym przypadku niestandardowe rozpoznawanie jednostek. Modele są trenowane, dostarczając dane oznaczone etykietami, aby uczyć się na ich podstawie, dzięki czemu mogą być później używane do zadań rozpoznawania.
- Trenowanie modelu to proces nauczania modelu, który ma być wyodrębniany na podstawie danych oznaczonych etykietami.
- Ocena modelu to proces wykonywany bezpośrednio po trenowaniu, aby wiedzieć, jak dobrze działa model.
- Wdrożenie to proces przypisywania modelu do wdrożenia w celu udostępnienia go do użycia za pośrednictwem interfejsu API przewidywania.
Dokładność
Mierzy dokładność/dokładność modelu. Jest to stosunek poprawnie zidentyfikowanych wyników dodatnich (prawdziwie dodatnich) i wszystkich zidentyfikowanych wyników dodatnich. Metryka precyzji pokazuje, ile klas przewidywanych jest poprawnie oznaczonych etykietami.
Project
Projekt to obszar roboczy umożliwiający tworzenie niestandardowych modeli uczenia maszynowego na podstawie danych. Dostęp do projektu można uzyskać tylko do Ciebie i innych osób, które mają dostęp do używanego zasobu platformy Azure.
Jako wymaganie wstępne dotyczące tworzenia niestandardowego projektu wyodrębniania jednostek należy połączyć zasób z kontem magazynu przy użyciu zestawu danych podczas tworzenia nowego projektu. Projekt automatycznie zawiera wszystkie .txt
pliki dostępne w kontenerze.
W projekcie można wykonać następujące czynności:
- Oznacz dane etykietami: proces etykietowania danych w taki sposób, aby podczas trenowania modelu dowiedział się, co chcesz wyodrębnić.
- Kompilowanie i trenowanie modelu: podstawowy krok projektu, w którym model zaczyna uczyć się od oznaczonych danych.
- Wyświetlanie szczegółów oceny modelu: Przejrzyj wydajność modelu, aby zdecydować, czy istnieje miejsce na poprawę, czy wyniki są zadowalające.
- Wdrożenie: po przejrzeniu wydajności modelu i podjęciu decyzji, że może on być używany w danym środowisku, musisz przypisać go do wdrożenia, aby go użyć. Przypisanie modelu do wdrożenia udostępnia go do użycia za pośrednictwem interfejsu API przewidywania.
- Model testowy: po wdrożeniu modelu przetestuj wdrożenie w programie Language Studio , aby zobaczyć, jak będzie działać w środowisku produkcyjnym.
Odwołaj
Mierzy zdolność modelu do przewidywania rzeczywistych dodatnich klas. Jest to stosunek przewidywanych wyników prawdziwie dodatnich do tego, co zostało rzeczywiście oznaczone. Metryka kompletności pokazuje, ile przewidywanych klas jest poprawnych.
Następne kroki
- Limity danych i usług.
- Omówienie niestandardowego modułu NER.