Terminy i definicje używane w niestandardowej klasyfikacji tekstu

Artykuł
10/16/2024

Skorzystaj z tego artykułu, aby dowiedzieć się więcej o niektórych definicjach i terminach, które mogą wystąpić podczas korzystania z niestandardowej klasyfikacji tekstu.

Klasa

Klasa jest kategorią zdefiniowaną przez użytkownika, która wskazuje ogólną klasyfikację tekstu. Deweloperzy oznaczą swoje dane klasami przed przekazaniem ich do modelu na potrzeby trenowania.

Wynik F1

Wynik F1 jest funkcją precyzji i kompletności. Jest to konieczne, gdy szukasz równowagi między precyzją a kompletnością.

Model

Model jest obiektem, który jest szkolony do wykonywania określonego zadania, w tym przypadku zadania klasyfikacji tekstu. Modele są trenowane przez dostarczanie danych oznaczonych etykietami, dzięki czemu mogą być później używane do zadań klasyfikacji.

Trenowanie modelu to proces nauczania modelu sposobu klasyfikowania dokumentów na podstawie danych oznaczonych etykietami.
Ocena modelu to proces wykonywany bezpośrednio po trenowaniu, aby wiedzieć, jak dobrze działa model.
Wdrożenie to proces przypisywania modelu do wdrożenia w celu udostępnienia go do użycia za pośrednictwem interfejsu API przewidywania.

Dokładność

Mierzy dokładność/dokładność modelu. Jest to stosunek poprawnie zidentyfikowanych wyników dodatnich (prawdziwie dodatnich) i wszystkich zidentyfikowanych wyników dodatnich. Metryka precyzji pokazuje, ile klas przewidywanych jest poprawnie oznaczonych etykietami.

Project

Projekt to obszar roboczy umożliwiający tworzenie niestandardowych modeli uczenia maszynowego na podstawie danych. Dostęp do projektu można uzyskać tylko do Ciebie i innych osób, które mają dostęp do używanego zasobu platformy Azure. Jako wymaganie wstępne dotyczące tworzenia niestandardowego projektu klasyfikacji tekstu należy połączyć zasób z kontem magazynu przy użyciu zestawu danych podczas tworzenia nowego projektu. Projekt automatycznie zawiera wszystkie .txt pliki dostępne w kontenerze.

W projekcie można wykonać następujące czynności:

Oznacz dane etykietami: proces etykietowania danych w taki sposób, aby podczas trenowania modelu dowiedział się, co chcesz wyodrębnić.
Kompilowanie i trenowanie modelu: podstawowy krok projektu, w którym model zaczyna uczyć się od oznaczonych danych.
Wyświetlanie szczegółów oceny modelu: Przejrzyj wydajność modelu, aby zdecydować, czy istnieje miejsce na poprawę, czy wyniki są zadowalające.
Wdrożenie: po przejrzeniu wydajności modelu i podjęciu decyzji o jego użyciu w środowisku należy przypisać go do wdrożenia, aby móc wykonywać względem niego zapytania. Przypisanie modelu do wdrożenia udostępnia go do użycia za pośrednictwem interfejsu API przewidywania.
Model testowy: po wdrożeniu modelu możesz użyć tej operacji w programie Language Studio , aby wypróbować wdrożenie i sprawdzić, jak będzie działać w środowisku produkcyjnym.

Typy projektu

Niestandardowa klasyfikacja tekstu obsługuje dwa typy projektów

Klasyfikacja pojedynczej etykiety — można przypisać pojedynczą klasę dla każdego dokumentu w zestawie danych. Na przykład skrypt filmowy można sklasyfikować tylko jako "Romans" lub "Komedia".
Klasyfikacja wielu etykiet — można przypisać wiele klas dla każdego dokumentu w zestawie danych. Na przykład skrypt filmowy można sklasyfikować jako "Komedia" lub "Romans" i "Komedia".

Odwołaj

Mierzy zdolność modelu do przewidywania rzeczywistych dodatnich klas. Jest to stosunek przewidywanych wyników prawdziwie dodatnich do tego, co zostało rzeczywiście oznaczone. Metryka kompletności pokazuje, ile przewidywanych klas jest poprawnych.

Następne kroki

Limity danych i usług.
Omówienie niestandardowej klasyfikacji tekstu.

Udostępnij za pośrednictwem