Terminy i definicje używane w niestandardowej klasyfikacji tekstu

Skorzystaj z tego artykułu, aby dowiedzieć się więcej o niektórych definicjach i terminach, które mogą wystąpić podczas korzystania z niestandardowej klasyfikacji tekstu.

Klasa

Klasa to kategoria zdefiniowana przez użytkownika, która wskazuje ogólną klasyfikację tekstu. Deweloperzy etykietują swoje dane przy użyciu klas, zanim przekażą je do modelu na potrzeby trenowania.

Wynik F1

Wynik F1 jest funkcją precyzji i kompletności. Jest to potrzebne, gdy szukasz równowagi między precyzją a kompletnością.

Model

Model jest obiektem, który jest szkolony do wykonywania określonego zadania, w tym przypadku zadania klasyfikacji tekstu. Modele są trenowane przez dostarczanie danych oznaczonych etykietami do nauki, dzięki czemu mogą być później używane do zadań klasyfikacji.

  • Trenowanie modelu to proces nauczania modelu sposobu klasyfikowania dokumentów na podstawie danych oznaczonych etykietami.
  • Ocena modelu to proces wykonywany bezpośrednio po trenowaniu, aby wiedzieć, jak dobrze działa model.
  • Wdrożenie to proces przypisywania modelu do wdrożenia w celu udostępnienia go do użycia za pośrednictwem interfejsu API przewidywania.

Dokładność

Mierzy dokładność/dokładność modelu. Jest to stosunek między poprawnie zidentyfikowanych alarmów (prawdziwie dodatnich) i wszystkich zidentyfikowanych alarmów. Metryka precyzji pokazuje, ile klas przewidywanych jest poprawnie oznaczonych etykietami.

Project

Projekt to obszar roboczy umożliwiający tworzenie niestandardowych modeli uczenia maszynowego na podstawie Twoich danych. Dostęp do projektu można uzyskać tylko do Ciebie i innych osób, które mają dostęp do używanego zasobu platformy Azure. W ramach wymagań wstępnych dotyczących tworzenia niestandardowego projektu klasyfikacji tekstu należy połączyć zasób z kontem magazynu przy użyciu zestawu danych podczas tworzenia nowego projektu. Projekt automatycznie uwzględnia wszystkie .txt pliki dostępne w kontenerze.

W projekcie można wykonać następujące czynności:

  • Oznacz dane etykietami: proces etykietowania danych w taki sposób, aby podczas trenowania modelu dowiedział się, co chcesz wyodrębnić.
  • Kompilowanie i trenowanie modelu: podstawowy krok projektu, w którym model zaczyna uczyć się na podstawie oznaczonych danych.
  • Wyświetlanie szczegółów oceny modelu: Przejrzyj wydajność modelu, aby zdecydować, czy istnieje miejsce na poprawę, czy wyniki są zadowalające.
  • Wdrożenie: po przejrzeniu wydajności modelu i podjęciu decyzji, że jest ona odpowiednia do użycia w danym środowisku; Należy przypisać go do wdrożenia, aby móc wykonywać względem niego zapytania. Przypisanie modelu do wdrożenia udostępnia go do użycia za pośrednictwem interfejsu API przewidywania.
  • Model testowy: po wdrożeniu modelu możesz użyć tej operacji w programie Language Studio , aby wypróbować wdrożenie i sprawdzić, jak będzie działać w środowisku produkcyjnym.

Typy projektów

Niestandardowa klasyfikacja tekstu obsługuje dwa typy projektów

  • Klasyfikacja z pojedynczą etykietą — można przypisać pojedynczą klasę dla każdego dokumentu w zestawie danych. Na przykład skrypt filmowy może być klasyfikowany tylko jako "Romans" lub "Komedia".
  • Klasyfikacja wielu etykiet — można przypisać wiele klas dla każdego dokumentu w zestawie danych. Na przykład skrypt filmowy można sklasyfikować jako "Komedia" lub "Romans" i "Komedia".

Recall

Mierzy zdolność modelu do przewidywania rzeczywistych dodatnich klas. Jest to stosunek między przewidywanymi wartościami prawdziwie dodatnimi a tym, co zostało rzeczywiście oznaczone. Metryka kompletności pokazuje, ile z przewidywanych klas jest poprawnych.

Następne kroki