Trenowanie niestandardowego modelu rozpoznawania nazwanych jednostek

Trenowanie to proces, w którym model uczy się na podstawie danych oznaczonych etykietą. Po zakończeniu trenowania będzie można wyświetlić wydajność modelu , aby określić, czy trzeba poprawić model.

Aby wytrenować model, należy uruchomić zadanie trenowania i utworzyć model tylko pomyślnie ukończone zadania. Zadania szkoleniowe wygasają po siedmiu dniach, co oznacza, że nie będzie można pobrać szczegółów zadania po tym czasie. Jeśli zadanie trenowania zostało ukończone pomyślnie i model został utworzony, nie będzie to miało wpływu na ten model. Jednocześnie można uruchamiać tylko jedno zadanie szkoleniowe i nie można uruchamiać innych zadań w tym samym projekcie.

Czas trenowania może trwać od kilku minut w przypadku pracy z kilkoma dokumentami, do kilku godzin w zależności od rozmiaru zestawu danych i złożoności schematu.

Wymagania wstępne

Aby uzyskać więcej informacji, zobacz cykl projektowania projektu .

Dzielenie danych

Przed rozpoczęciem procesu trenowania dokumenty oznaczone w projekcie są podzielone na zestaw szkoleniowy i zestaw testowy. Każdy z nich pełni inną funkcję. Zestaw szkoleniowy jest używany podczas trenowania modelu. Jest to zestaw, z którego model uczy się oznaczonych jednostek i zakresów tekstu, które mają być wyodrębniane jako jednostki. Zestaw testów to zestaw ślepy, który nie jest wprowadzany do modelu podczas trenowania, ale tylko podczas oceny. Po pomyślnym zakończeniu trenowania modelu model jest używany do przewidywania z dokumentów w testach i na podstawie tych metryk oceny przewidywań. Zaleca się upewnienie się, że wszystkie jednostki są odpowiednio reprezentowane zarówno w zestawie treningowym, jak i testowym.

Niestandardowa funkcja NER obsługuje dwie metody dzielenia danych:

  • Automatyczne dzielenie zestawu testowego z danych treningowych: system podzieli dane oznaczone etykietami między zestawy treningowe i testowe zgodnie z wybranymi wartościami procentowymi. Zalecany podział procentowy wynosi 80% w przypadku trenowania i 20% do testowania.

Uwaga

Jeśli wybierzesz opcję Automatycznie rozdzielając zestaw testowy z danych treningowych , tylko dane przypisane do zestawu treningowego zostaną podzielone zgodnie z podanymi wartościami procentowymi.

  • Użyj ręcznego podziału danych treningowych i testowych: ta metoda umożliwia użytkownikom zdefiniowanie, które dokumenty z etykietami powinny należeć do tego zestawu. Ten krok jest włączony tylko w przypadku dodania dokumentów do zestawu testowego podczas etykietowania danych.

Trenowanie modelu

Aby rozpocząć trenowanie modelu z poziomu programu Language Studio:

  1. Wybierz pozycję Zadania szkoleniowe z menu po lewej stronie.

  2. Wybierz pozycję Start a training job (Uruchom zadanie szkoleniowe ) z górnego menu.

  3. Wybierz pozycję Train a new model (Trenowanie nowego modelu) i wpisz nazwę modelu w polu tekstowym. Możesz również zastąpić istniejący model , wybierając tę opcję i wybierając model, który chcesz zastąpić z menu rozwijanego. Zastąpienie wytrenowanego modelu jest nieodwracalne, ale nie wpłynie to na wdrożone modele do momentu wdrożenia nowego modelu.

    Tworzenie nowego zadania szkoleniowego

  4. Wybierz metodę dzielenia danych. Możesz wybrać opcję Automatyczne dzielenie zestawu testów z danych treningowych , w których system podzieli dane oznaczone etykietami między zestawy treningowe i testowe, zgodnie z określonymi wartościami procentowymi. Możesz też użyć ręcznego podziału danych treningowych i testowych. Ta opcja jest włączona tylko w przypadku dodania dokumentów do zestawu testowego podczas etykietowania danych. Aby uzyskać informacje na temat dzielenia danych, zobacz How to train a model (Jak trenować model ).

  5. Wybierz przycisk Train (Trenuj ).

  6. Jeśli wybierzesz identyfikator zadania trenowania z listy, zostanie wyświetlone okienko boczne, w którym można sprawdzić postęp trenowania, stan zadania i inne szczegóły dotyczące tego zadania.

    Uwaga

    • Tylko pomyślnie ukończone zadania szkoleniowe będą generować modele.
    • Trenowanie może potrwać od kilku minut do kilku godzin na podstawie rozmiaru danych oznaczonych etykietą.
    • Jednocześnie może być uruchomione tylko jedno zadanie trenowania. Nie można uruchomić innego zadania trenowania w tym samym projekcie, dopóki uruchomione zadanie nie zostanie ukończone.

Anulowanie zadania trenowania

Aby anulować zadanie szkoleniowe z poziomu programu Language Studio, przejdź do strony Zadania szkoleniowe . Wybierz zadanie trenowania, które chcesz anulować, a następnie wybierz pozycję Anuluj z górnego menu.

Następne kroki

Po zakończeniu trenowania będzie można wyświetlić wydajność modelu , aby opcjonalnie poprawić model w razie potrzeby. Gdy model jest zadowolony, możesz go wdrożyć, udostępniając go do wyodrębniania jednostek z tekstu.