Jak używać automatycznego etykietowania do niestandardowego rozpoznawania nazwanych jednostek

Proces etykietowania jest ważną częścią przygotowywania zestawu danych. Ponieważ ten proces wymaga zarówno czasu, jak i wysiłku, możesz użyć funkcji automatycznego etykietowania, aby automatycznie oznaczyć jednostki. Zadania automatycznego etykietowania można rozpocząć na podstawie wcześniej wytrenowanego modelu lub przy użyciu modeli GPT. Dzięki automatycznemu etykietowaniu na podstawie wcześniej wytrenowanego modelu można rozpocząć etykietowanie kilku dokumentów, wytrenować model, a następnie utworzyć zadanie automatycznego etykietowania w celu utworzenia etykiet jednostek dla innych dokumentów opartych na tym modelu. Dzięki automatycznej etykietowaniu za pomocą biblioteki GPT można natychmiast wyzwolić zadanie automatycznego etykietowania bez wcześniejszego trenowania modelu. Ta funkcja pozwala zaoszczędzić czas i nakład pracy ręcznego etykietowania jednostek.

Wymagania wstępne

Aby można było używać automatycznego etykietowania na podstawie wytrenowanego modelu, potrzebne są następujące elementy:

Wyzwalanie zadania automatycznego etykietowania

Po wyzwoleniu zadania automatycznego etykietowania na podstawie wytrenowanego modelu istnieje miesięczny limit 5000 rekordów tekstowych miesięcznie na zasób. Oznacza to, że ten sam limit dotyczy wszystkich projektów w ramach tego samego zasobu.

Porada

Rekord tekstowy jest obliczany jako limit (liczba znaków w dokumencie / 1000). Jeśli na przykład dokument ma 8921 znaków, liczba rekordów tekstowych to:

ceil(8921/1000) = ceil(8.921), czyli 9 rekordów tekstowych.

  1. W menu nawigacji po lewej stronie wybierz pozycję Etykietowanie danych.

  2. Wybierz przycisk Autolabel w okienku Działanie po prawej stronie.

    Zrzut ekranu przedstawiający sposób wyzwalania zadania autotagowania.

  3. Wybierz pozycję Autolabel na podstawie wytrenowanego modelu, a następnie wybierz pozycję Dalej.

    Zrzut ekranu przedstawiający wybór modelu do automatycznego etykietowania.

  4. Wybierz wytrenowany model. Zaleca się sprawdzenie wydajności modelu przed użyciem go do automatycznego etykietowania.

    Zrzut ekranu przedstawiający sposób wybierania wytrenowanego modelu do automatycznego sugerowania.

  5. Wybierz jednostki, które chcesz uwzględnić w zadaniu automatycznego etykietowania. Domyślnie wszystkie jednostki są zaznaczone. Zobaczysz łączną liczbę etykiet, precyzję i kompletność każdej jednostki. Zaleca się uwzględnienie jednostek, które działają dobrze, aby zapewnić jakość automatycznie oznaczonych jednostek.

    Zrzut ekranu przedstawiający jednostki, które mają zostać uwzględnione w zadaniu autotagowania.

  6. Wybierz dokumenty, które mają być automatycznie oznaczone etykietami. Zostanie wyświetlona liczba rekordów tekstowych każdego dokumentu. Po wybraniu co najmniej jednego dokumentu powinna zostać wyświetlona liczba wybranych zapisów tekstowych. Zaleca się wybranie nieoznakowanych dokumentów z filtru.

    Uwaga

    • Jeśli jednostka została automatycznie oznaczona etykietą, ale ma zdefiniowaną przez użytkownika etykietę, jest używana i widoczna tylko etykieta zdefiniowana przez użytkownika.
    • Dokumenty można wyświetlić, klikając nazwę dokumentu.

    Zrzut ekranu przedstawiający dokumenty, które mają zostać uwzględnione w zadaniu autotagowania.

  7. Wybierz pozycję Autolabel, aby wyzwolić zadanie automatycznego etykietowania. Powinien zostać wyświetlony używany model, liczba dokumentów uwzględnionych w zadaniu automatycznego etykietowania, liczba rekordów tekstowych i jednostek, które mają być automatycznie oznaczone etykietą. Zadania automatycznego etykietowania mogą potrwać od kilku sekund do kilku minut, w zależności od liczby uwzględnionych dokumentów.

    Zrzut ekranu przedstawiający ekran przeglądu zadania automatycznego tagu.

Przeglądanie automatycznie oznaczonych dokumentów

Po zakończeniu zadania automatycznego etykietowania można wyświetlić dokumenty wyjściowe na stronie Etykietowanie danych programu Language Studio. Wybierz pozycję Przejrzyj dokumenty z autolabelami , aby wyświetlić dokumenty z zastosowanym filtrem automatycznie oznaczonym etykietą .

Zrzut ekranu przedstawiający automatycznie obelgowane dokumenty

Jednostki, które zostały automatycznie oznaczone etykietą, są wyświetlane z linią kropkowaną. Te jednostki mają dwie selektory (znacznik wyboru i "X"), które umożliwiają akceptowanie lub odrzucanie etykiety automatycznej.

Po zaakceptowaniu jednostki linia kropkowana zmienia się na stałą, a etykieta jest uwzględniana w każdym dalszym trenowaniu modelu, który staje się etykietą zdefiniowaną przez użytkownika.

Alternatywnie możesz zaakceptować lub odrzucić wszystkie automatycznie oznaczone jednostki w dokumencie, używając opcji Akceptuj wszystkie lub Odrzuć wszystko w prawym górnym rogu ekranu.

Po zaakceptowaniu lub odrzuceniu oznaczonych jednostek wybierz pozycję Zapisz etykiety , aby zastosować zmiany.

Uwaga

  • Zalecamy walidację automatycznie oznaczonych jednostkami przed ich zaakceptowaniem.
  • Wszystkie etykiety, które nie zostały zaakceptowane, zostaną usunięte podczas trenowania modelu.

Zrzut ekranu przedstawiający sposób akceptowania i odrzucania jednostek z automatycznie etykietami.

Następne kroki