Etykietowanie danych przy użyciu programu Language Studio

Etykietowanie danych jest kluczowym krokiem w cyklu projektowania. W tym kroku oznaczysz dokumenty nowymi jednostkami zdefiniowanymi w schemacie, aby wypełnić ich poznane składniki. Te dane będą używane w następnym kroku podczas trenowania modelu, aby model mógł uczyć się od danych oznaczonych etykietami, aby wiedzieć, które jednostki mają zostać wyodrębnione. Jeśli masz już oznaczone dane, możesz bezpośrednio zaimportować je do projektu, ale musisz upewnić się, że dane są zgodne z akceptowanym formatem danych. Zobacz tworzenie projektu , aby dowiedzieć się więcej na temat importowania danych oznaczonych etykietami do projektu. Jeśli dane nie zostały jeszcze oznaczone, możesz oznaczyć je w programie Language Studio.

Wymagania wstępne

Przed etykietą danych potrzebne są następujące elementy:

Aby uzyskać więcej informacji, zobacz cykl projektowania projektu .

Wytyczne dotyczące etykietowania danych

Po przygotowaniu danych należy oznaczyć schemat i utworzyć projekt. Etykietowanie danych jest ważne, więc model wie, które słowa będą skojarzone z typami jednostek, które należy wyodrębnić. Po oznaczeniu danych w programie Language Studio (lub zaimportowaniu oznaczonych danymi) etykiety te są przechowywane w dokumencie JSON w kontenerze magazynu połączonym z tym projektem.

Podczas etykietowania danych należy pamiętać o:

  • Nie można dodawać etykiet dla analiza tekstu dla jednostek kondycji, ponieważ są one wstępnie trenowane wstępnie utworzone jednostki. Etykiety można dodawać tylko do nowych kategorii jednostek zdefiniowanych podczas definicji schematu.

Jeśli chcesz ulepszyć kompletność wstępnie utworzonej jednostki, możesz ją rozszerzyć, dodając składnik listy podczas definiowania schematu.

  • Ogólnie rzecz biorąc, bardziej oznaczone dane prowadzą do lepszych wyników, pod warunkiem, że dane są dokładnie oznaczone etykietą.

  • Precyzja, spójność i kompletność oznaczonych danych są kluczowymi czynnikami określającymi wydajność modelu.

    • Etykieta dokładnie: Etykietuj każdą jednostkę do odpowiedniego typu zawsze. Uwzględnij tylko wyodrębnione dane, unikaj niepotrzebnych danych w etykietach.
    • Spójna etykieta: ta sama jednostka powinna mieć tę samą etykietę we wszystkich dokumentach.
    • Etykieta całkowicie: oznacz wszystkie wystąpienia jednostki we wszystkich dokumentach.

    Uwaga

    Nie ma stałej liczby etykiet, które mogą zagwarantować, że model będzie działał najlepiej. Wydajność modelu zależy od możliwej niejednoznaczności w schemacie i jakości danych oznaczonych etykietami. Niemniej jednak zalecamy posiadanie około 50 oznaczonych etykietami wystąpień na typ jednostki.

Etykietowanie danych

Aby oznaczyć dane, wykonaj następujące kroki:

  1. Przejdź do strony projektu w programie Language Studio.

  2. W menu po lewej stronie wybierz pozycję Etykietowanie danych. Listę wszystkich dokumentów można znaleźć w kontenerze magazynu.

    Porada

    Możesz użyć filtrów w górnym menu, aby wyświetlić niezaznaczone dokumenty, aby rozpocząć etykietowanie. Możesz również użyć filtrów, aby wyświetlić dokumenty oznaczone określonym typem jednostki.

  3. Przejdź do pojedynczego widoku dokumentu po lewej stronie w górnym menu lub wybierz konkretny dokument, aby rozpocząć etykietowanie. Listę wszystkich .txt dokumentów dostępnych w projekcie można znaleźć po lewej stronie. Możesz użyć przycisku Wstecz i Dalej w dolnej części strony, aby przejść przez dokumenty.

    Uwaga

    Jeśli dla projektu włączono wiele języków, w górnym menu znajdziesz listę rozwijaną Język , która umożliwia wybranie języka każdego dokumentu. Język hebrajski nie jest obsługiwany w projektach wielojęzycznych.

  4. W okienku po prawej stronie możesz użyć przycisku Dodaj typ jednostki , aby dodać dodatkowe jednostki do projektu, które zostały pominięte podczas definicji schematu.

  5. Istnieją dwie opcje etykietowania dokumentu:

    Opcja Opis
    Etykieta przy użyciu pędzla Wybierz ikonę pędzla obok typu jednostki w okienku po prawej stronie, a następnie wyróżnij tekst w dokumencie, który chcesz dodać do adnotacji za pomocą tego typu jednostki.
    Etykieta przy użyciu menu Wyróżnij słowo, które chcesz oznaczyć jako jednostkę, a zostanie wyświetlone menu. Wybierz typ jednostki, który chcesz przypisać dla tej jednostki.

    Poniższy zrzut ekranu przedstawia etykietowanie przy użyciu pędzla.

    Zrzut ekranu przedstawiający opcje etykietowania oferowane w niestandardowym module NER.

  6. W okienku po prawej stronie w obszarze przestawnym Etykiety można znaleźć wszystkie typy jednostek w projekcie i liczbę oznaczonych wystąpień dla każdego z nich. Wstępnie utworzone jednostki będą wyświetlane dla odwołania, ale nie będzie można oznaczyć etykiet dla wstępnie utworzonych jednostek, ponieważ są one wstępnie trenowane.

  7. W dolnej sekcji okienka po prawej stronie możesz dodać bieżący dokument wyświetlany do zestawu trenowania lub zestawu testów. Domyślnie wszystkie dokumenty są dodawane do zestawu szkoleniowego. Zobacz zestawy trenowania i testowania , aby uzyskać informacje na temat sposobu ich użycia do trenowania i oceny modelu.

    Porada

    Jeśli planujesz użycie automatycznego dzielenia danych, użyj domyślnej opcji przypisywania wszystkich dokumentów do zestawu szkoleniowego.

  8. W obszarze przestawnym Dystrybucja można wyświetlić dystrybucję między zestawami trenowania i testowania. Dostępne są dwie opcje wyświetlania:

    • Łączna liczba wystąpień , w których można wyświetlić liczbę wszystkich oznaczonych wystąpień określonego typu jednostki.
    • Dokumenty z co najmniej jedną etykietą, w której każdy dokument jest liczone, jeśli zawiera co najmniej jedno z etykietami wystąpienia tej jednostki.
  9. Po oznaczeniu etykiet zmiany są okresowo synchronizowane, jeśli nie zostały jeszcze zapisane, w górnej części strony zostanie wyświetlone ostrzeżenie. Jeśli chcesz zapisać ręcznie, wybierz przycisk Zapisz etykiety w dolnej części strony.

Usuwanie etykiet

Aby usunąć etykietę

  1. Wybierz jednostkę, z której chcesz usunąć etykietę.
  2. Przewiń wyświetlone menu i wybierz pozycję Usuń etykietę.

Usuwanie jednostek

Nie można usunąć żadnej z analiza tekstu dla wstępnie wytrenowanych jednostek kondycji, ponieważ mają wstępnie utworzony składnik. Można usuwać tylko nowo zdefiniowane kategorie jednostek. Aby usunąć jednostkę, wybierz ikonę usuwania obok jednostki, którą chcesz usunąć. Usunięcie jednostki powoduje usunięcie wszystkich jego oznaczonych etykiet wystąpień z zestawu danych.

Następne kroki

Po oznaczeniu etykiet danych możesz rozpocząć trenowanie modelu , który będzie uczyć się na podstawie danych.