Etykietowanie wypowiedzi w programie Language Studio

Po utworzeniu schematu dla projektu należy dodać wypowiedzi szkoleniowe do projektu. Wypowiedzi powinny być podobne do tego, co użytkownicy będą używać podczas interakcji z projektem. Po dodaniu wypowiedzi musisz przypisać intencję, do której należy. Po dodaniu wypowiedzi oznacz wyrazy w wypowiedzi, które chcesz wyodrębnić jako jednostki.

Etykietowanie danych to kluczowy krok w cyklu projektowania; te dane będą używane w następnym kroku podczas trenowania modelu, aby model mógł uczyć się na podstawie oznaczonych danych. Jeśli masz już etykiety wypowiedzi, możesz je bezpośrednio zaimportować do projektu, ale musisz upewnić się, że dane są zgodne z akceptowanym formatem danych. Zobacz tworzenie projektu , aby dowiedzieć się więcej o importowaniu danych oznaczonych etykietami do projektu. Dane oznaczone etykietami informują model o sposobie interpretowania tekstu i jest używany do trenowania i oceny.

Wymagania wstępne

Aby można było oznaczyć dane etykietami, potrzebne są następujące elementy:

Aby uzyskać więcej informacji, zobacz cykl projektowania projektu .

Wytyczne dotyczące etykietowania danych

Po utworzeniu schematu i utworzeniu projektu należy oznaczyć je etykietami. Etykietowanie danych jest ważne, aby model wiedział, które wyrazy będą skojarzone z jednostkami, które należy wyodrębnić. Warto poświęcić czas na etykietowanie wypowiedzi — wprowadzenie i uściślinie danych, które będą używane do trenowania modeli.

Podczas dodawania wypowiedzi i oznaczania ich etykietami należy pamiętać:

  • Modele uczenia maszynowego są uogólniane na podstawie przekazanych przykładów; więcej przykładów, o których podajesz, tym więcej punktów danych model musi poprawić uogólnienia.

  • Precyzja, spójność i kompletność danych oznaczonych etykietami są kluczowymi czynnikami określającymi wydajność modelu.

    • Etykieta dokładnie: Etykietuj każdą jednostkę do odpowiedniego typu zawsze. Uwzględnij tylko wyodrębnione elementy, unikaj niepotrzebnych danych w etykietach.
    • Spójna etykieta: ta sama jednostka powinna mieć tę samą etykietę we wszystkich wypowiedziach.
    • Etykieta całkowicie: oznacz wszystkie wystąpienia jednostki we wszystkich wypowiedziach.
  • W przypadku projektów wielojęzycznych dodanie wypowiedzi w innych językach zwiększa wydajność modelu w tych językach, ale unikaj duplikowania danych we wszystkich językach, które chcesz obsługiwać. Na przykład, aby poprawić wydajność bota calender z użytkownikami, deweloper może dodać przykłady głównie w języku angielskim i kilka w języku hiszpańskim lub francuskim, jak również. Mogą one dodawać wypowiedzi, takie jak:

    • "Ustaw spotkanie z Mattem i Kevinem jutro o 12:00." (angielski)
    • "Odpowiedz jako wstępna na cotygodniowe spotkanie aktualizacji ." (angielski)
    • "Cancelar mi próxima reunión." (hiszpański)

Jak oznaczyć swoje wypowiedzi etykietami

Aby oznaczyć wypowiedzi, wykonaj następujące kroki:

  1. Przejdź do strony projektu w programie Language Studio.

  2. W menu po lewej stronie wybierz pozycję Etykietowanie danych. Na tej stronie możesz rozpocząć dodawanie wypowiedzi i etykietowanie ich. Możesz również przekazać swoją wypowiedź bezpośrednio, klikając pozycję Przekaż plik wypowiedzi z górnego menu, upewnij się, że jest ona zgodna z akceptowanym formatem.

  3. W górnej części tabeli przestawnej można zmienić widok na zestaw trenowania lub zestaw testowania. Dowiedz się więcej na temat zestawów trenowania i testowania oraz sposobu ich użycia do trenowania i oceny modelu.

    A screenshot of the page for tagging utterances in Language Studio.

    Porada

    Jeśli planujesz użycie opcji Automatycznie podziel zestaw testowy z dzielenia danych treningowych , dodaj wszystkie wypowiedzi do zestawu treningowego.

  4. Z menu rozwijanego Wybierz intencję wybierz jedną z intencji, język wypowiedzi (dla projektów wielojęzycznych) i samą wypowiedź. Naciśnij klawisz Enter w polu tekstowym wypowiedzi, aby dodać wypowiedź.

  5. Istnieją dwie opcje oznaczania jednostek w wypowiedzi:

    Opcja Opis
    Etykieta przy użyciu pędzla Wybierz ikonę pędzla obok jednostki w okienku po prawej stronie, a następnie wyróżnij tekst w wypowiedzi, którą chcesz oznaczyć etykietą.
    Etykieta przy użyciu menu wbudowanego Wyróżnij słowo, które chcesz oznaczyć jako jednostkę, a zostanie wyświetlone menu. Wybierz jednostkę, za pomocą której chcesz oznaczyć te wyrazy etykietą.
  6. W okienku po prawej stronie w obszarze przestawnym Etykiety można znaleźć wszystkie typy jednostek w projekcie i liczbę wystąpień oznaczonych dla każdego z nich.

  7. W obszarze przestawnym Dystrybucja można wyświetlić dystrybucję między zestawami trenowania i testowania. Dostępne są dwie opcje wyświetlania:

    • Łączna liczba wystąpień na jednostkę oznaczona etykietą , w której można wyświetlić liczbę wszystkich oznaczonych etykietami wystąpień określonej jednostki.
    • Unikatowe wypowiedzi na jednostkę oznaczoną etykietą , w której każda wypowiedź jest liczone, jeśli zawiera co najmniej jedno wystąpienie tej jednostki oznaczone etykietą.
    • Wypowiedzi na intencję , w których można wyświetlić liczbę wypowiedzi na intencję.

A screenshot showing entity distribution in Language Studio.

Uwaga

lista i wstępnie utworzone składniki nie są wyświetlane na stronie etykietowania danych, a wszystkie etykiety mają zastosowanie tylko do poznanego składnika.

Aby usunąć etykietę:

  1. Z poziomu wypowiedzi wybierz jednostkę, z której chcesz usunąć etykietę.
  2. Przewiń wyświetlone menu i wybierz pozycję Usuń etykietę.

Aby usunąć lub zmienić nazwę jednostki:

  1. Wybierz jednostkę, którą chcesz edytować w okienku po prawej stronie.
  2. Kliknij trzy kropki obok jednostki i wybierz odpowiednią opcję z menu rozwijanego.

Następne kroki