Etykietowanie wypowiedzi w programie Language Studio

Artykuł
12/19/2023

Po utworzeniu schematu dla projektu należy dodać wypowiedzi szkoleniowe do projektu. Wypowiedzi powinny być podobne do tego, co użytkownicy będą używać podczas interakcji z projektem. Po dodaniu wypowiedzi musisz przypisać intencję, do której należy. Po dodaniu wypowiedzi oznacz wyrazy w wypowiedzi, które chcesz wyodrębnić jako jednostki.

Etykietowanie danych to kluczowy krok w cyklu projektowania; te dane będą używane w następnym kroku podczas trenowania modelu, aby model mógł uczyć się na podstawie oznaczonych danych. Jeśli masz już etykiety wypowiedzi, możesz je bezpośrednio zaimportować do projektu, ale musisz upewnić się, że dane są zgodne z akceptowanym formatem danych. Zobacz tworzenie projektu , aby dowiedzieć się więcej o importowaniu danych oznaczonych etykietami do projektu. Dane oznaczone etykietami informują model o sposobie interpretowania tekstu i jest używany do trenowania i oceny.

Wymagania wstępne

Aby można było oznaczyć dane etykietami, potrzebne są następujące elementy:

Pomyślnie utworzono projekt.

Aby uzyskać więcej informacji, zobacz cykl projektowania projektu .

Wytyczne dotyczące etykietowania danych

Po utworzeniu schematu i utworzeniu projektu należy oznaczyć je etykietami. Etykietowanie danych jest ważne, aby model wiedział, które wyrazy i zdania będą skojarzone z intencjami i jednostkami w projekcie. Warto poświęcić czas na etykietowanie wypowiedzi — wprowadzenie i uściślinie danych, które będą używane do trenowania modeli.

Podczas dodawania wypowiedzi i oznaczania ich etykietami należy pamiętać:

Modele uczenia maszynowego są uogólniane na podstawie przekazanych przykładów; więcej przykładów, o których podajesz, tym więcej punktów danych model musi poprawić uogólnienia.
Precyzja, spójność i kompletność danych oznaczonych etykietami są kluczowymi czynnikami określającymi wydajność modelu.
- Etykieta dokładnie: Oznacz każdą intencję i jednostkę w odpowiednim typie zawsze. Uwzględnij tylko elementy sklasyfikowane i wyodrębnione, aby uniknąć niepotrzebnych danych w etykietach.
- Spójna etykieta: ta sama jednostka powinna mieć tę samą etykietę we wszystkich wypowiedziach.
- Etykieta całkowicie: podaj różne wypowiedzi dla każdej intencji. Oznacz etykietą wszystkie wystąpienia jednostki we wszystkich wypowiedziach.

Jasne etykietowanie wypowiedzi

Upewnij się, że pojęcia, do których odwołują się jednostki, są dobrze zdefiniowane i można je rozdzielić. Sprawdź, czy można łatwo określić różnice niezawodnie. Jeśli nie możesz, może to wskazywać, że poznany składnik również będzie miał trudności.
Jeśli istnieje podobieństwo między jednostkami, upewnij się, że istnieje pewien aspekt danych, który zapewnia sygnał różnicy między nimi.

Jeśli na przykład utworzono model do zarezerwowania lotów, użytkownik może użyć wypowiedzi, takiej jak "Chcę lotu z Bostonu do Seattle". Oczekuje się, że miasto pochodzenia i miasto docelowe dla takich wypowiedzi będą podobne. Sygnałem do odróżnienia "miasta pochodzenia" może być to, że często jest poprzedzony słowem "from".
Upewnij się, że oznaczysz wszystkie wystąpienia każdej jednostki zarówno w danych szkoleniowych, jak i testowych. Jedną z metod jest użycie funkcji wyszukiwania w celu znalezienia wszystkich wystąpień wyrazu lub frazy w danych w celu sprawdzenia, czy są one poprawnie oznaczone etykietami.
Oznacz dane testowe dla jednostek, które nie mają poznanego składnika , a także dla tych, które to robią. Pomoże to zagwarantować, że metryki oceny są dokładne.

W przypadku projektów wielojęzycznych dodanie wypowiedzi w innych językach zwiększa wydajność modelu w tych językach, ale unikaj duplikowania danych we wszystkich językach, które chcesz obsługiwać. Na przykład, aby poprawić wydajność bota calender z użytkownikami, deweloper może dodać przykłady głównie w języku angielskim i kilka w języku hiszpańskim lub francuskim, jak również. Mogą one dodawać wypowiedzi, takie jak:
- "Ustaw spotkanie z Mattem i Kevinem jutro o godzinie 12:00." (angielski)
- "Odpowiedz jako wstępna na cotygodniowe spotkanie aktualizacji ." (angielski)
- "Cancelar mi próxima reunión." (hiszpański)

Jak oznaczyć swoje wypowiedzi etykietami

Aby oznaczyć wypowiedzi, wykonaj następujące kroki:

Przejdź do strony projektu w programie Language Studio.
W menu po lewej stronie wybierz pozycję Etykietowanie danych. Na tej stronie możesz rozpocząć dodawanie wypowiedzi i etykietowanie ich. Możesz również przekazać swoją wypowiedź bezpośrednio, klikając pozycję Przekaż plik wypowiedzi z górnego menu, upewnij się, że jest ona zgodna z akceptowanym formatem.
W górnej części tabeli przestawnej można zmienić widok na zestaw trenowania lub zestaw testowania. Dowiedz się więcej na temat zestawów trenowania i testowania oraz sposobu ich użycia do trenowania i oceny modelu.

Porada

Jeśli planujesz użycie opcji Automatycznie podziel zestaw testowy z dzielenia danych treningowych , dodaj wszystkie wypowiedzi do zestawu treningowego.
Z menu rozwijanego Wybierz intencję wybierz jedną z intencji, język wypowiedzi (dla projektów wielojęzycznych) i samą wypowiedź. Naciśnij klawisz Enter w polu tekstowym wypowiedzi, aby dodać wypowiedź.

Istnieją dwie opcje oznaczania jednostek w wypowiedzi:

Opcja	Opis
Etykieta przy użyciu pędzla	Wybierz ikonę pędzla obok jednostki w okienku po prawej stronie, a następnie wyróżnij tekst w wypowiedzi, którą chcesz oznaczyć etykietą.
Etykieta przy użyciu menu wbudowanego	Wyróżnij słowo, które chcesz oznaczyć jako jednostkę, a zostanie wyświetlone menu. Wybierz jednostkę, za pomocą której chcesz oznaczyć te wyrazy etykietą.

W okienku po prawej stronie w obszarze przestawnym Etykiety można znaleźć wszystkie typy jednostek w projekcie i liczbę wystąpień oznaczonych etykietami dla każdego z nich.
W obszarze przestawnym Dystrybucja można wyświetlić rozkład między zestawami trenowania i testowania. Dostępne są dwie opcje wyświetlania:
- Łączna liczba wystąpień na jednostkę oznaczona etykietą , w której można wyświetlić liczbę wszystkich oznaczonych etykietami wystąpień określonej jednostki.
- Unikatowe wypowiedzi na jednostkę oznaczoną etykietą , w której każda wypowiedź jest liczone, jeśli zawiera co najmniej jedno wystąpienie tej jednostki oznaczone etykietą.
- Wypowiedzi na intencję , w których można wyświetlić liczbę wypowiedzi na intencję.

Uwaga

Lista i wstępnie utworzone składniki nie są wyświetlane na stronie etykietowania danych, a wszystkie etykiety mają zastosowanie tylko do poznanego składnika.

Aby usunąć etykietę:

Z poziomu wypowiedzi wybierz jednostkę, z której chcesz usunąć etykietę.
Przewiń wyświetlone menu i wybierz pozycję Usuń etykietę.

Aby usunąć jednostkę:

Wybierz jednostkę, którą chcesz edytować w okienku po prawej stronie.
Wybierz trzy kropki obok jednostki i wybierz odpowiednią opcję z menu rozwijanego.

Sugerowanie wypowiedzi za pomocą usługi Azure OpenAI

W funkcji CLU użyj usługi Azure OpenAI, aby zasugerować wypowiedzi do dodania do projektu przy użyciu modeli GPT. Najpierw musisz uzyskać dostęp i utworzyć zasób w usłudze Azure OpenAI. Następnie należy utworzyć wdrożenie dla modeli GPT. Postępuj zgodnie z instrukcjami wstępnymi podanymi tutaj.

Przed rozpoczęciem sugerowana funkcja wypowiedzi jest dostępna tylko wtedy, gdy zasób języka znajduje się w następujących regionach:

East US
South Central US
West Europe

Na stronie Etykietowanie danych:

Wybierz przycisk Sugeruj wypowiedzi . Po prawej stronie zostanie otwarte okienko z monitem o wybranie zasobu i wdrożenia usługi Azure OpenAI.
Po wybraniu zasobu usługi Azure OpenAI wybierz pozycję Połącz, co umożliwia zasobowi języka bezpośredni dostęp do zasobu usługi Azure OpenAI. Przypisuje on zasób Language rolę Cognitive Services User zasobu azure OpenAI, który umożliwia bieżącemu zasobowi języka dostęp do usługi Azure OpenAI. Jeśli połączenie nie powiedzie się, wykonaj poniższe kroki , aby ręcznie dodać odpowiednią rolę do zasobu usługi Azure OpenAI.
Po nawiązaniu połączenia z zasobem wybierz wdrożenie. Zalecanym modelem wdrożenia usługi Azure OpenAI jest text-davinci-002.
Wybierz intencję, dla której chcesz uzyskać sugestie. Upewnij się, że wybrana intencja ma co najmniej 5 zapisanych wypowiedzi, które mają być włączone dla sugestii dotyczących wypowiedzi. Sugestie udostępniane przez usługę Azure OpenAI są oparte na najnowszych wypowiedziach dodanych do tej intencji.
Wybierz pozycję Generuj wypowiedzi. Po zakończeniu sugerowane wypowiedzi będą wyświetlane z kropkowaną linią wokół niej z uwagą Wygenerowaną przez sztuczną inteligencję. Te sugestie należy zaakceptować lub odrzucić. Zaakceptowanie sugestii powoduje po prostu dodanie jej do projektu, tak jakby zostało ono dodane samodzielnie. Odrzucenie go całkowicie usuwa sugestię. Tylko zaakceptowane wypowiedzi będą częścią projektu i będą używane do trenowania lub testowania. Możesz zaakceptować lub odrzucić, klikając zielone znaczniki wyboru lub czerwone przyciski anulowania obok każdej wypowiedzi. Możesz również użyć Accept all przycisków i Reject all na pasku narzędzi.

Korzystanie z tej funkcji wiąże się z opłatą za zasób usługi Azure OpenAI dla podobnej liczby tokenów do sugerowanych wypowiedzi wygenerowanych. Szczegóły cennika usługi Azure OpenAI można znaleźć tutaj.

Dodawanie wymaganych konfiguracji do zasobu usługi Azure OpenAI

Jeśli połączenie zasobu języka z zasobem usługi Azure OpenAI zakończy się niepowodzeniem, wykonaj następujące kroki:

Włącz zarządzanie tożsamościami dla zasobu języka przy użyciu następujących opcji:

Witryna Azure Portal
Language Studio

Aby móc korzystać z Azure Portal, zasób języka musi mieć zarządzanie tożsamościami:

Przejdź do zasobu języka
W menu po lewej stronie w sekcji Zarządzanie zasobami wybierz pozycję Tożsamość
Na karcie Przypisane przez system upewnij się, że ustawiono opcję Stan na Wł.

Po włączeniu tożsamości zarządzanej przypisz rolę Cognitive Services User do zasobu usługi Azure OpenAI przy użyciu tożsamości zarządzanej zasobu Language.

Zaloguj się do Azure Portal i przejdź do zasobu usługi Azure OpenAI.
Wybierz kartę Access Control (IAM) po lewej stronie.
Wybierz pozycję Dodaj > przypisanie roli.
Wybierz pozycję "Role funkcji zadania" i kliknij przycisk Dalej.
Wybierz Cognitive Services User z listy ról i kliknij przycisk Dalej.
Wybierz pozycję Przypisz dostęp do pozycji "Tożsamość zarządzana" i wybierz pozycję "Wybierz członków".
W obszarze "Tożsamość zarządzana" wybierz pozycję "Język".
Wyszukaj zasób i wybierz go. Następnie wybierz przycisk Wybierz poniżej i obok, aby ukończyć proces.
Przejrzyj szczegóły i wybierz pozycję Przejrzyj i przypisz.

Po kilku minutach odśwież program Language Studio i będzie można pomyślnie nawiązać połączenie z usługą Azure OpenAI.

Następne kroki

Trenowanie modelu