Testowanie wsadowe z zestawem przykładowych wypowiedzi

Artykuł
01/19/2024

Ważne

Usługa LUIS zostanie wycofana 1 października 2025 r. i od 1 kwietnia 2023 r. nie będzie można tworzyć nowych zasobów usługi LUIS. Zalecamy migrowanie aplikacji LUIS do interpretacji języka konwersacyjnego , aby korzystać z ciągłej pomocy technicznej produktu i możliwości wielojęzycznych.

Testowanie wsadowe weryfikuje aktywną wytrenowana wersję w celu mierzenia dokładności przewidywania. Test wsadowy pomaga wyświetlić dokładność każdej intencji i jednostki w aktywnej wersji. Przejrzyj wyniki testu wsadowego, aby wykonać odpowiednie działania w celu zwiększenia dokładności, na przykład dodanie kolejnych przykładowych wypowiedzi do intencji, jeśli aplikacja często nie może zidentyfikować poprawnej intencji lub etykietowania jednostek w wypowiedzi.

Grupowanie danych na potrzeby testu wsadowego

Ważne jest, aby wypowiedzi używane do testowania wsadowego były nowe dla usługi LUIS. Jeśli masz zestaw danych wypowiedzi, podziel wypowiedzi na trzy zestawy: przykładowe wypowiedzi dodane do intencji, wypowiedzi odebrane z opublikowanego punktu końcowego oraz wypowiedzi używane do testowania wsadowego usługi LUIS po wytrenowanym.

Używany plik JSON wsadowy powinien zawierać wypowiedzi z jednostkami uczenia maszynowego najwyższego poziomu oznaczonymi etykietami początkowymi i końcowymi. Wypowiedzi nie powinny być częścią przykładów już w aplikacji. Powinny to być wypowiedzi, które chcesz pozytywnie przewidzieć dla intencji i jednostek.

Testy można oddzielić od intencji i/lub jednostki lub wszystkie testy (maksymalnie 1000 wypowiedzi) w tym samym pliku.

Typowe błędy podczas importowania partii

Jeśli wystąpią błędy podczas przekazywania pliku wsadowego do usługi LUIS, sprawdź, czy występują następujące typowe problemy:

Ponad 1000 wypowiedzi w pliku wsadowym
Obiekt JSON wypowiedzi, który nie ma właściwości jednostki. Właściwość może być pustą tablicą.
Word oznaczone w wielu jednostkach
Etykiety jednostek zaczynają się lub kończą na spacji.

Naprawianie błędów wsadowych

Jeśli występują błędy podczas testowania wsadowego, możesz dodać więcej wypowiedzi do intencji i/lub oznaczyć większą liczbę wypowiedzi jednostką, aby ułatwić usłudze LUIS dyskryminację między intencjami. Jeśli dodano wypowiedzi i oznaczono je etykietami i nadal występują błędy przewidywania podczas testowania wsadowego, rozważ dodanie funkcji listy fraz z słownictwem specyficznym dla domeny, aby ułatwić usłudze LUIS szybsze uczenie się.

Portal usługi LUIS
Interfejs API REST

Testowanie wsadowe przy użyciu portalu usługi LUIS

Importowanie i trenowanie przykładowej aplikacji

Zaimportuj aplikację, która przyjmuje zamówienie na pizzę, taką jak 1 pepperoni pizza on thin crust.

Pobierz i zapisz plik JSON aplikacji.
Zaloguj się do portalu usługi LUIS i wybierz zasóbSubskrypcja i Tworzenie, aby wyświetlić aplikacje przypisane do tego zasobu tworzenia.
Wybierz strzałkę obok pozycji Nowa aplikacja , a następnie kliknij pozycję Importuj jako kod JSON , aby zaimportować kod JSON do nowej aplikacji. Nadaj aplikacji Pizza appnazwę .
Wybierz pozycję Trenuj w prawym górnym rogu nawigacji, aby wytrenować aplikację.

Role w testach wsadowych

Przestroga

Role jednostek nie są obsługiwane w testach wsadowych.

Plik testowy wsadowy

Przykładowy kod JSON zawiera jedną wypowiedź z jednostką oznaczoną etykietą, aby zilustrować wygląd pliku testowego. We własnych testach należy mieć wiele wypowiedzi z prawidłową intencją i jednostką uczenia maszynowego oznaczoną etykietą.

Utwórz pizza-with-machine-learned-entity-test.json plik w edytorze tekstów lub pobierz go.

W pliku wsadowym w formacie JSON dodaj wypowiedź z intencją , którą chcesz przewidzieć w teście.

[
    {
        "text": "I want to pick up 1 cheese pizza",
        "intent": "ModifyOrder",
        "entities": [
            {
                "entity": "Order",
                "startPos": 18,
                "endPos": 31
            },
            {
                "entity": "ToppingList",
                "startPos": 20,
                "endPos": 25
            }
        ]
    }
]

Uruchamianie partii

Wybierz pozycję Testuj na górnym pasku nawigacyjnym.
Wybierz pozycję Panel testowania usługi Batch w panelu po prawej stronie.
Wybierz pozycję Importuj. W wyświetlonym oknie dialogowym wybierz pozycję Wybierz plik i znajdź plik JSON z poprawnym formatem JSON zawierającym nie więcej niż 1000 wypowiedzi do przetestowania.

Błędy importu są zgłaszane na czerwonym pasku powiadomień w górnej części przeglądarki. Gdy importowanie zawiera błędy, nie jest tworzony żaden zestaw danych. Aby uzyskać więcej informacji, zobacz Typowe błędy.
Wybierz lokalizację pizza-with-machine-learned-entity-test.json pliku.
Nadaj zestawowi danych pizza test nazwę i wybierz pozycję Gotowe.
Wybierz przycisk Run (Uruchom).

Po zakończeniu testu wsadowego można zobaczyć następujące kolumny:

Kolumna	Opis
Stan	Stan testu. Zobacz wyniki są widoczne tylko po zakończeniu testu.
Nazwa	Nazwa nadana testowi.
Rozmiar	Liczba testów w tym pliku testu wsadowego.
Ostatnie uruchomienie	Data ostatniego uruchomienia tego pliku testu wsadowego.
Ostatni wynik	Liczba pomyślnych przewidywań w teście.

Aby wyświetlić szczegółowe wyniki testu, wybierz pozycję Zobacz wyniki.
Porada
- Wybranie pozycji Pobierz spowoduje pobranie tego samego pliku, który został przekazany.
- Jeśli test wsadowy nie powiedzie się, co najmniej jedna intencja wypowiedzi nie odpowiada przewidywaniu.

Przeglądanie wyników wsadowych dla intencji

Aby przejrzeć wyniki testu wsadowego, wybierz pozycję Zobacz wyniki. Wyniki testu pokazują graficznie, w jaki sposób wypowiedzi testowe były przewidywane względem aktywnej wersji.

Wykres wsadowy wyświetla cztery ćwiartki wyników. Po prawej stronie wykresu znajduje się filtr. Filtr zawiera intencje i jednostki. Po wybraniu sekcji wykresu lub punktu na wykresie skojarzone wypowiedzi są wyświetlane poniżej wykresu.

Po umieszczeniu kursora na wykresie koło myszy może powiększyć lub zmniejszyć wyświetlanie na wykresie. Jest to przydatne, gdy istnieje wiele punktów na wykresie skupionych ściśle ze sobą.

Wykres znajduje się w czterech ćwiartkach, z dwoma sekcjami wyświetlanymi na czerwono.

Wybierz intencję ModifyOrder na liście filtrów. Wypowiedź jest przewidywana jako wynik prawdziwie dodatni , co oznacza, że wypowiedź została pomyślnie dopasowana do jej pozytywnego przewidywania wymienionego w pliku wsadowym.

Zielone znaczniki wyboru na liście filtrów wskazują również powodzenie testu dla każdej intencji. Wszystkie pozostałe intencje są wyświetlane z wynikiem dodatnim 1/1, ponieważ wypowiedź została przetestowana pod kątem każdej intencji, jako negatywny test dla żadnych intencji, które nie zostały wymienione w teście wsadowym.
Wybierz intencję Potwierdzenie . Ta intencja nie jest wymieniona w teście wsadowym, dlatego jest to negatywny test wypowiedzi, która jest wymieniona w teście wsadowym.

Test ujemny zakończył się pomyślnie, jak zauważono przy użyciu zielonego tekstu w filtrze i siatce.

Przeglądanie wyników testów wsadowych dla jednostek

Jednostka ModifyOrder jako jednostka maszyny z jednostkami podrzędnymi jest wyświetlana, czy jednostka najwyższego poziomu jest dopasowywana i jak są przewidywane podjednostki.

Wybierz jednostkę ModifyOrder na liście filtrów, a następnie wybierz okrąg w siatce.
Przewidywanie jednostek jest wyświetlane poniżej wykresu. Na ekranie znajdują się linie stałe dla przewidywań, które pasują do oczekiwań i linii kropkowanych dla przewidywań, które nie pasują do oczekiwań.

Filtrowanie wyników wykresu

Aby filtrować wykres według określonej intencji lub jednostki, wybierz intencję lub jednostkę w panelu filtrowania po prawej stronie. Punkty danych i ich dystrybucja są aktualizowane na wykresie zgodnie z wyborem.

Wizualizowanie wyniku testu wsadowego

Przykłady wyników wykresu

Wykres w portalu usługi LUIS można wykonać następujące czynności:

Wyświetlanie danych wypowiedzi jednopunktowych

Na wykresie umieść wskaźnik myszy na punkcie danych, aby zobaczyć wynik pewności przewidywania. Wybierz punkt danych, aby pobrać odpowiednią wypowiedź na liście wypowiedzi w dolnej części strony.

Wybrana wypowiedź

Wyświetlanie danych sekcji

Na wykresie z czterema sekcjami wybierz nazwę sekcji, taką jak Wynik fałszywie dodatni w prawym górnym rogu wykresu. Poniżej wykresu wszystkie wypowiedzi w tej sekcji są wyświetlane poniżej wykresu na liście.

Wybrane wypowiedzi według sekcji

Na powyższym obrazie wypowiedź switch on jest oznaczona intencją TurnAllOn, ale otrzymała przewidywanie intencji None. Oznacza to, że intencja TurnAllOn potrzebuje więcej przykładowych wypowiedzi w celu przewidywania oczekiwanego.

Dwie sekcje wykresu na czerwono wskazują wypowiedzi, które nie pasują do oczekiwanego przewidywania. Wskazują one wypowiedzi, których usługa LUIS potrzebuje więcej szkoleń.

Dwie sekcje wykresu na zielono pasują do oczekiwanego przewidywania.

Testowanie wsadowe przy użyciu interfejsu API REST

Usługa LUIS umożliwia testowanie wsadowe przy użyciu portalu usługi LUIS i interfejsu API REST. Poniżej wymieniono punkty końcowe dla interfejsu API REST. Aby uzyskać informacje na temat testowania wsadowego przy użyciu portalu usługi LUIS, zobacz Samouczek: zestawy danych testowych wsadowych. Użyj pełnych adresów URL poniżej, zastępując wartości symboli zastępczych własnym kluczem przewidywania i punktem końcowym usługi LUIS.

Pamiętaj, aby dodać klucz usługi LUIS do Ocp-Apim-Subscription-Key elementu w nagłówku i ustawić wartość Content-Typeapplication/json.

Uruchamianie testu wsadowego

Uruchom test wsadowy przy użyciu identyfikatora wersji aplikacji lub miejsca publikowania. Wyślij żądanie POST do jednego z następujących formatów punktów końcowych. Uwzględnij plik wsadowy w treści żądania.

Miejsce publikowania

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/slots/<YOUR-SLOT-NAME>/evaluations

Identyfikator wersji aplikacji

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/versions/<YOUR-APP-VERSION-ID>/evaluations

Te punkty końcowe zwracają identyfikator operacji, który będzie używany do sprawdzania stanu i uzyskiwania wyników.

Pobieranie stanu trwającego testu wsadowego

Użyj identyfikatora operacji z testu wsadowego, aby uzyskać jego stan z następujących formatów punktów końcowych:

Miejsce publikowania

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/slots/<YOUR-SLOT-ID>/evaluations/<YOUR-OPERATION-ID>/status

Identyfikator wersji aplikacji

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/versions/<YOUR-APP-VERSION-ID>/evaluations/<YOUR-OPERATION-ID>/status

Pobieranie wyników z testu wsadowego

Użyj identyfikatora operacji z testu wsadowego, aby uzyskać wyniki z następujących formatów punktów końcowych:

Miejsce publikowania

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/slots/<YOUR-SLOT-ID>/evaluations/<YOUR-OPERATION-ID>/result

Identyfikator wersji aplikacji

<YOUR-PREDICTION-ENDPOINT>/luis/v3.0-preview/apps/<YOUR-APP-ID>/versions/<YOUR-APP-VERSION-ID>/evaluations/<YOUR-OPERATION-ID>/result

Plik wsadowy wypowiedzi

Prześlij plik wsadowy wypowiedzi, znany jako zestaw danych, na potrzeby testowania wsadowego. Zestaw danych to plik w formacie JSON zawierający maksymalnie 1000 wypowiedzi oznaczonych etykietą. W aplikacji można przetestować maksymalnie 10 zestawów danych. Jeśli chcesz przetestować więcej, usuń zestaw danych, a następnie dodaj nowy. Wszystkie jednostki niestandardowe w modelu są wyświetlane w filtrze jednostek testów wsadowych, nawet jeśli w danych pliku wsadowego nie ma odpowiednich jednostek.

Plik wsadowy składa się z wypowiedzi. Każda wypowiedź musi mieć oczekiwane przewidywanie intencji wraz z dowolnymi jednostkami uczenia maszynowego , które mają zostać wykryte.

Szablon składni usługi Batch dla intencji z jednostkami

Użyj następującego szablonu, aby uruchomić plik wsadowy:

{
    "LabeledTestSetUtterances": [
        {
            "text": "play a song",
            "intent": "play_music",
            "entities": [
                {
                    "entity": "song_parent",
                    "startPos": 0,
                    "endPos": 15,
                    "children": [
                        {
                            "entity": "pre_song",
                            "startPos": 0,
                            "endPos": 3
                        },
                        {
                            "entity": "song_info",
                            "startPos": 5,
                            "endPos": 15
                        }
                    ]
                }
            ]
        }
    ]
}

Plik wsadowy używa właściwości startPos i endPos do zanotowania początku i końca jednostki. Wartości są oparte na zerach i nie powinny rozpoczynać się ani kończyć spacją. Różni się to od dzienników zapytań, które używają właściwości startIndex i endIndex.

Jeśli nie chcesz testować jednostek, dołącz entities właściwość i ustaw wartość jako pustą tablicę . []

Wyniki testu wsadowego interfejsu API REST

Interfejs API zwraca kilka obiektów:

Informacje o modelach intencji i jednostek, takich jak precyzja, kompletność i ocena F.
Informacje o modelach jednostek, takich jak precyzja, kompletność i ocena F) dla każdej jednostki
- Za pomocą flagi verbose możesz uzyskać więcej informacji o jednostce, takich jak entityTextFScore i entityTypeFScore.
Podane wypowiedzi z przewidywanymi i oznaczonymi nazwami intencji
Lista fałszywie dodatnich jednostek i lista fałszywie ujemnych jednostek.

Następne kroki

Jeśli testowanie wskazuje, że aplikacja usługi LUIS nie rozpoznaje prawidłowych intencji i jednostek, możesz zwiększyć wydajność aplikacji LUIS, oznaczając więcej wypowiedzi lub dodając funkcje.

Testowanie wsadowe z zestawem przykładowych wypowiedzi

Grupowanie danych na potrzeby testu wsadowego

Typowe błędy podczas importowania partii

Naprawianie błędów wsadowych

Testowanie wsadowe przy użyciu portalu usługi LUIS

Importowanie i trenowanie przykładowej aplikacji

Role w testach wsadowych

Plik testowy wsadowy

Uruchamianie partii

Przeglądanie wyników wsadowych dla intencji

Przeglądanie wyników testów wsadowych dla jednostek

Filtrowanie wyników wykresu

Przykłady wyników wykresu

Wyświetlanie danych wypowiedzi jednopunktowych

Wyświetlanie danych sekcji

Następne kroki

Dodatkowe zasoby