Udostępnij za pośrednictwem


Analiza — często zadawane pytania

Te często zadawane pytania opisują efekt sztucznej inteligencji funkcji pomocy analitycznej w Copilot Studio.

W jaki sposób generatywna sztuczna inteligencja jest używana do analizy?

Copilot Studio używa sztucznej inteligencji do oceny jakości generowanych odpowiedzi oraz tworzenia klastrów. Te klastry zapewniają wgląd w wydajność agenta.

Generowanie odpowiedzi za pomocą wybranych przez Ciebie źródeł wiedzy. Funkcja zbiera również wszelkie opinie przekazane przez użytkownika. Analiza używa dużych modeli językowych (LLMs) do klasyfikowania wiadomości czatu między użytkownikami a agentami na poziomy wskazujące jakość generowanych odpowiedzi. Copilot Studio kompiluje te wskaźniki, aby przedstawić podsumowanie ogólnej wydajności agenta.

Funkcja klastrowania używa modeli LLM do sortowania wiadomości od użytkowników w grupy na podstawie wspólnych tematów i nadania każdej grupie opisowej nazwy. Copilot Studio używa nazw tych klastrów do udostępniania różnych typów szczegółowych informacji, których można użyć do ulepszania agenta.

Jakość odpowiedzi generatywnych

Jakie jest przeznaczenie funkcji jakości odpowiedzi?

Użyj analizy jakości odpowiedzi, aby dowiedzieć się więcej o użyciu agenta i wydajności, a następnie utworzyć akcje na potrzeby poprawy agenta. Obecnie możesz użyć analityki, aby zrozumieć, czy jakość odpowiedzi generowanych przez agenta spełnia Twoje oczekiwania.

Oprócz ogólnej jakości, jakość analizy odpowiedzi identyfikuje obszary, w których agent działa źle lub nie może wykonać zamierzonych celów. Możesz zdefiniować obszary, w których generowane odpowiedzi działają źle, i podjąć kroki w celu poprawy ich jakości.

Podczas identyfikowania niskiej wydajności postępuj zgodnie z najlepszymi rozwiązaniami, które mogą pomóc poprawić jakość. Na przykład po zidentyfikowaniu źródeł wiedzy o niskiej wydajności można edytować źródło wiedzy lub podzielić źródło wiedzy na wiele, bardziej skoncentrowanych źródeł pod kątem zwiększonej jakości.

Jakie dane są używane do tworzenia analiz jakości odpowiedzi?

Jakość analizy odpowiedzi jest obliczana przy użyciu próbki odpowiedzi generowania odpowiedzi. Wymaga to zapytania użytkownika, odpowiedzi agenta oraz odpowiednich źródeł wiedzy używanych przez model generatywny na potrzeby odpowiedzi generatywnej.

Analiza jakości odpowiedzi używa tych informacji do oceny, czy jakość generowanych odpowiedzi jest dobra, a jeśli nie, dlaczego jakość jest niska. Na przykład analiza jakości odpowiedzi może wskazywać niekompletne, nieistotne lub nie w pełni uzasadnione odpowiedzi.

Jakie są ograniczenia dotyczące jakości analizy odpowiedzi i jak użytkownicy mogą zminimalizować wpływ tych ograniczeń?

  • Analityka jakości odpowiedzi nie używa wszystkich odpowiedzi generowanych. Zamiast tego analizy mierzą próbkę sesji agentów użytkownika. Agenci, którzy mają mniej niż minimalną liczbę udanych odpowiedzi generatywnych, nie mogą otrzymać analitycznego podsumowania jakości odpowiedzi.

  • Istnieją przypadki, w których analiza nie bada rzetelnie pojedynczej odpowiedzi. Na zagregowanym poziomie analiza powinna być rzetelna w większości przypadków.

  • Analiza jakości odpowiedzi nie daje podziału konkretnych zapytań, które doprowadziły do niskiej jakości wydajności. Nie wskazuje również typowych źródeł wiedzy ani tematów, które są używane przy nisko ocenianych odpowiedziach.

  • Analizy nie są obliczane dla odpowiedzi korzystających z wiedzy generatywnej.

  • Kompletność odpowiedzi jest jednym z wskaźników stosowanych do oceny jakości odpowiedzi. Ta metryka mierzy, jak w pełni odpowiedź odnosi się do treści pobranego dokumentu.

    Jeśli system nie pozyskuje odpowiedniego dokumentu z dodatkowymi informacjami do pytania, nie ocenia metryki kompletności tego dokumentu.

Jakie zabezpieczenia są stosowane do analizy jakości odpowiedzi w ramach Copilot Studio dla odpowiedzialnej sztucznej inteligencji?

Użytkownicy agentów nie widzą wyników analizy; są one dostępne tylko dla twórców agentów i administratorów.

Twórcy i administratorzy mogą używać analiz jakości odpowiedzi tylko w celu zobaczenia procentu odpowiedzi dobrych jakościowo oraz wszelkich wstępnie zdefiniowanych przyczyn słabego działania. Twórcy mogą zobaczyć tylko procent odpowiedzi wysokiej jakości i wstępnie zdefiniowane przyczyny.

Dokładnie przetestowaliśmy działanie funkcji analizy jakości odpowiedzi w trakcie jej opracowywania, aby zapewnić dobrą skuteczność działania. Jednak w rzadkich przypadkach oceny jakości odpowiedzi mogą być niedokładne.

Analiza sentymentu podczas sesji konwersacyjnych

Jaki jest zamierzony cel analizy sentymentu?

Analiza tonacji umożliwia zrozumienie poziomu zadowolenia użytkowników podczas sesji konwersacji na podstawie analizy sztucznej inteligencji komunikatów użytkowników do agenta. Możesz zrozumieć ogólną tonację sesji (pozytywną, negatywną lub neutralną), zbadać przyczyny i podjąć działania, aby rozwiązać ten problem.

Jakie dane są wykorzystywane do definiowania sentymentu podczas sesji konwersacyjnej?

Copilot Studio oblicza analizę sentymentu na podstawie komunikatów użytkowników do agenta dla przykładowego zestawu sesji konwersacyjnych.

Analiza sentymentu wykorzystuje te informacje do oceny, czy satysfakcja użytkownika podczas sesji jest pozytywna, negatywna czy neutralna. Na przykład użytkownik może używać słów i tonu głosu, które wskazują na frustrację lub niezadowolenie w zależności od interakcji z agentem. W takim przypadku sesja jest klasyfikowana jako negatywny nastrój.

Jakie są ograniczenia analizy sentymentu i jak użytkownicy mogą je złagodzić?

Analiza sentymentu nie jest obliczana na podstawie wszystkich sesji konwersacyjnych. Zamiast tego analizy mierzą próbkę sesji agentów użytkownika. Agenci, którzy nie osiągnęli minimalnej liczby udanych odpowiedzi generatywnych dziennie, nie mogą otrzymać oceny sentymentu.

Analiza sentymentu obecnie opiera się na odpowiedziach generatywnych i wymaga minimalnej liczby codziennych udanych odpowiedzi, aby obliczyć wskaźnik sentymentu dla agenta.

Aby obliczyć sentyment sesji, muszą być co najmniej dwie wiadomości użytkownika. Dodatkowo, ze względu na obecne ograniczenia techniczne, analiza sentymentu nie jest przeprowadzana w sesjach przekraczających łącznie 26 wiadomości (w tym zarówno od użytkownika, jak i agenta)

Analiza sentymentu nie dostarcza podziału konkretnych komunikatów użytkowników, które doprowadziły do oceny sentymentu.

Jakie zabezpieczenia są wdrożone w ramach analizy sentymentów w Copilot Studio na rzecz odpowiedzialnej sztucznej inteligencji?

Użytkownicy agentów nie widzą wyników analizy; są one dostępne tylko dla twórców agentów i administratorów.

Możesz użyć tylko analizy nastroju, aby zobaczyć podział nastrojów we wszystkich sesjach.

Analizę nastroju dokładnie przetestowaliśmy podczas produkcji, aby zapewnić dobrą wydajność. Jednak w rzadkich przypadkach oceny nastrojów mogą być niedokładne.

Motywy pytań użytkowników

Jakie jest przeznaczenie motywów?

Ta funkcja automatycznie analizuje duże zestawy zapytań użytkowników i grupuje je w tematy wysokiego poziomu nazywane motywami. Każdy motyw reprezentuje wysoki poziom tematyczny, o który pytali użytkownicy. Motywy dają nienadzorowany, oparty na danych widok treści użytkownika. Ten widok pomaga zespołom zrozumieć, o co użytkownicy najbardziej dbają, bez ręcznego przeglądania tysięcy zapytań.

Jakie dane są używane do tworzenia klastrów?

Funkcja Motywy używa zapytań użytkownika, które wyzwalają generatywne odpowiedzi. Motywy analizują wszystkie zapytania z ostatnich siedmiu dni, aby wygenerować nowe proponowane motywy.

Motywy korzystają z semantycznego podobieństwa do zapytań grupowych. Model językowy jest następnie używany do generowania tytułu i opisu dla każdego klastra. Opinie twórców (takie jak kciuki w górę/w dół) są również zbierane w celu poprawy jakości klastrowania.

Jakie są ograniczenia klastrowania motywów i jak użytkownicy mogą zmniejszyć te ograniczenia?

Pomyślne klastrowanie w motywach zależy od woluminu zapytań. Jeśli nie ma wystarczającej liczby zapytań lub jeśli zapytania są zbyt niepowiązane ze sobą, Copilot Studio może klasterować zapytania do motywów, które są zbyt szerokie lub zbyt wąskie.

Motywy mogą czasami rozdzielić podobne tematy lub scalić niepowiązane.

Zmiana języka w zapytaniach może mieć wpływ na spójność klastrów w czasie.

Motywy można regularnie przeglądać i przekazywać opinie, aby poprawić jakość nazewnictwa.

Jakie zabezpieczenia dotyczące motywów zostały zastosowane w Copilot Studio w kontekście odpowiedzialnej sztucznej inteligencji?

Motywy są widoczne tylko dla twórców i administratorów. Podczas generowania nazw i opisów stosowane jest moderowanie treści w celu zmniejszenia ryzyka szkodliwych lub nieodpowiednich danych wyjściowych.

Analiza metryk niestandardowych

Jakie jest zamierzone użycie metryk niestandardowych?

Twórcy używają analizy metryk niestandardowych, aby zrozumieć, ile ich agenci konwersacyjni wpływają na wyniki biznesowe. Te metryki uzupełniają analizę oszczędności. Przykłady metryk niestandardowych obejmują współczynnik rozpoznawania, klasyfikację intencji klienta i inne wyniki specyficzne dla domeny.

Metryki niestandardowe mogą pokazywać, gdzie agenci przegapią zamierzone cele. Twórcy mogą definiować, co należy mierzyć, testować metryki względem rzeczywistych danych sesji i uściślić definicje na podstawie wyników.

Jakie dane są używane do obliczania metryk niestandardowych?

Metryki niestandardowe są obliczane przy użyciu próbki z wcześniejszych sesji agenta. Obliczenie używa wiadomości konwersacyjnych wymienianych podczas sesji.

Model AI klasyfikuje dane sesji na podstawie **Twojej** definicji metryki. Agent agreguje wyniki dla próby, aby pokazać ogólną wydajność mierników dla wybranego okresu czasu.

Jakie są ograniczenia metryk niestandardowych i jak użytkownicy mogą zminimalizować wpływ ograniczeń?

Metryki niestandardowe nie są obliczane przy użyciu wszystkich sesji agenta. Zamiast tego mierzą próbkę sesji z wybranego okresu. Ponieważ wyniki są oparte na próbce, powinny być traktowane jako wskaźniki kierunkowe, a nie dokładne dane.

Należy wziąć pod uwagę, że obliczenie metryki jest oparte na transkrypcji komunikatów podczas interpretowania metryk. Unikaj wyciągania wniosków dotyczących zachowań występujących głównie poza komunikatami, takich jak tematy i narzędzia.

Model sztucznej inteligencji może błędnie sklasyfikować sesje. Wyniki zbiorcze są ogólnie dokładne. Sesje, które nie pasują do zdefiniowanej kategorii, są umieszczane w kategorii rezerwowej (inne). Jeśli wyniki testu nie pasują do oczekiwanych wyników, możesz zaktualizować opis metryki i definicje kategorii.

Jeśli instrukcje lub konfiguracja agenta zostaną znacząco zmienione po zdefiniowaniu metryki, metryka może nie odzwierciedlać zaktualizowanego zachowania agenta. Po wprowadzeniu istotnych zmian w agencie należy przejrzeć ich metryki dostosowane do potrzeb.

Jakie zabezpieczenia są zastosowane dla metryk niestandardowych w Copilot Studio w kontekście odpowiedzialnej sztucznej inteligencji?

Wyniki metryk niestandardowych są dostępne tylko dla twórców agentów i administratorów. Użytkownicy agenta nie mają dostępu do wyników analizy.

Przed zapisaniem przejrzyj i zatwierdź wszystkie metryki niestandardowe. Podczas definicji metryki przetestuj metryki względem przykładowych danych sesji i przejrzyj poszczególne wyniki i rozumowanie modelu. Jeśli wyniki nie spełniają oczekiwań, możesz zaktualizować lub odrzucić metryki. Metryki nie są stosowane bez jawnego potwierdzenia.

Wygenerowany przez sztuczną inteligencję monit używany do klasyfikowania sesji jest widoczny w interfejsie użytkownika, dzięki czemu możesz zrozumieć, w jaki sposób model interpretuje definicję metryki. Metryki niestandardowe można edytować lub usuwać w dowolnym momencie.

W rzadkich przypadkach klasyfikacje poszczególnych sesji mogą być niedokładne. Wyniki powinny być interpretowane w agregacji, a nie na poziomie poszczególnych sesji.