Co to jest podsumowanie dokumentów i konwersacji?

Artykuł
02/03/2024

Ważne

Nasz region wersji zapoznawczej, Szwecja Środkowa, prezentuje nasze najnowsze i stale ewoluujące techniki dostrajania LLM oparte na modelach GPT. Zapraszamy do wypróbowania ich z zasobem Język w regionie Centralnym Szwecji.

Podsumowanie konwersacji jest dostępne tylko przy użyciu:

Interfejs API REST
Python
C#

Podsumowanie to jedna z funkcji oferowanych przez usługę Azure AI Language, kolekcja algorytmów uczenia maszynowego i sztucznej inteligencji w chmurze na potrzeby tworzenia inteligentnych aplikacji obejmujących język pisany. Skorzystaj z tego artykułu, aby dowiedzieć się więcej o tej funkcji i sposobie jej używania w aplikacjach.

Chociaż usługi są oznaczone etykietą dokument i podsumowanie konwersacji, podsumowanie dokumentów akceptuje tylko bloki zwykłego tekstu, a podsumowanie konwersacji akceptuje różne artefakty mowy, aby model dowiedział się więcej. Jeśli chcesz przetworzyć konwersację, ale zależy tylko na tekście, możesz użyć podsumowania dokumentów w tym scenariuszu.

Podsumowanie dokumentów
Podsumowanie konwersacji

Ta dokumentacja zawiera następujące typy artykułów:

Przewodniki Szybki start to instrukcje wprowadzające, które ułatwiają wysyłanie żądań do usługi.
Przewodniki z instrukcjami zawierają instrukcje dotyczące korzystania z usługi w bardziej szczegółowy lub dostosowany sposób.

Podsumowanie dokumentów używa technik przetwarzania języka naturalnego do generowania podsumowania dokumentów. Istnieją trzy obsługiwane podejścia interfejsu API do automatycznego podsumowywania: wyodrębnianie, abstrakcja i skoncentrowanie na zapytaniach.

Podsumowanie wyodrębnia zdania, które łącznie reprezentują najważniejsze lub istotne informacje w oryginalnej zawartości. Podsumowanie abstrakcyjne generuje podsumowanie z zwięzłymi, spójnymi zdaniami lub wyrazami, które nie są dosłownym wyodrębnieniem zdań z oryginalnego dokumentu. Te funkcje zostały zaprojektowane tak, aby skrócić zawartość, którą można uznać za zbyt długą do odczytania.

Obsługa dokumentów natywnych

Dokument natywny odnosi się do formatu pliku używanego do tworzenia oryginalnego dokumentu, takiego jak Microsoft Word (docx) lub przenośny plik dokumentu (pdf). Obsługa dokumentów natywnych eliminuje konieczność wstępnego przetwarzania tekstu przed użyciem funkcji zasobów języka sztucznej inteligencji platformy Azure. Obecnie obsługa dokumentów natywnych jest dostępna zarówno dla funkcji AbstractiveSummarization, jak i ExtractiveSummarization.

Obecnie podsumowanie dokumentów obsługuje następujące natywne formaty dokumentów:

Typ pliku	Rozszerzenie pliku	opis
Tekst	`.txt`	Niesformatowany dokument tekstowy.
Adobe PDF	`.pdf`	Przenośny plik dokumentu sformatowany.
Microsoft Word	`.docx`	Plik dokumentu programu Microsoft Word.

Aby uzyskać więcej informacji, zobaczUse native documents for language processing (Używanie dokumentów natywnych do przetwarzania języka)

Kluczowe cechy i funkcje

Istnieją aspekty podsumowania dokumentów, które udostępnia ten interfejs API:

Podsumowanie wyodrębniające: tworzy podsumowanie, wyodrębniając ważne zdania w dokumencie.
- Wiele wyodrębnionych zdań: zdania te łącznie przekazują główną ideę dokumentu. Są to oryginalne zdania wyodrębnione z zawartości dokumentu wejściowego.
- Wynik klasyfikacji: wynik rangi wskazuje, jak istotne jest zdanie do głównego tematu dokumentu. Rangi podsumowania dokumentów wyodrębnione zdania i można określić, czy są zwracane w kolejności ich wyświetlania, czy według ich rangi.
- Wiele zwracanych zdań: określ maksymalną liczbę zdań, które mają zostać zwrócone. Jeśli na przykład zażądasz podsumowania wyodrębniania sumaryczne z trzema zdaniami, zwraca trzy zdania o najwyższych wynikach.
- Informacje pozycyjne: pozycja początkowa i długość wyodrębnionych zdań.
Podsumowanie abstrakcyjne: generuje podsumowanie, które nie używa tych samych słów co w dokumencie, ale przechwytuje główną ideę.
- Teksty podsumowujące: podsumowanie abstrakcyjne zwraca podsumowanie dla każdego kontekstowego zakresu danych wejściowych w dokumencie. Długi dokument można podzielić na segmenty, aby można było zwracać wiele grup tekstów podsumowujących z ich kontekstowym zakresem danych wejściowych.
- Zakres danych wejściowych kontekstowych: zakres w dokumencie wejściowym, który został użyty do wygenerowania tekstu podsumowania.
Podsumowanie ukierunkowane na zapytania: generuje podsumowanie na podstawie zapytania

Rozważmy na przykład następujący akapit tekstu:

"W firmie Microsoft dążymy do rozwoju sztucznej inteligencji poza istniejącymi technikami, przyjmując bardziej całościowe, skoncentrowane na człowieku podejście do uczenia się i zrozumienia. Jako dyrektor ds. technologii usług Azure AI pracuję z zespołem niesamowitych naukowców i inżynierów, aby przekształcić to zadanie w rzeczywistość. W mojej roli lubię wyjątkową perspektywę w wyświetlaniu relacji między trzema atrybutami poznania ludzkiego: monolingual text (X), audio lub wizualnych sygnałów sensorycznej, (Y) i wielojęzycznych (Z). Na skrzyżowaniu wszystkich trzech elementów istnieje magia — to, co nazywamy kodem XYZ, jak pokazano na rysunku 1 — wspólną reprezentacją umożliwiającą tworzenie bardziej wydajnej sztucznej inteligencji, która może mówić, słyszeć, widzieć i lepiej rozumieć ludzi. Uważamy, że kod XYZ umożliwia nam spełnienie naszej długoterminowej wizji: uczenie się transferu między domenami, obejmujące modalizacje i języki. Celem jest posiadanie wstępnie wytrenowanych modeli, które mogą wspólnie uczyć się reprezentacji w celu obsługi szerokiej gamy podrzędnych zadań sztucznej inteligencji, znacznie w sposób, w jaki ludzie robią to dzisiaj. W ciągu ostatnich pięciu lat osiągamy ludzką wydajność w testach porównawczych rozpoznawania mowy konwersacyjnej, tłumaczenia maszynowego, odpowiadania na pytania konwersacyjne, zrozumienia maszynowego i podpis obrazów. Te pięć przełomowych przełomów dało nam silne sygnały w kierunku naszych bardziej ambitnych aspiracji do stworzenia skoku w zakresie możliwości sztucznej inteligencji, osiągnięcia wieloczułowego i wielojęzycznego uczenia się, który jest bliżej tego, jak ludzie uczą się i rozumieją. Wierzę, że wspólny kod XYZ jest podstawowym składnikiem tego aspiracji, jeśli uziemiony zewnętrznymi źródłami wiedzy w podrzędnych zadaniach sztucznej inteligencji."

Żądanie interfejsu API podsumowania dokumentu jest przetwarzane po otrzymaniu żądania przez utworzenie zadania dla zaplecza interfejsu API. Jeśli zadanie zakończyło się pomyślnie, zwracane są dane wyjściowe interfejsu API. Dane wyjściowe są dostępne do pobierania przez 24 godziny. Po tym czasie dane wyjściowe są czyszczone. Ze względu na obsługę wielojęzycznych i emoji odpowiedź może zawierać przesunięcia tekstu. Aby uzyskać więcej informacji, zobacz jak przetwarzać przesunięcia.

Jeśli użyjemy powyższego przykładu, interfejs API może zwrócić następujące podsumowane zdania:

Podsumowanie wyodrębnione:

"W firmie Microsoft dążymy do rozwoju sztucznej inteligencji poza istniejącymi technikami, przyjmując bardziej całościowe, skoncentrowane na człowieku podejście do uczenia się i zrozumienia".
"Uważamy, że XYZ-code umożliwia nam spełnienie naszej długoterminowej wizji: uczenie transferowe między domenami, obejmujące modalizacje i języki."
"Celem jest posiadanie wstępnie wytrenowanych modeli, które mogą wspólnie uczyć się reprezentacji, aby obsługiwać szeroką gamę podrzędnych zadań sztucznej inteligencji, znacznie w sposób, w jaki ludzie robią dziś."

Podsumowanie abstrakcyjne:

"Firma Microsoft przyjmuje bardziej całościowe, skoncentrowane na człowieku podejście do uczenia się i zrozumienia. Uważamy, że kod XYZ umożliwia nam spełnienie naszej długoterminowej wizji: uczenie się transferu między domenami, obejmujące modalizacje i języki. W ciągu ostatnich pięciu lat osiągnęliśmy ludzką wydajność w zakresie testów porównawczych w rozpoznawaniu mowy konwersacyjnej.

Ważne

Podsumowanie konwersacji jest dostępne tylko w języku angielskim.

Ta dokumentacja zawiera następujące typy artykułów:

Przewodniki Szybki start to instrukcje wprowadzające, które ułatwiają wysyłanie żądań do usługi.
Przewodniki z instrukcjami zawierają instrukcje dotyczące korzystania z usługi w bardziej szczegółowy lub dostosowany sposób.

Kluczowe cechy i funkcje

Podsumowanie konwersacji obsługuje następujące funkcje:

Podsumowanie problemu/rozwiązania: funkcja specyficzna dla centrum telefonicznego, która zawiera podsumowanie problemów i rozwiązań w rozmowach między agentami obsługi klienta i klientami.
Podsumowanie tytułu rozdziału: Dzieli konwersację na rozdziały na podstawie tematów omówionych w konwersacji i zawiera sugerowane tytuły rozdziałów konwersacji wejściowej.
Podsumowanie: podsumowuje konwersację w krótkim akapicie.
Podsumowanie narracji: generuje szczegółowe notatki z rozmów, notatki ze spotkania lub podsumowania czatów w konwersacji wejściowej.
Zadania kontynuacji: udostępnia listę zadań podrzędnych omówionych w konwersacji wejściowej.

Kiedy należy używać podsumowania problemu i rozwiązywania problemów

Jeśli istnieją aspekty "problemu" i "rozwiązania", takie jak:
- Przyczyna rozmowy/połączenia z usługą (problem).
- To rozwiązanie problemu.
Potrzebujesz tylko podsumowania, które koncentruje się na powiązanych informacjach o problemach i rozwiązaniach.
Kiedy są dwaj uczestnicy rozmowy i chcesz podsumować to, co każdy powiedział.

Rozważmy na przykład następującą przykładową konwersację:

Agent: "Witaj, rozmawiasz z Rene. Jak mogę Ci pomóc?"

Klient: "Cześć, próbowałem skonfigurować połączenie wi-fi dla ekspresu do kawy Smart Brew 300, ale to nie zadziałało."

Agent: "Przykro mi to usłyszeć. Zobaczmy, co możemy zrobić, aby rozwiązać ten problem. Czy można nacisnąć przycisk połączenia wifi, przytrzymaj przez 3 sekundy, a następnie daj mi znać, czy światło zasilania jest powoli migające?"

Klient: "Tak, wypchnąłem przycisk połączenia wi-fi, a teraz światło zasilające powoli miga"."

Agent: "Świetnie. Dziękuję! Teraz zaewidencjonuj aplikację Contoso Coffee. Czy monituje o nawiązanie połączenia z maszyną?"

Klient: "Nie. Nic się nie stało.

Agent: "Widzę. Dzięki. Spróbujmy, jeśli zresetowanie do ustawień fabrycznych może rozwiązać ten problem. Czy możesz nacisnąć i trzymać przycisk środkowy przez 5 sekund, aby uruchomić resetowanie do ustawień fabrycznych."

Klient: "Próbowałem zresetować do ustawień fabrycznych i ponownie wykonałem powyższe kroki, ale nadal nie zadziałało".

Agent: "Przykro mi to usłyszeć. Pozwólcie, że zobaczmy, czy istnieje inny sposób rozwiązania problemu. Trzymaj się na minutę."

Funkcja podsumowania konwersacji uprościłaby tekst w następujący sposób:

Przykładowe podsumowanie	Formatuj	Aspekt konwersacji
Klient chce korzystać z połączenia wi-fi na swoim Smart Brew 300. Ale to nie zadziałało.	Jedno lub dwa zdania	Problem
Sprawdź, czy światło zasilania miga powoli. Sprawdzono aplikację do kawy Contoso. Nie miał monitu. Podjęto próbę zresetowania do ustawień fabrycznych.	Co najmniej jedno zdanie wygenerowane na podstawie wielu wierszy transkrypcji.	rozwiązanie

Wprowadzenie do podsumowania

Aby użyć podsumowania, należy przesłać dane wyjściowe interfejsu API do analizy i obsługiwać je w aplikacji. Analiza jest wykonywana zgodnie z rzeczywistym użyciem, bez dodatkowego dostosowania do modelu używanego na danych. Istnieją dwa sposoby użycia podsumowania:

Podsumowanie dokumentów
Podsumowanie konwersacji

Opcja programowania	opis
Studio językowe	Language Studio to platforma internetowa, która umożliwia wypróbowanie łączenia jednostek z przykładami tekstowymi bez konta platformy Azure i własnych danych podczas tworzenia konta. Aby uzyskać więcej informacji, zobacz witrynę internetową language Studio lub przewodnik Szybki start dla programu Language Studio.
Interfejs API REST lub biblioteka klienta (Zestaw Azure SDK)	Integrowanie podsumowania dokumentów z aplikacjami przy użyciu interfejsu API REST lub biblioteki klienta dostępnej w różnych językach. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start podsumowania.

Opcja programowania	opis	Linki
Interfejs API REST	Integrowanie podsumowania konwersacji z aplikacjami przy użyciu interfejsu API REST.	Szybki start: używanie podsumowania konwersacji

Podsumowanie niestandardowe umożliwia użytkownikom tworzenie niestandardowych modeli sztucznej inteligencji w celu podsumowania tekstu bez struktury, takiego jak kontrakty lub powieści. Tworząc projekt niestandardowego podsumowania, deweloperzy mogą iteracyjne oznaczać dane, trenować, oceniać i poprawiać wydajność modelu przed udostępnieniem ich do użycia. Jakość oznaczonych danych znacznie wpływa na wydajność modelu. Aby uprościć tworzenie i dostosowywanie modelu, usługa oferuje niestandardowy portal internetowy, do którego można uzyskać dostęp za pośrednictwem programu Language Studio. Możesz łatwo rozpocząć pracę z usługą, wykonując kroki opisane w tym przewodniku Szybki start.

Wymagania dotyczące danych wejściowych i limity usług

Podsumowanie dokumentów
Podsumowanie konwersacji

Podsumowanie pobiera tekst do analizy. Aby uzyskać więcej informacji, zobacz Limity danych i usług w przewodniku z instrukcjami .
Podsumowanie działa z różnymi językami napisanymi. Aby uzyskać więcej informacji, zobacz obsługa języków.

Dokumentacja referencyjna i przykłady kodu

Podczas korzystania z podsumowania dokumentów w aplikacjach zapoznaj się z następującą dokumentacją referencyjną i przykładami dla języka azure AI:

Opcja/język programowania	Dokumentacja referencyjna	Przykłady
C#	Dokumentacja języka C#	Przykłady języka C#
Java	Dokumentacja języka Java	Przykłady języka Java
JavaScript	Dokumentacja języka JavaScript	Przykłady języka JavaScript
Python	Dokumentacja języka Python	Przykłady w języku Python

Odpowiedzialne AI

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko wdrażania. Przeczytaj notatkę dotyczącą przejrzystości podsumowania , aby dowiedzieć się więcej na temat odpowiedzialnego używania i wdrażania sztucznej inteligencji w systemach. Aby uzyskać więcej informacji, zobacz następujące artykuły:

Co to jest podsumowanie dokumentów i konwersacji?

Obsługa dokumentów natywnych

Kluczowe cechy i funkcje

Wprowadzenie do podsumowania

Wymagania dotyczące danych wejściowych i limity usług

Dokumentacja referencyjna i przykłady kodu

Odpowiedzialne AI

Dodatkowe zasoby