Informacja o przejrzystości języka Azure w narzędziach Foundry Tools

Ważne

Tłumaczenia nieanglojęzyczne są dostępne tylko dla wygody. Zapoznaj się zEN-US wersją tego dokumentu, aby uzyskać ostateczną wersję.

Co to jest notatka dotycząca przezroczystości?

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które będą jej używać, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażana. Utworzenie systemu dopasowanego do zamierzonego celu wymaga zrozumienia, jak działa technologia, jej możliwości i ograniczenia oraz jak osiągnąć najlepszą wydajność. Notatki dotyczące przejrzystości Microsoftu mają na celu pomóc w zrozumieniu, jak działa nasza technologia sztucznej inteligencji, jakie wybory mogą podejmować właściciele systemu, które wpływają na wydajność i zachowanie systemu, oraz podkreślić znaczenie uwzględniania całego systemu, w tym technologii, ludzi i środowiska. Możesz użyć notatek przezroczystości podczas opracowywania lub wdrażania własnego systemu lub udostępniać je osobom, które będą korzystać z systemu lub mają na nie wpływ.

Microsoft Uwagi dotyczące przejrzystości są częścią szerszego wysiłku Microsoft, aby w praktyce wprowadzić nasze zasady sztucznej inteligencji. Aby dowiedzieć się więcej, zobacz Microsoft zasady sztucznej inteligencji.

Podstawy języka Azure w narzędziach Foundry

Wprowadzenie

Język to oparta na chmurze usługa, która zapewnia funkcje przetwarzania języka naturalnego (NLP) na potrzeby wyszukiwania tekstu i analizy tekstu, w tym następujące funkcje:

Zapoznaj się z omówieniem, aby zapoznać się z wprowadzeniem do każdej funkcji i przejrzeć przykładowe przypadki użycia. Zapoznaj się z przewodnikami z instrukcjami i dokumentacją interfejsu API, aby dowiedzieć się więcej o tym, co robi każda funkcja i co jest zwracane przez system.

Ten artykuł zawiera podstawowe wskazówki dotyczące odpowiedzialnego używania funkcji językowych. Najpierw przeczytaj ogólne informacje, a następnie przejdź do konkretnego artykułu, jeśli używasz jednej z poniższych funkcji.

Możliwości

Przypadki użycia

Usługi językowe mogą być używane w wielu scenariuszach w różnych branżach. Oto kilka przykładów wymienionych przez funkcję:

  • Użyj niestandardowego rozpoznawania nazwanych jednostek do wyszukiwania wiedzy, aby ulepszyć wyszukiwanie semantyczne. Wyszukiwanie jest podstawą dowolnej aplikacji, która wyświetla zawartość tekstowa dla użytkowników. Typowe scenariusze obejmują wyszukiwanie katalogów lub dokumentów, wyszukiwanie produktów w sprzedaży detalicznej lub wyszukiwanie wiedzy na potrzeby nauki o danych. Wiele przedsiębiorstw w różnych branżach chce utworzyć bogate środowisko wyszukiwania w prywatnej, heterogenicznej zawartości, która obejmuje zarówno dokumenty ustrukturyzowane, jak i nieustrukturyzowane. W ramach swojego pipelinu deweloperzy mogą używać niestandardowego modułu NER do wyodrębniania jednostek z tekstu, które są istotne dla ich branży. Te jednostki mogą służyć do wzbogacania indeksowania pliku w celu uzyskania bardziej dostosowanego środowiska wyszukiwania.

  • Użyj rozpoznawania nazwanych jednostek, aby ulepszyć lub zautomatyzować procesy biznesowe. Na przykład podczas przeglądania roszczeń ubezpieczeniowych można wyróżnić rozpoznane jednostki, takie jak nazwa i lokalizacja, aby ułatwić przegląd. Możesz też wygenerować bilet pomocy technicznej z nazwą klienta i firmą automatycznie z wiadomości e-mail.

  • Użyj informacji umożliwiających identyfikację osoby, aby wyredagować niektóre kategorie takich danych z dokumentów w celu ochrony prywatności. Jeśli na przykład rekordy kontaktów klientów są dostępne dla przedstawicieli pomocy technicznej pierwszej linii, firma może chcieć zredagować niepotrzebne dane osobowe klienta z historii klienta, aby zachować prywatność klienta.

  • Wykrywanie języka służy do wykrywania języków dla biznesowego przepływu pracy. Jeśli na przykład firma odbiera wiadomości e-mail w różnych językach od klientów, może użyć wykrywania języka w celu kierowania wiadomości e-mail według języka do natywnych osób mówiących w celu ułatwienia komunikacji z tymi klientami.

  • Użyj analizy sentymentu, aby monitorować pozytywne i negatywne trendy opinii w ujęciu zbiorczym. Po wprowadzeniu nowego produktu sprzedawca detaliczny może użyć usługi analizy sentymentu, aby monitorować wiele mediów społecznościowych pod kątem wzmianek o produkcie oraz ich sentymentu. Mogliby przejrzeć trendy dotyczące nastrojów na cotygodniowych spotkaniach produktowych.

  • Użyj podsumowania, aby wyodrębnić kluczowe informacje z publicznych artykułów z wiadomościami. Aby wygenerować szczegółowe informacje, takie jak trendy i przeglądy wiadomości.

  • Wyodrębnianie kluczowych fraz umożliwia wyświetlanie zagregowanych trendów w danych tekstowych. Na przykład chmura słów może być generowana przy użyciu kluczowych fraz, aby ułatwić wizualizowanie kluczowych pojęć w komentarzach tekstowych lub opiniach. Na przykład hotel może wygenerować chmurę słów na podstawie kluczowych fraz zidentyfikowanych w komentarzach i zobaczyć, że ludzie najczęściej komentują lokalizację, czystość i pomocny personel.

  • Użyj analiza tekstu for Health do uzyskiwania wglądów i wyodrębniania statystyk. Identyfikowanie jednostek medycznych, takich jak objawy, leki i diagnozy w uwagach klinicznych i różnych dokumentach klinicznych. Te informacje służą do tworzenia szczegółowych informacji i statystyk dotyczących populacji pacjentów, wyszukiwania dokumentów klinicznych, dokumentów badawczych i publikacji.

  • Użyj niestandardowej klasyfikacji tekstu na potrzeby automatycznego klasyfikowania wiadomości e-mail lub biletu. Centra pomocy wszystkich typów otrzymują dużą liczbę wiadomości e-mail lub zgłoszeń zawierających nieustrukturyzowany, swobodny tekst i załączniki. Terminowe przeglądanie, potwierdzanie i przekierowywanie do ekspertów merytorycznych w ramach zespołów wewnętrznych ma kluczowe znaczenie. Klasyfikacja wiadomości e-mail w tej skali wymaga, aby osoby przeglądały je i kierowały do właściwych działów, co zajmuje trochę czasu i zasobów. Niestandardowa klasyfikacja tekstu może służyć do analizowania tekstu przychodzącego oraz klasyfikowania i kategoryzowania zawartości, która ma być automatycznie kierowana do odpowiednich działów w celu wykonania dalszych działań.

  • Użyj rozumienia języka konwersacyjnego, aby stworzyć kompleksowe boty rozmówne. Użyj funkcji CLU, aby utworzyć i wytrenować niestandardowy model interpretacji języka naturalnego na podstawie określonej domeny i oczekiwanych wypowiedzi użytkowników. Zintegruj go z dowolnym końcowym botem konwersacyjnym, aby mógł przetwarzać i analizować przychodzący tekst w czasie rzeczywistym, aby zidentyfikować intencję tekstu i wyodrębnić z niego ważne informacje. Aby bot wykonał żądaną akcję na podstawie intencji i wyodrębnionych informacji. Przykładem może być dostosowany bot detaliczny do zakupów online lub zamawiania żywności.

  • Użyj odpowiedzi na pytania w celu uzyskania pomocy technicznej dla klientów. W większości scenariuszy obsługi klienta często zadawane są często zadawane pytania. Odpowiadanie na pytania umożliwia natychmiastowe utworzenie czatbota na podstawie istniejącej zawartości pomocy technicznej, a ten bot może działać jako system pierwszego kontaktu do obsługi pytań klientów. Jeśli nie można odpowiedzieć na pytania bota, dodatkowe składniki mogą pomóc zidentyfikować i oznaczyć pytanie dotyczące interwencji człowieka.

Ograniczenia

Jakość tekstu przychodzącego do systemu będzie mieć wpływ na wyniki.

Funkcje językowe przetwarzają tylko tekst. Wierność i formatowanie tekstu przychodzącego wpłynie na wydajność systemu. Pamiętaj, aby wziąć pod uwagę następujące kwestie:

  • Jakość transkrypcji mowy może mieć wpływ na jakość wyników. Jeśli dane źródłowe są głosem, upewnij się, że używasz najwyższej jakości kombinacji automatycznej i ludzkiej transkrypcji, aby zapewnić najlepszą wydajność. Rozważ użycie niestandardowych modeli mowy w celu uzyskania lepszych wyników.

  • Brak standardowej interpunkcji lub wielkości liter może mieć wpływ na jakość wyników. Jeśli używasz systemu mowy, takiego jak Azure Speech w narzędziach Foundry Tools to Text, pamiętaj, aby wybrać opcję uwzględniającą interpunkcję.

  • Jakość optycznego rozpoznawania znaków (OCR) może mieć wpływ na jakość systemu. Jeśli dane źródłowe są obrazami i używasz technologii OCR do generowania tekstu, niepoprawnie wygenerowany tekst może mieć wpływ na wydajność systemu. Rozważ użycie niestandardowych modeli OCR, aby poprawić jakość wyników.

  • Jeśli dane zawierają częste błędy pisowni, rozważ użycie sprawdzania pisowni Bing, aby poprawić błędy pisowni.

  • Dane tabelaryczne mogą nie być prawidłowo identyfikowane w zależności od sposobu wysyłania tekstu tabeli do systemu. Ocena sposobu wysyłania tekstu z tabel w dokumentach źródłowych do usługi. W przypadku tabel w dokumentach rozważ użycie usługi Azure Document Intelligence w narzędziach Foundry Tools lub podobnej usługi. Pozwoli to uzyskać odpowiednie klucze i wartości do wysłania do języka z kluczami kontekstowymi, które są wystarczająco blisko wartości systemu, aby prawidłowo rozpoznać jednostki.

  • Microsoft wytrenował modele cech języka (z wyjątkiem wykrywania języka) przy użyciu danych tekstowych języka naturalnego, które składają się głównie z w pełni sformułowanych zdań i akapitów. W związku z tym użycie tej usługi dla danych, które najbardziej przypominają ten typ tekstu, zapewni najlepszą wydajność. Zalecamy unikanie korzystania z tej usługi w celu oceny niekompletnych zdań i fraz tam, gdzie to możliwe, ponieważ wydajność może zostać zmniejszona.

  • Usługa obsługuje tylko tekst w jednym języku. Jeśli tekst zawiera wiele języków, na przykład "kanapka była bueno", dane wyjściowe mogą nie być dokładne.

  • Kod języka musi być zgodny z językiem wejściowym tekstu, aby uzyskać dokładne wyniki. Jeśli nie masz pewności co do języka wejściowego, możesz użyć funkcji wykrywania języka.

Najlepsze rozwiązania dotyczące poprawy wydajności systemu

Niektóre funkcje języka, które zwracają współczynniki ufności, można ocenić, używając podejścia opisanego w poniższych sekcjach. Inne funkcje, które nie zwracają wskaźnika ufności (np. wyodrębnianie słów kluczowych i podsumowywanie), należy ocenić przy użyciu różnych metod.

Zrozumienie współczynników pewności dla analizy tonacji, rozpoznawania jednostek nazwanych, wykrywania języka i funkcji zdrowotnych

Funkcje analizy emocji, rozpoznawania nazwanych encji, wykrywania języka oraz dotyczące zdrowia wszystkie zwracają wskaźnik ufności w ramach odpowiedzi systemu. To wskaźnik pewności usługi co do odpowiedzi systemu. Wyższa wartość wskazuje, że usługa jest bardziej pewna, że wynik jest dokładny. Na przykład system rozpoznaje jednostkę kategorii "Numer prawa jazdy USA" w tekście 555 555 555, gdy podano tekst "Mój numer prawa jazdy w NY to 555 555 555" z wynikiem 0,75 i może rozpoznać kategorię "Numer prawa jazdy USA" w tekście 555 555 555 z wynikiem 0,65, jeśli podano tekst "Mój numer DL w NY to 555 555 555". Biorąc pod uwagę bardziej szczegółowy kontekst w pierwszym przykładzie, system jest bardziej pewny swojej odpowiedzi. W wielu przypadkach można użyć odpowiedzi systemowej bez sprawdzania wskaźnika ufności. W innych przypadkach można użyć odpowiedzi tylko wtedy, gdy jej współczynnik ufności przekracza określony próg wskaźnika ufności.

Omówienie i mierzenie wydajności

Wydajność funkcji językowych jest mierzona przez sprawdzenie, jak dobrze system rozpoznaje obsługiwane koncepcje NLP (przy podanej wartości progowej w porównaniu z oceniającym człowiekiem). Na przykład w przypadku wyodrębniania nazwanych jednostek (NER) można policzyć rzeczywistą liczbę wystąpień numerów telefonów w tekście według oceny człowieka, a następnie porównać dane wyjściowe systemu z przetwarzania tego samego tekstu. Porównanie osądu ludzkiego z uznanymi jednostkami systemu pozwala sklasyfikować zdarzenia na dwa rodzaje poprawnych zdarzeń (lub "prawda") i dwa rodzaje nieprawidłowych (lub "fałszywych") zdarzeń.

Wynik Odpowiedź prawidłowa/niepoprawna Definicji Przykład
Wynik prawdziwie dodatni Poprawne System zwraca ten sam wynik, który byłby oczekiwany od sędziego ludzkiego. System poprawnie rozpoznaje jednostkę PII kategorii Numer telefonu w tekście 1-234-567-8910 , jeśli podano tekst: "Możesz skontaktować się ze mną pod numerem 1-234-567-9810."
Prawdziwy negatyw Poprawne System nie zwraca wyniku, a to jest zgodne z oczekiwaniami od sędziego ludzkiego. System nie rozpoznaje żadnej jednostki PII w przypadku podanego tekstu: "Możesz skontaktować się ze mną pod moim numerem biura".
Wynik fałszywie dodatni Niepoprawne System zwraca wynik, którego sędzia ludzki by nie zwrócił. System niepoprawnie rozpoznaje jednostkę PII kategorii Numer telefonu dla numeru biura tekstowego, gdy zostanie podany tekst: "Możesz skontaktować się ze mną pod moim numerem biura".
Wynik fałszywie ujemny Niepoprawne System nie zwraca rezultatu, gdy ludzki sędzia by to zrobił. System niepoprawnie przegapi jednostkę numer telefonu PII w tekście 1-234-567-8910 , jeśli zostanie podany tekst: "Możesz skontaktować się ze mną pod moim numerem biura 1-234-567-9810."

Funkcje językowe nie zawsze będą poprawne. Prawdopodobnie wystąpią zarówno błędy fałszywie ujemne, jak i fałszywie dodatnie. Ważne jest, aby wziąć pod uwagę, jak każdy typ błędu wpłynie na system. Uważnie zastanów się nad scenariuszami, w których prawdziwe zdarzenia nie zostaną rozpoznane i gdzie zostaną rozpoznane nieprawidłowe zdarzenia oraz jakie mogą być skutki podrzędne w implementacji. Pamiętaj, aby utworzyć sposoby identyfikowania, raportowania i reagowania na każdy typ błędu. Zaplanuj okresowe przeglądanie wydajności wdrożonego systemu, aby upewnić się, że błędy są odpowiednio obsługiwane.

Jak ustawić progi wskaźnika ufności

Możesz zdecydować się na podejmowanie decyzji w systemie w oparciu o współczynnik ufności zwracany przez system. Możesz dostosować próg wskaźnika ufności używany przez system do spełnienia Twoich potrzeb. Jeśli ważniejsze jest zidentyfikowanie wszystkich potencjalnych wystąpień żądanych pojęć nlp, możesz użyć niższego progu. Oznacza to, że może wystąpić więcej wyników fałszywie dodatnich, ale mniej wyników fałszywie ujemnych. Jeśli dla systemu ważniejsze jest rozpoznawanie tylko rzeczywistych wystąpień wywoływanej funkcji, możesz użyć wyższego progu. Jeśli używasz wyższego progu, możesz uzyskać mniej wyników fałszywie dodatnich, ale więcej wyników fałszywie ujemnych. Różne scenariusze wymagają różnych podejść. Ponadto wartości progowe mogą nie mieć spójnego zachowania w poszczególnych funkcjach języka i kategorii jednostek. Na przykład nie należy zakładać, że użycie określonego progu dla kategorii Numer telefonu NER byłoby wystarczające dla innej kategorii NER lub że próg używany w usłudze NER działa podobnie w przypadku analizy sentymentu. W związku z tym ważne jest, aby przetestować system przy użyciu wszelkich progów, które rozważasz za pomocą rzeczywistych danych, aby określić skutki różnych wartości progowych systemu w kontekście, który będzie używany.

Sprawiedliwość

W Microsoft staramy się wspierać każdą osobę na świecie, aby osiągnąć więcej. Istotną częścią tego celu jest stworzenie technologii i produktów, które są sprawiedliwe i inkluzywne. Sprawiedliwość to wielowymiarowy, socjotechniczny temat i ma wpływ na wiele różnych aspektów naszego rozwoju produktu. Więcej informacji na temat podejścia Microsoft do sprawiedliwości here.

Jednym z wymiarów, które musimy wziąć pod uwagę, jest to, jak dobrze działa system dla różnych grup osób. Może to obejmować przyjrzenie się dokładności modelu, a także pomiar wydajności kompletnego systemu. Badania wykazały, że bez świadomego wysiłku skoncentrowanego na poprawie wydajności wszystkich grup, wydajność systemu sztucznej inteligencji często może się różnić pomiędzy różnymi grupami na podstawie czynników, takich jak rasa, pochodzenie etniczne, język, płeć i wiek.

Każda usługa i funkcja są inne, a nasze testy mogą nie być idealnie zgodne z kontekstem lub obejmować wszystkie scenariusze wymagane w twoim przypadku użycia. Zachęcamy deweloperów do dokładnej oceny współczynników błędów dla usługi przy użyciu rzeczywistych danych, które odzwierciedlają przypadek użycia, w tym testowanie z użytkownikami z różnych grup demograficznych.

W przypadku języka niektóre dialekty i odmiany językowe w obsługiwanych językach i tekście z niektórych grup demograficznych mogą jeszcze nie mieć wystarczającej reprezentacji w naszych bieżących zestawach danych szkoleniowych. Zachęcamy do zapoznania się z naszymi wytycznymi dotyczącymi odpowiedzialnego używania, a jeśli wystąpią różnice w wydajności, zachęcamy do informowania nas o tym.

Wydajność różni się w zależności od funkcji i języków

Dla każdej funkcji języka obsługiwane są różne języki. Może się okazać, że wydajność określonej funkcji nie jest zgodna z inną funkcją. Ponadto może się okazać, że w przypadku określonej funkcji wydajność nie jest spójna w różnych językach.

Następne kroki

Jeśli używasz dowolnej z poniższych funkcji, zapoznaj się z konkretnymi informacjami dotyczącymi tej funkcji.

Zobacz też

Pamiętaj również, aby przejrzeć następujące elementy: