Co to jest niestandardowe rozpoznawanie nazwanych jednostek?

Niestandardowa usługa NER jest jedną z funkcji niestandardowych oferowanych przez język sztucznej inteligencji platformy Azure. Jest to oparta na chmurze usługa interfejsu API, która stosuje inteligencję uczenia maszynowego, aby umożliwić tworzenie niestandardowych modeli dla niestandardowych zadań rozpoznawania nazwanych jednostek.

Niestandardowa funkcja NER umożliwia użytkownikom tworzenie niestandardowych modeli sztucznej inteligencji w celu wyodrębniania jednostek specyficznych dla domeny z tekstu bez struktury, takich jak kontrakty lub dokumenty finansowe. Tworząc niestandardowy projekt NER, deweloperzy mogą iteracyjnie oznaczać dane, trenować, oceniać i poprawiać wydajność modelu przed udostępnieniem ich do użycia. Jakość oznaczonych danych znacznie wpływa na wydajność modelu. Aby uprościć tworzenie i dostosowywanie modelu, usługa oferuje niestandardowy portal internetowy, do którego można uzyskać dostęp za pośrednictwem programu Language Studio. Możesz łatwo rozpocząć pracę z usługą, wykonując kroki opisane w tym przewodniku Szybki start.

Ta dokumentacja zawiera następujące typy artykułów:

  • Przewodniki Szybki start zawierają instrukcje wprowadzające, które ułatwiają wysyłanie żądań do usługi.
  • Pojęcia zawierają wyjaśnienia dotyczące funkcjonalności i funkcji usługi.
  • Przewodniki z instrukcjami zawierają instrukcje dotyczące korzystania z usługi w bardziej szczegółowy lub dostosowany sposób.

Przykładowe scenariusze użycia

Niestandardowe rozpoznawanie nazwanych jednostek może być używane w wielu scenariuszach w różnych branżach:

Wyodrębnianie informacji

Wiele organizacji finansowych i prawnych codziennie wyodrębnia i normalizuje dane z tysięcy złożonych, nieustrukturyzowanych źródeł tekstowych. Takie źródła obejmują wyciągi bankowe, umowy prawne lub formularze bankowe. Na przykład wyodrębnianie danych aplikacji hipotecznych ręcznie przez recenzentów może potrwać kilka dni. Automatyzacja tych kroków przez utworzenie niestandardowego modelu NER upraszcza proces i pozwala zaoszczędzić koszty, czas i nakład pracy.

Wyszukiwanie jest podstawą każdej aplikacji, która wyświetla zawartość tekstowa użytkownikom. Typowe scenariusze obejmują wyszukiwanie katalogów lub dokumentów, wyszukiwanie produktów w sprzedaży detalicznej lub wyszukiwanie wiedzy na potrzeby nauki o danych. Wiele przedsiębiorstw w różnych branżach chce stworzyć bogate środowisko wyszukiwania w zakresie prywatnej, heterogenicznej zawartości, która obejmuje zarówno dokumenty ustrukturyzowane, jak i nieustrukturyzowane. W ramach potoku deweloperzy mogą używać niestandardowego modułu NER do wyodrębniania jednostek z tekstu, które są istotne dla ich branży. Te jednostki mogą służyć do wzbogacania indeksowania pliku w celu uzyskania bardziej dostosowanego środowiska wyszukiwania.

Inspekcja i zgodność

Zamiast ręcznego przeglądania znacznie długich plików tekstowych w celu przeprowadzania inspekcji i stosowania zasad, działy IT w przedsiębiorstwach finansowych lub prawnych mogą używać niestandardowego modułu NER do tworzenia zautomatyzowanych rozwiązań. Te rozwiązania mogą być przydatne do wymuszania zasad zgodności i konfigurowania niezbędnych reguł biznesowych na podstawie potoków wyszukiwania wiedzy, które przetwarzają zawartość ustrukturyzowaną i nieustrukturyzowaną.

Cykl projektowania projektu

Korzystanie z niestandardowego modułu NER zwykle obejmuje kilka różnych kroków.

Cykl życia programowania

  1. Zdefiniuj schemat: Poznaj dane i zidentyfikuj jednostki , które chcesz wyodrębnić. Unikaj niejednoznaczności.

  2. Oznaczanie etykietą danych: Dane etykietowania są kluczowym czynnikiem w określaniu wydajności modelu. Precyzyjnie, spójnie i całkowicie oznacz etykietę.

    1. Etykieta dokładnie: Etykietuj każdą jednostkę do odpowiedniego typu zawsze. Uwzględnij tylko wyodrębnione elementy, unikaj niepotrzebnych danych w etykietach.
    2. Spójna etykieta: ta sama jednostka powinna mieć tę samą etykietę we wszystkich plikach.
    3. Etykieta całkowicie: oznacz wszystkie wystąpienia jednostki we wszystkich plikach.
  3. Trenowanie modelu: Model zaczyna uczyć się na podstawie danych oznaczonych etykietami.

  4. Wyświetlanie wydajności modelu: po zakończeniu trenowania wyświetl szczegóły oceny modelu, jego wydajność i wskazówki dotyczące jego ulepszania.

  5. Wdrażanie modelu: wdrażanie modelu umożliwia jego użycie za pośrednictwem interfejsu API analizy.

  6. Wyodrębnianie jednostek: użyj modeli niestandardowych na potrzeby zadań wyodrębniania jednostek.

Dokumentacja referencyjna i przykłady kodu

Korzystając z niestandardowego modułu NER, zapoznaj się z następującą dokumentacją referencyjną i przykładami dla języka azure AI:

Opcja/język programowania Dokumentacja referencyjna Przykłady
Interfejsy API REST (tworzenie) Dokumentacja interfejsu API REST
Interfejsy API REST (środowisko uruchomieniowe) Dokumentacja interfejsu API REST
C# (środowisko uruchomieniowe) Dokumentacja języka C# Przykłady w języku C#
Java (środowisko uruchomieniowe) Dokumentacja języka Java Przykłady języka Java
JavaScript (środowisko uruchomieniowe) Dokumentacja języka JavaScript Przykłady skryptów w języku JavaScript
Python (środowisko uruchomieniowe) Dokumentacja języka Python Przykłady w języku Python

Odpowiedzialne rozwiązania z zakresu sztucznej inteligencji

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które z niej będą korzystać, osoby, których to dotyczy, oraz środowisko, w którym zostanie wdrożona. Przeczytaj notatkę dotyczącą przezroczystości niestandardowego modułu NER , aby dowiedzieć się więcej na temat odpowiedzialnego używania sztucznej inteligencji i wdrażania w systemach. Aby uzyskać więcej informacji, zobacz również następujące artykuły:

Następne kroki

  • Użyj artykułu Szybki start , aby rozpocząć korzystanie z niestandardowego rozpoznawania nazwanych jednostek.

  • Podczas cyklu projektowania projektu zapoznaj się ze słownikiem , aby dowiedzieć się więcej o terminach używanych w całej dokumentacji tej funkcji.

  • Pamiętaj, aby wyświetlić limity usługi dla informacji, takich jak dostępność regionalna.