Co to jest niestandardowe rozpoznawanie nazwanych jednostek?
Niestandardowy moduł NER to jedna z niestandardowych funkcji oferowanych przez język azure AI. Jest to oparta na chmurze usługa interfejsu API, która stosuje analizę uczenia maszynowego, aby umożliwić tworzenie niestandardowych modeli dla niestandardowych zadań rozpoznawania nazwanych jednostek.
Niestandardowa jednostka NER umożliwia użytkownikom tworzenie niestandardowych modeli sztucznej inteligencji w celu wyodrębniania jednostek specyficznych dla domeny z tekstu bez struktury, takiego jak kontrakty lub dokumenty finansowe. Tworząc niestandardowy projekt NER, deweloperzy mogą iteracyjnie oznaczać dane, trenować, oceniać i poprawiać wydajność modelu przed udostępnieniem ich do użycia. Jakość oznaczonych danych znacznie wpływa na wydajność modelu. Aby uprościć tworzenie i dostosowywanie modelu, usługa oferuje niestandardowy portal internetowy, do którego można uzyskać dostęp za pośrednictwem programu Language Studio. Możesz łatwo rozpocząć pracę z usługą, wykonując kroki opisane w tym przewodniku Szybki start.
Ta dokumentacja zawiera następujące typy artykułów:
- Przewodniki Szybki start to instrukcje wprowadzające, które ułatwiają wysyłanie żądań do usługi.
- Pojęcia zawierają wyjaśnienia funkcji i funkcji usługi.
- Przewodniki z instrukcjami zawierają instrukcje dotyczące korzystania z usługi w bardziej szczegółowy lub dostosowany sposób.
Przykładowe scenariusze użycia
Niestandardowe rozpoznawanie nazwanych jednostek może być używane w wielu scenariuszach w różnych branżach:
Wyodrębnianie informacji
Wiele organizacji finansowych i prawnych codziennie wyodrębnia i normalizuje dane z tysięcy złożonych, nieustrukturyzowanych źródeł tekstowych. Takie źródła obejmują oświadczenia bankowe, umowy prawne lub formularze bankowe. Na przykład wyodrębnianie danych aplikacji hipotecznych ręcznie przez recenzentów może potrwać kilka dni. Automatyzacja tych kroków przez utworzenie niestandardowego modelu NER upraszcza proces i pozwala zaoszczędzić koszty, czas i nakład pracy.
Wyszukiwanie wiedzy w celu ulepszania/wzbogacania wyszukiwania semantycznego
Wyszukiwanie jest podstawą dowolnej aplikacji, która wyświetla zawartość tekstowa dla użytkowników. Typowe scenariusze obejmują wyszukiwanie katalogów lub dokumentów, wyszukiwanie produktów w sprzedaży detalicznej lub wyszukiwanie wiedzy na potrzeby nauki o danych. Wiele przedsiębiorstw w różnych branżach chce utworzyć bogate środowisko wyszukiwania w prywatnej, heterogenicznej zawartości, która obejmuje zarówno dokumenty ustrukturyzowane, jak i nieustrukturyzowane. W ramach potoku deweloperzy mogą używać niestandardowego modułu NER do wyodrębniania jednostek z tekstu, które są istotne dla ich branży. Te jednostki mogą służyć do wzbogacania indeksowania pliku w celu uzyskania bardziej dostosowanego środowiska wyszukiwania.
Inspekcja i zgodność
Zamiast ręcznie przeglądać znacznie długie pliki tekstowe w celu przeprowadzania inspekcji i stosowania zasad, działy IT w przedsiębiorstwach finansowych lub prawnych mogą używać niestandardowego modułu NER do tworzenia zautomatyzowanych rozwiązań. Te rozwiązania mogą być przydatne do wymuszania zasad zgodności i konfigurowania niezbędnych reguł biznesowych na podstawie potoków wyszukiwania wiedzy, które przetwarzają zawartość ustrukturyzowaną i nieustrukturyzowaną.
Cykl projektowania projektu
Używanie niestandardowego modułu NER zwykle obejmuje kilka różnych kroków.
Zdefiniuj schemat: Poznaj dane i zidentyfikuj jednostki , które chcesz wyodrębnić. Unikaj niejednoznaczności.
Etykietowanie danych: Etykietowanie danych jest kluczowym czynnikiem w określaniu wydajności modelu. Dokładnie, spójnie i całkowicie oznacz etykietę.
- Etykieta dokładnie: Oznacz każdą jednostkę w odpowiednim typie zawsze. Uwzględnij tylko wyodrębnione dane, unikaj niepotrzebnych danych w etykietach.
- Spójna etykieta: ta sama jednostka powinna mieć tę samą etykietę we wszystkich plikach.
- Etykieta całkowicie: Oznacz wszystkie wystąpienia jednostki we wszystkich plikach.
Trenowanie modelu: Model zaczyna uczyć się na podstawie danych oznaczonych etykietami.
Wyświetlanie wydajności modelu: po zakończeniu trenowania wyświetl szczegóły oceny modelu, jego wydajność i wskazówki dotyczące jego ulepszania.
Wdróż model: wdrażanie modelu udostępnia go do użycia za pośrednictwem interfejsu API analizowania.
Wyodrębnianie jednostek: użyj modeli niestandardowych na potrzeby zadań wyodrębniania jednostek.
Dokumentacja referencyjna i przykłady kodu
Korzystając z niestandardowego modułu NER, zapoznaj się z następującą dokumentacją referencyjną i przykładami dla języka azure AI:
Opcja/język programowania | Dokumentacja referencyjna | Przykłady |
---|---|---|
Interfejsy API REST (tworzenie) | Dokumentacja interfejsu API REST | |
Interfejsy API REST (środowisko uruchomieniowe) | Dokumentacja interfejsu API REST | |
C# (środowisko uruchomieniowe) | Dokumentacja języka C# | Przykłady języka C# |
Java (środowisko uruchomieniowe) | Dokumentacja języka Java | Przykłady języka Java |
JavaScript (środowisko uruchomieniowe) | Dokumentacja języka JavaScript | Przykłady języka JavaScript |
Python (środowisko uruchomieniowe) | Dokumentacja języka Python | Przykłady w języku Python |
Odpowiedzialne AI
System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które będą jej używać, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażana. Przeczytaj notatkę dotyczącą przezroczystości niestandardowej NER , aby dowiedzieć się więcej na temat odpowiedzialnego używania i wdrażania sztucznej inteligencji w systemach. Więcej informacji można również znaleźć w następujących artykułach:
- Uwaga dotycząca przezroczystości języka sztucznej inteligencji platformy Azure
- Integracja i odpowiedzialne użycie
- Dane, prywatność i bezpieczeństwo
Następne kroki
Skorzystaj z artykułu Szybki start, aby rozpocząć korzystanie z niestandardowego rozpoznawania nazwanych jednostek.
Podczas cyklu projektowania projektu zapoznaj się ze słownikiem , aby dowiedzieć się więcej o terminach używanych w całej dokumentacji tej funkcji.
Pamiętaj, aby wyświetlić limity usług dla informacji, takich jak dostępność regionalna.