Jak przygotować dane i zdefiniować schemat dla niestandardowych analiza tekstu dla kondycji
Aby utworzyć niestandardowy model TA4H, potrzebne będą dane dotyczące jakości do trenowania. W tym artykule opisano sposób wybierania i przygotowywania danych oraz definiowania schematu. Definiowanie schematu jest pierwszym krokiem w cyklu projektowania projektu i wiąże się z definiowaniem typów jednostek lub kategorii potrzebnych do wyodrębnienia modelu z tekstu w czasie wykonywania.
Projekt schematu
Niestandardowe analiza tekstu kondycji umożliwiają rozszerzanie i dostosowywanie analiza tekstu dla mapy jednostek kondycji. Pierwszym krokiem procesu jest utworzenie schematu, który umożliwia zdefiniowanie nowych typów jednostek lub kategorii potrzebnych do wyodrębnienia modelu z tekstu oprócz analiza tekstu dla kondycji istniejących jednostek w czasie wykonywania.
Przejrzyj dokumenty w zestawie danych, aby zapoznać się z ich formatem i strukturą.
Zidentyfikuj jednostki, które mają zostać wyodrębnione z danych.
Jeśli na przykład wyodrębnisz jednostki z wiadomości e-mail pomocy technicznej, może być konieczne wyodrębnienie "Nazwa klienta", "Nazwa produktu", "Data żądania" i "Informacje kontaktowe".
Unikaj niejednoznaczności typów jednostek.
Niejednoznaczność występuje, gdy wybrane typy jednostek są podobne do siebie. Tym bardziej niejednoznaczne jest schemat, tym bardziej oznaczone dane będą potrzebne do rozróżnienia między różnymi typami jednostek.
Jeśli na przykład wyodrębnisz dane z umowy prawnej, aby wyodrębnić nazwę pierwszej strony i nazwę drugiej strony, musisz dodać więcej przykładów, aby przezwyciężyć niejednoznaczność, ponieważ nazwy obu stron wyglądają podobnie. Unikaj niejednoznaczności, ponieważ oszczędza czas, wysiłek i daje lepsze wyniki.
Unikaj złożonych jednostek. Złożone jednostki mogą być trudne do wybrania dokładnie z tekstu. Rozważ podzielenie ich na wiele jednostek.
Na przykład wyodrębnienie "Address" byłoby trudne, jeśli nie zostanie podzielone na mniejsze jednostki. Istnieje tak wiele odmian sposobu wyświetlania adresów, dlatego wiele oznaczonych etykietami jednostek nauczy model wyodrębniania adresu jako całości bez jego podziału. Jeśli jednak zastąpisz ciąg "Address" ciągiem "Street Name", "PO Box", "City", "State" i "Zip", model będzie wymagał mniejszej liczby etykiet na jednostkę.
Dodawanie jednostek
Aby dodać jednostki do projektu:
Przejdź do obszaru przestawnego Jednostki w górnej części strony.
analiza tekstu dla jednostek kondycji są automatycznie ładowane do projektu. Aby dodać dodatkowe kategorie jednostek, wybierz pozycję Dodaj z górnego menu. Przed ukończeniem tworzenia jednostki zostanie wyświetlony monit o wpisenie nazwy.
Po utworzeniu jednostki nastąpi przekierowanie do strony szczegółów jednostki, na której można zdefiniować ustawienia kompozycji dla tej jednostki.
Jednostki są definiowane przez składniki jednostki: poznane, list lub wstępnie utworzone. analiza tekstu dla jednostek kondycji są domyślnie wypełniane wstępnie utworzonym składnikiem i nie mogą mieć poznanych składników. Nowo zdefiniowane jednostki można wypełnić za pomocą poznanego składnika po dodaniu etykiet do nich w danych, ale nie można ich wypełnić wstępnie skompilowanym składnikiem.
Składnik listy można dodać do dowolnej jednostki.
Dodawanie składnika listy
Aby dodać składnik listy , wybierz pozycję Dodaj nową listę. Do każdej jednostki można dodać wiele list.
Aby utworzyć nową listę, w polu tekstowym Wprowadź wartość wprowadź wartość znormalizowaną, która zostanie zwrócona po wyodrębnieniu dowolnego z wartości synonimów.
W przypadku projektów wielojęzycznych z menu rozwijanego języka wybierz język listy synonimów i rozpocznij wpisywanie w synonimach i naciśnij Enter po każdym z nich. Zaleca się posiadanie list synonimów w wielu językach.
Definiowanie opcji jednostki
Przejdź do pozycji Opcje jednostki przestawnej na stronie szczegółów jednostki. Gdy dla jednostki zdefiniowano wiele składników, ich przewidywania mogą się nakładać. Gdy wystąpi nakładanie, ostateczne przewidywanie każdej jednostki jest określane na podstawie opcji jednostki wybranej w tym kroku. Wybierz ten, który chcesz zastosować do tej jednostki, a następnie wybierz przycisk Zapisz u góry.
Po utworzeniu jednostek możesz wrócić i edytować je. Możesz edytować składniki jednostki lub je usunąć , wybierając tę opcję z górnego menu.
Wybór danych
Jakość danych, z których trenujesz model, wpływa znacznie na wydajność modelu.
Użyj rzeczywistych danych, które odzwierciedlają przestrzeń problemową domeny, aby skutecznie wytrenować model. Możesz użyć danych syntetycznych, aby przyspieszyć początkowy proces trenowania modelu, ale prawdopodobnie różni się on od danych rzeczywistych i sprawi, że model będzie mniej skuteczny w przypadku użycia.
Zrównoważ dystrybucję danych tak bardzo, jak to możliwe, bez odbiegania od rozkładu w czasie rzeczywistym. Jeśli na przykład szkolisz model w celu wyodrębniania jednostek z dokumentów prawnych, które mogą znajdować się w wielu różnych formatach i językach, należy podać przykłady, które przedstawiają różnorodność, jak można oczekiwać w prawdziwym życiu.
Używaj różnorodnych danych, jeśli to możliwe, aby uniknąć nadmiernego dopasowania modelu. Mniejsza różnorodność danych treningowych może prowadzić do fałszywych korelacji uczenia modelu, które mogą nie istnieć w rzeczywistych danych.
Unikaj duplikowania dokumentów w danych. Zduplikowane dane mają negatywny wpływ na proces trenowania, metryki modelu i wydajność modelu.
Zastanów się, skąd pochodzą twoje dane. Jeśli zbierasz dane z jednej osoby, działu lub części scenariusza, prawdopodobnie brakuje różnorodności, która może być ważna dla modelu, aby dowiedzieć się więcej.
Uwaga
Jeśli dokumenty znajdują się w wielu językach, wybierz opcję Włącz wiele języków podczas tworzenia projektu i ustaw język na język większości dokumentów.
Przygotowywanie danych
W ramach wymagań wstępnych dotyczących tworzenia projektu dane szkoleniowe muszą zostać przekazane do kontenera obiektów blob na koncie magazynu. Dokumenty szkoleniowe można tworzyć i przekazywać bezpośrednio z platformy Azure lub za pomocą narzędzia Eksplorator usługi Azure Storage. Użycie narzędzia Eksplorator usługi Azure Storage umożliwia szybkie przekazywanie większej ilości danych.
- Tworzenie i przekazywanie dokumentów z platformy Azure
- Tworzenie i przekazywanie dokumentów przy użyciu Eksplorator usługi Azure Storage
Można używać .txt
tylko dokumentów. Jeśli dane są w innym formacie, możesz użyć polecenia analizy CLUtils, aby zmienić format dokumentu.
Możesz przekazać zestaw danych z adnotacjami lub przekazać nieoznaczone dane i oznaczyć je etykietą w narzędziu Language Studio.
Zestaw testów
Podczas definiowania zestawu testów należy uwzględnić przykładowe dokumenty, które nie są obecne w zestawie treningowym. Definiowanie zestawu testów jest ważnym krokiem do obliczenia wydajności modelu. Upewnij się również, że zestaw testów zawiera dokumenty reprezentujące wszystkie jednostki używane w projekcie.
Następne kroki
Jeśli jeszcze tego nie zrobiono, utwórz niestandardowe analiza tekstu dla projektu kondycji. Jeśli po raz pierwszy używasz niestandardowych analiza tekstu dla kondycji, rozważ skorzystanie z przewodnika Szybki start, aby utworzyć przykładowy projekt. Możesz również zapoznać się z artykułem z instrukcjami, aby uzyskać więcej informacji na temat tego, co należy utworzyć projekt.