Tworzenie modeli niestandardowych
styl wyróżnieniaTa zawartość dotyczy: v4.0 (wersja zapoznawcza) | Poprzednie wersje: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Ta zawartość dotyczy: wersja 3.1 (GA)Najnowsza wersja: v4.0 (wersja zapoznawcza) | | Poprzednie wersje: v3.0 v2.1
Ta zawartość dotyczy: wersja 3.0 (GA) | Najnowsze wersje: wersja 4.0 (wersja zapoznawcza) 3.1 | Poprzednia wersja: wersja 2.1
Ta zawartość dotyczy: wersja 2.1 | Najnowsza wersja: wersja 4.0 (wersja zapoznawcza)
Ważne
Zachowanie tworzenia modelu zmienia się dla interfejsu API-version=2024-07-31-preview i nowszych, aby uzyskać więcej informacji, zobacz tworzenie modeli niestandardowych. Następujące zachowanie dotyczy tylko wersji 3.1 i poprzednich
Utworzony model jest tworzony przez pobranie kolekcji modeli niestandardowych i przypisanie ich do jednego identyfikatora modelu. Do jednego złożonego identyfikatora modelu można przypisać maksymalnie 200 wytrenowanych modeli niestandardowych. Gdy dokument jest przesyłany do złożonego modelu, usługa wykonuje krok klasyfikacji, aby zdecydować, który model niestandardowy dokładnie reprezentuje formularz przedstawiony do analizy. Modele złożone są przydatne podczas trenowania kilku modeli i grupowania ich w celu analizowania podobnych typów formularzy. Na przykład skomponowany model może obejmować niestandardowe modele przeszkolone do analizowania zamówień zakupu dostaw, sprzętu i mebli. Zamiast ręcznie próbować wybrać odpowiedni model, możesz użyć złożonego modelu do określenia odpowiedniego modelu niestandardowego dla każdej analizy i wyodrębniania.
Aby dowiedzieć się więcej, zobacz Tworzenie modeli niestandardowych.
Z tego artykułu dowiesz się, jak tworzyć i używać złożonych modeli niestandardowych do analizowania formularzy i dokumentów.
Wymagania wstępne
Do rozpoczęcia pracy potrzebne są następujące zasoby:
Subskrypcja platformy Azure. Możesz utworzyć bezpłatną subskrypcję platformy Azure.
Wystąpienie analizy dokumentów. Po utworzeniu subskrypcji platformy Azure utwórz zasób analizy dokumentów w witrynie Azure Portal, aby uzyskać klucz i punkt końcowy. Jeśli masz istniejący zasób analizy dokumentów, przejdź bezpośrednio do strony zasobu. Możesz użyć bezpłatnej warstwy cenowej (F0), aby wypróbować usługę, a następnie uaktualnić ją do warstwy płatnej dla środowiska produkcyjnego.
Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu.
Skopiuj wartości Klucze i punkt końcowy z witryny Azure Portal i wklej je w dogodnej lokalizacji, takiej jak Notatnik Firmy Microsoft. Aby połączyć aplikację z interfejsem API analizy dokumentów, potrzebne są wartości klucza i punktu końcowego.
Napiwek
Aby uzyskać więcej informacji, zobacz tworzenie zasobu analizy dokumentów.
- Konto usługi Azure Storage. Jeśli nie wiesz, jak utworzyć konto usługi Azure Storage, postępuj zgodnie z przewodnikiem Szybki start usługi Azure Storage w witrynie Azure Portal. Możesz użyć bezpłatnej warstwy cenowej (F0), aby wypróbować usługę, a następnie uaktualnić ją do warstwy płatnej dla środowiska produkcyjnego.
Tworzenie modeli niestandardowych
Najpierw potrzebny jest zestaw modeli niestandardowych do tworzenia. Możesz użyć programu Document Intelligence Studio, interfejsu API REST lub bibliotek klienckich. Kroki tego procesu są następujące:
- Zestaw danych trenowania
- Przekazywanie zestawu szkoleniowego do usługi Azure Blob Storage
- Trenowanie modeli niestandardowych
Zestaw danych trenowania
Tworzenie modelu niestandardowego rozpoczyna się od ustanowienia zestawu danych szkoleniowych. Potrzebujesz co najmniej pięciu wypełnionych formularzy tego samego typu dla przykładowego zestawu danych. Mogą to być różne typy plików (jpg, png, pdf, tiff) i zawierają zarówno tekst, jak i pismo ręczne. Formularze muszą spełniać wymagania wejściowe dotyczące analizy dokumentów.
Napiwek
Postępuj zgodnie z poniższymi wskazówkami, aby zoptymalizować zestaw danych na potrzeby trenowania:
- Jeśli to możliwe, użyj dokumentów tekstowych w formacie PDF zamiast dokumentów opartych na obrazach. Zeskanowane pliki PDF są obsługiwane jako obrazy.
- W przypadku wypełnionych formularzy użyj przykładów z wypełnionymi wszystkimi polami.
- Używaj formularzy z różnymi wartościami w każdym polu.
- Jeśli obrazy formularzy są niższej jakości, użyj większego zestawu danych (zawierającego na przykład 10–15 obrazów).
Aby uzyskać wskazówki dotyczące zbierania dokumentów szkoleniowych, zobacz Tworzenie zestawu danych szkoleniowych.
Przekazywanie zestawu danych szkoleniowych
Po zebraniu zestawu dokumentów szkoleniowych należy przekazać dane szkoleniowe do kontenera usługi Azure Blob Storage.
Jeśli chcesz użyć ręcznie oznaczonych danymi, musisz przekazać pliki .labels.json i .ocr.json odpowiadające dokumentom szkoleniowym.
Trenowanie modelu niestandardowego
Podczas trenowania modelu z danymi oznaczonymi etykietami model używa uczenia nadzorowanego do wyodrębniania interesujących wartości przy użyciu podanych formularzy oznaczonych etykietami. Oznaczane danymi wyniki w modelach o lepszej wydajności i mogą tworzyć modele, które współpracują ze złożonymi formularzami lub formularzami zawierającymi wartości bez kluczy.
Analiza dokumentów używa wstępnie utworzonego interfejsu API modelu układu, aby poznać oczekiwane rozmiary i pozycje elementów tekstu i odręcznego tekstu oraz wyodrębniać tabele. Następnie używa etykiet określonych przez użytkownika do nauki skojarzeń klucz/wartość i tabel w dokumentach. Zalecamy użycie pięciu ręcznie oznaczonych formami tego samego typu (tej samej struktury), aby rozpocząć trenowanie nowego modelu. Następnie dodaj więcej oznaczonych etykietami danych, zgodnie z potrzebami, aby zwiększyć dokładność modelu. Analiza dokumentów umożliwia trenowanie modelu w celu wyodrębniania par klucz-wartość i tabel przy użyciu funkcji uczenia nadzorowanego.
Aby utworzyć modele niestandardowe, zacznij od skonfigurowania projektu:
Na stronie głównej programu Studio wybierz pozycję Utwórz nowy na karcie Model niestandardowy.
➕ Użyj polecenia Create a project (Tworzenie projektu ), aby uruchomić kreatora konfiguracji nowego projektu.
Wprowadź szczegóły projektu, wybierz subskrypcję i zasób platformy Azure oraz kontener usługi Azure Blob Storage zawierający dane.
Przejrzyj, prześlij ustawienia i utwórz projekt.
Podczas tworzenia modeli niestandardowych może być konieczne wyodrębnienie kolekcji danych z dokumentów. Kolekcje mogą być wyświetlane w jednym z dwóch formatów. Używanie tabel jako wzorca wizualizacji:
Dynamiczna lub zmienna liczba wartości (wierszy) dla danego zestawu pól (kolumn)
Określona kolekcja wartości dla danego zestawu pól (kolumn i/lub wierszy)
Zobacz Document Intelligence Studio: etykietowanie jako tabele
Tworzenie skomponowanego modelu
Uwaga
create compose model
operacja jest dostępna tylko dla modeli niestandardowych wytrenowanych za pomocą etykiet. Próba utworzenia nieoznakowanych modeli spowoduje wystąpienie błędu.
Za pomocą operacji tworzenia modelu tworzenia można przypisać do 100 wytrenowanych modeli niestandardowych do jednego identyfikatora modelu. Podczas analizowania dokumentów za pomocą złożonego modelu analiza dokumentów najpierw klasyfikuje przesłany formularz, a następnie wybiera najlepszy pasujący przypisany model i zwraca wyniki dla tego modelu. Ta operacja jest przydatna, gdy formularze przychodzące mogą należeć do jednego z kilku szablonów.
Po pomyślnym zakończeniu procesu trenowania można rozpocząć tworzenie skompilowanego modelu. Poniżej przedstawiono kroki tworzenia i używania złożonych modeli:
- Zbieranie identyfikatorów modeli niestandardowych
- Tworzenie modeli niestandardowych
- Analizowanie dokumentów
- Zarządzanie modelami złożonymi
Zbieranie identyfikatorów modelu
Podczas trenowania modeli przy użyciu programu Document Intelligence Studio identyfikator modelu znajduje się w menu modeli w projekcie:
Tworzenie modeli niestandardowych
Wybierz projekt modeli niestandardowych.
W projekcie wybierz
Models
element menu.Z wyświetlonej listy modeli wybierz modele, które chcesz utworzyć.
Wybierz przycisk Redaguj w lewym górnym rogu.
W oknie podręcznym nadaj nowo utworzonemu modelowi nazwę i wybierz pozycję Utwórz.
Po zakończeniu operacji nowo utworzony model pojawi się na liście.
Gdy model będzie gotowy, użyj polecenia Testuj, aby zweryfikować go w dokumentach testowych i obserwować wyniki.
Analizowanie dokumentów
Operacja analizy modelu niestandardowego wymaga podania modelID
elementu w wywołaniu analizy dokumentów. Należy podać identyfikator skomponowanego modelu dla parametru modelID
w aplikacjach.
Zarządzanie modelami złożonymi
Modele niestandardowe można zarządzać w cyklach życia:
- Przetestuj i zweryfikuj nowe dokumenty.
- Pobierz model do użycia w aplikacjach.
- Usuń model po zakończeniu jego cyklu życia.
Świetnie! Przedstawiono kroki tworzenia niestandardowych i złożonych modeli oraz używania ich w projektach i aplikacjach analizy dokumentów.
Następne kroki
Wypróbuj jeden z naszych przewodników Szybki start dotyczących analizy dokumentów:
Analiza dokumentów używa zaawansowanej technologii uczenia maszynowego do wykrywania i wyodrębniania informacji z obrazów dokumentów oraz zwracania wyodrębnionych danych w danych wyjściowych ze strukturą JSON. Za pomocą analizy dokumentów można wytrenować autonomiczne modele niestandardowe lub połączyć modele niestandardowe w celu utworzenia złożonych modeli.
Modele niestandardowe. Modele niestandardowe analizy dokumentów umożliwiają analizowanie i wyodrębnianie danych z formularzy i dokumentów specyficznych dla Twojej firmy. Modele niestandardowe są trenowane dla unikatowych danych i przypadków użycia.
Skomponowane modele. Utworzony model jest tworzony przez pobranie kolekcji modeli niestandardowych i przypisanie ich do pojedynczego modelu obejmującego typy formularzy. Gdy dokument jest przesyłany do złożonego modelu, usługa wykonuje krok klasyfikacji, aby zdecydować, który model niestandardowy dokładnie reprezentuje formularz przedstawiony do analizy.
W tym artykule dowiesz się, jak utworzyć niestandardowe i złożone modele analizy dokumentów przy użyciu naszego narzędzia do etykietowania przykładowego analizy dokumentów, interfejsów API REST lub bibliotek klienckich.
Przykładowe narzędzie do etykietowania
Spróbuj wyodrębnić dane z formularzy niestandardowych przy użyciu naszego przykładowego narzędzia do etykietowania. Potrzebne są następujące zasoby:
Subskrypcja platformy Azure — możesz bezpłatnie utworzyć subskrypcję platformy Azure
Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (
F0
). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.
W interfejsie użytkownika analizy dokumentów:
- Wybierz pozycję Użyj niestandardowego, aby wytrenować model z etykietami i pobrać pary wartości klucza.
- W następnym oknie wybierz pozycję Nowy projekt:
Tworzenie modeli
Kroki tworzenia, trenowania i używania niestandardowych i złożonych modeli są następujące:
- Zestaw danych trenowania
- Przekazywanie zestawu szkoleniowego do usługi Azure Blob Storage
- Trenowanie modelu niestandardowego
- Tworzenie modeli niestandardowych
- Analizowanie dokumentów
- Zarządzanie modelami niestandardowymi
Zestaw danych trenowania
Tworzenie modelu niestandardowego rozpoczyna się od ustanowienia zestawu danych szkoleniowych. Potrzebujesz co najmniej pięciu wypełnionych formularzy tego samego typu dla przykładowego zestawu danych. Mogą to być różne typy plików (jpg, png, pdf, tiff) i zawierają zarówno tekst, jak i pismo ręczne. Formularze muszą spełniać wymagania wejściowe dotyczące analizy dokumentów.
Przekazywanie zestawu danych szkoleniowych
Musisz przekazać dane szkoleniowe do kontenera usługi Azure Blob Storage. Jeśli nie wiesz, jak utworzyć konto usługi Azure Storage za pomocą kontenera, zobacz Przewodnik Szybki start dotyczący usługi Azure Storage dla witryny Azure Portal. Możesz użyć bezpłatnej warstwy cenowej (F0), aby wypróbować usługę, a następnie uaktualnić ją do warstwy płatnej dla środowiska produkcyjnego.
Trenowanie modelu niestandardowego
Wytrenujesz model za pomocą oznaczonych zestawów danych. Zestawy danych z etykietami opierają się na wstępnie utworzonym interfejsie API układu, ale dodatkowe dane wejściowe człowieka są uwzględniane, takie jak określone etykiety i lokalizacje pól. Zacznij od co najmniej pięciu wypełnionych formularzy tego samego typu dla danych treningowych oznaczonych etykietami.
Podczas trenowania z danymi oznaczonymi etykietami model używa uczenia nadzorowanego do wyodrębniania interesujących wartości przy użyciu podanych formularzy oznaczonych etykietami. Oznaczane danymi wyniki w modelach o lepszej wydajności i mogą tworzyć modele, które współpracują ze złożonymi formularzami lub formularzami zawierającymi wartości bez kluczy.
Analiza dokumentów używa interfejsu API układu , aby dowiedzieć się, jak oczekiwane rozmiary i pozycje kształtów typów oraz ręcznie odręczne elementy tekstowe i wyodrębniać tabele. Następnie używa etykiet określonych przez użytkownika do nauki skojarzeń klucz/wartość i tabel w dokumentach. Zalecamy użycie pięciu ręcznie oznaczonych etykietami formularzy tego samego typu (tej samej struktury), aby rozpocząć trenowanie nowego modelu. Dodaj więcej oznaczonych etykietami danych w razie potrzeby, aby poprawić dokładność modelu. Analiza dokumentów umożliwia trenowanie modelu w celu wyodrębniania par klucz-wartość i tabel przy użyciu funkcji uczenia nadzorowanego.
Wprowadzenie do trenowania przy użyciu etykiet
[!Film https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]
Tworzenie skomponowanego modelu
Uwaga
Tworzenie modelu jest dostępne tylko dla modeli niestandardowych wytrenowanych za pomocą etykiet. Próba utworzenia nieoznakowanych modeli spowoduje wystąpienie błędu.
Za pomocą operacji redagowania modelu można przypisać do 200 wytrenowanych modeli niestandardowych do jednego identyfikatora modelu. Podczas wywoływania funkcji Analizuj przy użyciu złożonego identyfikatora modelu analiza dokumentów klasyfikuje najpierw przesłany formularz, wybiera najlepszy pasujący przypisany model, a następnie zwraca wyniki dla tego modelu. Ta operacja jest przydatna, gdy formularze przychodzące mogą należeć do jednego z kilku szablonów.
Korzystając z narzędzia do etykietowania przykładowego analizy dokumentów, interfejsu API REST lub bibliotek klienckich, wykonaj kroki konfigurowania skomponowanego modelu:
Zbieranie identyfikatorów modeli niestandardowych
Po pomyślnym zakończeniu procesu trenowania model niestandardowy ma przypisany identyfikator modelu. Identyfikator modelu można pobrać w następujący sposób:
- Narzędzie do etykietowania przykładowego analizy dokumentów
- Interfejs API REST
- Zestawy SDK biblioteki klienckiej
Podczas trenowania modeli przy użyciu narzędzia do etykietowania przykładowego analizy dokumentów identyfikator modelu znajduje się w oknie Trenowanie wyników:
Tworzenie modeli niestandardowych
Po zebraniu modeli niestandardowych odpowiadających jednemu typowi formularza można utworzyć je w jednym modelu.
- Narzędzie do etykietowania przykładowego analizy dokumentów
- Interfejs API REST
- Zestawy SDK biblioteki klienckiej
Narzędzie Przykładowe etykietowanie umożliwia szybkie rozpoczęcie trenowania modeli i tworzenie ich w jednym identyfikatorze modelu.
Po zakończeniu trenowania utwórz modele w następujący sposób:
W menu po lewej stronie wybierz ikonę Redagowanie modelu (strzałka scalania).
W oknie głównym wybierz modele, które chcesz przypisać do jednego identyfikatora modelu. Modele z ikoną strzałek już składają się z modeli.
Wybierz przycisk Redaguj w lewym górnym rogu.
W oknie podręcznym nadaj nowo utworzonemu modelowi nazwę i wybierz pozycję Utwórz.
Po zakończeniu operacji nowo utworzony model pojawi się na liście.
Analizowanie dokumentów przy użyciu modelu niestandardowego lub złożonego
Niestandardowa operacja analizowania formularza wymaga podania modelID
elementu w wywołaniu analizy dokumentów. Można podać pojedynczy identyfikator modelu niestandardowego lub identyfikator złożonego modelu dla parametru modelID
.
- Narzędzie do etykietowania przykładowego analizy dokumentów
- Interfejs API REST
- Zestawy SDK biblioteki klienckiej
W menu okienka po lewej stronie narzędzia wybierz ikonę
Analyze
(żarówka).Wybierz lokalny plik lub adres URL obrazu do przeanalizowania.
Wybierz przycisk Run Analysis (Uruchom analizę).
Narzędzie stosuje tagi w polach ograniczenia i zgłasza procent ufności dla każdego tagu.
Przetestuj nowo wytrenowane modele, analizując formularze , które nie były częścią zestawu danych trenowania. W zależności od zgłoszonej dokładności warto przeprowadzić dalsze szkolenia, aby ulepszyć model. Możesz kontynuować dalsze szkolenia, aby poprawić wyniki.
Zarządzanie modelami niestandardowymi
Modele niestandardowe można zarządzać w całym cyklu życia, wyświetlając listę wszystkich modeli niestandardowych w ramach subskrypcji, pobierając informacje o określonym modelu niestandardowym i usuwając modele niestandardowe z twojego konta.
Świetnie! Przedstawiono kroki tworzenia niestandardowych i złożonych modeli oraz używania ich w projektach i aplikacjach analizy dokumentów.
Następne kroki
Dowiedz się więcej o bibliotece klienta analizy dokumentów, eksplorując dokumentację referencyjną interfejsu API.