Udostępnij za pośrednictwem


Tworzenie modeli niestandardowych

styl wyróżnienia

Ta zawartość dotyczy:Znacznik v4.0 (wersja zapoznawcza) | Poprzednie wersje: niebieski znacznik wyboru v3.1 (GA) v3.0 (GA) niebieski znacznik wyboru v2.1 (GA) niebieski znacznik wyboru

Ta zawartość dotyczy: wersja 3.1 (GA)Najnowsza wersja:Znacznik purpurowy znacznik wyboru v4.0 (wersja zapoznawcza) | | Poprzednie wersje: niebieski znacznik wyboru v3.0niebieski znacznik wyboru v2.1

Ta zawartość dotyczy: Znacznik wersja 3.0 (GA) | Najnowsze wersje: purpurowy znacznik wyboru wersja 4.0 (wersja zapoznawcza) purpurowy znacznik wyboru 3.1 | Poprzednia wersja: niebieski znacznik wyboru wersja 2.1

Ta zawartość dotyczy: Znacznik wersja 2.1 | Najnowsza wersja: niebieski znacznik wyboru wersja 4.0 (wersja zapoznawcza)

Ważne

Zachowanie tworzenia modelu zmienia się dla interfejsu API-version=2024-07-31-preview i nowszych, aby uzyskać więcej informacji, zobacz tworzenie modeli niestandardowych. Następujące zachowanie dotyczy tylko wersji 3.1 i poprzednich

Utworzony model jest tworzony przez pobranie kolekcji modeli niestandardowych i przypisanie ich do jednego identyfikatora modelu. Do jednego złożonego identyfikatora modelu można przypisać maksymalnie 200 wytrenowanych modeli niestandardowych. Gdy dokument jest przesyłany do złożonego modelu, usługa wykonuje krok klasyfikacji, aby zdecydować, który model niestandardowy dokładnie reprezentuje formularz przedstawiony do analizy. Modele złożone są przydatne podczas trenowania kilku modeli i grupowania ich w celu analizowania podobnych typów formularzy. Na przykład skomponowany model może obejmować niestandardowe modele przeszkolone do analizowania zamówień zakupu dostaw, sprzętu i mebli. Zamiast ręcznie próbować wybrać odpowiedni model, możesz użyć złożonego modelu do określenia odpowiedniego modelu niestandardowego dla każdej analizy i wyodrębniania.

Aby dowiedzieć się więcej, zobacz Tworzenie modeli niestandardowych.

Z tego artykułu dowiesz się, jak tworzyć i używać złożonych modeli niestandardowych do analizowania formularzy i dokumentów.

Wymagania wstępne

Do rozpoczęcia pracy potrzebne są następujące zasoby:

  • Subskrypcja platformy Azure. Możesz utworzyć bezpłatną subskrypcję platformy Azure.

  • Wystąpienie analizy dokumentów. Po utworzeniu subskrypcji platformy Azure utwórz zasób analizy dokumentów w witrynie Azure Portal, aby uzyskać klucz i punkt końcowy. Jeśli masz istniejący zasób analizy dokumentów, przejdź bezpośrednio do strony zasobu. Możesz użyć bezpłatnej warstwy cenowej (F0), aby wypróbować usługę, a następnie uaktualnić ją do warstwy płatnej dla środowiska produkcyjnego.

    1. Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu.

    2. Skopiuj wartości Klucze i punkt końcowy z witryny Azure Portal i wklej je w dogodnej lokalizacji, takiej jak Notatnik Firmy Microsoft. Aby połączyć aplikację z interfejsem API analizy dokumentów, potrzebne są wartości klucza i punktu końcowego.

Nadal zdjęcie przedstawiające sposób uzyskiwania dostępu do klucza zasobu i adresu URL punktu końcowego.

Napiwek

Aby uzyskać więcej informacji, zobacz tworzenie zasobu analizy dokumentów.

  • Konto usługi Azure Storage. Jeśli nie wiesz, jak utworzyć konto usługi Azure Storage, postępuj zgodnie z przewodnikiem Szybki start usługi Azure Storage w witrynie Azure Portal. Możesz użyć bezpłatnej warstwy cenowej (F0), aby wypróbować usługę, a następnie uaktualnić ją do warstwy płatnej dla środowiska produkcyjnego.

Tworzenie modeli niestandardowych

Najpierw potrzebny jest zestaw modeli niestandardowych do tworzenia. Możesz użyć programu Document Intelligence Studio, interfejsu API REST lub bibliotek klienckich. Kroki tego procesu są następujące:

Zestaw danych trenowania

Tworzenie modelu niestandardowego rozpoczyna się od ustanowienia zestawu danych szkoleniowych. Potrzebujesz co najmniej pięciu wypełnionych formularzy tego samego typu dla przykładowego zestawu danych. Mogą to być różne typy plików (jpg, png, pdf, tiff) i zawierają zarówno tekst, jak i pismo ręczne. Formularze muszą spełniać wymagania wejściowe dotyczące analizy dokumentów.

Napiwek

Postępuj zgodnie z poniższymi wskazówkami, aby zoptymalizować zestaw danych na potrzeby trenowania:

  • Jeśli to możliwe, użyj dokumentów tekstowych w formacie PDF zamiast dokumentów opartych na obrazach. Zeskanowane pliki PDF są obsługiwane jako obrazy.
  • W przypadku wypełnionych formularzy użyj przykładów z wypełnionymi wszystkimi polami.
  • Używaj formularzy z różnymi wartościami w każdym polu.
  • Jeśli obrazy formularzy są niższej jakości, użyj większego zestawu danych (zawierającego na przykład 10–15 obrazów).

Aby uzyskać wskazówki dotyczące zbierania dokumentów szkoleniowych, zobacz Tworzenie zestawu danych szkoleniowych.

Przekazywanie zestawu danych szkoleniowych

Po zebraniu zestawu dokumentów szkoleniowych należy przekazać dane szkoleniowe do kontenera usługi Azure Blob Storage.

Jeśli chcesz użyć ręcznie oznaczonych danymi, musisz przekazać pliki .labels.json i .ocr.json odpowiadające dokumentom szkoleniowym.

Trenowanie modelu niestandardowego

Podczas trenowania modelu z danymi oznaczonymi etykietami model używa uczenia nadzorowanego do wyodrębniania interesujących wartości przy użyciu podanych formularzy oznaczonych etykietami. Oznaczane danymi wyniki w modelach o lepszej wydajności i mogą tworzyć modele, które współpracują ze złożonymi formularzami lub formularzami zawierającymi wartości bez kluczy.

Analiza dokumentów używa wstępnie utworzonego interfejsu API modelu układu, aby poznać oczekiwane rozmiary i pozycje elementów tekstu i odręcznego tekstu oraz wyodrębniać tabele. Następnie używa etykiet określonych przez użytkownika do nauki skojarzeń klucz/wartość i tabel w dokumentach. Zalecamy użycie pięciu ręcznie oznaczonych formami tego samego typu (tej samej struktury), aby rozpocząć trenowanie nowego modelu. Następnie dodaj więcej oznaczonych etykietami danych, zgodnie z potrzebami, aby zwiększyć dokładność modelu. Analiza dokumentów umożliwia trenowanie modelu w celu wyodrębniania par klucz-wartość i tabel przy użyciu funkcji uczenia nadzorowanego.

Aby utworzyć modele niestandardowe, zacznij od skonfigurowania projektu:

  1. Na stronie głównej programu Studio wybierz pozycję Utwórz nowy na karcie Model niestandardowy.

  2. Użyj polecenia Create a project (Tworzenie projektu ), aby uruchomić kreatora konfiguracji nowego projektu.

  3. Wprowadź szczegóły projektu, wybierz subskrypcję i zasób platformy Azure oraz kontener usługi Azure Blob Storage zawierający dane.

  4. Przejrzyj, prześlij ustawienia i utwórz projekt.

Animacja przedstawiająca tworzenie projektu niestandardowego w programie Document Intelligence Studio.

Podczas tworzenia modeli niestandardowych może być konieczne wyodrębnienie kolekcji danych z dokumentów. Kolekcje mogą być wyświetlane w jednym z dwóch formatów. Używanie tabel jako wzorca wizualizacji:

  • Dynamiczna lub zmienna liczba wartości (wierszy) dla danego zestawu pól (kolumn)

  • Określona kolekcja wartości dla danego zestawu pól (kolumn i/lub wierszy)

Zobacz Document Intelligence Studio: etykietowanie jako tabele

Tworzenie skomponowanego modelu

Uwaga

create compose model operacja jest dostępna tylko dla modeli niestandardowych wytrenowanych za pomocą etykiet. Próba utworzenia nieoznakowanych modeli spowoduje wystąpienie błędu.

Za pomocą operacji tworzenia modelu tworzenia można przypisać do 100 wytrenowanych modeli niestandardowych do jednego identyfikatora modelu. Podczas analizowania dokumentów za pomocą złożonego modelu analiza dokumentów najpierw klasyfikuje przesłany formularz, a następnie wybiera najlepszy pasujący przypisany model i zwraca wyniki dla tego modelu. Ta operacja jest przydatna, gdy formularze przychodzące mogą należeć do jednego z kilku szablonów.

Po pomyślnym zakończeniu procesu trenowania można rozpocząć tworzenie skompilowanego modelu. Poniżej przedstawiono kroki tworzenia i używania złożonych modeli:

Zbieranie identyfikatorów modelu

Podczas trenowania modeli przy użyciu programu Document Intelligence Studio identyfikator modelu znajduje się w menu modeli w projekcie:

Zrzut ekranu przedstawiający okno konfiguracji modelu w programie Document Intelligence Studio.

Tworzenie modeli niestandardowych

  1. Wybierz projekt modeli niestandardowych.

  2. W projekcie wybierz Models element menu.

  3. Z wyświetlonej listy modeli wybierz modele, które chcesz utworzyć.

  4. Wybierz przycisk Redaguj w lewym górnym rogu.

  5. W oknie podręcznym nadaj nowo utworzonemu modelowi nazwę i wybierz pozycję Utwórz.

  6. Po zakończeniu operacji nowo utworzony model pojawi się na liście.

  7. Gdy model będzie gotowy, użyj polecenia Testuj, aby zweryfikować go w dokumentach testowych i obserwować wyniki.

Analizowanie dokumentów

Operacja analizy modelu niestandardowego wymaga podania modelID elementu w wywołaniu analizy dokumentów. Należy podać identyfikator skomponowanego modelu dla parametru modelID w aplikacjach.

Zrzut ekranu przedstawiający skomponowany identyfikator modelu w programie Document Intelligence Studio.

Zarządzanie modelami złożonymi

Modele niestandardowe można zarządzać w cyklach życia:

  • Przetestuj i zweryfikuj nowe dokumenty.
  • Pobierz model do użycia w aplikacjach.
  • Usuń model po zakończeniu jego cyklu życia.

Zrzut ekranu przedstawiający złożony model w narzędziu Document Intelligence Studio

Świetnie! Przedstawiono kroki tworzenia niestandardowych i złożonych modeli oraz używania ich w projektach i aplikacjach analizy dokumentów.

Następne kroki

Wypróbuj jeden z naszych przewodników Szybki start dotyczących analizy dokumentów:

C#

Analiza dokumentów używa zaawansowanej technologii uczenia maszynowego do wykrywania i wyodrębniania informacji z obrazów dokumentów oraz zwracania wyodrębnionych danych w danych wyjściowych ze strukturą JSON. Za pomocą analizy dokumentów można wytrenować autonomiczne modele niestandardowe lub połączyć modele niestandardowe w celu utworzenia złożonych modeli.

  • Modele niestandardowe. Modele niestandardowe analizy dokumentów umożliwiają analizowanie i wyodrębnianie danych z formularzy i dokumentów specyficznych dla Twojej firmy. Modele niestandardowe są trenowane dla unikatowych danych i przypadków użycia.

  • Skomponowane modele. Utworzony model jest tworzony przez pobranie kolekcji modeli niestandardowych i przypisanie ich do pojedynczego modelu obejmującego typy formularzy. Gdy dokument jest przesyłany do złożonego modelu, usługa wykonuje krok klasyfikacji, aby zdecydować, który model niestandardowy dokładnie reprezentuje formularz przedstawiony do analizy.

W tym artykule dowiesz się, jak utworzyć niestandardowe i złożone modele analizy dokumentów przy użyciu naszego narzędzia do etykietowania przykładowego analizy dokumentów, interfejsów API REST lub bibliotek klienckich.

Przykładowe narzędzie do etykietowania

Spróbuj wyodrębnić dane z formularzy niestandardowych przy użyciu naszego przykładowego narzędzia do etykietowania. Potrzebne są następujące zasoby:

  • Subskrypcja platformy Azure — możesz bezpłatnie utworzyć subskrypcję platformy Azure

  • Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (F0). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.

Zrzut ekranu przedstawiający klucze i lokalizację punktu końcowego w witrynie Azure Portal.

W interfejsie użytkownika analizy dokumentów:

  1. Wybierz pozycję Użyj niestandardowego, aby wytrenować model z etykietami i pobrać pary wartości klucza.

Zrzut ekranu przedstawiający narzędzie

  1. W następnym oknie wybierz pozycję Nowy projekt:

Zrzut ekranu przedstawiający narzędzie

Tworzenie modeli

Kroki tworzenia, trenowania i używania niestandardowych i złożonych modeli są następujące:

Zestaw danych trenowania

Tworzenie modelu niestandardowego rozpoczyna się od ustanowienia zestawu danych szkoleniowych. Potrzebujesz co najmniej pięciu wypełnionych formularzy tego samego typu dla przykładowego zestawu danych. Mogą to być różne typy plików (jpg, png, pdf, tiff) i zawierają zarówno tekst, jak i pismo ręczne. Formularze muszą spełniać wymagania wejściowe dotyczące analizy dokumentów.

Przekazywanie zestawu danych szkoleniowych

Musisz przekazać dane szkoleniowe do kontenera usługi Azure Blob Storage. Jeśli nie wiesz, jak utworzyć konto usługi Azure Storage za pomocą kontenera, zobacz Przewodnik Szybki start dotyczący usługi Azure Storage dla witryny Azure Portal. Możesz użyć bezpłatnej warstwy cenowej (F0), aby wypróbować usługę, a następnie uaktualnić ją do warstwy płatnej dla środowiska produkcyjnego.

Trenowanie modelu niestandardowego

Wytrenujesz model za pomocą oznaczonych zestawów danych. Zestawy danych z etykietami opierają się na wstępnie utworzonym interfejsie API układu, ale dodatkowe dane wejściowe człowieka są uwzględniane, takie jak określone etykiety i lokalizacje pól. Zacznij od co najmniej pięciu wypełnionych formularzy tego samego typu dla danych treningowych oznaczonych etykietami.

Podczas trenowania z danymi oznaczonymi etykietami model używa uczenia nadzorowanego do wyodrębniania interesujących wartości przy użyciu podanych formularzy oznaczonych etykietami. Oznaczane danymi wyniki w modelach o lepszej wydajności i mogą tworzyć modele, które współpracują ze złożonymi formularzami lub formularzami zawierającymi wartości bez kluczy.

Analiza dokumentów używa interfejsu API układu , aby dowiedzieć się, jak oczekiwane rozmiary i pozycje kształtów typów oraz ręcznie odręczne elementy tekstowe i wyodrębniać tabele. Następnie używa etykiet określonych przez użytkownika do nauki skojarzeń klucz/wartość i tabel w dokumentach. Zalecamy użycie pięciu ręcznie oznaczonych etykietami formularzy tego samego typu (tej samej struktury), aby rozpocząć trenowanie nowego modelu. Dodaj więcej oznaczonych etykietami danych w razie potrzeby, aby poprawić dokładność modelu. Analiza dokumentów umożliwia trenowanie modelu w celu wyodrębniania par klucz-wartość i tabel przy użyciu funkcji uczenia nadzorowanego.

Wprowadzenie do trenowania przy użyciu etykiet

[!Film https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]

Tworzenie skomponowanego modelu

Uwaga

Tworzenie modelu jest dostępne tylko dla modeli niestandardowych wytrenowanych za pomocą etykiet. Próba utworzenia nieoznakowanych modeli spowoduje wystąpienie błędu.

Za pomocą operacji redagowania modelu można przypisać do 200 wytrenowanych modeli niestandardowych do jednego identyfikatora modelu. Podczas wywoływania funkcji Analizuj przy użyciu złożonego identyfikatora modelu analiza dokumentów klasyfikuje najpierw przesłany formularz, wybiera najlepszy pasujący przypisany model, a następnie zwraca wyniki dla tego modelu. Ta operacja jest przydatna, gdy formularze przychodzące mogą należeć do jednego z kilku szablonów.

Korzystając z narzędzia do etykietowania przykładowego analizy dokumentów, interfejsu API REST lub bibliotek klienckich, wykonaj kroki konfigurowania skomponowanego modelu:

  1. Zbieranie identyfikatorów modeli niestandardowych
  2. Tworzenie modeli niestandardowych

Zbieranie identyfikatorów modeli niestandardowych

Po pomyślnym zakończeniu procesu trenowania model niestandardowy ma przypisany identyfikator modelu. Identyfikator modelu można pobrać w następujący sposób:

Podczas trenowania modeli przy użyciu narzędzia do etykietowania przykładowego analizy dokumentów identyfikator modelu znajduje się w oknie Trenowanie wyników:

Zrzut ekranu przedstawiający okno wyników trenowania.

Tworzenie modeli niestandardowych

Po zebraniu modeli niestandardowych odpowiadających jednemu typowi formularza można utworzyć je w jednym modelu.

Narzędzie Przykładowe etykietowanie umożliwia szybkie rozpoczęcie trenowania modeli i tworzenie ich w jednym identyfikatorze modelu.

Po zakończeniu trenowania utwórz modele w następujący sposób:

  1. W menu po lewej stronie wybierz ikonę Redagowanie modelu (strzałka scalania).

  2. W oknie głównym wybierz modele, które chcesz przypisać do jednego identyfikatora modelu. Modele z ikoną strzałek już składają się z modeli.

  3. Wybierz przycisk Redaguj w lewym górnym rogu.

  4. W oknie podręcznym nadaj nowo utworzonemu modelowi nazwę i wybierz pozycję Utwórz.

Po zakończeniu operacji nowo utworzony model pojawi się na liście.

Zrzut ekranu przedstawiający okno tworzenia modelu.

Analizowanie dokumentów przy użyciu modelu niestandardowego lub złożonego

Niestandardowa operacja analizowania formularza wymaga podania modelID elementu w wywołaniu analizy dokumentów. Można podać pojedynczy identyfikator modelu niestandardowego lub identyfikator złożonego modelu dla parametru modelID .

  1. W menu okienka po lewej stronie narzędzia wybierz ikonę Analyze (żarówka).

  2. Wybierz lokalny plik lub adres URL obrazu do przeanalizowania.

  3. Wybierz przycisk Run Analysis (Uruchom analizę).

  4. Narzędzie stosuje tagi w polach ograniczenia i zgłasza procent ufności dla każdego tagu.

Zrzut ekranu przedstawiający okno analizy dokumentów analyze-a-custom-form.

Przetestuj nowo wytrenowane modele, analizując formularze , które nie były częścią zestawu danych trenowania. W zależności od zgłoszonej dokładności warto przeprowadzić dalsze szkolenia, aby ulepszyć model. Możesz kontynuować dalsze szkolenia, aby poprawić wyniki.

Zarządzanie modelami niestandardowymi

Modele niestandardowe można zarządzać w całym cyklu życia, wyświetlając listę wszystkich modeli niestandardowych w ramach subskrypcji, pobierając informacje o określonym modelu niestandardowym i usuwając modele niestandardowe z twojego konta.

Świetnie! Przedstawiono kroki tworzenia niestandardowych i złożonych modeli oraz używania ich w projektach i aplikacjach analizy dokumentów.

Następne kroki

Dowiedz się więcej o bibliotece klienta analizy dokumentów, eksplorując dokumentację referencyjną interfejsu API.