Optyczne rozpoznawanie znaków (OCR)

Artykuł
03/25/2024

Ważne

Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.

Optyczne rozpoznawanie znaków (OCR) to funkcja sztucznej inteligencji usługi Azure AI Video Indexer, która wyodrębnia tekst z obrazów, takich jak obrazy, znaki uliczne i produkty w plikach multimedialnych w celu utworzenia szczegółowych informacji.

Funkcja OCR obecnie wyodrębnia szczegółowe informacje z tekstu drukowanego i odręcznego w ponad 50 językach, w tym z obrazu z tekstem w wielu językach. Aby uzyskać więcej informacji, zobacz języki obsługiwane przez funkcję OCR.

Wymagania wstępne

Przegląd noty przezroczystości

Zasady ogólne

W tym artykule omówiono optyczne rozpoznawanie znaków (OCR) i kluczowe zagadnienia dotyczące odpowiedzialnego korzystania z tej technologii. Istnieje wiele kwestii, które należy wziąć pod uwagę podczas podejmowania decyzji o sposobie używania i implementowania funkcji opartej na sztucznej inteligencji:

Czy ta funkcja będzie działać dobrze w moim scenariuszu? Przed wdrożeniem usługi OCR w scenariuszu przetestuj, jak działa przy użyciu danych rzeczywistych i upewnij się, że może ona zapewnić potrzebną dokładność.
Czy jesteśmy w stanie identyfikować błędy i reagować na nie? Produkty i funkcje oparte na sztucznej inteligencji nie będą dokładne w 100%, dlatego należy rozważyć sposób identyfikowania i reagowania na wszelkie błędy, które mogą wystąpić.

Wyświetlanie szczegółowych informacji

Podczas pracy w witrynie internetowej szczegółowe informacje są wyświetlane na karcie Oś czasu . Można je również wygenerować na liście podzielonej na kategorie w pliku JSON, który zawiera identyfikator, transkrybowany tekst, czas trwania i współczynnik ufności.

Aby wyświetlić wystąpienia w witrynie internetowej, wykonaj następujące czynności:

Przejdź do pozycji Wyświetl i zaznacz pole wyboru OCR.
Wybierz pozycję Oś czasu, aby wyświetlić wyodrębniony tekst.

Szczegółowe informacje można również wygenerować na liście podzielonej na kategorie w pliku JSON zawierającym identyfikator, język, tekst wraz z współczynnikiem ufności każdego wystąpienia.

Aby wyświetlić szczegółowe informacje w pliku JSON, wykonaj następujące czynności:

Wybierz pozycję Pobierz —> szczegółowe informacje (JSON).

Skopiuj element w ocr obszarze insightsi wklej go do przeglądarki JSON online.

"ocr": [
    {
      "id": 1,
      "text": "2017 Ruler",
      "confidence": 0.4365,
      "left": 901,
      "top": 3,
      "width": 80,
      "height": 23,
      "angle": 0,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:45.5",
          "adjustedEnd": "0:00:46",
          "start": "0:00:45.5",
          "end": "0:00:46"
        },
        {
          "adjustedStart": "0:00:55",
          "adjustedEnd": "0:00:55.5",
          "start": "0:00:55",
          "end": "0:00:55.5"
        }
      ]
    },
    {
      "id": 2,
      "text": "2017 Ruler postppu - PowerPoint",
      "confidence": 0.4712,
      "left": 899,
      "top": 4,
      "width": 262,
      "height": 48,
      "angle": 0,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:44.5",
          "adjustedEnd": "0:00:45",
          "start": "0:00:44.5",
          "end": "0:00:45"
        }
      ]
    },

Aby pobrać plik JSON za pośrednictwem interfejsu API, użyj portalu deweloperów usługi Azure AI Video Indexer.

Składniki OCR

Podczas procedury OCR obrazy tekstowe w pliku multimedialnym są przetwarzane w następujący sposób:

Składnik	Definicja
Plik źródłowy	Użytkownik przekazuje plik źródłowy do indeksowania.
Odczyt modelu	Obrazy są wykrywane w pliku multimedialnym, a tekst jest następnie wyodrębniany i analizowany przez usługi Azure AI.
Pobieranie modelu wyników odczytu	Dane wyjściowe wyodrębnionego tekstu są wyświetlane w pliku JSON.
Wartość ufności	Szacowany poziom ufności każdego słowa jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność będzie reprezentowana jako wynik 0,82.

Aby uzyskać więcej informacji, zobacz Technologia OCR.

Przykładowe przypadki użycia

Głębokie wyszukiwanie materiałów multimedialnych na potrzeby obrazów z znakami, nazwami ulic lub tablicami rejestracyjnymi samochodów, na przykład w organach ścigania.
Wyodrębnianie tekstu z obrazów w plikach multimedialnych, a następnie tłumaczenie go na wiele języków w etykietach ułatwień dostępu, na przykład w mediach lub rozrywkach.
Wykrywanie nazw marek na obrazach i tagowanie ich do celów tłumaczenia, na przykład w reklamie i znakowaniu.
Wyodrębnianie tekstu na obrazach, które są następnie automatycznie oznaczane i kategoryzowane pod kątem ułatwień dostępu i przyszłego użycia, na przykład w celu wygenerowania zawartości w agencji informacyjnej.
Wyodrębnianie tekstu w ostrzeżeniach w instrukcjach online, a następnie tłumaczenie tekstu w celu zachowania zgodności z lokalnymi standardami, na przykład instrukcje uczenia elektronicznego dotyczące używania sprzętu.

Zagadnienia i ograniczenia dotyczące wybierania przypadku użycia

Usługa Video Indexer ma limit OCR 50 000 słów na indeksowane wideo. Po osiągnięciu limitu nie są generowane żadne dodatkowe wyniki OCR.
Starannie zastanów się nad dokładnością wyników, aby podwyższyć poziom dokładności wykrywania, sprawdzić jakość obrazu, obrazy o niskiej jakości mogą mieć wpływ na wykryte szczegółowe informacje.
Należy uważnie rozważyć użycie w przypadku egzekwowania prawa, że usługa OCR może potencjalnie błędnie odczytywać lub nie wykrywać części tekstu. Aby zapewnić uczciwe i wysokiej jakości decyzje, połącz automatyzację opartą na protokole OCR z nadzorem człowieka.
Podczas wyodrębniania tekstu odręcznego należy unikać używania wyników OCR podpisów, które są trudne do odczytania zarówno dla ludzi, jak i maszyn. Lepszym sposobem użycia OCR jest użycie go do wykrywania obecności podpisu w celu dalszej analizy.
Nie używaj OCR do podejmowania decyzji, które mogą mieć poważne negatywne skutki. Modele uczenia maszynowego, które wyodrębniają tekst, mogą spowodować niewykryte lub nieprawidłowe dane wyjściowe tekstu. Decyzje oparte na nieprawidłowych danych wyjściowych mogą mieć poważny negatywny wpływ. Ponadto zaleca się uwzględnienie przeglądu przez człowieka decyzji, które mogą mieć poważny wpływ na osoby.

W przypadku odpowiedzialnego i dokładnego użycia usługa Azure AI Video Indexer jest cennym narzędziem dla wielu branż. Aby przestrzegać prywatności i bezpieczeństwa innych osób oraz przestrzegać lokalnych i globalnych przepisów, zalecamy:

Zawsze przestrzegaj prawa osoby fizycznej do prywatności i pozyskiwania tylko filmów wideo do celów legalnych i uzasadnionych.  
Nie ujawniaj celowo nieodpowiednich treści dotyczących małych dzieci lub członków rodziny celebrytów lub innych treści, które mogą być szkodliwe lub stanowią zagrożenie dla wolności osobistej osoby.  
Zaangażuj się w przestrzeganie i promowanie praw człowieka w projektowaniu i wdrażaniu analizowanych mediów.  
W przypadku korzystania z materiałów innych firm należy pamiętać o wszelkich istniejących prawach autorskich lub uprawnieniach wymaganych przed ich dystrybucją. 
Zawsze szukaj porad prawnych podczas korzystania z zawartości z nieznanych źródeł. 
Zawsze uzyskaj odpowiednie porady prawne i profesjonalne, aby upewnić się, że przekazane filmy wideo są zabezpieczone i mają odpowiednie mechanizmy kontroli w celu zachowania integralności zawartości oraz zapobiegania nieautoryzowanemu dostępowi.    
Podaj kanał opinii, który umożliwia użytkownikom i osobom zgłaszanie problemów z usługą.  
Należy pamiętać o wszelkich obowiązujących przepisach prawach lub przepisach dotyczących przetwarzania, analizowania i udostępniania multimediów zawierających osoby. 
Zachowaj człowieka w pętli. Nie należy używać żadnego rozwiązania jako zamiennika nadzoru ludzkiego i podejmowania decyzji.  
W pełni zbadaj i przejrzyj potencjał dowolnego modelu sztucznej inteligencji, którego używasz, aby zrozumieć jego możliwości i ograniczenia.

Udostępnij za pośrednictwem