Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Funkcja OCR wyodrębnia tekst z obrazów, takich jak obrazy, znaki uliczne i produkty w plikach multimedialnych w celu utworzenia szczegółowych informacji.
Funkcja OCR wyodrębnia szczegółowe informacje z tekstu drukowanego i odręcznego w ponad 50 językach, w tym z obrazu z tekstem w wielu językach. Aby uzyskać więcej informacji, zobacz języki obsługiwane przez funkcję OCR.
Aby uzyskać więcej informacji na temat OCR, zobacz Technologia OCR.
Przypadki użycia OCR
- Głębokie wyszukiwanie materiałów multimedialnych pod kątem obrazów z znakami, nazwami ulic lub tablicami rejestracyjnymi samochodów, na przykład w organach ścigania.
- Wyodrębnianie tekstu z obrazów w plikach multimedialnych, a następnie tłumaczenie go na wiele języków w etykietach ułatwień dostępu, na przykład w mediach lub rozrywkach.
- Wykrywanie nazw marek na obrazach i tagowanie ich do celów tłumaczenia, na przykład w reklamie i znakowaniu.
- Wyodrębnianie tekstu na obrazach, które są następnie automatycznie oznaczane i kategoryzowane pod kątem ułatwień dostępu i przyszłego użycia, na przykład w celu wygenerowania zawartości w agencji informacyjnej.
- Wyodrębnianie tekstu w ostrzeżeniach w instrukcjach online, a następnie tłumaczenie tekstu w celu zachowania zgodności z lokalnymi standardami, na przykład instrukcje uczenia elektronicznego dotyczące używania sprzętu.
Wyświetl plik JSON z wglądem za pomocą portalu internetowego
Po przesłaniu i zaindeksowaniu wideo pobierz analizy w formacie JSON z portalu internetowego.
- Wybierz kartę Biblioteka .
- Wybierz żądane media.
- Wybierz pozycję Pobierz, a następnie wybierz pozycję Insights (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
- Znajdź parę kluczy opisaną w przykładowej odpowiedzi.
Używanie interfejsu API
- Użyj żądania Get Video Index . Przekaż
&includeSummarizedInsights=false
. - Znajdź pary kluczy opisane w przykładowej odpowiedzi.
Przykładowa odpowiedź
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
Ważne
Zapoznaj się z przeglądem noty o transparencji dla wszystkich funkcji VI. Każde spostrzeżenie ma również własną uwagę na temat przejrzystości.
Notatki OCR
- Usługa Video Indexer ma limit OCR 50 000 słów na indeksowane wideo. Po osiągnięciu limitu nie są generowane żadne dodatkowe wyniki OCR.
- Starannie zastanów się nad dokładnością wyników, aby podwyższyć poziom dokładności wykrywania, sprawdzić jakość obrazu, obrazy o niskiej jakości mogą mieć wpływ na wykryte szczegółowe informacje.
- Uważnie rozważ użycie w kontekście egzekwowania prawa. Funkcja OCR może błędnie odczytywać lub nie wykrywać części tekstu. Aby zapewnić uczciwe i wysokiej jakości oceny VI, połącz automatyzację opartą na OCR z nadzorem ludzkim.
- Podczas wyodrębniania tekstu odręcznego należy unikać używania wyników OCR podpisów, które są trudne do odczytania zarówno dla ludzi, jak i maszyn. Lepszym sposobem użycia OCR jest użycie go do wykrywania obecności podpisu w celu dalszej analizy.
- Nie używaj OCR do podejmowania decyzji, które mogą mieć poważny negatywny wpływ na osoby lub grupy. Modele uczenia maszynowego, które wyodrębniają tekst, mogą spowodować niewykryte lub nieprawidłowe dane wyjściowe tekstu. Decyzje oparte na nieprawidłowych danych wyjściowych mogą mieć poważne negatywne skutki, których należy unikać. Zawsze należy uwzględnić ludzki przegląd decyzji, które mogą mieć poważny wpływ na osoby.
Składniki OCR
Podczas procedury OCR obrazy tekstowe w pliku multimedialnym są przetwarzane w następujący sposób:
Składnik | Definicja |
---|---|
Plik źródłowy | Użytkownik przekazuje plik źródłowy do indeksowania. |
Odczyt modelu | Obrazy są wykrywane w pliku multimedialnym i tekście, a następnie wyodrębniane i analizowane przez usługi Azure AI. |
Pobierz model wyników czytania | Dane wyjściowe wyodrębnionego tekstu są wyświetlane w pliku JSON. |
Wartość ufności | Szacowany poziom ufności każdego słowa jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82. |