光学式文字認識 (OCR) の分析情報を取得する
光学式文字認識 (OCR)
OCR は、画像、道路標識、メディア ファイル内の製品などの画像からテキストを抽出して分析情報を作成します。
OCR は、複数の言語のテキストを含む画像から、50 を超える言語で印刷されたテキストと手書きのテキストから分析情報を抽出します。 詳細については、OCR でサポートされている言語に関するページを参照してください。
OCR の詳細については、 OCR テクノロジを参照してください。
OCR のユース ケース
- 法執行機関などで、道路標識、街路名、車のナンバー プレートを含む画像のメディア映像をディープ検索します。
- メディアやエンターテイメントなどで、メディア ファイル内の画像からテキストを抽出し、ラベル内の複数の言語に翻訳してアクセシビリティを高めます。
- 広告やブランド化などで、画像内のブランド名を検出し、翻訳目的でこれらにタグを付けます。
- たとえば、通信社でコンテンツを生成するために、画像内のテキストを抽出し、自動的にタグ付けおよび分類し、アクセシビリティを高め、将来使用します。
- 機器を使用するための E ラーニング手順で、オンライン手順で警告のテキストを抽出し、そのテキストを現地の標準に準拠するように翻訳します。
Web ポータルで分析情報 JSON を表示する
ビデオをアップロードしてインデックスを作成すると、Web ポータルを使用してダウンロードするための JSON 形式で分析情報を入手できます。
- Library タブを選択します。
- 操作するメディアを選択します。
- ダウンロードを選択し、Insights (JSON)を選択します。 JSON ファイルが新しいブラウザー タブで開きます。
- 応答例で説明されているキー ペアを探します。
API の使用
- Get Video Index 要求を使用します。
&includeSummarizedInsights=false
渡すことをお勧めします。 - 応答例で説明されているキー ペアを探します。
応答の例
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
重要
すべてのVI機能の トランスパレンシーノートの概要 を読む必要があります。 各分析情報には、独自の透明性に関するメモもあります。
OCR ノート
- Video Indexer には、インデックス付きビデオあたり 50,000 単語の OCR 制限があります。 制限に達すると、追加の OCR 結果は生成されません。
- 結果の精度を慎重に検討し、より正確な検出を促進し、画像の品質を確認し、低品質の画像が検出された分析情報に影響を与える可能性があります。
- 法執行機関に使用する場合は慎重に検討してください。 OCR では、テキストの一部が誤って読み取られているか、検出されない可能性があります。 公平で質の高いVI決定を確実にするために、OCRベースの自動化と人間の監視を組み合わせます。
- 手書きのテキストを抽出するときは、人間とマシンの両方で読みにくい署名の OCR 結果を使用しないでください。 OCR を使用するより良い方法は、より詳しい分析を目的として署名の存在を検出するために使用する方法です。
- 個人やグループに重大な悪影響を及ぼす可能性のある意思決定には OCR を使用しないでください。 テキストを抽出する機械学習モデルは、未検出または誤ったテキスト出力を生成する場合があります。 誤った出力に基づく決定は、避けなければならない重大な悪影響を及ぼす可能性があります。 個人に重大な影響を与える可能性のある意思決定の人間によるレビューを常に含める必要があります。
OCR コンポーネント
OCR プロシージャ中に、メディア ファイル内のテキスト画像は次のように処理されます。
コンポーネント | 定義 |
---|---|
ソース ファイル | ユーザーは、インデックス作成のためにソース ファイルをアップロードします。 |
読み取りモデル | 画像はメディア ファイルとテキストで検出され、Azure AI サービスによって抽出および分析されます。 |
読み取りの結果モデルを取得する | 抽出されたテキストの出力が JSON ファイルに表示されます。 |
信頼度値 | 各単語の推定信頼度レベルは、0 ~ 1 の範囲として計算されます。 信頼度スコアは、結果の精度の確実性を表しています。 たとえば、82% の確実性はスコア 0.82 として表されます。 |