光学式文字認識 (OCR) の分析情報を取得する

2025-06-05

OCR は、画像、道路標識、メディアファイル内の製品などの画像からテキストを抽出して分析情報を作成します。

OCR は、複数の言語のテキストを含む画像から、50 を超える言語で印刷されたテキストと手書きのテキストから分析情報を抽出します。詳細については、OCR でサポートされている言語に関するページを参照してください。

OCR の詳細については、 OCR テクノロジを参照してください。

OCR のユースケース

たとえば、法執行機関では、道標、通りの名前、車のナンバープレートを含む画像をメディア映像で深く検索します。
メディアやエンターテイメントなどで、メディアファイル内の画像からテキストを抽出し、ラベル内の複数の言語に翻訳してアクセシビリティを高めます。
広告やブランド化などで、画像内のブランド名を検出し、翻訳目的でこれらにタグを付けます。
たとえば、通信社でコンテンツを生成するために、画像内のテキストを抽出し、自動的にタグ付けおよび分類し、アクセシビリティを高め、将来使用します。
オンライン手順で警告のテキストを抽出してから、そのテキストを現地の標準に準拠するように翻訳します (機器を使用するための E ラーニング手順など)。

Web ポータルで分析情報 JSON を表示する

ビデオをアップロードしてインデックスを作成したら、Web ポータルから JSON 形式で分析情報をダウンロードします。

Library タブを選択します。
目的のメディアを選択します。
[ ダウンロード] を選択し、[ Insights (JSON)] を選択します。 JSON ファイルが新しいブラウザータブで開きます。
応答例で説明されているキーペアを見つけます。

API の使用

ビデオインデックスの取得要求を使用します。 &includeSummarizedInsights=falseを渡す。
応答例で説明されているキーペアを見つけます。

応答の例

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

重要

すべてのVI機能の透明度に関する注意事項の概要をお読みください。各分析情報には、独自の透明性に関するメモもあります。

OCR ノート

Video Indexer には、インデックス付きビデオあたり 50,000 単語の OCR 制限があります。制限に達すると、追加の OCR 結果は生成されません。
結果の精度を慎重に検討し、より正確な検出を促進し、画像の品質を確認し、低品質の画像が検出された分析情報に影響を与える可能性があります。
法執行機関に使用する場合は慎重に検討してください。 OCR では、テキストの一部が誤って読み取られているか、検出されない可能性があります。公平で質の高いVI決定を確実にするために、OCRベースの自動化と人間の監視を組み合わせます。
手書きのテキストを抽出するときは、人間とマシンの両方で読みにくい署名の OCR 結果を使用しないでください。 OCR を使用するより良い方法は、より詳しい分析を目的として署名の存在を検出するために使用する方法です。
個人やグループに重大な悪影響を及ぼす可能性のある意思決定には OCR を使用しないでください。テキストを抽出する機械学習モデルは、未検出または誤ったテキスト出力を生成する場合があります。誤った出力に基づく決定は、避けなければならない重大な悪影響を及ぼす可能性があります。個人に重大な影響を与える可能性のある意思決定の人間によるレビューを常に含める必要があります。

OCR コンポーネント

OCR プロシージャ中に、メディアファイル内のテキスト画像は次のように処理されます。

コンポーネント	定義
ソースファイル	ユーザーは、インデックス作成のためにソースファイルをアップロードします。
読み取りモデル	画像はメディアファイルとテキストで検出され、Azure AI サービスによって抽出および分析されます。
読み取り結果モデルを取得する	抽出されたテキストの出力が JSON ファイルに表示されます。
信頼度値	各単語の推定信頼度レベルは、0 ～ 1 の範囲として計算されます。信頼度スコアは、結果の精度の確実性を表しています。たとえば、82% の確実性はスコア 0.82 として表されます。

サンプルコード

VIのすべてのサンプルを見る

次の方法で共有

光学式文字認識 (OCR) の分析情報を取得する

OCR のユース ケース