OCR(광학 문자 인식) 인사이트 가져오기

아티클
10/09/2024

OCR(광학 문자 인식)

OCR은 미디어 파일의 그림, 도로 표지판 및 제품과 같은 이미지에서 텍스트를 추출하여 인사이트를 만듭니다.

OCR은 여러 언어로 된 텍스트가 있는 이미지를 포함하여 50개 이상의 언어로 인쇄되고 필기된 텍스트에서 인사이트를 추출합니다. 자세한 내용은 OCR 지원되는 언어를 참조하세요.

OCR에 대한 자세한 내용은 OCR 기술을 참조하세요.

OCR 사용 사례

예를 들어 법 집행기관에서 표지판, 거리 이름 또는 자동차 번호판이 있는 이미지를 심층적으로 검색하는 미디어 영상입니다.
미디어 파일의 이미지에서 텍스트를 추출한 다음 접근성을 위해 레이블의 여러 언어(예: 미디어 또는 엔터테인먼트)로 변환합니다.
이미지에서 브랜드 이름을 검색하고 광고 및 브랜딩과 같은 번역 목적을 위해 태그를 지정합니다.
이미지에서 텍스트를 추출한 다음, 뉴스 대행사에서 콘텐츠를 생성하는 등의 접근성과 향후 사용을 위해 자동으로 태그가 지정되고 분류됩니다.
온라인 지침의 경고에서 텍스트를 추출한 다음 현지 표준(예: 장비 사용에 대한 전자 학습 지침)을 준수하도록 텍스트를 번역합니다.

웹 포털을 사용하여 인사이트 JSON 보기

비디오를 업로드하고 인덱싱한 후에는 웹 포털을 사용하여 JSON 형식으로 인사이트를 다운로드할 수 있습니다.

라이브러리 탭을 선택합니다.
작업할 미디어를 선택합니다.
다운로드 및 인사이트(JSON)를 선택합니다. JSON 파일이 새 브라우저 탭에서 열립니다.
예제 응답에 설명된 키 쌍을 찾습니다.

API 사용

비디오 인덱스 가져오기 요청을 사용합니다. 을 전달하는 &includeSummarizedInsights=false것이 좋습니다.
예제 응답에 설명된 키 쌍을 찾습니다.

예제 응답

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

Important

모든 VI 기능에 대한 투명도 참고 개요를 읽는 것이 중요합니다. 각 인사이트에는 자체의 투명성 메모도 있습니다.

OCR 노트

Video Indexer의 OCR 제한은 인덱싱된 비디오당 50,000단어입니다. 제한에 도달하면 추가 OCR 결과가 생성되지 않습니다.
결과의 정확도를 신중하게 고려하고, 보다 정확한 검색을 촉진하고, 이미지의 품질을 확인합니다. 낮은 품질의 이미지는 검색된 인사이트에 영향을 줄 수 있습니다.
법 집행에 사용할 때 신중하게 고려하십시오. OCR은 텍스트의 일부를 잘못 읽거나 검색하지 못할 수 있습니다. 공정하고 고품질의 VI 결정을 보장하려면 OCR 기반 자동화를 사용자 감독과 결합합니다.
손으로 쓴 텍스트를 추출할 때는 인간과 머신 모두에서 읽기 어려운 서명의 OCR 결과를 사용하지 않도록 합니다. OCR을 사용하는 더 좋은 방법은 추가 분석을 위해 서명의 존재를 감지하는 데 사용하는 것입니다.
개인 또는 그룹에 심각한 부정적인 영향을 미칠 수 있는 결정에 OCR을 사용하지 마세요. 텍스트를 추출하는 기계 학습 모델은 감지되지 않거나 잘못된 텍스트를 출력할 수 있습니다. 잘못된 출력을 기반으로 한 결정은 피해야 하는 심각한 부정적인 영향을 미칠 수 있습니다. 당신은 항상 개인에 심각한 영향을 미칠 가능성이 있는 결정의 인간의 검토를 포함 해야 합니다.

OCR 구성 요소

OCR 프로시저 동안 미디어 파일의 텍스트 이미지는 다음과 같이 처리됩니다.

구성 요소	정의
원본 파일	사용자는 인덱싱을 위해 원본 파일을 업로드합니다.
읽기 모델	이미지는 미디어 파일 및 텍스트에서 검색된 다음 Azure AI 서비스에서 추출 및 분석합니다.
읽기 결과 모델 가져오기	추출된 텍스트의 출력이 JSON 파일에 표시됩니다.
신뢰도 값	각 단어의 예상 신뢰 수준은 0~1의 범위로 계산됩니다. 신뢰도 점수는 결과의 정확도에 대한 확실성을 나타냅니다. 예를 들어 82% 확실성은 0.82 점수로 표시됩니다.

샘플 코드

VI에 대한 모든 샘플 보기

다음을 통해 공유