OCR(광학 문자 인식) 인사이트 가져오기
OCR(광학 문자 인식)
OCR은 미디어 파일의 그림, 도로 표지판 및 제품과 같은 이미지에서 텍스트를 추출하여 인사이트를 만듭니다.
OCR은 여러 언어로 된 텍스트가 있는 이미지를 포함하여 50개 이상의 언어로 인쇄되고 필기된 텍스트에서 인사이트를 추출합니다. 자세한 내용은 OCR 지원되는 언어를 참조하세요.
OCR에 대한 자세한 내용은 OCR 기술을 참조하세요.
OCR 사용 사례
- 예를 들어 법 집행기관에서 표지판, 거리 이름 또는 자동차 번호판이 있는 이미지를 심층적으로 검색하는 미디어 영상입니다.
- 미디어 파일의 이미지에서 텍스트를 추출한 다음 접근성을 위해 레이블의 여러 언어(예: 미디어 또는 엔터테인먼트)로 변환합니다.
- 이미지에서 브랜드 이름을 검색하고 광고 및 브랜딩과 같은 번역 목적을 위해 태그를 지정합니다.
- 이미지에서 텍스트를 추출한 다음, 뉴스 대행사에서 콘텐츠를 생성하는 등의 접근성과 향후 사용을 위해 자동으로 태그가 지정되고 분류됩니다.
- 온라인 지침의 경고에서 텍스트를 추출한 다음 현지 표준(예: 장비 사용에 대한 전자 학습 지침)을 준수하도록 텍스트를 번역합니다.
웹 포털을 사용하여 인사이트 JSON 보기
비디오를 업로드하고 인덱싱한 후에는 웹 포털을 사용하여 JSON 형식으로 인사이트를 다운로드할 수 있습니다.
- 라이브러리 탭을 선택합니다.
- 작업할 미디어를 선택합니다.
- 다운로드 및 인사이트(JSON)를 선택합니다. JSON 파일이 새 브라우저 탭에서 열립니다.
- 예제 응답에 설명된 키 쌍을 찾습니다.
API 사용
예제 응답
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
Important
모든 VI 기능에 대한 투명도 참고 개요를 읽는 것이 중요합니다. 각 인사이트에는 자체의 투명성 메모도 있습니다.
OCR 노트
- Video Indexer의 OCR 제한은 인덱싱된 비디오당 50,000단어입니다. 제한에 도달하면 추가 OCR 결과가 생성되지 않습니다.
- 결과의 정확도를 신중하게 고려하고, 보다 정확한 검색을 촉진하고, 이미지의 품질을 확인합니다. 낮은 품질의 이미지는 검색된 인사이트에 영향을 줄 수 있습니다.
- 법 집행에 사용할 때 신중하게 고려하십시오. OCR은 텍스트의 일부를 잘못 읽거나 검색하지 못할 수 있습니다. 공정하고 고품질의 VI 결정을 보장하려면 OCR 기반 자동화를 사용자 감독과 결합합니다.
- 손으로 쓴 텍스트를 추출할 때는 인간과 머신 모두에서 읽기 어려운 서명의 OCR 결과를 사용하지 않도록 합니다. OCR을 사용하는 더 좋은 방법은 추가 분석을 위해 서명의 존재를 감지하는 데 사용하는 것입니다.
- 개인 또는 그룹에 심각한 부정적인 영향을 미칠 수 있는 결정에 OCR을 사용하지 마세요. 텍스트를 추출하는 기계 학습 모델은 감지되지 않거나 잘못된 텍스트를 출력할 수 있습니다. 잘못된 출력을 기반으로 한 결정은 피해야 하는 심각한 부정적인 영향을 미칠 수 있습니다. 당신은 항상 개인에 심각한 영향을 미칠 가능성이 있는 결정의 인간의 검토를 포함 해야 합니다.
OCR 구성 요소
OCR 프로시저 동안 미디어 파일의 텍스트 이미지는 다음과 같이 처리됩니다.
구성 요소 | 정의 |
---|---|
원본 파일 | 사용자는 인덱싱을 위해 원본 파일을 업로드합니다. |
읽기 모델 | 이미지는 미디어 파일 및 텍스트에서 검색된 다음 Azure AI 서비스에서 추출 및 분석합니다. |
읽기 결과 모델 가져오기 | 추출된 텍스트의 출력이 JSON 파일에 표시됩니다. |
신뢰도 값 | 각 단어의 예상 신뢰 수준은 0~1의 범위로 계산됩니다. 신뢰도 점수는 결과의 정확도에 대한 확실성을 나타냅니다. 예를 들어 82% 확실성은 0.82 점수로 표시됩니다. |