Pengenalan Karakter Optik (OCR)

Penting

Karena pengumuman penghentian Azure Media Services, Azure AI Video Indexer mengumumkan penyesuaian fitur Azure AI Video Indexer. Lihat Perubahan yang terkait dengan penghentian Azure Media Service (AMS) untuk memahami apa artinya ini untuk akun Azure AI Video Indexer Anda. Lihat panduan Mempersiapkan penghentian AMS: Pembaruan VI dan migrasi.

Pengenalan karakter optik (OCR) adalah fitur Azure AI Video Indexer AI yang mengekstrak teks dari gambar seperti gambar, tanda jalan, dan produk dalam file media untuk membuat wawasan.

OCR saat ini mengekstrak wawasan dari teks cetak dan tulisan tangan dalam lebih dari 50 bahasa, termasuk dari gambar dengan teks dalam beberapa bahasa. Untuk informasi selengkapnya, lihat bahasa yang didukung OCR.

Prasyarat

Tinjau gambaran umum catatan transparansi

Prinsip umum

Artikel ini membahas pengenalan karakter optik (OCR) dan pertimbangan utama untuk memanfaatkan teknologi ini secara bertanggung jawab. Ada banyak hal yang perlu Anda pertimbangkan saat memutuskan cara menggunakan dan mengimplementasikan fitur yang didukung AI:

  • Apakah fitur ini akan berfungsi dengan baik dalam skenario saya? Sebelum menyebarkan OCR ke dalam skenario Anda, uji performanya menggunakan data kehidupan nyata dan pastikan OCR dapat memberikan akurasi yang Anda butuhkan.
  • Apakah kita diperlengkapi untuk mengidentifikasi dan menanggapi kesalahan? Produk dan fitur yang didukung AI tidak akan 100% akurat, jadi pertimbangkan bagaimana Anda akan mengidentifikasi dan menanggapi kesalahan apa pun yang mungkin terjadi.

Lihat wawasan

Saat bekerja di situs web, wawasan ditampilkan di tab Garis Waktu. Mereka juga dapat dihasilkan dalam daftar yang dikategorikan dalam file JSON yang menyertakan ID, teks yang ditranskripsikan, durasi, dan skor keyakinan.

Untuk melihat instans di situs web, lakukan hal berikut:

  1. Buka Lihat dan periksa OCR.
  2. Pilih Garis Waktu untuk menampilkan teks yang diekstrak.

Insight juga dapat dihasilkan dalam daftar yang dikategorikan dalam file JSON yang menyertakan ID, bahasa, teks bersama dengan skor keyakinan setiap instans.

Untuk melihat wawasan dalam file JSON, lakukan hal berikut:

  1. Pilih Unduh -> Insight (JSON).

  2. ocr Salin elemen , di bawah insights, dan tempelkan ke penampil JSON online Anda.

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        },
    

Untuk mengunduh file JSON melalui API, gunakan portal pengembang Azure AI Video Indexer.

Komponen OCR

Selama prosedur OCR, gambar teks dalam file media diproses, sebagai berikut:

Komponen Definisi
File Sumber Pengguna mengunggah file sumber untuk pengindeksan.
Model Baca Gambar terdeteksi dalam file media dan teks kemudian diekstrak dan dianalisis oleh layanan Azure AI.
Mendapatkan model hasil baca Output teks yang diekstrak ditampilkan dalam file JSON.
Nilai keyakinan Estimasi tingkat keyakinan setiap kata dihitung sebagai rentang 0 hingga 1. Skor keyakinan mewakili kepastian dalam akurasi hasil. Misalnya, kepastian 82% akan diwakili sebagai skor 0,82.

Untuk informasi selengkapnya, lihat teknologi OCR.

Contoh kasus penggunaan

  • Rekaman media pencarian mendalam untuk gambar dengan signpost, nama jalan atau plat mobil, misalnya, dalam penegakan hukum.
  • Mengekstrak teks dari gambar dalam file media lalu menerjemahkannya ke dalam beberapa bahasa dalam label untuk aksesibilitas, misalnya di media atau hiburan.
  • Mendeteksi nama merek dalam gambar dan menandainya untuk tujuan terjemahan, misalnya dalam iklan dan branding.
  • Mengekstrak teks dalam gambar yang kemudian secara otomatis ditandai dan dikategorikan untuk aksesibilitas dan penggunaan di masa mendatang, misalnya untuk menghasilkan konten di kantor berita.
  • Mengekstrak teks dalam peringatan dalam instruksi online lalu menerjemahkan teks untuk mematuhi standar lokal, misalnya, instruksi e-learning untuk menggunakan peralatan.

Pertimbangan dan batasan saat memilih kasus penggunaan

  • Video Indexer memiliki batas OCR 50.000 kata per video terindeks. Setelah batas tercapai, tidak ada hasil OCR tambahan yang dihasilkan.
  • Pertimbangkan dengan cermat akurasi hasilnya, untuk mempromosikan deteksi yang lebih akurat, periksa kualitas gambar, gambar berkualitas rendah dapat berdampak pada wawasan yang terdeteksi.
  • Pertimbangkan dengan cermat saat menggunakan untuk penegak hukum bahwa OCR berpotensi salah baca atau tidak mendeteksi bagian teks. Untuk memastikan keputusan yang adil dan berkualitas tinggi, gabungkan otomatisasi berbasis OCR dengan pengawasan manusia.
  • Saat mengekstrak teks tulisan tangan, hindari menggunakan hasil OCR tanda tangan yang sulit dibaca untuk manusia dan mesin. Cara yang lebih baik untuk menggunakan OCR adalah dengan menggunakannya untuk mendeteksi keberadaan tanda tangan untuk analisis lebih lanjut.
  • Jangan gunakan OCR untuk keputusan yang mungkin berdampak buruk serius. Model pembelajaran mesin yang mengekstrak teks dapat mengakibatkan output teks yang tidak terdeteksi atau salah. Keputusan berdasarkan output yang salah dapat berdampak buruk serius. Selain itu, disarankan untuk menyertakan tinjauan manusia terhadap keputusan yang memiliki potensi dampak serius pada individu.

Saat digunakan dengan bertanggung jawab dan hati-hati, Azure AI Video Indexer adalah alat yang berharga untuk banyak industri. Untuk menghormati privasi dan keamanan orang lain, dan untuk mematuhi peraturan lokal dan global, kami merekomendasikan hal-hal berikut:

  • Selalu hormati hak privasi seseorang, dan hanya serap video untuk tujuan yang sah dan dapat dibenar.  
  • Jangan sengaja mengungkapkan konten yang tidak pantas tentang anak-anak muda atau anggota keluarga selebriti atau konten lain yang mungkin merugikan atau menimbulkan ancaman bagi kebebasan pribadi individu.  
  • Berkomitmen untuk menghormati dan mempromosikan hak asasi manusia dalam desain dan penyebaran media anda yang dianalisis.  
  • Saat menggunakan materi pihak ketiga, ketahui hak cipta atau izin yang ada yang diperlukan sebelum mendistribusikan konten yang berasal darinya. 
  • Selalu cari saran hukum saat menggunakan konten dari sumber yang tidak diketahui. 
  • Selalu dapatkan saran hukum dan profesional yang sesuai untuk memastikan bahwa video yang Anda unggah diamankan dan memiliki kontrol yang memadai untuk mempertahankan integritas konten Anda dan untuk mencegah akses yang tidak sah.    
  • Berikan saluran umpan balik yang memungkinkan pengguna dan individu melaporkan masalah dengan layanan.  
  • Waspadalah terhadap hukum atau peraturan yang berlaku yang ada di wilayah Anda mengenai pemrosesan, analisis, dan berbagi media yang berisi orang-orang. 
  • Menjaga manusia dalam perulangan. Jangan gunakan solusi apa pun sebagai pengganti pengawasan dan pengambilan keputusan manusia.  
  • Periksa sepenuhnya dan tinjau potensi model AI apa pun yang Anda gunakan untuk memahami kemampuan dan batasannya. 

Pelajari selengkapnya tentang OCR