Transkripsi media, terjemahan, dan identifikasi bahasa

Penting

Karena pengumuman penghentian Azure Media Services, Azure AI Video Indexer mengumumkan penyesuaian fitur Azure AI Video Indexer. Lihat Perubahan yang terkait dengan penghentian Azure Media Service (AMS) untuk memahami apa artinya ini untuk akun Azure AI Video Indexer Anda. Lihat panduan Mempersiapkan penghentian AMS: Pembaruan VI dan migrasi.

Transkripsi, terjemahan, dan identifikasi bahasa Azure AI Video Indexer secara otomatis mendeteksi, mentranskripsikan, dan menerjemahkan ucapan dalam file media ke dalam lebih dari 50 bahasa.

  • Azure AI Video Indexer memproses ucapan dalam file audio untuk mengekstrak transkripsi yang kemudian diterjemahkan ke dalam banyak bahasa. Saat memilih untuk diterjemahkan ke dalam bahasa tertentu, transkripsi dan wawasan seperti kata kunci, topik, label, atau OCR diterjemahkan ke dalam bahasa yang ditentukan. Transkripsi dapat digunakan apa adanya atau dikombinasikan dengan wawasan pembicara yang memetakan dan menetapkan transkrip ke dalam pembicara. Beberapa speaker dapat dideteksi dalam file audio. ID ditetapkan ke setiap pembicara dan ditampilkan di bawah ucapan yang ditranskripsikan.
  • Identifikasi bahasa Pengindeks Video (LID) Azure AI secara otomatis mengenali bahasa lisan dominan yang didukung dalam file video. Untuk informasi selengkapnya, lihat Menerapkan LID.
  • Identifikasi multi-bahasa (MLID) Azure AI Video Indexer secara otomatis mengenali bahasa lisan dalam segmen yang berbeda dalam file audio dan mengirim setiap segmen untuk ditranskripsikan dalam bahasa yang diidentifikasi. Pada akhir proses ini, semua transkripsi digabungkan ke dalam file yang sama. Untuk informasi selengkapnya, lihat Menerapkan MLID. Wawasan yang dihasilkan dihasilkan dalam daftar yang dikategorikan dalam file JSON yang mencakup ID, bahasa, teks yang ditranskripsikan, durasi, dan skor keyakinan.
  • Saat mengindeks file media dengan beberapa speaker, Azure AI Video Indexer melakukan diarisasi speaker yang mengidentifikasi setiap pembicara dalam video dan mengaitkan setiap baris yang ditranskripsikan ke speaker. Pembicara diberi identitas unik seperti Pembicara #1 dan Pembicara #2. Hal ini memungkinkan identifikasi pembicara selama percakapan dan dapat berguna dalam berbagai skenario seperti percakapan dokter-pasien, interaksi agen-pelanggan, dan proses pengadilan.

Prasyarat

Tinjau gambaran umum catatan transparansi

Prinsip umum

Artikel ini membahas transkripsi, terjemahan, dan identifikasi bahasa dan pertimbangan utama untuk memanfaatkan teknologi ini secara bertanggung jawab. Ada banyak hal yang perlu Anda pertimbangkan saat memutuskan cara menggunakan dan mengimplementasikan fitur yang didukung AI:

  • Apakah fitur ini akan berfungsi dengan baik dalam skenario saya? Sebelum menggunakan transkripsi, terjemahan, dan Identifikasi bahasa ke dalam skenario Anda, uji performanya menggunakan data kehidupan nyata dan pastikan itu dapat memberikan akurasi yang Anda butuhkan.
  • Apakah kita diperlengkapi untuk mengidentifikasi dan menanggapi kesalahan? Produk dan fitur yang didukung AI tidak akan 100% akurat, jadi pertimbangkan bagaimana Anda akan mengidentifikasi dan menanggapi kesalahan apa pun yang mungkin terjadi.

Lihat wawasan

Untuk melihat wawasan di situs web:

  1. Buka Wawasan dan gulir ke Transkripsi dan Terjemahan.

Untuk melihat wawasan bahasa di insights.json, lakukan hal berikut:

  1. Pilih Unduh -> Insight (JSON).

  2. Salin elemen yang diinginkan, di bawah insights, dan tempelkan ke penampil JSON online Anda.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },
    

Untuk mengunduh file JSON melalui API, gunakan portal pengembang Azure AI Video Indexer.

Komponen transkripsi, terjemahan, dan identifikasi bahasa

Selama prosedur transkripsi, terjemahan, dan identifikasi bahasa, ucapan dalam file media diproses, sebagai berikut:

Komponen Definisi
Bahasa Sumber Pengguna mengunggah file sumber untuk pengindeksan, dan:
- Menentukan bahasa sumber video.
- Memilih deteksi otomatis bahasa tunggal (LID) untuk mengidentifikasi bahasa file. Output disimpan secara terpisah.
- Memilih deteksi otomatis multi bahasa (MLID) untuk mengidentifikasi beberapa bahasa dalam file. Output dari setiap bahasa disimpan secara terpisah.
API Transkripsi File audio dikirim ke layanan Azure AI untuk mendapatkan output yang ditranskripsikan dan diterjemahkan. Jika bahasa telah ditentukan, bahasa tersebut diproses dengan sesuai. Jika tidak ada bahasa yang ditentukan, proses LID atau MLID dijalankan untuk mengidentifikasi bahasa setelah file diproses.
Penyatuan output File yang ditranskripsikan dan diterjemahkan disatukan ke dalam file yang sama. Data yang dihasilkan mencakup ID pembicara dari setiap kalimat yang diekstrak bersama dengan tingkat keyakinannya.
Nilai keyakinan Estimasi tingkat keyakinan dari setiap kalimat dihitung sebagai rentang 0 hingga 1. Skor keyakinan mewakili kepastian dalam akurasi hasil. Misalnya, kepastian 82% direpresentasikan sebagai skor 0,82.

Contoh kasus penggunaan

  • Mempromosikan aksesibilitas dengan menyediakan konten bagi penyandang disabilitas pendengaran menggunakan Pengindeks Video Azure AI untuk menghasilkan transkripsi dan terjemahan ucapan ke teks ke dalam beberapa bahasa.
  • Meningkatkan distribusi konten ke beragam audiens di berbagai wilayah dan bahasa dengan mengirimkan konten dalam beberapa bahasa menggunakan kemampuan transkripsi dan terjemahan Azure AI Video Indexer.
  • Meningkatkan dan meningkatkan pembuatan keterangan dan subtitel tertutup manual dengan memanfaatkan kemampuan transkripsi dan terjemahan Azure AI Video Indexer dan dengan menggunakan keterangan tertutup yang dihasilkan oleh Azure AI Video Indexer dalam salah satu format yang didukung.
  • Menggunakan identifikasi bahasa (LID) atau identifikasi multi bahasa (MLID) untuk mentranskripsikan video dalam bahasa yang tidak dikenal untuk memungkinkan Pengindeks Video Azure AI mengidentifikasi bahasa yang muncul dalam video secara otomatis dan menghasilkan transkripsi yang sesuai.

Pertimbangan dan batasan saat memilih kasus penggunaan

Saat digunakan dengan bertanggung jawab dan hati-hati, Azure AI Video Indexer adalah alat yang berharga untuk banyak industri. Untuk menghormati privasi dan keamanan orang lain, dan untuk mematuhi peraturan lokal dan global, kami merekomendasikan hal-hal berikut:

  • Pertimbangkan dengan cermat akurasi hasilnya, untuk mempromosikan data yang lebih akurat, periksa kualitas audio, audio berkualitas rendah dapat memengaruhi wawasan yang terdeteksi.
  • Selalu hormati hak privasi seseorang, dan hanya serap video untuk tujuan yang sah dan dapat dibenar.
  • Jangan sengaja mengungkapkan media yang tidak pantas yang menunjukkan anak-anak muda atau anggota keluarga selebriti atau konten lain yang mungkin merugikan atau menimbulkan ancaman bagi kebebasan pribadi individu.
  • Berkomitmen untuk menghormati dan mempromosikan hak asasi manusia dalam desain dan penyebaran media anda yang dianalisis.
  • Saat menggunakan materi pihak ketiga, ketahui hak cipta atau izin yang ada yang diperlukan sebelum mendistribusikan konten yang berasal darinya.
  • Selalu cari saran hukum saat menggunakan media dari sumber yang tidak diketahui.
  • Selalu dapatkan saran hukum dan profesional yang sesuai untuk memastikan bahwa video yang Anda unggah diamankan dan memiliki kontrol yang memadai untuk mempertahankan integritas konten Anda dan untuk mencegah akses yang tidak sah.
  • Berikan saluran umpan balik yang memungkinkan pengguna dan individu melaporkan masalah dengan layanan.
  • Waspadalah terhadap hukum atau peraturan yang berlaku yang ada di wilayah Anda mengenai pemrosesan, analisis, dan berbagi media yang berisi orang-orang.
  • Menjaga manusia dalam perulangan. Jangan gunakan solusi apa pun sebagai pengganti pengawasan dan pengambilan keputusan manusia.
  • Periksa sepenuhnya dan tinjau potensi model AI apa pun yang Anda gunakan untuk memahami kemampuan dan batasannya.
  • Video Indexer tidak melakukan pengenalan pembicara sehingga speaker tidak diberi pengidentifikasi di beberapa file. Anda tidak dapat mencari pembicara individual dalam beberapa file atau transkrip.
  • Pengidentifikasi pembicara ditetapkan secara acak dan hanya dapat digunakan untuk membedakan speaker yang berbeda dalam satu file.
  • Ucapan silang dan tumpang tindih: Ketika beberapa pembicara berbicara secara bersamaan atau mengganggu satu sama lain, menjadi tantangan bagi model untuk membedakan dan menetapkan teks yang benar secara akurat ke speaker yang sesuai.
  • Speaker tumpang tindih: Terkadang, speaker mungkin memiliki pola ucapan, aksen, atau menggunakan kosakata serupa, sehingga sulit bagi model untuk membedakannya.
  • Audio berisik: Kualitas audio yang buruk, kebisingan latar belakang, atau rekaman berkualitas rendah dapat menghambat kemampuan model untuk mengidentifikasi dan mentranskripsikan speaker dengan benar.
  • Ucapan Emosional: Variasi emosional dalam ucapan, seperti berteriak, menangis, atau kegembiraan ekstrem, dapat memengaruhi kemampuan model untuk mendiarize speaker secara akurat.
  • Pembicara menyamarkan atau meniru: Jika pembicara sengaja mencoba meniru atau menyamarkan suaranya, model mungkin salah mengidentifikasi pembicara.
  • Identifikasi pembicara ambigu: Beberapa segmen ucapan mungkin tidak memiliki karakteristik unik yang cukup bagi model untuk mengaitkan dengan percaya diri ke pembicara tertentu.

Untuk informasi selengkapnya, lihat: panduan dan batasan dalam deteksi bahasa dan transkripsi.