Menganalisis file video dan audio dengan Azure Media Services

Logo Azure Media Services v3


Peringatan

Azure Media Services akan dihentikan pada 30 Juni 2024. Untuk informasi selengkapnya, lihat Panduan Penghentian AMS.

Penting

Seperti yang diuraikan oleh Standar AI Microsoft yang Bertanggung Jawab, Microsoft berkomitmen untuk kewajaran, privasi, keamanan, dan transparansi sehubungan dengan sistem AI. Untuk menyelaraskan dengan standar ini, Azure Media Services menghentikan prasetel Video Analyzer pada 14 September 2023. Saat ini, prasetel ini memungkinkan Anda untuk mengekstrak beberapa insight video dan audio dari file video. Pelanggan dapat mengganti alur kerja mereka saat ini menggunakan kumpulan fitur yang lebih canggih yang ditawarkan oleh Azure Video Indexer.

Media Services memungkinkan Anda mengekstrak insight dari file video dan audio Anda menggunakan preset penganalisis audio dan video. Artikel ini menjelaskan preset penganalisis yang digunakan untuk mengekstrak insight. Jika Anda menginginkan wawasan yang lebih rinci dari video Anda, gunakan layanan Azure Video Indexer. Untuk memahami kapan harus menggunakan prasetel penganalisis Video Indexer vs. Media Services, lihat dokumen perbandingan.

Ada dua mode untuk prasetel Penganalisis Audio, dasar dan standar. Lihat deskripsi perbedaan dalam tabel di bawah ini.

Untuk menganalisis konten Anda menggunakan prasetel Media Services v3, Anda membuat Transformasi dan mengirimkan Pekerjaan yang menggunakan salah satu prasetel ini: VideoAnalyzerPreset atau AudioAnalyzerPreset.

Catatan

AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.

Kepatuhan, Privasi, dan Keamanan

Anda harus mematuhi semua hukum yang berlaku dalam penggunaan Video Indexer, dan Anda tidak boleh menggunakan Video Indexer atau layanan Azure lainnya dengan cara yang melanggar hak orang lain atau mungkin berbahaya bagi orang lain. Sebelum mengunggah video apa pun, termasuk data biometrik apa pun, ke layanan Video Indexer untuk diproses dan disimpan, Anda harus memiliki semua hak yang benar, termasuk semua persetujuan yang sesuai, dari individu dalam video. Untuk mempelajari kepatuhan, privasi, dan keamanan di Video Indexer, lihat Ketentuan Azure Cognitive Services. Untuk kewajiban privasi dan penanganan data Anda oleh Microsoft, tinjau Pernyataan Privasi Microsoft, Ketentuan Layanan Online (OST) dan Adendum Pemrosesan Data (“DPA”). Informasi privasi lainnya, termasuk pada retensi data, penghapusan/penghancuran, tersedia di OST. Dengan menggunakan Video Indexer, Anda setuju untuk terikat oleh Ketentuan Cognitive Services, OST, DPA, dan Pernyataan Privasi.

Preset bawaan

Media Services saat ini mendukung prasetel penganalisis bawaan berikut:

Nama prasetel Skenario/Mode Detail
AudioAnalyzerPreset Menganalisis mode Standar audio Prasetel menerapkan serangkaian operasi analisis berbasis AI yang telah ditentukan sebelumnya, termasuk transkripsi ucapan. Saat ini, prasetel mendukung pemrosesan konten dengan track audio tunggal yang berisi ucapan dalam satu bahasa. Tentukan bahasa untuk payload audio dalam input menggunakan format BCP-47 dari 'wilayah tag bahasa'. Lihat daftar bahasa yang didukung dalam daftar berikut untuk kode bahasa yang tersedia. Deteksi bahasa otomatis memilih bahasa yang pertama kali terdeteksi dan dilanjutkan dengan bahasa yang dipilih untuk seluruh file jika belum diatur, atau diatur ke null. Fitur deteksi bahasa otomatis saat ini mendukung: Bahasa Inggris, Mandarin, Prancis, Jerman, Italia, Jepang, Spanyol, Rusia, dan Portugis Brasil. Fitur ini tidak mendukung peralihan dinamis antar-bahasa setelah bahasa pertama terdeteksi. Fitur deteksi bahasa otomatis berfungsi paling baik dengan rekaman audio dengan ucapan yang jelas. Jika deteksi bahasa otomatis gagal menemukan bahasa, transkripsinya kembali ke bahasa Inggris.
AudioAnalyzerPreset Menganalisis mode Dasar audio Mode prasetel ini melakukan transkripsi ucapan ke teks dan pembuatan file subtitel/keterangan VTT. Output mode ini mencakup file JSON Insights termasuk hanya kata kunci, transkripsi, dan informasi waktu. Deteksi bahasa otomatis dan diarisasi pembicara tidak disertakan dalam mode ini. Daftar bahasa yang didukung mirip dengan mode Standar di atas.
VideoAnalyzerPreset Menganalisis audio dan video Mengekstrak wawasan (metadata kaya) dari audio dan video, dan menghasilkan file format JSON. Anda dapat menentukan apakah Anda hanya ingin mengekstrak wawasan audio saat memproses file video.
FaceDetectorPreset Mendeteksi wajah yang ada dalam video Menjelaskan pengaturan yang akan digunakan saat menganalisis video untuk mendeteksi semua wajah yang ada.

Catatan

AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.

Bahasa yang didukung

  • Bahasa Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' dan 'ar-SY')
  • Bahasa Portugis Brasil ('pt-BR')
  • Bahasa Mandarin ('zh-CN')
  • Bahasa Denmark ('da-DK')
  • Bahasa Inggris ('en-US', 'en-GB' dan 'en-AU')
  • Bahasa Finlandia ('fi-FI')
  • Bahasa Prancis ('fr-FR' dan 'fr-CA')
  • Bahasa Jerman ('de-DE')
  • Bahasa Ibrani (he-IL)
  • Hindi ('hi-IN'), Korea ('ko-KR')
  • Italia ('it-IT')
  • Bahasa Jepang ('ja-JP')
  • Bahasa Norwegia ('nb-NO')
  • Bahasa Persia ('fa-IR')
  • Bahasa Portugis Portugal ('pt-PT')
  • Bahasa Rusia ('ru-RU')
  • Spanish ('es-ES' dan 'es-MX')
  • Bahasa Swedia ('sv-SE')
  • Bahasa Thailand ('th-TH')
  • Bahasa Turki ('tr-TR')

Catatan

AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.

Mode standar AudioAnalyzerPreset

Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dari file audio atau video.

Output mencakup file JSON (dengan semua wawasan) dan file VTT untuk transkrip audio. Prasetel ini menerima properti yang menentukan bahasa file input dalam bentuk string BCP47. Wawasan audio meliputi:

  • Transkripsi audio: Transkrip kata-kata yang diucapkan dengan tanda waktu. Beberapa bahasa didukung.
  • Kata kunci: Kata kunci yang diekstrak dari transkripsi audio.

Mode dasar AudioAnalyzerPreset

Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dari file audio atau video.

Output mencakup file JSON dan file VTT untuk transkrip audio. Prasetel ini menerima properti yang menentukan bahasa file input dalam bentuk string BCP47. Output meliputi:

  • Transkripsi audio: Transkrip kata-kata yang diucapkan dengan tanda waktu. Beberapa bahasa didukung, tetapi deteksi bahasa otomatis dan diarisasi pembicara tidak disertakan.
  • Kata kunci: Kata kunci yang diekstrak dari transkripsi audio.

VideoAnalyzerPreset

Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dan video dari file video. Output mencakup file JSON (dengan semua wawasan), file VTT untuk transkrip video, dan koleksi gambar mini. Prasetel ini juga menerima string BCP47 (mewakili bahasa video) sebagai properti. Insight video mencakup semua insight audio yang disebutkan di atas dan item tambahan berikut:

  • Pelacakan wajah: Waktu selama wajah muncul dalam video. Setiap wajah memiliki ID wajah dan koleksi gambar mini yang sesuai.
  • Teks visual: Teks yang terdeteksi melalui pengenalan karakter optik. Teks ditandai waktu dan juga digunakan untuk mengekstrak kata kunci (selain transkrip audio).
  • Keyframe: Koleksi keyframe yang diekstrak dari video.
  • Moderasi konten visual: Bagian video yang ditandai sebagai dewasa atau bersifat agak cabul.
  • Anotasi: Hasil dari menganotasi video berdasarkan model objek yang telah ditentukan sebelumnya

Elemen insights.json

Output mencakup file JSON (insights.json) dengan semua wawasan yang ditemukan dalam video atau audio. JSON mungkin berisi elemen-elemen berikut:

transkrip

Nama Deskripsi
id ID baris.
teks Transkrip itu sendiri.
bahasa Bahasa transkrip. Dimaksudkan untuk mendukung transkrip ketika setiap baris dapat memiliki bahasa komputer yang berbeda.
instans Daftar rentang waktu tempat baris ini muncul. Jika instans adalah transkrip, maka hanya akan memiliki satu instans.

Contoh:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

Nama Deskripsi
id ID baris OCR.
teks Teks OCR.
keyakinan Keyakinan pengenalan.
bahasa Bahasa komputer OCR
instans Daftar rentang waktu saat OCR ini muncul (OCR yang sama dapat muncul beberapa kali).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

wajah

Nama Deskripsi
id ID wajah.
nama Nama wajah. Dapat menjadi 'Unknown #0', selebriti yang diidentifikasi atau orang yang dilatih pelanggan.
keyakinan Keyakinan identifikasi wajah.
deskripsi Deskripsi selebritas.
thumbnailId ID gambar kecil wajah tersebut.
knownPersonId ID internal (jika itu orang yang dikenal).
referenceId ID Bing (jika itu adalah selebriti Bing).
referenceType Saat ini, hanya Bing.
judul Judul (jika selebriti—misalnya, "CEO Microsoft").
imageUrl URL gambar, jika selebriti.
instans Instans saat wajah muncul dalam rentang waktu tertentu. Setiap instans juga memiliki thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Adegan

Nama Deskripsi
id ID adegan.
keyFrames Daftar key frame dalam adegan (masing-masing memiliki ID dan daftar rentang waktu instans). Instans key frame memiliki bidang thumbnailId dengan ID gambar mini keyFrame.
instans Daftar rentang waktu adegan ini (adegan hanya memiliki 1 instans).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistik

Nama Deskripsi
CorrespondenceCount Jumlah korespondensi dalam video.
WordCount Jumlah kata per pembicara.
SpeakerNumberOfFragments Jumlah fragmen yang dimiliki pembicara dalam video.
SpeakerLongestMonolog Monolog terpanjang pembicara. Jika pembicara diam di tengah monolog, bagian itu akan disertakan. Adegan diam di awal dan akhir monolog dihapus.
SpeakerTalkToListenRatio Perhitungan berdasarkan pada waktu yang dihabiskan pada monolog pembicara (tanpa diselah jeda) dibagi dengan total waktu video. Waktu dibulatkan ke koma desimal ketiga.

label

Nama Deskripsi
id ID label.
nama Nama label (misalnya, 'Komputer', 'TV').
bahasa Bahasa komputer nama label (saat diterjemahkan). BCP-47
instans Daftar rentang waktu tempat label ini muncul (label bisa muncul beberapa kali). Setiap instans memiliki bidang keyakinan.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

kata kunci

Nama Deskripsi
id ID kata kunci.
teks Teks kata kunci.
keyakinan Keyakinan pengenalan kata kunci.
bahasa Bahasa komputer kata kunci (saat diterjemahkan).
instans Daftar rentang waktu saat kata kunci ini muncul (kata kunci bisa muncul beberapa kali).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration berisi rentang waktu yang ditemukan Video Indexer berpotensi memiliki konten dewasa. Jika visualContentModeration kosong, tidak ada konten dewasa yang diidentifikasi.

Video yang ditemukan terdiri atas konten dewasa atau agak cabul mungkin hanya tersedia untuk dilihat pribadi. Pengguna dapat mengirimkan permintaan untuk peninjauan manusia untuk konten tersebut, dalam hal ini atribut IsAdult akan berisi hasil tinjauan manusia.

Nama Deskripsi
id ID moderasi konten visual.
adultScore Skor dewasa (dari moderator konten).
racyScore Skor bersemangat (dari moderasi konten).
instans Daftar rentang waktu tempat moderasi konten visual ini muncul.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Mendapatkan bantuan dan dukungan

Anda dapat menghubungi Media Services dengan pertanyaan atau mengikuti pembaruan kami dengan salah satu metode berikut: