Menganalisis file video dan audio dengan Azure Media Services
Situs web | AMS Sampel | Kode Panduan pemecahan masalah
Penting
Seperti yang diuraikan oleh Standar AI Microsoft yang Bertanggung Jawab, Microsoft berkomitmen untuk kewajaran, privasi, keamanan, dan transparansi sehubungan dengan sistem AI. Untuk menyelaraskan dengan standar ini, Azure Media Services menghentikan prasetel Video Analyzer pada 14 September 2023. Saat ini, prasetel ini memungkinkan Anda untuk mengekstrak beberapa insight video dan audio dari file video. Pelanggan dapat mengganti alur kerja mereka saat ini menggunakan kumpulan fitur yang lebih canggih yang ditawarkan oleh Azure Video Indexer.
Media Services memungkinkan Anda mengekstrak insight dari file video dan audio Anda menggunakan preset penganalisis audio dan video. Artikel ini menjelaskan preset penganalisis yang digunakan untuk mengekstrak insight. Jika Anda menginginkan wawasan yang lebih rinci dari video Anda, gunakan layanan Azure Video Indexer. Untuk memahami kapan harus menggunakan prasetel penganalisis Video Indexer vs. Media Services, lihat dokumen perbandingan.
Ada dua mode untuk prasetel Penganalisis Audio, dasar dan standar. Lihat deskripsi perbedaan dalam tabel di bawah ini.
Untuk menganalisis konten Anda menggunakan prasetel Media Services v3, Anda membuat Transformasi dan mengirimkan Pekerjaan yang menggunakan salah satu prasetel ini: VideoAnalyzerPreset atau AudioAnalyzerPreset.
Catatan
AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.
Kepatuhan, Privasi, dan Keamanan
Anda harus mematuhi semua hukum yang berlaku dalam penggunaan Pengindeks Video, dan Anda tidak boleh menggunakan Video Indexer atau layanan Azure lainnya dengan cara yang melanggar hak orang lain atau mungkin berbahaya bagi orang lain. Sebelum mengunggah video apa pun, termasuk data biometrik apa pun, ke layanan Video Indexer untuk diproses dan disimpan, Anda harus memiliki semua hak yang benar, termasuk semua persetujuan yang sesuai, dari individu dalam video. Untuk mempelajari kepatuhan, privasi, dan keamanan di Video Indexer, lihat Ketentuan Azure Cognitive Services. Untuk kewajiban privasi dan penanganan data Anda oleh Microsoft, tinjau Pernyataan Privasi Microsoft, Ketentuan Layanan Online (OST) dan Adendum Pemrosesan Data (“DPA”). Informasi privasi lainnya, termasuk tentang retensi data, penghapusan/penghancuran, tersedia di OST. Dengan menggunakan Video Indexer, Anda setuju untuk terikat oleh Ketentuan Cognitive Services, OST, DPA, dan Pernyataan Privasi.
Preset bawaan
Media Services saat ini mendukung prasetel penganalisis bawaan berikut:
Nama prasetel | Skenario/Mode | Detail |
---|---|---|
AudioAnalyzerPreset | Menganalisis mode Standar audio | Prasetel menerapkan serangkaian operasi analisis berbasis AI yang telah ditentukan sebelumnya, termasuk transkripsi ucapan. Saat ini, prasetel mendukung pemrosesan konten dengan track audio tunggal yang berisi ucapan dalam satu bahasa. Tentukan bahasa untuk payload audio dalam input menggunakan format BCP-47 dari 'wilayah tag bahasa'. Lihat daftar bahasa yang didukung dalam daftar berikut untuk kode bahasa yang tersedia. Deteksi bahasa otomatis memilih bahasa yang pertama kali terdeteksi dan dilanjutkan dengan bahasa yang dipilih untuk seluruh file jika belum diatur, atau diatur ke null. Fitur deteksi bahasa otomatis saat ini mendukung: Bahasa Inggris, Mandarin, Prancis, Jerman, Italia, Jepang, Spanyol, Rusia, dan Portugis Brasil. Fitur ini tidak mendukung peralihan dinamis antar-bahasa setelah bahasa pertama terdeteksi. Fitur deteksi bahasa otomatis berfungsi paling baik dengan rekaman audio dengan ucapan yang jelas. Jika deteksi bahasa otomatis gagal menemukan bahasa, transkripsinya kembali ke bahasa Inggris. |
AudioAnalyzerPreset | Menganalisis mode Dasar audio | Mode prasetel ini melakukan transkripsi ucapan ke teks dan pembuatan file subtitel/keterangan VTT. Output mode ini mencakup file JSON Insights termasuk hanya kata kunci, transkripsi, dan informasi waktu. Deteksi bahasa otomatis dan diarisasi pembicara tidak disertakan dalam mode ini. Daftar bahasa yang didukung mirip dengan mode Standar di atas. |
VideoAnalyzerPreset | Menganalisis audio dan video | Mengekstrak wawasan (metadata kaya) dari audio dan video, dan menghasilkan file format JSON. Anda dapat menentukan apakah Anda hanya ingin mengekstrak wawasan audio saat memproses file video. |
FaceDetectorPreset | Mendeteksi wajah yang ada dalam video | Menjelaskan pengaturan yang akan digunakan saat menganalisis video untuk mendeteksi semua wajah yang ada. |
Catatan
AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.
Bahasa yang didukung
- Bahasa Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' dan 'ar-SY')
- Bahasa Portugis Brasil ('pt-BR')
- Bahasa Mandarin ('zh-CN')
- Bahasa Denmark ('da-DK')
- Bahasa Inggris ('en-US', 'en-GB' dan 'en-AU')
- Bahasa Finlandia ('fi-FI')
- Bahasa Prancis ('fr-FR' dan 'fr-CA')
- Bahasa Jerman ('de-DE')
- Bahasa Ibrani (he-IL)
- Hindi ('hi-IN'), Korea ('ko-KR')
- Italia ('it-IT')
- Bahasa Jepang ('ja-JP')
- Bahasa Norwegia ('nb-NO')
- Bahasa Persia ('fa-IR')
- Bahasa Portugis Portugal ('pt-PT')
- Bahasa Rusia ('ru-RU')
- Spanish ('es-ES' dan 'es-MX')
- Bahasa Swedia ('sv-SE')
- Bahasa Thailand ('th-TH')
- Bahasa Turki ('tr-TR')
Catatan
AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.
Mode standar AudioAnalyzerPreset
Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dari file audio atau video.
Output mencakup file JSON (dengan semua wawasan) dan file VTT untuk transkrip audio. Prasetel ini menerima properti yang menentukan bahasa file input dalam bentuk string BCP47. Wawasan audio meliputi:
- Transkripsi audio: Transkrip kata-kata yang diucapkan dengan tanda waktu. Beberapa bahasa didukung.
- Kata kunci: Kata kunci yang diekstrak dari transkripsi audio.
Mode dasar AudioAnalyzerPreset
Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dari file audio atau video.
Output mencakup file JSON dan file VTT untuk transkrip audio. Prasetel ini menerima properti yang menentukan bahasa file input dalam bentuk string BCP47. Output meliputi:
- Transkripsi audio: Transkrip kata-kata yang diucapkan dengan tanda waktu. Beberapa bahasa didukung, tetapi deteksi bahasa otomatis dan diarisasi pembicara tidak disertakan.
- Kata kunci: Kata kunci yang diekstrak dari transkripsi audio.
VideoAnalyzerPreset
Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dan video dari file video. Output mencakup file JSON (dengan semua wawasan), file VTT untuk transkrip video, dan koleksi gambar mini. Prasetel ini juga menerima string BCP47 (mewakili bahasa video) sebagai properti. Insight video mencakup semua insight audio yang disebutkan di atas dan item tambahan berikut:
- Pelacakan wajah: Waktu selama wajah muncul dalam video. Setiap wajah memiliki ID wajah dan koleksi gambar mini yang sesuai.
- Teks visual: Teks yang terdeteksi melalui pengenalan karakter optik. Teks ditandai waktu dan juga digunakan untuk mengekstrak kata kunci (selain transkrip audio).
- Keyframe: Koleksi keyframe yang diekstrak dari video.
- Moderasi konten visual: Bagian video yang ditandai sebagai dewasa atau bersifat agak cabul.
- Anotasi: Hasil dari menganotasi video berdasarkan model objek yang telah ditentukan sebelumnya
Elemen insights.json
Output mencakup file JSON (insights.json) dengan semua wawasan yang ditemukan dalam video atau audio. JSON mungkin berisi elemen-elemen berikut:
transkrip
Nama | Deskripsi |
---|---|
id | ID baris. |
teks | Transkrip itu sendiri. |
bahasa | Bahasa transkrip. Dimaksudkan untuk mendukung transkrip ketika setiap baris dapat memiliki bahasa komputer yang berbeda. |
instans | Daftar rentang waktu tempat baris ini muncul. Jika instans adalah transkrip, maka hanya akan memiliki satu instans. |
Contoh:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
ocr
Nama | Deskripsi |
---|---|
id | ID baris OCR. |
teks | Teks OCR. |
keyakinan | Keyakinan pengenalan. |
bahasa | Bahasa komputer OCR |
instans | Daftar rentang waktu saat OCR ini muncul (OCR yang sama dapat muncul beberapa kali). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
wajah
Nama | Deskripsi |
---|---|
id | ID wajah. |
nama | Nama wajah. Dapat menjadi 'Unknown #0', selebriti yang diidentifikasi atau orang yang dilatih pelanggan. |
keyakinan | Keyakinan identifikasi wajah. |
deskripsi | Deskripsi selebritas. |
thumbnailId | ID gambar kecil wajah tersebut. |
knownPersonId | ID internal (jika itu orang yang dikenal). |
referenceId | ID Bing (jika itu adalah selebriti Bing). |
referenceType | Saat ini, hanya Bing. |
judul | Judul (jika selebriti—misalnya, "CEO Microsoft"). |
imageUrl | URL gambar, jika selebriti. |
instans | Instans saat wajah muncul dalam rentang waktu tertentu. Setiap instans juga memiliki thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Adegan
Nama | Deskripsi |
---|---|
id | ID adegan. |
keyFrames | Daftar key frame dalam adegan (masing-masing memiliki ID dan daftar rentang waktu instans). Instans key frame memiliki bidang thumbnailId dengan ID gambar mini keyFrame. |
instans | Daftar rentang waktu adegan ini (adegan hanya memiliki 1 instans). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
statistik
Nama | Deskripsi |
---|---|
CorrespondenceCount | Jumlah korespondensi dalam video. |
WordCount | Jumlah kata per pembicara. |
SpeakerNumberOfFragments | Jumlah fragmen yang dimiliki pembicara dalam video. |
SpeakerLongestMonolog | Monolog terpanjang pembicara. Jika pembicara diam di tengah monolog, bagian itu akan disertakan. Adegan diam di awal dan akhir monolog dihapus. |
SpeakerTalkToListenRatio | Perhitungan berdasarkan pada waktu yang dihabiskan pada monolog pembicara (tanpa diselah jeda) dibagi dengan total waktu video. Waktu dibulatkan ke koma desimal ketiga. |
label
Nama | Deskripsi |
---|---|
id | ID label. |
nama | Nama label (misalnya, 'Komputer', 'TV'). |
bahasa | Bahasa komputer nama label (saat diterjemahkan). BCP-47 |
instans | Daftar rentang waktu tempat label ini muncul (label bisa muncul beberapa kali). Setiap instans memiliki bidang keyakinan. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
kata kunci
Nama | Deskripsi |
---|---|
id | ID kata kunci. |
teks | Teks kata kunci. |
keyakinan | Keyakinan pengenalan kata kunci. |
bahasa | Bahasa komputer kata kunci (saat diterjemahkan). |
instans | Daftar rentang waktu saat kata kunci ini muncul (kata kunci bisa muncul beberapa kali). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Blok visualContentModeration berisi rentang waktu yang ditemukan Video Indexer berpotensi memiliki konten dewasa. Jika visualContentModeration kosong, tidak ada konten dewasa yang diidentifikasi.
Video yang ditemukan terdiri atas konten dewasa atau agak cabul mungkin hanya tersedia untuk dilihat pribadi. Pengguna dapat mengirimkan permintaan untuk peninjauan manusia untuk konten tersebut, dalam hal ini atribut IsAdult
akan berisi hasil tinjauan manusia.
Nama | Deskripsi |
---|---|
id | ID moderasi konten visual. |
adultScore | Skor dewasa (dari moderator konten). |
racyScore | Skor bersemangat (dari moderasi konten). |
instans | Daftar rentang waktu tempat moderasi konten visual ini muncul. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Mendapatkan bantuan dan dukungan
Anda dapat menghubungi Media Services dengan pertanyaan atau mengikuti pembaruan kami dengan salah satu metode berikut:
- T & A
- Stack Overflow. Beri tag pertanyaan dengan
azure-media-services
. - @MSFTAzureMedia atau gunakan @AzureSupport untuk meminta dukungan.
- Buka tiket dukungan melalui portal Azure.