Menganalisis file video dan audio dengan Azure Media Services
logo
Peringatan
Azure Media Services akan dihentikan pada 30 Juni 2024. Untuk informasi selengkapnya, lihatPanduan Penghentian AMS
Penting
Sebagaimana diuraikan Standar AI yang Bertanggung Jawab
Media Services memungkinkan Anda mengekstrak wawasan dari file video dan audio menggunakan preset penganalisis audio dan video. Artikel ini menjelaskan prasetel penganalisis yang digunakan untuk mengekstrak wawasan. Jika Anda menginginkan wawasan yang lebih rinci dari video Anda, gunakan layanan Azure Video Indexer. Untuk memahami kapan menggunakan preset penganalisis Video Indexer vs. Media Services, lihat dokumen perbandingan .
Ada dua mode untuk preset Audio Analyzer, dasar dan standar. Lihat deskripsi perbedaan dalam tabel di bawah ini.
Untuk menganalisis konten Anda menggunakan preset Media Services v3, Anda membuat Transformasi
Nota
AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.
Kepatuhan, Privasi, dan Keamanan
Anda harus mematuhi semua hukum yang berlaku dalam penggunaan Video Indexer, dan Anda tidak boleh menggunakan Video Indexer atau layanan Azure lainnya dengan cara yang melanggar hak orang lain atau mungkin berbahaya bagi orang lain. Sebelum mengunggah video apa pun, termasuk data biometrik apa pun, ke layanan Video Indexer untuk pemrosesan dan penyimpanan, Anda harus memiliki semua hak yang tepat, termasuk semua persetujuan yang sesuai, dari individu dalam video. Untuk mempelajari tentang kepatuhan, privasi, dan keamanan di Video Indexer, Ketentuan Azure Cognitive Services. Untuk kewajiban privasi dan penanganan data Anda oleh Microsoft, tinjauPernyataan Privasi
Preset bawaan
Media Services saat ini mendukung prasetel penganalisis bawaan berikut:
nama prasetel |
Skenario / Mode | Detail |
---|---|---|
AudioAnalyzerPreset | Menganalisis mode Standar audio | Prasetel menerapkan serangkaian operasi analisis berbasis AI yang telah ditentukan sebelumnya, termasuk transkripsi ucapan. Saat ini, prasetel mendukung pemrosesan konten dengan satu trek audio yang berisi ucapan dalam satu bahasa. Tentukan bahasa untuk payload audio dalam input menggunakan format BCP-47 dari 'language tag-region'. Lihat daftar bahasa yang didukung di bawah ini untuk kode bahasa yang tersedia. Deteksi bahasa otomatis memilih bahasa pertama yang terdeteksi dan dilanjutkan dengan bahasa yang dipilih untuk seluruh file jika tidak diatur, atau diatur ke null. Fitur deteksi bahasa otomatis saat ini mendukung: Inggris, Cina, Prancis, Jerman, Italia, Jepang, Spanyol, Rusia, dan Portugis Brasil. Ini tidak mendukung peralihan dinamis antar bahasa setelah bahasa pertama terdeteksi. Fitur deteksi bahasa otomatis berfungsi paling baik dengan rekaman audio dengan ucapan yang jelas. Jika deteksi bahasa otomatis gagal menemukan bahasa, transkripsi akan kembali ke bahasa Inggris. |
AudioAnalyzerPreset | Menganalisis mode Dasar audio | Mode prasetel ini melakukan transkripsi ucapan ke teks dan pembuatan file subtitel/keterangan VTT. Output mode ini mencakup file Insights JSON termasuk hanya kata kunci, transkripsi, dan informasi waktu. Deteksi bahasa otomatis dan diarisasi pembicara tidak disertakan dalam mode ini. Daftar bahasa yang didukung identik dengan mode Standar di atas. |
VideoAnalyzerPreset | Menganalisis audio dan video | Mengekstrak wawasan (metadata kaya) dari audio dan video, dan menghasilkan file format JSON. Anda dapat menentukan apakah Anda hanya ingin mengekstrak wawasan audio saat memproses file video. |
FaceDetectorPreset | Mendeteksi wajah yang ada dalam video | Menjelaskan pengaturan yang akan digunakan saat menganalisis video untuk mendeteksi semua wajah yang ada. |
Nota
AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.
Bahasa yang didukung
- Bahasa Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' dan 'ar-SY')
- Portugis Brasil ('pt-BR')
- Tionghoa ('zh-CN')
- Denmark('da-DK')
- Inggris ('en-US', 'en-GB' dan 'en-AU')
- Finlandia ('fi-FI')
- Prancis ('fr-FR' dan 'fr-CA')
- Jerman ('de-DE')
- Ibrani (he-IL)
- Hindi ('hi-IN'), Korea ('ko-KR')
- Italia ('it-IT')
- Jepang ('ja-JP')
- Norwegia ('nb-NO')
- Persia ('fa-IR')
- Portugis Portugal ('pt-PT')
- Rusia ('ru-RU')
- Spanyol ('es-ES' dan 'es-MX')
- Swedia ('sv-SE')
- Thai ('th-TH')
- Turki ('tr-TR')
Nota
AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.
Mode standar AudioAnalyzerPreset
Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dari file audio atau video.
Output mencakup file JSON (dengan semua wawasan) dan file VTT untuk transkrip audio. Prasetel ini menerima properti yang menentukan bahasa file input dalam bentuk string
- transkripsi Audio: Transkrip kata yang diucapkan dengan tanda waktu. Beberapa bahasa didukung.
- Kata Kunci: Kata kunci yang diekstrak dari transkripsi audio.
Mode dasar AudioAnalyzerPreset
Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dari file audio atau video.
Output mencakup file JSON dan file VTT untuk transkrip audio. Prasetel ini menerima properti yang menentukan bahasa file input dalam bentuk string
- transkripsi Audio: Transkrip kata yang diucapkan dengan tanda waktu. Beberapa bahasa didukung, tetapi deteksi bahasa otomatis dan diarisasi pembicara tidak disertakan.
- Kata Kunci: Kata kunci yang diekstrak dari transkripsi audio.
VideoAnalyzerPreset
Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dan video dari file video. Output mencakup file JSON (dengan semua wawasan), file VTT untuk transkrip video, dan kumpulan gambar mini. Prasetel ini juga menerima string BCP47
- Pelacakan wajah: Waktu saat wajah ada dalam video. Setiap wajah memiliki ID wajah dan koleksi gambar mini yang sesuai.
- Teks visual: Teks yang terdeteksi melalui pengenalan karakter optik. Teks diberi stempel waktu dan juga digunakan untuk mengekstrak kata kunci (selain transkrip audio).
- Keyframe: Kumpulan keyframe yang diekstrak dari video.
- Moderasi konten visual: Bagian video yang ditandai sebagai dewasa atau cairan di alam.
- Anotasi: Hasil anotasi video berdasarkan model objek yang telah ditentukan sebelumnya
elemen insights.json
Output mencakup file JSON (insights.json) dengan semua wawasan yang ditemukan dalam video atau audio. JSON mungkin berisi elemen-elemen berikut:
Transkrip
Nama | Deskripsi |
---|---|
Id | ID baris. |
Teks | Transkrip itu sendiri. |
Bahasa | Bahasa transkrip. Dimaksudkan untuk mendukung transkrip di mana setiap baris dapat memiliki bahasa yang berbeda. |
Contoh | Daftar rentang waktu tempat baris ini muncul. Jika instans adalah transkrip, instans hanya akan memiliki satu instans. |
Contoh:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
Nama | Deskripsi |
---|---|
Id | ID baris OCR. |
Teks | Teks OCR. |
Kepercayaan | Kepercayaan diri pengenalan. |
Bahasa | Bahasa OCR. |
Contoh | Daftar rentang waktu tempat OCR ini muncul (OCR yang sama dapat muncul beberapa kali). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Wajah
Nama | Deskripsi |
---|---|
Id | ID wajah. |
Nama | Nama wajah. Ini bisa menjadi 'Unknown #0', selebriti yang diidentifikasi, atau orang terlatih pelanggan. |
Kepercayaan | Keyakinan identifikasi wajah. |
deskripsi | Deskripsi selebriti. |
thumbnailId | ID gambar mini wajah itu. |
knownPersonId | ID internal (jika itu adalah orang yang diketahui). |
referenceId | ID Bing (jika itu adalah selebriti Bing). |
referenceType | Saat ini hanya Bing. |
titel | Judul (jika itu adalah selebriti—misalnya, "CEO Microsoft"). |
imageUrl | URL gambar, jika itu adalah selebriti. |
Contoh | Instans tempat wajah muncul dalam rentang waktu yang diberikan. Setiap instans juga memiliki thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Tembakan
Nama | Deskripsi |
---|---|
Id | ID tembakan. |
keyFrame | Daftar bingkai kunci dalam bidikan (masing-masing memiliki ID dan daftar rentang waktu instans). Instans bingkai kunci memiliki bidang thumbnailId dengan ID gambar mini keyFrame. |
Contoh | Daftar rentang waktu bidikan ini (bidikan hanya memiliki satu instans). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
Statistik
Nama | Deskripsi |
---|---|
CorrespondenceCount | Jumlah korespondensi dalam video. |
WordCount | Jumlah kata per pembicara. |
SpeakerNumberOfFragments | Jumlah fragmen yang dimiliki pembicara dalam video. |
SpeakerLongestMonolog | Monolog terpanjang pembicara. Jika speaker memiliki keheningan di dalam monolog, pembicara disertakan. Diam di awal dan akhir monolog dihapus. |
SpeakerTalkToListenRatio | Perhitungan didasarkan pada waktu yang dihabiskan pada monolog pembicara (tanpa keheningan di antaranya) dibagi dengan total waktu video. Waktu dibulatkan ke titik desimal ketiga. |
Label
Nama | Deskripsi |
---|---|
Id | ID label. |
Nama | Nama label (misalnya, 'Komputer', 'TV'). |
Bahasa | Bahasa nama label (saat diterjemahkan). BCP-47 |
Contoh | Daftar rentang waktu tempat label ini muncul (label dapat muncul beberapa kali). Setiap instans memiliki bidang keyakinan. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
Kata kunci
Nama | Deskripsi |
---|---|
Id | ID kata kunci. |
Teks | Teks kata kunci. |
Kepercayaan | Keyakinan pengenalan kata kunci. |
Bahasa | Bahasa kata kunci (saat diterjemahkan). |
Contoh | Daftar rentang waktu tempat kata kunci ini muncul (kata kunci dapat muncul beberapa kali). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Blok visualContentModeration berisi rentang waktu yang ditemukan Video Indexer berpotensi memiliki konten dewasa. Jika visualContentModeration kosong, tidak ada konten dewasa yang diidentifikasi.
Video yang ditemukan berisi konten dewasa atau cabul mungkin hanya tersedia untuk tampilan privat. Pengguna dapat mengirimkan permintaan untuk tinjauan manusia tentang konten, dalam hal ini atribut IsAdult
akan berisi hasil tinjauan manusia.
Nama | Deskripsi |
---|---|
Id | ID moderasi konten visual. |
adultScore | Skor dewasa (dari moderator konten). |
racyScore | Skor cairan (dari moderasi konten). |
Contoh | Daftar rentang waktu tempat moderasi konten visual ini muncul. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Dapatkan bantuan dan dukungan
Anda dapat menghubungi Media Services dengan pertanyaan atau mengikuti pembaruan kami dengan salah satu metode berikut:
- Q & A
-
Stack Overflow. Beri tag pertanyaan dengan
azure-media-services
. - @MSFTAzureMedia atau gunakan @AzureSupport untuk meminta dukungan.
- Buka tiket dukungan melalui portal Microsoft Azure.