Menganalisis file video dan audio dengan Azure Media Services

Artikel
10/02/2024

logo

Peringatan

Azure Media Services akan dihentikan pada 30 Juni 2024. Untuk informasi selengkapnya, lihatPanduan Penghentian AMS .

Penting

Sebagaimana diuraikan Standar AI yang Bertanggung Jawab Microsoft, Microsoft berkomitmen pada kewajaran, privasi, keamanan, dan transparansi sehubungan dengan sistem AI. Untuk menyelaraskan dengan standar ini, Azure Media Services menghentikan prasetel Video Analyzer pada 14 September 2023. Preset ini saat ini memungkinkan Anda mengekstrak beberapa wawasan video dan audio dari file video. Pelanggan dapat mengganti alur kerja mereka saat ini menggunakan set fitur yang lebih canggih yang ditawarkan oleh Azure Video Indexer.

Media Services memungkinkan Anda mengekstrak wawasan dari file video dan audio menggunakan preset penganalisis audio dan video. Artikel ini menjelaskan prasetel penganalisis yang digunakan untuk mengekstrak wawasan. Jika Anda menginginkan wawasan yang lebih rinci dari video Anda, gunakan layanan Azure Video Indexer. Untuk memahami kapan menggunakan preset penganalisis Video Indexer vs. Media Services, lihat dokumen perbandingan .

Ada dua mode untuk preset Audio Analyzer, dasar dan standar. Lihat deskripsi perbedaan dalam tabel di bawah ini.

Untuk menganalisis konten Anda menggunakan preset Media Services v3, Anda membuat Transformasi dan mengirimkan Pekerjaan yang menggunakan salah satu preset ini: VideoAnalyzerPreset atau AudioAnalyzerPreset.

Nota

AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.

Kepatuhan, Privasi, dan Keamanan

Anda harus mematuhi semua hukum yang berlaku dalam penggunaan Video Indexer, dan Anda tidak boleh menggunakan Video Indexer atau layanan Azure lainnya dengan cara yang melanggar hak orang lain atau mungkin berbahaya bagi orang lain. Sebelum mengunggah video apa pun, termasuk data biometrik apa pun, ke layanan Video Indexer untuk pemrosesan dan penyimpanan, Anda harus memiliki semua hak yang tepat, termasuk semua persetujuan yang sesuai, dari individu dalam video. Untuk mempelajari tentang kepatuhan, privasi, dan keamanan di Video Indexer, Ketentuan Azure Cognitive Services. Untuk kewajiban privasi dan penanganan data Anda oleh Microsoft, tinjauPernyataan Privasi Microsoft , Ketentuan Layanan Online ("OST") dan Adendum Pemrosesan Data ("DPA"). Informasi privasi lainnya, termasuk pada retensi data, penghapusan/penghancuran, tersedia di OST. Dengan menggunakan Video Indexer, Anda setuju untuk terikat oleh Ketentuan Cognitive Services, OST, DPA, dan Pernyataan Privasi.

Preset bawaan

Media Services saat ini mendukung prasetel penganalisis bawaan berikut:

nama prasetel	Skenario / Mode	Detail
AudioAnalyzerPreset	Menganalisis mode Standar audio	Prasetel menerapkan serangkaian operasi analisis berbasis AI yang telah ditentukan sebelumnya, termasuk transkripsi ucapan. Saat ini, prasetel mendukung pemrosesan konten dengan satu trek audio yang berisi ucapan dalam satu bahasa. Tentukan bahasa untuk payload audio dalam input menggunakan format BCP-47 dari 'language tag-region'. Lihat daftar bahasa yang didukung di bawah ini untuk kode bahasa yang tersedia. Deteksi bahasa otomatis memilih bahasa pertama yang terdeteksi dan dilanjutkan dengan bahasa yang dipilih untuk seluruh file jika tidak diatur, atau diatur ke null. Fitur deteksi bahasa otomatis saat ini mendukung: Inggris, Cina, Prancis, Jerman, Italia, Jepang, Spanyol, Rusia, dan Portugis Brasil. Ini tidak mendukung peralihan dinamis antar bahasa setelah bahasa pertama terdeteksi. Fitur deteksi bahasa otomatis berfungsi paling baik dengan rekaman audio dengan ucapan yang jelas. Jika deteksi bahasa otomatis gagal menemukan bahasa, transkripsi akan kembali ke bahasa Inggris.
AudioAnalyzerPreset	Menganalisis mode Dasar audio	Mode prasetel ini melakukan transkripsi ucapan ke teks dan pembuatan file subtitel/keterangan VTT. Output mode ini mencakup file Insights JSON termasuk hanya kata kunci, transkripsi, dan informasi waktu. Deteksi bahasa otomatis dan diarisasi pembicara tidak disertakan dalam mode ini. Daftar bahasa yang didukung identik dengan mode Standar di atas.
VideoAnalyzerPreset	Menganalisis audio dan video	Mengekstrak wawasan (metadata kaya) dari audio dan video, dan menghasilkan file format JSON. Anda dapat menentukan apakah Anda hanya ingin mengekstrak wawasan audio saat memproses file video.
FaceDetectorPreset	Mendeteksi wajah yang ada dalam video	Menjelaskan pengaturan yang akan digunakan saat menganalisis video untuk mendeteksi semua wajah yang ada.

Nota

AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.

Bahasa yang didukung

Bahasa Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' dan 'ar-SY')
Portugis Brasil ('pt-BR')
Tionghoa ('zh-CN')
Denmark('da-DK')
Inggris ('en-US', 'en-GB' dan 'en-AU')
Finlandia ('fi-FI')
Prancis ('fr-FR' dan 'fr-CA')
Jerman ('de-DE')
Ibrani (he-IL)
Hindi ('hi-IN'), Korea ('ko-KR')
Italia ('it-IT')
Jepang ('ja-JP')
Norwegia ('nb-NO')
Persia ('fa-IR')
Portugis Portugal ('pt-PT')
Rusia ('ru-RU')
Spanyol ('es-ES' dan 'es-MX')
Swedia ('sv-SE')
Thai ('th-TH')
Turki ('tr-TR')

Nota

AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.

Mode standar AudioAnalyzerPreset

Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dari file audio atau video.

Output mencakup file JSON (dengan semua wawasan) dan file VTT untuk transkrip audio. Prasetel ini menerima properti yang menentukan bahasa file input dalam bentuk string BCP47. Wawasan audio meliputi:

transkripsi Audio: Transkrip kata yang diucapkan dengan tanda waktu. Beberapa bahasa didukung.
Kata Kunci: Kata kunci yang diekstrak dari transkripsi audio.

Mode dasar AudioAnalyzerPreset

Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dari file audio atau video.

Output mencakup file JSON dan file VTT untuk transkrip audio. Prasetel ini menerima properti yang menentukan bahasa file input dalam bentuk string BCP47. Outputnya meliputi:

transkripsi Audio: Transkrip kata yang diucapkan dengan tanda waktu. Beberapa bahasa didukung, tetapi deteksi bahasa otomatis dan diarisasi pembicara tidak disertakan.
Kata Kunci: Kata kunci yang diekstrak dari transkripsi audio.

VideoAnalyzerPreset

Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dan video dari file video. Output mencakup file JSON (dengan semua wawasan), file VTT untuk transkrip video, dan kumpulan gambar mini. Prasetel ini juga menerima string BCP47 (mewakili bahasa video) sebagai properti. Wawasan video mencakup semua wawasan audio yang disebutkan di atas dan item tambahan berikut:

Pelacakan wajah: Waktu saat wajah ada dalam video. Setiap wajah memiliki ID wajah dan koleksi gambar mini yang sesuai.
Teks visual: Teks yang terdeteksi melalui pengenalan karakter optik. Teks diberi stempel waktu dan juga digunakan untuk mengekstrak kata kunci (selain transkrip audio).
Keyframe: Kumpulan keyframe yang diekstrak dari video.
Moderasi konten visual: Bagian video yang ditandai sebagai dewasa atau cairan di alam.
Anotasi: Hasil anotasi video berdasarkan model objek yang telah ditentukan sebelumnya

elemen insights.json

Output mencakup file JSON (insights.json) dengan semua wawasan yang ditemukan dalam video atau audio. JSON mungkin berisi elemen-elemen berikut:

Transkrip

Nama	Deskripsi
Id	ID baris.
Teks	Transkrip itu sendiri.
Bahasa	Bahasa transkrip. Dimaksudkan untuk mendukung transkrip di mana setiap baris dapat memiliki bahasa yang berbeda.
Contoh	Daftar rentang waktu tempat baris ini muncul. Jika instans adalah transkrip, instans hanya akan memiliki satu instans.

Contoh:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Nama	Deskripsi
Id	ID baris OCR.
Teks	Teks OCR.
Kepercayaan	Kepercayaan diri pengenalan.
Bahasa	Bahasa OCR.
Contoh	Daftar rentang waktu tempat OCR ini muncul (OCR yang sama dapat muncul beberapa kali).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Wajah

Nama	Deskripsi
Id	ID wajah.
Nama	Nama wajah. Ini bisa menjadi 'Unknown #0', selebriti yang diidentifikasi, atau orang terlatih pelanggan.
Kepercayaan	Keyakinan identifikasi wajah.
deskripsi	Deskripsi selebriti.
thumbnailId	ID gambar mini wajah itu.
knownPersonId	ID internal (jika itu adalah orang yang diketahui).
referenceId	ID Bing (jika itu adalah selebriti Bing).
referenceType	Saat ini hanya Bing.
titel	Judul (jika itu adalah selebriti—misalnya, "CEO Microsoft").
imageUrl	URL gambar, jika itu adalah selebriti.
Contoh	Instans tempat wajah muncul dalam rentang waktu yang diberikan. Setiap instans juga memiliki thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Tembakan

Nama	Deskripsi
Id	ID tembakan.
keyFrame	Daftar bingkai kunci dalam bidikan (masing-masing memiliki ID dan daftar rentang waktu instans). Instans bingkai kunci memiliki bidang thumbnailId dengan ID gambar mini keyFrame.
Contoh	Daftar rentang waktu bidikan ini (bidikan hanya memiliki satu instans).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statistik

Nama	Deskripsi
CorrespondenceCount	Jumlah korespondensi dalam video.
WordCount	Jumlah kata per pembicara.
SpeakerNumberOfFragments	Jumlah fragmen yang dimiliki pembicara dalam video.
SpeakerLongestMonolog	Monolog terpanjang pembicara. Jika speaker memiliki keheningan di dalam monolog, pembicara disertakan. Diam di awal dan akhir monolog dihapus.
SpeakerTalkToListenRatio	Perhitungan didasarkan pada waktu yang dihabiskan pada monolog pembicara (tanpa keheningan di antaranya) dibagi dengan total waktu video. Waktu dibulatkan ke titik desimal ketiga.

Label

Nama	Deskripsi
Id	ID label.
Nama	Nama label (misalnya, 'Komputer', 'TV').
Bahasa	Bahasa nama label (saat diterjemahkan). BCP-47
Contoh	Daftar rentang waktu tempat label ini muncul (label dapat muncul beberapa kali). Setiap instans memiliki bidang keyakinan.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Kata kunci

Nama	Deskripsi
Id	ID kata kunci.
Teks	Teks kata kunci.
Kepercayaan	Keyakinan pengenalan kata kunci.
Bahasa	Bahasa kata kunci (saat diterjemahkan).
Contoh	Daftar rentang waktu tempat kata kunci ini muncul (kata kunci dapat muncul beberapa kali).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration berisi rentang waktu yang ditemukan Video Indexer berpotensi memiliki konten dewasa. Jika visualContentModeration kosong, tidak ada konten dewasa yang diidentifikasi.

Video yang ditemukan berisi konten dewasa atau cabul mungkin hanya tersedia untuk tampilan privat. Pengguna dapat mengirimkan permintaan untuk tinjauan manusia tentang konten, dalam hal ini atribut IsAdult akan berisi hasil tinjauan manusia.

Nama	Deskripsi
Id	ID moderasi konten visual.
adultScore	Skor dewasa (dari moderator konten).
racyScore	Skor cairan (dari moderasi konten).
Contoh	Daftar rentang waktu tempat moderasi konten visual ini muncul.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Dapatkan bantuan dan dukungan

Anda dapat menghubungi Media Services dengan pertanyaan atau mengikuti pembaruan kami dengan salah satu metode berikut:

Q & A
Stack Overflow. Beri tag pertanyaan dengan azure-media-services.
@MSFTAzureMedia atau gunakan @AzureSupport untuk meminta dukungan.
Buka tiket dukungan melalui portal Microsoft Azure.

Bagikan melalui

Menganalisis file video dan audio dengan Azure Media Services

Kepatuhan, Privasi, dan Keamanan

Preset bawaan

Bahasa yang didukung

Mode standar AudioAnalyzerPreset

Mode dasar AudioAnalyzerPreset

VideoAnalyzerPreset

elemen insights.json

Transkrip

Ocr

Wajah

Tembakan

Statistik

Label

Kata kunci

visualContentModeration

Dapatkan bantuan dan dukungan

Sumber Daya Tambahan: