Bagikan melalui


Menganalisis file video dan audio dengan Azure Media Services

logo Media Services v3


Peringatan

Azure Media Services akan dihentikan pada 30 Juni 2024. Untuk informasi selengkapnya, lihatPanduan Penghentian AMS .

Penting

Sebagaimana diuraikan Standar AI yang Bertanggung Jawab Microsoft, Microsoft berkomitmen pada kewajaran, privasi, keamanan, dan transparansi sehubungan dengan sistem AI. Untuk menyelaraskan dengan standar ini, Azure Media Services menghentikan prasetel Video Analyzer pada 14 September 2023. Preset ini saat ini memungkinkan Anda mengekstrak beberapa wawasan video dan audio dari file video. Pelanggan dapat mengganti alur kerja mereka saat ini menggunakan set fitur yang lebih canggih yang ditawarkan oleh Azure Video Indexer.

Media Services memungkinkan Anda mengekstrak wawasan dari file video dan audio menggunakan preset penganalisis audio dan video. Artikel ini menjelaskan prasetel penganalisis yang digunakan untuk mengekstrak wawasan. Jika Anda menginginkan wawasan yang lebih rinci dari video Anda, gunakan layanan Azure Video Indexer. Untuk memahami kapan menggunakan preset penganalisis Video Indexer vs. Media Services, lihat dokumen perbandingan .

Ada dua mode untuk preset Audio Analyzer, dasar dan standar. Lihat deskripsi perbedaan dalam tabel di bawah ini.

Untuk menganalisis konten Anda menggunakan preset Media Services v3, Anda membuat Transformasi dan mengirimkan Pekerjaan yang menggunakan salah satu preset ini: VideoAnalyzerPreset atau AudioAnalyzerPreset.

Nota

AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.

Kepatuhan, Privasi, dan Keamanan

Anda harus mematuhi semua hukum yang berlaku dalam penggunaan Video Indexer, dan Anda tidak boleh menggunakan Video Indexer atau layanan Azure lainnya dengan cara yang melanggar hak orang lain atau mungkin berbahaya bagi orang lain. Sebelum mengunggah video apa pun, termasuk data biometrik apa pun, ke layanan Video Indexer untuk pemrosesan dan penyimpanan, Anda harus memiliki semua hak yang tepat, termasuk semua persetujuan yang sesuai, dari individu dalam video. Untuk mempelajari tentang kepatuhan, privasi, dan keamanan di Video Indexer, Ketentuan Azure Cognitive Services. Untuk kewajiban privasi dan penanganan data Anda oleh Microsoft, tinjauPernyataan Privasi Microsoft , Ketentuan Layanan Online ("OST") dan Adendum Pemrosesan Data ("DPA"). Informasi privasi lainnya, termasuk pada retensi data, penghapusan/penghancuran, tersedia di OST. Dengan menggunakan Video Indexer, Anda setuju untuk terikat oleh Ketentuan Cognitive Services, OST, DPA, dan Pernyataan Privasi.

Preset bawaan

Media Services saat ini mendukung prasetel penganalisis bawaan berikut:

nama prasetel Skenario / Mode Detail
AudioAnalyzerPreset Menganalisis mode Standar audio Prasetel menerapkan serangkaian operasi analisis berbasis AI yang telah ditentukan sebelumnya, termasuk transkripsi ucapan. Saat ini, prasetel mendukung pemrosesan konten dengan satu trek audio yang berisi ucapan dalam satu bahasa. Tentukan bahasa untuk payload audio dalam input menggunakan format BCP-47 dari 'language tag-region'. Lihat daftar bahasa yang didukung di bawah ini untuk kode bahasa yang tersedia. Deteksi bahasa otomatis memilih bahasa pertama yang terdeteksi dan dilanjutkan dengan bahasa yang dipilih untuk seluruh file jika tidak diatur, atau diatur ke null. Fitur deteksi bahasa otomatis saat ini mendukung: Inggris, Cina, Prancis, Jerman, Italia, Jepang, Spanyol, Rusia, dan Portugis Brasil. Ini tidak mendukung peralihan dinamis antar bahasa setelah bahasa pertama terdeteksi. Fitur deteksi bahasa otomatis berfungsi paling baik dengan rekaman audio dengan ucapan yang jelas. Jika deteksi bahasa otomatis gagal menemukan bahasa, transkripsi akan kembali ke bahasa Inggris.
AudioAnalyzerPreset Menganalisis mode Dasar audio Mode prasetel ini melakukan transkripsi ucapan ke teks dan pembuatan file subtitel/keterangan VTT. Output mode ini mencakup file Insights JSON termasuk hanya kata kunci, transkripsi, dan informasi waktu. Deteksi bahasa otomatis dan diarisasi pembicara tidak disertakan dalam mode ini. Daftar bahasa yang didukung identik dengan mode Standar di atas.
VideoAnalyzerPreset Menganalisis audio dan video Mengekstrak wawasan (metadata kaya) dari audio dan video, dan menghasilkan file format JSON. Anda dapat menentukan apakah Anda hanya ingin mengekstrak wawasan audio saat memproses file video.
FaceDetectorPreset Mendeteksi wajah yang ada dalam video Menjelaskan pengaturan yang akan digunakan saat menganalisis video untuk mendeteksi semua wajah yang ada.

Nota

AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.

Bahasa yang didukung

  • Bahasa Arab ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' dan 'ar-SY')
  • Portugis Brasil ('pt-BR')
  • Tionghoa ('zh-CN')
  • Denmark('da-DK')
  • Inggris ('en-US', 'en-GB' dan 'en-AU')
  • Finlandia ('fi-FI')
  • Prancis ('fr-FR' dan 'fr-CA')
  • Jerman ('de-DE')
  • Ibrani (he-IL)
  • Hindi ('hi-IN'), Korea ('ko-KR')
  • Italia ('it-IT')
  • Jepang ('ja-JP')
  • Norwegia ('nb-NO')
  • Persia ('fa-IR')
  • Portugis Portugal ('pt-PT')
  • Rusia ('ru-RU')
  • Spanyol ('es-ES' dan 'es-MX')
  • Swedia ('sv-SE')
  • Thai ('th-TH')
  • Turki ('tr-TR')

Nota

AudioAnalyzerPreset tidak didukung jika akun penyimpanan tidak memiliki akses jaringan publik.

Mode standar AudioAnalyzerPreset

Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dari file audio atau video.

Output mencakup file JSON (dengan semua wawasan) dan file VTT untuk transkrip audio. Prasetel ini menerima properti yang menentukan bahasa file input dalam bentuk string BCP47. Wawasan audio meliputi:

  • transkripsi Audio: Transkrip kata yang diucapkan dengan tanda waktu. Beberapa bahasa didukung.
  • Kata Kunci: Kata kunci yang diekstrak dari transkripsi audio.

Mode dasar AudioAnalyzerPreset

Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dari file audio atau video.

Output mencakup file JSON dan file VTT untuk transkrip audio. Prasetel ini menerima properti yang menentukan bahasa file input dalam bentuk string BCP47. Outputnya meliputi:

  • transkripsi Audio: Transkrip kata yang diucapkan dengan tanda waktu. Beberapa bahasa didukung, tetapi deteksi bahasa otomatis dan diarisasi pembicara tidak disertakan.
  • Kata Kunci: Kata kunci yang diekstrak dari transkripsi audio.

VideoAnalyzerPreset

Prasetel memungkinkan Anda mengekstrak beberapa wawasan audio dan video dari file video. Output mencakup file JSON (dengan semua wawasan), file VTT untuk transkrip video, dan kumpulan gambar mini. Prasetel ini juga menerima string BCP47 (mewakili bahasa video) sebagai properti. Wawasan video mencakup semua wawasan audio yang disebutkan di atas dan item tambahan berikut:

  • Pelacakan wajah: Waktu saat wajah ada dalam video. Setiap wajah memiliki ID wajah dan koleksi gambar mini yang sesuai.
  • Teks visual: Teks yang terdeteksi melalui pengenalan karakter optik. Teks diberi stempel waktu dan juga digunakan untuk mengekstrak kata kunci (selain transkrip audio).
  • Keyframe: Kumpulan keyframe yang diekstrak dari video.
  • Moderasi konten visual: Bagian video yang ditandai sebagai dewasa atau cairan di alam.
  • Anotasi: Hasil anotasi video berdasarkan model objek yang telah ditentukan sebelumnya

elemen insights.json

Output mencakup file JSON (insights.json) dengan semua wawasan yang ditemukan dalam video atau audio. JSON mungkin berisi elemen-elemen berikut:

Transkrip

Nama Deskripsi
Id ID baris.
Teks Transkrip itu sendiri.
Bahasa Bahasa transkrip. Dimaksudkan untuk mendukung transkrip di mana setiap baris dapat memiliki bahasa yang berbeda.
Contoh Daftar rentang waktu tempat baris ini muncul. Jika instans adalah transkrip, instans hanya akan memiliki satu instans.

Contoh:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Nama Deskripsi
Id ID baris OCR.
Teks Teks OCR.
Kepercayaan Kepercayaan diri pengenalan.
Bahasa Bahasa OCR.
Contoh Daftar rentang waktu tempat OCR ini muncul (OCR yang sama dapat muncul beberapa kali).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Wajah

Nama Deskripsi
Id ID wajah.
Nama Nama wajah. Ini bisa menjadi 'Unknown #0', selebriti yang diidentifikasi, atau orang terlatih pelanggan.
Kepercayaan Keyakinan identifikasi wajah.
deskripsi Deskripsi selebriti.
thumbnailId ID gambar mini wajah itu.
knownPersonId ID internal (jika itu adalah orang yang diketahui).
referenceId ID Bing (jika itu adalah selebriti Bing).
referenceType Saat ini hanya Bing.
titel Judul (jika itu adalah selebriti—misalnya, "CEO Microsoft").
imageUrl URL gambar, jika itu adalah selebriti.
Contoh Instans tempat wajah muncul dalam rentang waktu yang diberikan. Setiap instans juga memiliki thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Tembakan

Nama Deskripsi
Id ID tembakan.
keyFrame Daftar bingkai kunci dalam bidikan (masing-masing memiliki ID dan daftar rentang waktu instans). Instans bingkai kunci memiliki bidang thumbnailId dengan ID gambar mini keyFrame.
Contoh Daftar rentang waktu bidikan ini (bidikan hanya memiliki satu instans).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statistik

Nama Deskripsi
CorrespondenceCount Jumlah korespondensi dalam video.
WordCount Jumlah kata per pembicara.
SpeakerNumberOfFragments Jumlah fragmen yang dimiliki pembicara dalam video.
SpeakerLongestMonolog Monolog terpanjang pembicara. Jika speaker memiliki keheningan di dalam monolog, pembicara disertakan. Diam di awal dan akhir monolog dihapus.
SpeakerTalkToListenRatio Perhitungan didasarkan pada waktu yang dihabiskan pada monolog pembicara (tanpa keheningan di antaranya) dibagi dengan total waktu video. Waktu dibulatkan ke titik desimal ketiga.

Label

Nama Deskripsi
Id ID label.
Nama Nama label (misalnya, 'Komputer', 'TV').
Bahasa Bahasa nama label (saat diterjemahkan). BCP-47
Contoh Daftar rentang waktu tempat label ini muncul (label dapat muncul beberapa kali). Setiap instans memiliki bidang keyakinan.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Kata kunci

Nama Deskripsi
Id ID kata kunci.
Teks Teks kata kunci.
Kepercayaan Keyakinan pengenalan kata kunci.
Bahasa Bahasa kata kunci (saat diterjemahkan).
Contoh Daftar rentang waktu tempat kata kunci ini muncul (kata kunci dapat muncul beberapa kali).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Blok visualContentModeration berisi rentang waktu yang ditemukan Video Indexer berpotensi memiliki konten dewasa. Jika visualContentModeration kosong, tidak ada konten dewasa yang diidentifikasi.

Video yang ditemukan berisi konten dewasa atau cabul mungkin hanya tersedia untuk tampilan privat. Pengguna dapat mengirimkan permintaan untuk tinjauan manusia tentang konten, dalam hal ini atribut IsAdult akan berisi hasil tinjauan manusia.

Nama Deskripsi
Id ID moderasi konten visual.
adultScore Skor dewasa (dari moderator konten).
racyScore Skor cairan (dari moderasi konten).
Contoh Daftar rentang waktu tempat moderasi konten visual ini muncul.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Dapatkan bantuan dan dukungan

Anda dapat menghubungi Media Services dengan pertanyaan atau mengikuti pembaruan kami dengan salah satu metode berikut: