Azure Media Services ile video ve ses dosyalarını analiz etme
Uyarı
Azure Media Services 30 Haziran 2024'de kullanımdan kaldırılacak. Daha fazla bilgi için bkz. AMS Kullanımdan Kaldırma Kılavuzu.
Önemli
Microsoft'un Sorumlu Yapay Zeka Standartları'nın özetlediği gibi, Microsoft yapay zeka sistemleriyle ilgili eşitlik, gizlilik, güvenlik ve saydamlık konusunda kararlıdır. Azure Media Services, bu standartlara uyum sağlamak için Video Analyzer ön ayarını 14 Eylül 2023'te kullanımdan kaldırmaktadır. Bu ön ayar şu anda bir video dosyasından birden çok video ve ses içgörüleri ayıklamanıza olanak tanır. Müşteriler, Azure Video Indexer tarafından sunulan daha gelişmiş özellik kümesini kullanarak geçerli iş akışlarını değiştirebilir.
Media Services, ses ve video çözümleyicisi ön ayarlarını kullanarak video ve ses dosyalarınızdan içgörü ayıklamanıza olanak tanır. Bu makalede içgörüleri ayıklamak için kullanılan çözümleyici ön ayarları açıklanmaktadır. Videolarınızdan daha ayrıntılı içgörüler elde etmek istiyorsanız Azure Video Indexer hizmetini kullanın. Video Indexer ile Media Services çözümleyicisi ön ayarlarının ne zaman kullanılacağını anlamak için karşılaştırma belgesine göz atın.
Ses Çözümleyicisi ön ayarı için temel ve standart iki mod vardır. Aşağıdaki tabloda yer alan farkların açıklamasına bakın.
Media Services v3 ön ayarlarını kullanarak içeriğinizi analiz etmek için bir Dönüşüm oluşturur ve şu ön ayarlardan birini kullanan bir İş gönderirsiniz: VideoAnalyzerPreset veya AudioAnalyzerPreset.
Not
Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.
Uyumluluk, Gizlilik ve Güvenlik
Video Indexer kullanımınızda geçerli olan tüm yasalara uymanız gerekir ve Video Indexer'ı veya başka bir Azure hizmetini başkalarının haklarını ihlal eden veya başkalarına zarar veren bir şekilde kullanamazsınız. Biyometrik veriler dahil olmak üzere herhangi bir videoyu işlenmek ve depolamak üzere Video Indexer hizmetine yüklemeden önce, videodaki kişilerden gelen tüm uygun onaylar dahil olmak üzere tüm uygun haklara sahip olmanız gerekir. Azure Bilişsel Hizmetler Koşulları olan Video Indexer'da uyumluluk, gizlilik ve güvenlik hakkında bilgi edinmek için. Microsoft'un gizlilik yükümlülükleri ve verilerinizi işlemesi için Microsoft'un Gizlilik Bildirimi, Çevrimiçi Hizmet Koşulları ("OST") ve Veri İşleme Eki 'ni ("DPA") gözden geçirin. Veri saklama, silme/yok etme gibi daha fazla gizlilik bilgisi OST'de sağlanır. Video Indexer'ı kullanarak Bilişsel Hizmetler Koşulları, OST, DPA ve Gizlilik Bildirimi'ne bağlı olduğunuzu kabul etmiş olursunuz.
Yerleşik ön ayarlar
Media Services şu anda aşağıdaki yerleşik çözümleyici ön ayarlarını destekler:
Önceden ayarlanmış ad | Senaryo / Mod | Ayrıntılar |
---|---|---|
AudioAnalyzerPreset | Ses Standart modunu analiz etme | Ön ayar, konuşma transkripsiyonu dahil olmak üzere önceden tanımlanmış bir yapay zeka tabanlı analiz işlemleri kümesi uygular. Şu anda ön ayar, tek bir dilde konuşma içeren tek bir ses parçasıyla içerik işlemeyi destekler. 'language tag-region' öğesinin BCP-47 biçimini kullanarak girişteki ses yükünün dilini belirtin. Kullanılabilir dil kodları için aşağıdaki desteklenen diller listesine bakın. Otomatik dil algılama algılanan ilk dili seçer ve ayarlanmadıysa veya null olarak ayarlanmadıysa dosyanın tamamı için seçilen dille devam eder. Otomatik dil algılama özelliği şu anda şunları desteklemektedir: İngilizce, Çince, Fransızca, Almanca, İtalyanca, Japonca, İspanyolca, Rusça ve Brezilya Portekizcesi. İlk dil algılandıktan sonra diller arasında dinamik olarak geçişi desteklemez. Otomatik dil algılama özelliği, net bir şekilde ayırt edici konuşma içeren ses kayıtlarında en iyi şekilde çalışır. Otomatik dil algılama dili bulamazsa transkripsiyon İngilizceye geri döner. |
AudioAnalyzerPreset | Ses Temel modunu analiz etme | Bu ön ayar modu, konuşmayı metne dönüştürme transkripsiyonu ve VTT alt başlığı/başlık dosyası oluşturma işlemlerini gerçekleştirir. Bu modun çıkışında yalnızca anahtar sözcükler, transkripsiyon ve zamanlama bilgilerini içeren bir İçgörüler JSON dosyası bulunur. Otomatik dil algılama ve konuşmacıyı dağıtma bu moda dahil değildir. Desteklenen dillerin listesi yukarıdaki Standart modla aynıdır. |
VideoAnalyzerPreset | Ses ve video analizi | Hem ses hem de videodan içgörüleri (zengin meta veriler) ayıklar ve JSON biçimli bir dosya çıkarır. Video dosyasını işlerken yalnızca ses içgörülerini ayıklamak isteyip istemediğinizi belirtebilirsiniz. |
FaceDetectorPreset | Videoda bulunan yüzleri algılama | Mevcut tüm yüzleri algılamak için bir videoyu analiz ederken kullanılacak ayarları açıklar. |
Not
Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.
Desteklenen diller
- Arapça ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' ve 'ar-SY')
- Brezilya Portekizcesi ('pt-BR')
- Çince ('zh-CN')
- Danca ('da-DK')
- İngilizce ('en-US', 'en-GB' ve 'en-AU')
- Fince ('fi-FI')
- Fransızca ('fr-FR' ve 'fr-CA')
- Almanca ('de-DE')
- İbranice (he-IL)
- Hintçe ('hi-IN'), Korece ('ko-KR')
- İtalyanca ('it-IT')
- Japonca ('ja-JP')
- Norveç dili ('nb-NO')
- Farsça ('fa-IR')
- Portekiz Portekizcesi ('pt-PT')
- Rusça ('ru-RU')
- İspanyolca ('es-ES' ve 'es-MX')
- İsveççe ('sv-SE')
- Tay dili ('th-TH')
- Türkçe ('tr-TR')
Not
Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.
AudioAnalyzerPreset standart modu
Ön ayar, bir ses veya video dosyasından birden çok ses içgörüleri ayıklamanıza olanak tanır.
Çıkış, ses transkripti için bir JSON dosyası (tüm içgörülerle birlikte) ve VTT dosyası içerir. Bu ön ayar, giriş dosyasının dilini BCP47 dizesi biçiminde belirten bir özelliği kabul eder. Ses içgörüleri şunları içerir:
- Ses transkripsiyonu: Zaman damgaları içeren konuşulan sözcüklerin dökümü. Birden çok dil desteklenir.
- Anahtar Sözcükler: Ses transkripsiyonundan ayıklanan anahtar sözcükler.
AudioAnalyzerPreset temel modu
Ön ayar, bir ses veya video dosyasından birden çok ses içgörüleri ayıklamanıza olanak tanır.
Çıkış, ses transkripti için bir JSON dosyası ve VTT dosyası içerir. Bu ön ayar, giriş dosyasının dilini BCP47 dizesi biçiminde belirten bir özelliği kabul eder. Çıktı şunları içerir:
- Ses transkripsiyonu: Zaman damgaları içeren konuşulan sözcüklerin dökümü. Birden çok dil desteklenir, ancak otomatik dil algılama ve konuşmacıyı dağıtma dahil değildir.
- Anahtar Sözcükler: Ses transkripsiyonundan ayıklanan anahtar sözcükler.
VideoAnalyzerPreset
Ön ayar, bir video dosyasından birden çok ses ve video içgörüleri ayıklamanızı sağlar. Çıktıda bir JSON dosyası (tüm içgörülerle birlikte), video transkripti için bir VTT dosyası ve küçük resim koleksiyonu bulunur. Bu ön ayar ayrıca bir BCP47 dizesini (videonun dilini temsil eder) özellik olarak kabul eder. Video içgörüleri, yukarıda belirtilen tüm ses içgörülerini ve aşağıdaki ek öğeleri içerir:
- Yüz izleme: Videoda yüzlerin bulunduğu süre. Her yüzün bir yüz kimliği ve buna karşılık gelen küçük resim koleksiyonu vardır.
- Görsel metin: Optik karakter tanıma aracılığıyla algılanan metin. Metin zaman damgalıdır ve anahtar sözcükleri ayıklamak için de kullanılır (ses transkriptine ek olarak).
- Ana kareler: Videodan ayıklanan bir anahtar kare koleksiyonu.
- Görsel içerik moderasyonu: Videoların yetişkinlere uygun veya müstehcen olarak işaretlediği kısmı.
- Ek Açıklama: Önceden tanımlanmış bir nesne modeline göre videolara açıklama eklemenin sonucu
öğeleri insights.json
Çıktı, videoda veya seste bulunan tüm içgörüleri içeren bir JSON dosyası (insights.json) içerir. JSON aşağıdaki öğeleri içerebilir:
Transkript
Ad | Açıklama |
---|---|
kimlik | Satır kimliği. |
metin | Transkriptinin kendisi. |
language | Transkript dili. Her satırın farklı bir dile sahip olabileceği transkripti desteklemek için tasarlanmıştır. |
Örnek | Bu satırın göründüğü zaman aralıklarının listesi. Örnek transkript ise yalnızca bir örneği olur. |
Örnek:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
Ad | Açıklama |
---|---|
kimlik | OCR satır kimliği. |
metin | OCR metni. |
güvenilirlik | Tanıma güveni. |
language | OCR dili. |
Örnek | Bu OCR'nin göründüğü zaman aralıklarının listesi (aynı OCR birden çok kez görünebilir). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Yüz
Ad | Açıklama |
---|---|
kimlik | Yüz kimliği. |
name | Yüz adı. 'Bilinmeyen #0', kimliği belirlenen bir ünlü veya müşteri tarafından eğitilmiş bir kişi olabilir. |
güvenilirlik | Yüz tanımlama güveni. |
açıklama | Ünlünün açıklaması. |
thumbnailId | Bu yüzün küçük resminin kimliği. |
knownPersonId | İç kimlik (bilinen bir kişiyse). |
referenceId | Bing Kimliği (Bing ünlüsüyse). |
referenceType | Şu anda yalnızca Bing. |
başlık | Başlık ("Microsoft'un CEO'su" gibi bir ünlüyse). |
ımageurl | Ünlü biriyse resim URL'si. |
Örnek | Yüzün verilen zaman aralığında göründüğü örnekler. Her örneğin bir thumbnailsId değeri de vardır. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Çekim
Ad | Açıklama |
---|---|
kimlik | Atış kimliği. |
keyFrames | Çekimdeki anahtar çerçevelerin listesi (her birinin bir kimliği ve örnek zaman aralıkları listesi vardır). Anahtar çerçeve örnekleri, keyFrame'in küçük resim kimliğini içeren bir thumbnailId alanına sahiptir. |
Örnek | Bu çekimin zaman aralıklarının listesi (çekimlerin yalnızca bir örneği vardır). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
Istatistik
Ad | Açıklama |
---|---|
CorrespondenceCount | Videodaki yazışma sayısı. |
WordCount | Konuşmacı başına sözcük sayısı. |
SpeakerNumberOfFragments | Konuşmacının bir videodaki parça miktarı. |
SpeakerLongestMonolog | Konuşmacının en uzun monologu. Hoparlörün monologun içinde sessizlikler varsa, buna dahildir. Monologun başındaki ve sonundaki sessizlik kaldırılır. |
SpeakerTalkToListenRatio | Hesaplama, konuşmacının monologunda harcanan süreyi (aradaki sessizlik olmadan) videonun toplam süresine bölünerek temel alır. Saat, üçüncü ondalık ayırıcıya yuvarlandı. |
Etiket
Ad | Açıklama |
---|---|
kimlik | Etiket kimliği. |
name | Etiket adı (örneğin, 'Bilgisayar', 'TV'). |
language | Etiket adı dili (çevrildiğinde). BCP-47 |
Örnek | Bu etiketin göründüğü zaman aralıklarının listesi (bir etiket birden çok kez görünebilir). Her örneğin bir güvenilirlik alanı vardır. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
anahtar sözcükler
Ad | Açıklama |
---|---|
kimlik | Anahtar sözcük kimliği. |
metin | Anahtar sözcük metni. |
güvenilirlik | Anahtar sözcüğün tanıma güveni. |
language | Anahtar sözcük dili (çevrildiğinde). |
Örnek | Bu anahtar sözcüğün göründüğü zaman aralıklarının listesi (bir anahtar sözcük birden çok kez görünebilir). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
visualContentModeration bloğu, Video Indexer'ın yetişkinlere yönelik içeriğe sahip olabileceğini bulduğu zaman aralıklarını içerir. visualContentModeration boşsa, tanımlanan yetişkin içeriği yoktur.
Yetişkinlere yönelik veya müstehcen içerik içerdiği belirlenen videolar yalnızca özel görünüm için kullanılabilir. Kullanıcılar içeriğin insan incelemesi için bir istek gönderebilir ve bu durumda IsAdult
öznitelik, insan incelemesinin sonucunu içerir.
Ad | Açıklama |
---|---|
kimlik | Görsel içerik denetleme kimliği. |
adultScore | Yetişkin puanı (içerik moderatöründen). |
racyScore | Müstehcen puan (içerik denetiminden). |
Örnek | Bu görsel içerik denetiminin görüntülendiği zaman aralıklarının listesi. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Yardım ve destek alma
Aşağıdaki yöntemlerden birini kullanarak Media Services ile iletişime geçebilir veya güncelleştirmelerimizi izleyebilirsiniz:
- Q & A
-
Stack Overflow. soruları ile etiketleyin
azure-media-services
. - Destek istemek için @AzureSupport @MSFTAzureMedia veya kullanın.
- Azure portal üzerinden bir destek bileti açın.