Ses ve videodan bilgi ayıklama
Tip
Daha fazla ayrıntı için Metin ve resimler sekmesine bakın!
İş bilgileri, ses ve video dosyaları gibi multimedya biçimlerinde giderek daha fazla bulunur. Örneğin, işletmeler genellikle aramaları daha sonra analiz etmek için kaydeder. Görüntülü konferansın büyümesi, yararlı bilgilerin genellikle kayıtlı toplantılarda yakalanması anlamına gelir. Azure Content Understanding hem ses hem de video veri ayıklama ve analiz işlemlerini destekler.
Sesten yapılandırılmış verileri ayıklama
Ses dosyalarından transkripsiyonlar, özetler ve diğer önemli içgörüler sağlamak için Azure Content Understanding'i kullanabilirsiniz.
Yapay zekanın sesli mesajlarınızı özetlemesini istediğinizi varsayalım. Kaydedilen her çağrıdan ayıklamak için aşağıdaki gibi önemli içgörüler şeması tanımlayabilirsiniz:
- Çağıran
- İleti özeti
- İstenen eylemler
- Geri arama numarası
- Alternatif iletişim bilgileri
Şimdi bir arayanın size aşağıdaki sesli mesajı bıraktığını varsayalım:
Hi, this is Ava from Contoso.
Just calling to follow up on our meeting last week.
I wanted to let you know that I've run the numbers and I think we can meet your price expectations.
Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.
Thanks, bye!
Ses kaydını analiz etmek ve şemanızı uygulamak için Azure Content Understanding'in kullanılması aşağıdaki sonuçları verir:
- Arayan: Contoso'dan Ava
- İleti özeti: Contoso'dan Ava, bir toplantıyı takip etmek için aradı ve fiyat beklentilerini karşılayabileceklerinden bahsetti. Sonraki adımları tartışmak için bir geri arama veya e-posta istedi.
- İstenen eylemler: Sonraki adımları tartışmak için geri arayın veya bir e-posta gönderin.
- Geri arama numarası: 555-12345
- Alternatif iletişim bilgileri: Ava@contoso.com
Foundry portalında ses analizi
Belge analizinde olduğu gibi, yeni Foundry portalında Content Understanding kullanmak, kodda iş akışını otomatikleştirmeden önce çözümleyicinizin beklediğiniz alanları döndürdüğünü doğrulamanın hızlı bir yoludur.
Portalda şunları yapabilirsiniz:
- Bir ses veya video çözümleyicisi seçin ve bunu bir medya dosyasında çalıştırın.
- Şemanıza göre transkriptler (ses için) ve ayıklanmış içgörüler gibi çıkışları gözden geçirin.
- Aşağı akış sistemlerinde daha fazla işlem için döndürülen JSON sonuçlarını görüntüleyin.
Şimdi arama kaydını analiz etmek için içerik anlama özelliğini nasıl kullanabileceğimizi görelim. Aramanın tamamını dinlemek yerine, önceden oluşturulmuş ses çözümleyicisini çalıştırarak sesten bilgi ayıklayabilirsiniz. Analiz tamamlandığında, çağrının yazılı bir dökümünü görebilirsiniz.
Döndürülen sonuçlarda, aramadan belirli bilgileri görebilirsiniz. İçerik anlamadaki diğer çözümleyicilerde olduğu gibi sonuçlar da daha fazla işleme için JSON biçimindedir.
Videodan yapılandırılmış verileri ayıklama
Azure Content Understanding video analizini de destekler. Örneğin, katılım, konum ve diğer bilgilerin ayrıntılarını ayıklamak için kaydedilmiş bir video konferansı analiz edebilirsiniz.
İlk olarak konferans odası kamerasından bir görüntüye bakalım. Aşağıdaki şemayı tanımladığınız varsayın:
- Yer
- Bizzat katılanlar
- Uzak katılımcılar
- Toplam katılımcı sayısı
Konferans odası kamerasından bir görüntüyü analiz etmek için Azure Content Understanding'i kullanabilirsiniz:
Şemayı görüntüye uyguladıktan sonra Azure Content Understanding yapılandırılmış verileri döndürdü:
- Konum: Konferans odası
- Yüz yüze katılımcılar: 1
- Uzak katılımcılar: 3
- Toplam katılımcı sayısı: 4
Toplantının video kaydı için şemaya neler ekleyebileceğinizi düşünün. Çeşitli zaman aralıklarında katılım sayımlarını, arama sırasında kimlerin konuştuğunun ve ne söylediklerinin ayrıntılarını, tartışmanın özetini ve toplantıdan atanan eylemlerin listesini ekleyebilirsiniz.
Ses veya video çözümleyicileri ile istemci uygulaması oluşturma
Ses veya videoyu program aracılığıyla analiz etmek için Content Understanding API'sini kullanarak basit bir istemci uygulaması oluşturabilirsiniz.
Şimdi Python SDK'sını kullanarak bir örneğe göz atalım. Aşağıdaki kodu çalıştırdığınızda, önceden oluşturulmuş bir çözümleyici kullanarak bir ses dosyasını analiz eder. Önceden oluşturulmuş çözümleyici olarak prebuilt-audioSearchtanımlanır.
import os
from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential
# Endpoint and key for your Foundry resource
endpoint = os.environ["FOUNDRY_ENDPOINT"] # e.g., "https://<resource>.services.ai.azure.com/"
key = os.environ["FOUNDRY_KEY"]
client = ContentUnderstandingClient(
endpoint=endpoint,
credential=AzureKeyCredential(key)
)
# Choose a prebuilt analyzer for audio
# (The documents module lists examples like prebuilt-audioSearch / prebuilt-videoSearch.)
analyzer_id = "prebuilt-audioSearch"
# Provide an input audio file (URL shown here; you can swap in your own accessible media URL)
inputs = [
{"url": "https://<your-host>/samples/voicemail.wav"}
]
# Start analysis (asynchronous long-running operation)
poller = client.begin_analyze(analyzer_id=analyzer_id, inputs=inputs)
# Wait for completion (SDK polls under the hood)
result = poller.result()
# Inspect the structured output (JSON-like objects)
for content in result.contents:
# Some analyzers may return a transcript and/or extracted fields depending on the analyzer and schema
print("=== MARKDOWN / TRANSCRIPT (if provided) ===")
print(getattr(content, "markdown", None))
print("\n=== EXTRACTED FIELDS ===")
print(getattr(content, "fields", None))
Microsoft Foundry'de içerik anlama ile ses ve video analizi, herhangi bir biçimde iş verilerinin potansiyelini ortaya çıkarma fırsatı sunar. Ardından Content Understanding'i kendiniz deneyin.