Aracılığıyla paylaş


Medya transkripsiyonu, çeviri ve dil tanımlama içgörüleri alma

Önemli

Azure Media Services'ın kullanımdan kaldırılması nedeniyle Azure Video Indexer içeriğini geçirme son tarihi geçti. Daha fazla bilgi için kullanımdan kaldırma kılavuzuna bakın.

Medya transkripsiyonu, çeviri ve dil belirleme

Transkripsiyon, çeviri ve dil belirleme, medya dosyalarındaki konuşmayı algılar, düzenler ve 50'den fazla dile çevirir.

Azure AI Video Indexer (VI), daha sonra birçok dile çevrilen transkripsiyonu ayıklamak için ses dosyasındaki konuşmayı işler. Belirli bir dile çevirmeyi seçerken hem transkripsiyon hem de anahtar sözcükler, konular, etiketler veya OCR gibi içgörüler belirtilen dile çevrilir. Transkripsiyon olduğu gibi kullanılabilir veya transkriptleri eşleyen ve konuşmacılara atayan konuşmacı içgörüleriyle birleştirilebilir. Ses dosyasında birden çok hoparlör algılanabilir. Her konuşmacıya bir kimlik atanır ve bunların dökümü alınmış konuşmalarının altında görüntülenir.

Dil belirleme (LID), video dosyasında desteklenen baskın konuşulan dili tanır. Daha fazla bilgi için bkz . LID Uygulama.

Çok dilli tanımlama (MLID), ses dosyasındaki farklı segmentlerdeki konuşulan dilleri otomatik olarak tanır ve tanımlanan dillerde dökümü alınacak her kesimi gönderir. Bu işlemin sonunda tüm transkripsiyonlar aynı dosyada birleştirilir. Daha fazla bilgi için bkz . MLID Uygulama. Elde edilen içgörüler, kimlik, dil, döküm metni, süre ve güvenilirlik puanını içeren bir JSON dosyasında kategorilere ayrılmış bir listede oluşturulur.

Azure AI Video Indexer, medya dosyalarını birden çok hoparlörle dizine eklerken, bir videodaki her konuşmacıyı tanımlayan ve her bir dökümü alınmış satırı bir konuşmacıyla ilişkilendiren konuşmacı dikerleştirmesi gerçekleştirir. Konuşmacılara Konuşmacı #1 ve Konuşmacı #2 gibi benzersiz bir kimlik verilir. Bu, konuşmalar sırasında konuşmacıların tanımlanmasını sağlar ve doktor-hasta konuşmaları, aracı-müşteri etkileşimleri ve mahkeme işlemleri gibi çeşitli senaryolarda yararlı olabilir.

Medya transkripsiyonu, çeviri ve dil belirleme kullanım örnekleri

  • Metin transkripsiyonu ve çevirisini birden çok dile dönüştürme amacıyla Azure AI Video Indexer kullanarak işitme engelli kişilere içerik sunarak erişilebilirliği teşvik etme.
  • Azure AI Video Indexer'ın transkripsiyon ve çeviri özelliklerini kullanarak birden çok dilde içerik sunarak farklı bölgelerde ve dillerde farklı hedef kitlelere içerik dağıtımlarını geliştirme.
  • Azure AI Video Indexer'ın transkripsiyon ve çeviri özelliklerini kullanarak ve Azure AI Video Indexer tarafından oluşturulan kapalı açıklamalı alt yazıları desteklenen biçimlerden birinde kullanarak el ile kapalı açıklamalı alt yazı ve alt yazı oluşturmayı geliştirme ve geliştirme.
  • Azure AI Video Indexer'ın videoda görünen dilleri otomatik olarak tanımlamasına ve transkripsiyonu buna göre oluşturmasına olanak tanımak için, bilinmeyen dillerde videoların dökümünü almak için dil belirleme (LID) veya çok dilli tanımlama (MLID) kullanma.

Web portalı ile içgörü JSON'unu görüntüleme

Bir videoyu karşıya yükleyip dizine ekledikten sonra, web portalını kullanarak indirmek için JSON biçiminde içgörüler sağlanır.

  1. Kitaplık sekmesini seçin.
  2. Çalışmak istediğiniz medyayı seçin.
  3. İndir'i ve İçgörüler 'i (JSON) seçin. JSON dosyası yeni bir tarayıcı sekmesinde açılır.
  4. Örnek yanıtta açıklanan anahtar çiftini arayın.

API’yi kullanma

  1. Video Dizini Al isteğini kullanın. geçirmenizi &includeSummarizedInsights=falseöneririz.
  2. Örnek yanıtta açıklanan anahtar çiftlerini arayın.

Örnek yanıt

Videoda algılanan tüm diller sourceLanauge altındadır ve transkripsiyondaki her örnek, transkripsiyon dilini içerir.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Önemli

Tüm VI özellikleri için saydamlık notunun genel bakışını okumak önemlidir. Her içgörüde kendi saydamlık notları da vardır:

Transkripsiyon, çeviri ve dil tanımlama notları

Azure AI Video Indexer, sorumlu ve dikkatli kullanıldığında birçok sektör için değerli bir araçtır. Başkalarının gizliliğine ve güvenliğine her zaman saygı duymanız ve yerel ve küresel düzenlemelere uymanız gerekir. Şunları öneririz:

  • Sonuçların doğruluğunu dikkatle değerlendirin, daha doğru verileri teşvik edin, ses kalitesini denetleyin, düşük kaliteli ses algılanan içgörüleri etkileyebilir.
  • Video Indexer konuşmacı tanıma gerçekleştirmez, bu nedenle konuşmacılara birden çok dosyada bir tanımlayıcı atanmaması gerekir. Birden çok dosyada veya transkriptte tek bir konuşmacıyı arayamazsınız.
  • Konuşmacı tanımlayıcıları rastgele atanır ve yalnızca tek bir dosyadaki farklı konuşmacıları ayırt etmek için kullanılabilir.
  • Çapraz konuşma ve çakışan konuşma: Birden çok konuşmacı aynı anda konuştuğunda veya birbirini kestiğinde, modelin ilgili konuşmacıları doğru şekilde ayırt edip doğru metni ataması zorlaşır.
  • Konuşmacı çakışmaları: Bazen konuşmacıların benzer konuşma desenleri, aksanları olabilir veya benzer sözcük dağarcığı kullanabilir ve bu da modelin aralarında ayrım yapmasını zorlaştırır.
  • Gürültülü ses: Düşük ses kalitesi, arka plan gürültüsü veya düşük kaliteli kayıtlar, modelin hoparlörleri doğru şekilde tanımlama ve dökümünü alma becerisini engelleyebilir.
  • Duygusal Konuşma: Bağırma, ağlama veya aşırı heyecan gibi konuşmadaki duygusal değişimler, modelin hoparlörleri doğru bir şekilde dikleştirme yeteneğini etkileyebilir.
  • Konuşmacının gizlenmesi veya kimliğe bürünülmesi: Bir konuşmacı kasıtlı olarak sesini taklit etmeye veya gizlemeye çalışırsa, model hoparlörü yanlış tanımlayabilir.
  • Belirsiz konuşmacı belirleme: Bazı konuşma segmentleri, modelin belirli bir konuşmacıya güvenle bağlanacak kadar benzersiz özelliklere sahip olmayabilir.
  • Seçtiğiniz diller dışındaki dilleri içeren ses beklenmeyen sonuçlar üretir.
  • Her dili algılamak için minimum segment uzunluğu 15 saniyedir.
  • Dil algılama uzaklığı ortalama 3 saniyedir.
  • Konuşmanın sürekli olması beklenir. Diller arasındaki sık değişiklikler modelin performansını etkileyebilir.
  • Ana dili olmayan konuşmacıların konuşması modelin performansını etkileyebilir (örneğin, konuşmacılar ilk dillerini kullandığında ve başka bir dile geçtiğinde).
  • Model, makul ses akustikleri (sesli komutlar, şarkılar vb.) ile spontan konuşmaları tanıyacak şekilde tasarlanmıştır.
  • Çok dilli videolar için proje oluşturma ve düzenleme kullanılamaz.
  • Çoklu dil algılama kullanılırken özel dil modelleri kullanılamaz.
  • Anahtar sözcük ekleme desteklenmez.
  • Dil göstergesi, dışarı aktarılan kapalı açıklamalı alt yazı dosyasına dahil değildir.
  • API'deki güncelleştirme transkripti birden çok dil dosyasını desteklemez.
  • Model, spontane konuşmaları (sesli komutlar, şarkılar vb.) tanıyacak şekilde tasarlanmıştır.
  • Azure AI Video Indexer yeterince yüksek bir güvenle dili belirleyemiyorsa (0,6'dan büyük), geri dönüş dili İngilizce'dir.

Desteklenen dillerin listesi aşağıdadır.

Transkripsiyon, çeviri ve dil tanımlama bileşenleri

Transkripsiyon, çeviri ve dil belirleme yordamı sırasında, medya dosyasındaki konuşma aşağıdaki gibi işlenir:

Bileşen Tanım
Kaynak dil Kullanıcı, dizin oluşturma için kaynak dosyayı karşıya yükler ve aşağıdakilerden birini kullanır:
- Video kaynak dilini belirtir.
- Dosyanın dilini tanımlamak için tek dili otomatik algılamayı (LID) seçer. Çıkış ayrı olarak kaydedilir.
- Dosyadaki birden çok dili tanımlamak için çoklu dili (MLID) otomatik algılamayı seçer. Her dilin çıkışı ayrı olarak kaydedilir.
Transkripsiyon API'si Ses dosyası, dökümü alınmış ve çevrilmiş çıkışı almak için Azure AI hizmetlerine gönderilir. Bir dil belirtilirse, buna göre işlenir. Dil belirtilmezse, dosyanın işlendiği dili tanımlamak için bir LID veya MLID işlemi çalıştırılır.
Çıktı birleştirme Dökümü alınmış ve çevrilmiş dosyalar aynı dosyada birleştirilir. Çıkarılan veriler, ayıklanan her cümlenin konuşmacı kimliğini ve güvenilirlik düzeyini içerir.
Güvenilirlik değeri Her cümlenin tahmini güvenilirlik düzeyi 0 ile 1 arasında bir aralık olarak hesaplanır. Güvenilirlik puanı, sonucun doğruluğundaki kesinliği temsil eder. Örneğin, %82'lik bir kesinlik 0,82 puanı olarak gösterilir.

Örnek kod

VI için tüm örneklere bakın