Aracılığıyla paylaş


Medya transkripsiyonu, çeviri ve dil belirleme

Uyarı

Azure AI Video Indexer (VI) geçtiğimiz yıl kullanımdan kaldırılma nedeniyle Azure Media Services'a (AMS) bağımlılığının kaldırılmaya başlanacağını duyurdu. Özellik ayarlamaları ve değişiklikler duyuruldu ve bir geçiş kılavuzu sağlandı.

Geçişi tamamlamak için son tarih 30 Haziran 2024'dü. VI, VI hesabınızı güncelleştirebilmeniz ve AMS VI varlık geçişini 31 Ağustos 2024'e kadar kabul edebilmeniz için güncelleştirme/geçiş son tarihini uzatmıştır.

Ancak 30 Haziran'dan sonra VI hesabınızı güncelleştirmediyseniz yeni videoları dizine ekleyemez veya geçirilmemiş videoları oynatamazsınız. Hesabınızı 30 Haziran'dan sonra güncelleştirirseniz, dizin oluşturmayı hemen sürdürebilirsiniz, ancak AMS VI geçişi aracılığıyla geçirilene kadar hesap güncelleştirmeden önce dizine alınmış videoları oynatamazsınız.

Azure AI Video Indexer transkripsiyonu, çevirisi ve dil belirlemesi, medya dosyalarındaki konuşmayı otomatik olarak algılar, dökümünü alır ve 50'den fazla dile çevirir.

  • Azure AI Video Indexer, ses dosyasındaki konuşmayı işler ve ardından birçok dile çevrilen transkripsiyonu ayıklar. Belirli bir dile çevirmeyi seçerken hem transkripsiyon hem de anahtar sözcükler, konular, etiketler veya OCR gibi içgörüler belirtilen dile çevrilir. Transkripsiyon olduğu gibi kullanılabilir veya transkriptleri eşleyen ve konuşmacılara atayan konuşmacı içgörüleriyle birleştirilebilir. Ses dosyasında birden çok hoparlör algılanabilir. Her konuşmacıya bir kimlik atanır ve bunların dökümü alınmış konuşmalarının altında görüntülenir.
  • Azure AI Video Indexer dil belirleme (LID), video dosyasında desteklenen baskın konuşulan dili otomatik olarak tanır. Daha fazla bilgi için bkz . LID Uygulama.
  • Azure AI Video Indexer çok dilli tanımlama (MLID), ses dosyasındaki farklı segmentlerdeki konuşulan dilleri otomatik olarak tanır ve tanımlanan dillerde dökümü alınacak her kesimi gönderir. Bu işlemin sonunda tüm transkripsiyonlar aynı dosyada birleştirilir. Daha fazla bilgi için bkz . MLID Uygulama. Elde edilen içgörüler, kimlik, dil, döküm metni, süre ve güvenilirlik puanını içeren bir JSON dosyasında kategorilere ayrılmış bir listede oluşturulur.
  • Azure AI Video Indexer, medya dosyalarını birden çok hoparlörle dizine eklerken, bir videodaki her konuşmacıyı tanımlayan ve her bir dökümü alınmış satırı bir konuşmacıyla ilişkilendiren konuşmacı dikerleştirmesi gerçekleştirir. Konuşmacılara Konuşmacı #1 ve Konuşmacı #2 gibi benzersiz bir kimlik verilir. Bu, konuşmalar sırasında konuşmacıların tanımlanmasını sağlar ve doktor-hasta konuşmaları, aracı-müşteri etkileşimleri ve mahkeme işlemleri gibi çeşitli senaryolarda yararlı olabilir.

Önkoşullar

Saydamlık notunu gözden geçirme genel bakış

İçgörüleri görüntüleme

Web sitesindeki içgörüleri görüntülemek için:

  1. İçgörüler'e gidin ve Transkripsiyon ve Çeviri'ye gidin.

dilinde dil içgörülerini insights.jsongörüntülemek için:

  1. İndir -> İçgörüler (JSON) seçeneğini belirleyin.

  2. İstediğiniz öğeyi altında insightskopyalayın ve çevrimiçi JSON görüntüleyicinize yapıştırın.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },
    

JSON dosyasını API aracılığıyla indirmek için Azure AI Video Indexer geliştirici portalını kullanın.

Transkripsiyon, çeviri ve dil tanımlama bileşenleri

Transkripsiyon, çeviri ve dil belirleme yordamı sırasında, medya dosyasındaki konuşma aşağıdaki gibi işlenir:

Bileşen Tanım
Kaynak dil Kullanıcı, dizin oluşturma için kaynak dosyayı karşıya yükler ve aşağıdakilerden birini kullanır:
- Video kaynak dilini belirtir.
- Dosyanın dilini tanımlamak için tek dili otomatik algılamayı (LID) seçer. Çıkış ayrı olarak kaydedilir.
- Dosyadaki birden çok dili tanımlamak için çoklu dili (MLID) otomatik algılamayı seçer. Her dilin çıkışı ayrı olarak kaydedilir.
Transkripsiyon API'si Ses dosyası, dökümü alınmış ve çevrilmiş çıkışı almak için Azure AI hizmetlerine gönderilir. Bir dil belirtilirse, buna göre işlenir. Dil belirtilmezse, dosyanın işlendiği dili tanımlamak için bir LID veya MLID işlemi çalıştırılır.
Çıktı birleştirme Dökümü alınmış ve çevrilmiş dosyalar aynı dosyada birleştirilir. Çıkarılan veriler, ayıklanan her cümlenin konuşmacı kimliğini ve güvenilirlik düzeyini içerir.
Güvenilirlik değeri Her cümlenin tahmini güvenilirlik düzeyi 0 ile 1 arasında bir aralık olarak hesaplanır. Güvenilirlik puanı, sonucun doğruluğundaki kesinliği temsil eder. Örneğin, %82'lik bir kesinlik 0,82 puanı olarak gösterilir.

Kullanım örnekleri

  • Metin transkripsiyonu ve çevirisini birden çok dile dönüştürme amacıyla Azure AI Video Indexer kullanarak işitme engelli kişilere içerik sunarak erişilebilirliği teşvik etme.
  • Azure AI Video Indexer'ın transkripsiyon ve çeviri özelliklerini kullanarak birden çok dilde içerik sunarak farklı bölgelerde ve dillerde farklı hedef kitlelere içerik dağıtımlarını geliştirme.
  • Azure AI Video Indexer'ın transkripsiyon ve çeviri özelliklerini kullanarak ve Azure AI Video Indexer tarafından oluşturulan kapalı açıklamalı alt yazıları desteklenen biçimlerden birinde kullanarak el ile kapalı açıklamalı alt yazı ve alt yazı oluşturmayı geliştirme ve geliştirme.
  • Azure AI Video Indexer'ın videoda görünen dilleri otomatik olarak tanımlamasına ve transkripsiyonu buna göre oluşturmasına olanak tanımak için, bilinmeyen dillerde videoların dökümünü almak için dil belirleme (LID) veya çok dilli tanımlama (MLID) kullanma.

Kullanım örneği seçerken dikkat edilmesi gerekenler ve sınırlamalar

Azure AI Video Indexer, sorumlu ve dikkatli kullanıldığında birçok sektör için değerli bir araçtır. Başkalarının gizliliğine ve güvenliğine saygı duyması ve yerel ve küresel düzenlemelere uyması için şunları öneririz:

  • Sonuçların doğruluğunu dikkatle değerlendirin, daha doğru verileri teşvik edin, ses kalitesini kontrol edin, düşük kaliteli ses algılanan içgörüleri etkileyebilir.
  • Video Indexer konuşmacı tanıma gerçekleştirmez, bu nedenle konuşmacılara birden çok dosyada bir tanımlayıcı atanmaması gerekir. Birden çok dosyada veya transkriptte tek bir konuşmacıyı arayamazsınız.
  • Konuşmacı tanımlayıcıları rastgele atanır ve yalnızca tek bir dosyadaki farklı konuşmacıları ayırt etmek için kullanılabilir.
  • Çapraz konuşma ve çakışan konuşma: Birden çok konuşmacı aynı anda konuştuğunda veya birbirini kestiğinde, modelin ilgili konuşmacıları doğru şekilde ayırt edip doğru metni ataması zorlaşır.
  • Konuşmacı çakışmaları: Bazen konuşmacıların benzer konuşma desenleri, aksanları olabilir veya benzer sözcük dağarcığı kullanabilir ve bu da modelin aralarında ayrım yapmasını zorlaştırır.
  • Gürültülü ses: Düşük ses kalitesi, arka plan gürültüsü veya düşük kaliteli kayıtlar, modelin hoparlörleri doğru şekilde tanımlama ve dökümünü alma becerisini engelleyebilir.
  • Duygusal Konuşma: Bağırma, ağlama veya aşırı heyecan gibi konuşmadaki duygusal değişimler, modelin hoparlörleri doğru bir şekilde dikleştirme yeteneğini etkileyebilir.
  • Konuşmacının gizlenmesi veya kimliğe bürünülmesi: Bir konuşmacı kasıtlı olarak sesini taklit etmeye veya gizlemeye çalışırsa, model hoparlörü yanlış tanımlayabilir.
  • Belirsiz konuşmacı belirleme: Bazı konuşma segmentleri, modelin belirli bir konuşmacıya güvenle bağlanacak kadar benzersiz özelliklere sahip olmayabilir.

Daha fazla bilgi için bkz. Dil algılama ve transkripsiyon ile ilgili yönergeler ve sınırlamalar.