Konuşmayı metne dönüştüren resim yazısı

Makale
02/16/2024

Bu kılavuzda, konuşmayı metne dönüştürerek başlık oluşturmayı öğreneceksiniz. Açıklamalı alt yazı, bir televizyon yayınının, web yayınının, filmin, videonun, canlı etkinliğin veya başka bir yayının ses içeriğini metne dönüştürme ve ardından metni bir ekranda, monitörde veya başka bir görsel görüntü sisteminde görüntüleme işlemidir.

Kavramlar, başlık giriş sesinizle eşitlemeyi, küfür filtreleri uygulamayı, kısmi sonuçlar almayı, özelleştirmeleri uygulamayı ve çok dilli senaryolar için konuşulan dilleri tanımlamayı içerir. Bu kılavuz konuşma başlık kapsar, ancak konuşmacı kimliğini veya zil çalma gibi ses efektlerini içermez.

Bazı yaygın başlık senaryoları şunlardır:

Çevrimiçi kurslar ve eğitim videoları
Spor etkinlikleri
Sesli ve görüntülü aramalar

başlık kullanırken dikkate alınması gereken yönler şunlardır:

hedef kitlenize başlık otomatik bir hizmet tarafından oluşturulduğunu bildirin.
Başlık yatay olarak ekranda, büyük ve göze çarpan bir yazı tipinde ortalar.
Kısmi sonuçların kullanılıp kullanılmayacağını, başlık görüntülemeye ne zaman başlayacağını ve aynı anda gösterilecek sözcük sayısını göz önünde bulundurun.
SMPTE-TT gibi protokolleri başlık hakkında bilgi edinin.
SRT (SubRip Text) ve WebVTT (Web Video Metin Parçaları) gibi çıkış biçimlerini göz önünde bulundurun. Bunlar VLC gibi video oynatıcıların çoğuna yüklenebilir ve videonuza otomatik olarak başlık eklenebilir.

İpucu

Speech Studio'yu deneyin ve gerçek zamanlı veya çevrimdışı işlenen sonuçları başlık görmek için örnek bir video klibi seçin.

Karşıya yüklediğiniz videolar için başlık nasıl edinebileceğinizi gösteren bir örnek olarak Azure AI Video Indexer'ı deneyin.

Açıklamalı alt yazılar gerçek zamanlı veya önceden kaydedilmiş konuşmalara eşlik edebilir. İster gerçek zamanlı olarak ister bir kayıtla başlık gösteriyor olun, konuşmayı tanımak ve transkripsiyonları almak için Konuşma SDK'sını veya Konuşma CLI'sini kullanabilirsiniz. Önceden kaydedilmiş video için Batch transkripsiyon API'sini de kullanabilirsiniz.

Resim yazısı çıkış biçimi

Konuşma hizmeti SRT (SubRip Text) ve WebVTT (Web Video Metin Parçaları) gibi çıkış biçimlerini destekler. Bunlar VLC gibi video oynatıcıların çoğuna yüklenebilir ve videonuza otomatik olarak başlık eklenebilir.

İpucu

Konuşma hizmeti küfür filtresi seçenekleri sağlar. Küfürlerin maskeleneceğini, kaldırılacağını veya gösterileceğini belirtebilirsiniz.

SRT (SubRip Text) zaman aralığı çıkış biçimi şeklindedirhh:mm:ss,fff.

1
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

WebVTT (Web Video Metin Parçaları) zaman aralığı çıkış biçimidirhh:mm:ss.fff.

WEBVTT

00:00:00.180 --> 00:00:03.230
Welcome to applied Mathematics course 201.
{
  "ResultId": "8e89437b4b9349088a933f8db4ccc263",
  "Duration": "00:00:03.0500000"
}

Konuşma hizmetine ses girişi

Gerçek zamanlı başlık için dosya girişi yerine bir mikrofon veya ses giriş akışı kullanın. Mikrofondan konuşmayı tanıma örnekleri için Konuşmayı metne dönüştürme hızlı başlangıcına ve Konuşma tanıma belgelerine bakın. Akış hakkında daha fazla bilgi için bkz . Ses giriş akışını kullanma.

Önceden kayıt başlık için Konuşma hizmetine dosya girişi gönderin. Daha fazla bilgi için bkz . Sıkıştırılmış giriş sesini kullanma.

Resim yazısı ve konuşma eşitleme

başlık gerçek zamanlı veya önceden kaydedilmiş bir kayıtla ses parçasıyla eşitlemek istiyorsunuz.

Konuşma tanıma hizmeti, tanınan konuşmanın uzaklığını ve süresini döndürür.

Uzaklık: Tanınan ses akışına uzaklık, süre olarak ifade edilir. Uzaklık, (sıfır) onay işaretinden 0 başlayarak, SDK tarafından işlenen ilk ses baytıyla ilişkili değer değerlerinde ölçülür. Örneğin, tanımayı başlattığınızda uzaklık başlar, çünkü SDK ses akışını işlemeye başlar. Bir değer, yüz nanosaniyeyi veya saniyenin on milyonda birini temsil eder.
Süre: Tanınmakta olan konuşmanın süresi. Kenelerdeki süre, sondaki veya öndeki sessizliği içermez.

Daha fazla bilgi için bkz . Konuşma tanıma sonuçlarını alma.

Kısmi sonuçlar alma

başlık'leri görüntülemeye ne zaman başlayacağınız ve bir kerede gösterilecek sözcük sayısını göz önünde bulundurun. Konuşma tanıma sonuçları, konuşma tanınmaya devam ederken değiştirilebilir. Kısmi sonuçlar her Recognizing olayla birlikte döndürülür. Her sözcük işlenirken Konuşma tanıma hizmeti yeni bağlamda bir konuşmayı yeniden değerlendirir ve en iyi sonucu döndürür. Yeni sonucun önceki sonuçla aynı olacağı garanti değildir. Bir konuşmanın tam ve son transkripsiyonu olayla birlikte Recognized döndürülür.

Not

Kısmi sonuçların noktalama işaretleri kullanılamaz.

Önceden kaydedilmiş konuşmanın başlık için veya gecikme süresinin önemli olmadığı durumlarda, herhangi bir sözcüğü görüntülemeden önce her konuşmanın tam dökümünü bekleyebilirsiniz. Bir konuşmadaki her sözcüğün son uzaklığı ve süresi göz önüne alındığında, sonraki sözcüklerin film müziğiyle ne zaman hızlı bir şekilde gösterileceğini bilirsiniz.

Gerçek zamanlı başlık, gecikme süresi ve doğrulukla ilgili dengeleri sunar. Her Recognizing olayın metnini mümkün olan en kısa sürede gösterebilirsiniz. Ancak, biraz gecikmeyi kabul edebilirseniz, olaydaki metni Recognized görüntüleyerek başlık doğruluğunu geliştirebilirsiniz. "Kararlı kısmi sonuçlar" olarak adlandırılan bir orta alan da vardır.

Konuşma hizmetinin daha doğru olan daha Recognizing az olay döndürmesini isteyebilirsiniz. Bu, özelliği ile 2147483647arasında 0 bir değere ayarlanarak SpeechServiceResponse_StablePartialResultThreshold yapılır. Ayarladığınız değer, Konuşma hizmeti bir olay döndürmeden Recognizing önce bir sözcüğün kaç kez tanınması gerektiğini belirtir. Örneğin, özellik değerini olarak 5ayarlarsanız SpeechServiceResponse_StablePartialResultThreshold Konuşma hizmeti, kısmi sonuçları bir olayla Recognizing size döndürmeden önce sözcüğün tanınmasını en az beş kez onaylar.

speechConfig.SetProperty(PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig->SetProperty(PropertyId::SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig.SetProperty(common.SpeechServiceResponseStablePartialResultThreshold, 5)

speechConfig.setProperty(PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig.setProperty(sdk.PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

[self.speechConfig setPropertyTo:5 byId:SPXSpeechServiceResponseStablePartialResultThreshold];

self.speechConfig!.setPropertyTo(5, by: SPXPropertyId.speechServiceResponseStablePartialResultThreshold)

speech_config.set_property(property_id = speechsdk.PropertyId.SpeechServiceResponse_StablePartialResultThreshold, value = 5)

spx recognize --file caption.this.mp4 --format any --property SpeechServiceResponse_StablePartialResultThreshold=5 --output vtt file - --output srt file -

Daha kararlı kısmi sonuçlar istemek, "titreyen" veya değişen metni azaltır, ancak daha yüksek güvenilirlik sonuçlarını beklerken gecikme süresini artırabilir.

Kararlı kısmi eşik örneği

Kararlı bir kısmi eşik ayarlamadan aşağıdaki tanıma dizisinde "matematik" bir sözcük olarak kabul edilir, ancak son metin "matematik" olur. Başka bir noktada "kurs 2" tanınır, ancak son metin "kurs 201"dir.

RECOGNIZING: Text=welcome to
RECOGNIZING: Text=welcome to applied math
RECOGNIZING: Text=welcome to applied mathematics
RECOGNIZING: Text=welcome to applied mathematics course 2
RECOGNIZING: Text=welcome to applied mathematics course 201
RECOGNIZED: Text=Welcome to applied Mathematics course 201.

Önceki örnekte transkripsiyonlar ekliydi ve metin geri çekilmedi. Ancak bazı durumlarda kısmi sonuçların yanlış olduğunu fark edebilirsiniz. Her iki durumda da kararsız kısmi sonuçlar görüntülendiğinde "titreyen" olarak algılanabilir.

Bu örnekte, kararlı kısmi sonuç eşiği olarak 5ayarlanırsa hiçbir sözcük değiştirilmez veya geri izlenmez.

RECOGNIZING: Text=welcome to
RECOGNIZING: Text=welcome to applied
RECOGNIZING: Text=welcome to applied mathematics
RECOGNIZED: Text=Welcome to applied Mathematics course 201.

Dil belirleme

Sesteki dil değişebiliyorsa sürekli dil belirlemeyi kullanın. Dil belirleme, desteklenen diller listesiyle karşılaştırıldığında seste konuşulan dilleri tanımlamak için kullanılır. En az biri seste beklenen 10'a kadar aday dil sağlarsınız. Konuşma hizmeti sesteki en olası dili döndürür.

Doğruluğu geliştirmek için özelleştirmeler

Tümcecik listesi , konuşma tanımaya başlamadan hemen önce sağladığınız sözcüklerin veya tümceciklerin listesidir. Tümcecik listesine tümcecik eklemek önemini artırır ve bu nedenle tanınma olasılığını artırır.

Tümceciklere örnek olarak şunlar verilebilir:

Adlar
Coğrafi konumlar
Eş adlılar
Sektörünüz veya kuruluşunuza özgü sözcükler veya kısaltmalar

Özel modeli eğitmek, doğruluğu artırmak için en iyi seçenek olabilir. Örneğin, ortodontik dersler başlık, ilgili etki alanı verileriyle özel bir model eğitmek isteyebilirsiniz.