Konuşmacı Tanıma

Azure AI Hizmetleri - Konuşma Tanıma Hizmeti konuşmacı tanıma, konuşmacıları benzersiz ses özelliklerine göre doğrulayan ve tanımlayan algoritmalar sağlar. Konuşmacı Tanıma, "kim konuşuyor?" sorusunu yanıtlamak için kullanılır. Daha fazla bilgi edinin.

Ses, bir kişiyle ilişkilendirilebilen benzersiz özelliklere sahiptir. Konuşmacı Tanıma teknolojilerinin iki önemli uygulaması için Konuşmacı Doğrulama API'leri ve Konuşmacı Belirleme API'leri sağlıyoruz.

Konuşmacı Doğrulama

Konuşmacı doğrulaması metne bağımlı veya metinden bağımsız olabilir. Metne bağımlı doğrulama, konuşmacıların hem kayıt hem de doğrulama aşamalarında kullanmak üzere aynı parolayı seçmesi gerektiği anlamına gelir. Hem konuşma içeriğinin hem de ses imzasının doğrulanması çok faktörlü doğrulama senaryolarını kolaylaştırır; Metinden bağımsız doğrulama, konuşmacıların günlük dilde kayıt ve doğrulama tümceciklerinde konuşabileceği anlamına gelir.

Metne Bağımlı Konuşmacı Doğrulama

Konuşmacı kayıt aşamasında, önceden tanımlanmış bir tümcecik kümesinden bir parola söylenerek konuşmacının sesi kaydedilir. Ses özellikleri, seçilen parola tanınırken benzersiz bir ses imzası oluşturmak için ses kaydından ayıklanır. Ses imzası ve parola birlikte hoparlörü doğrulamak için kullanılır.

Doğrulama aşamasında, doğrulanacak kişiyle ilişkilendirilmiş kimlik konuşmacı doğrulama API'sine gönderilir. Konuşmacı doğrulama hizmeti, giriş konuşma kaydından ses özelliklerini ve parolayı ayıklar. Ardından ses özelliklerini ve parolayı ilgili konuşmacının kayıt profiliyle karşılaştırır.

Yanıt, 0 ile 1 arasında bir benzerlik puanıyla "Kabul Et" veya "Reddet" döndürür. "Kabul Et" veya "Reddet" yanıtı hem konuşmacı doğrulama sonucunu hem de konuşma tanıma sonucunu birleştiren bir sonuç olurken, benzerlik puanı yalnızca ses benzerliğini ölçer. Konuşma tanıma sonucu kayıt tümceciğiyle eşleştiğinde ve ses benzerlik puanı 0,5'e eşit veya daha büyük olduğunda "Kabul Et" değerini döndürüriz. Ancak sonuç, kullanılan senaryoya ve diğer doğrulama faktörlerine göre belirlenmelidir. Kendi verileriniz üzerinde denemeler yapmanızı ve "Kabul Et" veya "Reddet" yanıtlarını uygun şekilde geçersiz kılmak için eşiğinizi belirlemenizi öneririz.

Metin bağımlı konuşmacı doğrulama API'sinin geçerli sürümünde, konuşmacılar için aralarından seçim yapabileceğiniz 10 İngilizce ifade sağlıyoruz.

  • Ona reddedemeyeceği bir teklif yapacağım.
  • Houston bir sorunumuz var.
  • Sesim pasaportum, beni doğrula.
  • Elma suyu diş macunu sonra komik tadı.
  • Parolanız olmadan girebilirsiniz.
  • Güvenlik sistemini şimdi etkinleştirebilirsiniz.
  • Sesim parolalardan daha güçlü.
  • Parolam sizin işiniz değil.
  • Benim adım senin için bilinmiyor.
  • Kendin ol herkes zaten alınmış"

Metinden bağımsız konuşmacı doğrulama API'sine ve konuşmayı metne dönüştürme API'sine ayrı istekler göndererek kendi parolalarınızı oluşturabilirsiniz. Konuşmacı doğrulama sonucunu ve konuşma tanıma sonucunu birleştirerek konuşmacının kimliğini belirleyebilirsiniz.

API'ler, sesin canlı bir kişiden mi yoksa taklitten mi yoksa kayıtlı bir konuşmacının kaydından mı olduğunu belirlemek için tasarlanmamıştır. Konuşmacının okuması için rastgele ifadeler oluşturmak, yeniden yürütme saldırılarını önlemek için etkili kabul edilir.

MetinDen Bağımsız Konuşmacı Doğrulama

Konuşmacı Doğrulama, metinden bağımsız da olabilir; başka bir deyişle, konuşmacının seste söyledikleri üzerinde herhangi bir kısıtlama yoktur.

Kayıt aşamasında ses özellikleri, benzersiz bir ses imzası oluşturmak için konuşmacının sesinden ayıklanır.

Doğrulama aşamasında, doğrulanacak kişiyle ilişkili ses ve kimlik konuşmacı doğrulama API'sine gönderilir. Konuşmacı doğrulama hizmeti, giriş konuşma kaydındaki ses özelliklerini ayıklar. Ardından ses özelliklerini ilgili konuşmacının kayıt profilindeki ses imzası ile karşılaştırır.

Yanıt, 0 ile 1 arasında bir benzerlik puanıyla "Kabul Et" veya "Reddet" döndürür. Benzerlik puanı 0,5'e eşit veya daha büyük olduğunda "Kabul Et" yanıtı döndürülür. Ancak sonuç, kullanılan senaryoya ve diğer doğrulama faktörlerine göre belirlenmelidir. "Kabul Et" veya "Reddet" yanıtını uygun şekilde geçersiz kılmak için kendi verileriniz üzerinde denemeler yapmanızı ve eşiğinizi belirlemenizi öneririz.

API'ler, sesin canlı bir kişiden mi yoksa taklitten mi yoksa kayıtlı bir konuşmacının kaydından mı olduğunu belirlemek için tasarlanmamıştır.

Konuşmacı Belirleme

Konuşmacı belirleme, bir dizi aday konuşmacı arasında bilinmeyen bir sesin kimliğini belirleme görevidir. Konuşmacı Belirleme API'si, sağlanan kimlik listesiyle benzerlik puanlarını temel alan "en iyi eşleşmelerin" listesini döndürür. Konuşmacı Belirleme API'si, kayıt ve tanımada söylenenleri karşılaştırmadığından metinden bağımsızdır.

MetinDen Bağımsız Konuşmacı Belirleme

Konuşmacı belirleme için kayıt metinden bağımsızdır; başka bir deyişle, konuşmacının ses kaydında söyleyecekleri üzerinde bir kısıtlama yoktur. Parola gerekmez. Kayıt aşamasında konuşmacının sesi kaydedilir ve benzersiz bir ses imzası oluşturmak için ses özellikleri ayıklanır.

Belirleme aşamasında konuşmacı belirleme hizmeti, giriş konuşma kaydından ses özelliklerini ayıklar. Ardından özellikleri belirtilen konuşmacı listesinin kayıt verilerindeki ses imzalarıyla karşılaştırır (her istekte en fazla 50 aday konuşmacı). Yanıtta tanımlanmış bir kimlik ve 0 ile 1 arasında benzerlik puanına sahip beş üst sıralı kimlik yer aldı. Tanımlanan kimlik, en iyi eşleşen konuşmacının benzerlik puanına göre belirlenir. Aday konuşmacılardan hiçbiri 0,5'ten büyük veya eşit bir benzerlik puanı döndürmezse, yanıt "eşleşme bulunamadı" ifadesini temsil eden sıfır dizesini döndürür. Ancak, sonuç senaryonuza ve kullanılmakta olan diğer faktörlere göre belirlenmelidir. Verilerinizle denemeler yapmanızı ve varsayılan "eşleşme veya eşleşme yok" değerini uygun şekilde geçersiz kılmak için eşiğinizi belirlemenizi öneririz.

API'ler, sesin canlı bir kişiden mi yoksa taklitten mi yoksa kayıtlı bir konuşmacının kaydından mı olduğunu belirlemek için tasarlanmamıştır.

Ayrıca Bkz.