Konuşmacı tanıma nedir?

2025-06-05

Önemli

Azure Yapay Zeka Konuşmasında konuşmacı tanıma özelliği 30 Eylül 2025'te kullanımdan kaldırılacaktır. Uygulamalarınız bu tarihten sonra konuşmacı tanımayı kullanamayacak.

Bu değişiklik, konuşmayı metne dönüştürme (konuşmacı dilarizasyonunda değişiklik yapılmaması dahil), metin okuma ve konuşma çevirisi gibi diğer Azure Yapay Zeka Konuşma özelliklerini etkilemez.

Konuşmacı tanıma, ses klibinde kimin konuştuğunu belirlemeye yardımcı olabilir. Hizmet, ses biyometrisini kullanarak konuşmacıları benzersiz ses özelliklerine göre doğrulayabilir ve tanımlayabilir.

Konuşmacının sesinin benzersiz özelliklerine göre bir kayıt profili oluşturan tek bir konuşmacı için sesli eğitim verileri sağlarsınız. Ardından, konuşmacının aynı kişi (konuşmacı doğrulaması) olduğunu doğrulamak için ses ses örneklerini bu profille karşılaştırabilirsiniz. Ayrıca ses ses örneklerini kayıtlı bir grup konuşmacı profiliyle karşılaştırarak gruptaki herhangi bir profille eşleşip eşleşmediğini de (konuşmacı belirleme) kontrol edebilirsiniz.

Konuşmacı doğrulama

Konuşmacı doğrulaması, kayıtlı bir konuşmacı kimliğini parolalarla veya serbest biçimli ses girişiyle doğrulama işlemini kolaylaştırır. Örneğin, çağrı merkezlerinde müşteri kimliği doğrulaması veya temassız tesis erişimi için kullanabilirsiniz.

Konuşmacı doğrulama nasıl çalışır?

Aşağıdaki akış çizelgesi bunun nasıl çalıştığını gösteren bir görsel sağlar:

Konuşmacı doğrulamanın nasıl çalıştığını gösteren akış çizelgesi.

Konuşmacı doğrulaması metne bağımlı veya metinden bağımsız olabilir. Metne bağlı doğrulama, konuşmacıların hem kayıt hem de doğrulama aşamalarında kullanmak üzere aynı parolayı seçmesi gerektiği anlamına gelir. Metinden bağımsız doğrulama, konuşmacıların kayıt ve doğrulama ifadelerinde günlük dilde konuşabileceği anlamına gelir.

Metne bağımlı doğrulama için, konuşmacının sesi önceden tanımlanmış bir dizi ifadeden bir parola söylenerek kaydedilir. Ses özellikleri, benzersiz bir ses imzası oluşturmak için ses kaydından ayıklanır ve seçilen parola da tanınır. Konuşmacıyı doğrulamak için ses imzası ve parola birlikte kullanılır.

Metinden bağımsız doğrulama, etkin kayıt etkinleştirildiğinde ilk etkinleştirme tümceciğinin yanı sıra konuşmacının kayıt sırasında söyledikleriyle ilgili hiçbir kısıtlamaya sahip değildir. Yalnızca benzerlik puanlama amacıyla ses özelliklerini ayıkladığı için ses örneğinde doğrulanacak herhangi bir kısıtlama yoktur.

API'ler, sesin canlı bir kişiden mi yoksa kayıtlı bir konuşmacının taklitinden mi yoksa kaydından mı olduğunu belirlemeye yönelik değildir.

Konuşmacı belirleme

Konuşmacı belirleme, kayıtlı bir grup konuşmacı içinde bilinmeyen bir konuşmacının kimliğini belirlemenize yardımcı olur. Konuşmacı belirleme, konuşmayı tek tek konuşmacılara bağlamanızı ve aşağıdakiler gibi birden çok konuşmacı içeren senaryoların kilidini açmanızı sağlar:

Uzaktan toplantı üretkenliği için destekleyici çözümler.
Çok kullanıcılı cihaz kişiselleştirmesi oluşturma.

Konuşmacı belirleme nasıl çalışır?

Konuşmacı belirleme kaydı metinden bağımsızdır. Etkin kayıt etkinleştirildiğinde ilk etkinleştirme tümceciğinin yanı sıra konuşmacının seste söyledikleriyle ilgili bir kısıtlama yoktur. Konuşmacı doğrulamasına benzer şekilde, konuşmacının sesi kayıt aşamasında kaydedilir ve ses özellikleri benzersiz bir ses imzası oluşturmak için ayıklanır. Tanımlama aşamasında, giriş sesi örneği belirtilen kayıtlı ses listesiyle karşılaştırılır (her istekte 50'ye kadar).

Veri güvenliği ve gizlilik

Konuşmacı kayıt verileri, kayıt için konuşma sesi ve ses imzası özellikleri de dahil olmak üzere güvenli bir sistemde depolanır. Kayıt için konuşma sesi yalnızca algoritma yükseltildiğinde kullanılır ve özelliklerin yeniden ayıklanması gerekir. Hizmet, tanıma aşamasında hizmete gönderilen konuşma kaydını veya ayıklanan ses özelliklerini tutmaz.

Verilerin ne kadar süreyle saklanması gerektiğini siz denetlersiniz. API çağrıları aracılığıyla tek tek konuşmacılar için kayıt verileri oluşturabilir, güncelleştirebilir ve silebilirsiniz. Konuşma kaynağı silindiğinde, Konuşma kaynağıyla ilişkili tüm konuşmacı kayıt verileri de silinir.

Tüm Azure AI Foundry kaynaklarında olduğu gibi konuşmacı tanıma özelliğini kullanan geliştiricilerin de müşteri verileriyle ilgili Microsoft ilkelerini bilmesi gerekir. Kullanıcılardan uygun izinleri aldığından emin olmanız gerekir. Daha fazla ayrıntı için bkz. Veri ve konuşmacı tanıma gizliliği. Daha fazla bilgi için Microsoft Güven Merkezi'nin Azure AI hizmetleri sayfasına bakın.

Sık sorulan sorular ve çözümleri

Soru	Çözüm
Konuşmacı tanımayı en çok hangi durumlarda kullanabilirim?	İyi örnekler arasında çağrı merkezi müşteri doğrulaması, ses tabanlı hasta check-in, toplantı transkripsiyonu ve çok kullanıcılı cihaz kişiselleştirme sayılabilir.
Kimlik doğrulama ile doğrulama arasındaki fark nedir?	Tanımlama, bir konuşmacı grubundan hangi üyenin konuştuğunu algılama işlemidir. Doğrulama, konuşmacının bilinen, kayıtlı bir sesle eşleşdiğini onaylama işlemidir.
Hangi diller desteklenmektedir?	Bkz. Konuşmacı tanıma dili desteği.
Hangi Azure bölgeleri desteklenir?	Bkz. Konuşmacı tanıma bölgesi desteği.
Hangi ses biçimleri destekleniyor?	Mono 16 bit, 16 kHz PCM ile kodlanmış WAV.
Bir konuşmacıyı birden çok kez kaydedebilir misiniz?	Evet, metne bağımlı doğrulama için konuşmacıyı en fazla 50 kez kaydedebilirsiniz. Metinden bağımsız doğrulama veya konuşmacı belirleme için 300 saniyeye kadar ses kaydı yapabilirsiniz.
Azure'da hangi veriler depolanır?	Kayıt sesi, ses profili silinene kadar hizmette depolanır. Tanıma ses örnekleri saklanmaz veya depolanmaz.

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.

Aracılığıyla paylaş