Co to jest asystent głosowy?

Artykuł
01/22/2024

Korzystając z asystentów głosowych w usłudze Mowa, deweloperzy mogą tworzyć naturalne, podobne do człowieka interfejsy konwersacyjne dla swoich aplikacji i środowisk. Usługa asystenta głosowego zapewnia szybką, niezawodną interakcję między urządzeniem a implementacją asystenta.

Wybieranie rozwiązania asystenta

Pierwszym krokiem tworzenia asystenta głosowego jest podjęcie decyzji o tym, co chcesz zrobić. Usługa rozpoznawania mowy udostępnia wiele uzupełniających rozwiązań do interakcji asystenta tworzenia. Możesz chcieć, aby aplikacja obsługiwała otwartą rozmowę z frazami, takimi jak "Muszę przejść do Seattle" lub "Jakiego rodzaju pizzę mogę zamówić?" Aby uzyskać elastyczność i wszechstronność, możesz dodać funkcje głosowe i głosowe do bota przy użyciu usługi Azure AI Bot Service z kanałem mowy direct line.

Jeśli nie masz jeszcze pewności, co chcesz zrobić za pomocą asystenta, zalecamy skorzystanie z funkcji Direct Line Speech jako najlepszej opcji. Oferuje integrację z bogatym zestawem narzędzi i pomocami tworzenia, takimi jak rozwiązanie Asystent wirtualny i szablon przedsiębiorstwa oraz usługa QnA Maker, do tworzenia wspólnych wzorców i używania istniejących źródeł wiedzy.

Architektura referencyjna do tworzenia asystenta głosowego przy użyciu zestawu SPEECH SDK

Conceptual diagram of the voice assistant orchestration service flow.

Podstawowe funkcje

Niezależnie od tego, czy wybierasz funkcję Direct Line Speech , czy inne rozwiązanie do tworzenia interakcji asystenta, możesz użyć bogatego zestawu funkcji dostosowywania, aby dostosować asystenta do marki, produktu i osobowości.

Kategoria	Funkcje
Niestandardowe słowo kluczowe	Użytkownicy mogą rozpoczynać rozmowy z asystentami przy użyciu niestandardowego słowa kluczowego, takiego jak "Hey Contoso". Aplikacja wykonuje to za pomocą niestandardowego aparatu słowa kluczowego w zestawie SDK usługi Mowa, który można skonfigurować, przechodząc do sekcji Wprowadzenie do niestandardowych słów kluczowych. Asystenci głosowi mogą używać weryfikacji słowa kluczowego po stronie usługi w celu zwiększenia dokładności aktywacji słowa kluczowego (w porównaniu z używaniem samego urządzenia).
Zamiana mowy na tekst	Asystentzy głosowi konwertują dźwięk w czasie rzeczywistym na rozpoznany tekst przy użyciu mowy na tekst z usługi Mowa. Ten tekst jest dostępny, ponieważ jest on transkrypcji, zarówno do implementacji asystenta, jak i aplikacji klienckiej.
Zamiana tekstu na mowę	Odpowiedzi tekstowe asystenta są syntetyzowane za pomocą tekstu na mowę z usługi Mowa. Ta synteza jest następnie udostępniana aplikacji klienckiej jako strumień audio. Firma Microsoft oferuje możliwość tworzenia własnego niestandardowego, wysokiej jakości neuronowego tekstu na mowę (neuronowego TTS), który daje głos twojej marki.

Wprowadzenie do asystentów głosowych

Oferujemy następujący artykuł Szybki start, który został zaprojektowany tak, aby kod był uruchamiany w mniej niż 10 minut: Szybki start: Tworzenie niestandardowego asystenta głosowego przy użyciu usługi Direct Line Speech

Przykładowy kod i samouczki

Przykładowy kod tworzenia asystenta głosowego jest dostępny w usłudze GitHub. Przykłady obejmują aplikację kliencką do nawiązywania połączenia z asystentem w kilku popularnych językach programowania.

Dostosowanie

Asystentów głosowych, które tworzysz przy użyciu usługi Mowa, mogą korzystać z pełnej gamy opcji dostosowywania.

Uwaga

Opcje dostosowywania różnią się w zależności od języka i ustawień regionalnych. Aby dowiedzieć się więcej, zobacz Obsługiwane języki.