Szybki start: tworzenie niestandardowego słowa kluczowego
Dokumentacja referencyjna Package (NuGet) | Dodatkowe przykłady w witrynie GitHub |
W tym przewodniku Szybki start poznasz podstawy pracy z niestandardowymi słowami kluczowymi. Słowo kluczowe to słowo lub krótka fraza, która umożliwia aktywowanie głosu produktu. Modele słów kluczowych są tworzone w usłudze Speech Studio. Następnie wyeksportuj plik modelu używany z zestawem Speech SDK w aplikacjach.
Wymagania wstępne
- Subskrypcja platformy Azure. Możesz utworzyć go bezpłatnie.
- Utwórz zasób usługi Mowa w witrynie Azure Portal.
- Pobierz klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi.
Tworzenie słowa kluczowego w programie Speech Studio
Zanim będzie można użyć niestandardowego słowa kluczowego, musisz utworzyć słowo kluczowe przy użyciu strony niestandardowego słowa kluczowego w usłudze Speech Studio. Po podaniu słowa kluczowego tworzy .table
on plik, którego można użyć z zestawem SPEECH SDK.
Ważne
Niestandardowe modele słów kluczowych i pliki wynikowe .table
można tworzyć tylko w usłudze Speech Studio.
Nie można utworzyć niestandardowych słów kluczowych z zestawu SDK ani wywołań REST.
Przejdź do programu Speech Studio i zaloguj się. Jeśli nie masz subskrypcji mowy, przejdź do sekcji Tworzenie usług rozpoznawania mowy.
Na stronie Niestandardowe słowo kluczowe wybierz pozycję Utwórz nowy projekt.
Wprowadź nazwę, opis i język dla niestandardowego projektu słów kluczowych. Możesz wybrać tylko jeden język na projekt, a obsługa jest obecnie ograniczona do języka angielskiego (Stany Zjednoczone) i chińskiego (mandaryńskiego, uproszczonego).
Wybierz nazwę projektu z listy.
Aby utworzyć niestandardowe słowo kluczowe dla asystenta wirtualnego, wybierz pozycję Utwórz nowy model.
Wprowadź nazwę dla wybranego modelu, opisu i słowa kluczowego, a następnie wybierz pozycję Dalej. Zapoznaj się z wytycznymi dotyczącymi wybierania skutecznego słowa kluczowego.
Portal tworzy wymowę kandydata dla słowa kluczowego. Słuchaj każdego kandydata, wybierając przyciski odtwarzania i usuwając kontrole obok wszelkich niepoprawnych wymow. Zaznacz wszystkie wymowy, które odpowiadają temu, jak oczekujesz, że użytkownicy będą powiedzieć słowo kluczowe, a następnie wybierz przycisk Dalej , aby rozpocząć generowanie modelu słowa kluczowego.
Wybierz typ modelu, a następnie wybierz pozycję Utwórz. Listę regionów obsługujących typ modelu Zaawansowane można wyświetlić w dokumentacji obsługi regionów rozpoznawania słów kluczowych.
Wygenerowanie modelu może potrwać do 30 minut. Lista słów kluczowych zmienia się z Przetwarzania na Powodzenie po zakończeniu modelu.
W menu zwijanym po lewej stronie wybierz pozycję Dostosuj , aby dostroić i pobrać model. Pobrany plik jest
.zip
archiwum. Wyodrębnij archiwum i zobaczysz plik z.table
rozszerzeniem ..table
Używasz pliku z zestawem SDK, więc pamiętaj, aby zanotować jego ścieżkę.
Używanie modelu słowa kluczowego z zestawem SPEECH SDK
Najpierw załaduj plik modelu słów kluczowych przy użyciu funkcji statycznej FromFile()
, która zwraca wartość KeywordRecognitionModel
. Użyj ścieżki do pliku pobranego .table
z programu Speech Studio. Ponadto utworzysz obiekt AudioConfig
przy użyciu domyślnego mikrofonu, a następnie utworzysz wystąpienie nowego KeywordRecognizer
wystąpienia przy użyciu konfiguracji dźwięku.
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;
var keywordModel = KeywordRecognitionModel.FromFile("your/path/to/Activate_device.table");
using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
using var keywordRecognizer = new KeywordRecognizer(audioConfig);
Ważne
Jeśli wolisz testować model słów kluczowych bezpośrednio przy użyciu przykładów audio za pośrednictwem AudioConfig.fromStreamInput()
metody, upewnij się, że używasz przykładów, które mają co najmniej 1,5 sekund ciszy przed pierwszym słowem kluczowym. Jest to zapewnienie odpowiedniego czasu na zainicjowanie aparatu rozpoznawania słów kluczowych i uzyskanie dostępu do stanu nasłuchiwania przed wykryciem pierwszego słowa kluczowego.
Następnie uruchamianie rozpoznawania słów kluczowych odbywa się za pomocą jednego wywołania RecognizeOnceAsync()
przez przekazanie obiektu modelu. Ta metoda uruchamia sesję rozpoznawania słów kluczowych, która trwa do momentu rozpoznania słowa kluczowego. W związku z tym zazwyczaj używasz tego wzorca projektowego w aplikacjach wielowątkowych lub w przypadkach użycia, w których możesz czekać na słowo wznawiane w nieskończoność.
KeywordRecognitionResult result = await keywordRecognizer.RecognizeOnceAsync(keywordModel);
Uwaga
Pokazany tutaj przykład używa lokalnego rozpoznawania słów kluczowych, ponieważ nie wymaga SpeechConfig
obiektu dla kontekstu uwierzytelniania i nie kontaktuje się z zapleczem. Można jednak uruchomić zarówno rozpoznawanie słów kluczowych, jak i weryfikację przy użyciu bezpośredniego połączenia zaplecza.
Ciągłe rozpoznawanie
Inne klasy w zestawie SPEECH SDK obsługują ciągłe rozpoznawanie (zarówno dla rozpoznawania mowy, jak i intencji) z rozpoznawaniem słów kluczowych. Zestaw SDK umożliwia używanie tego samego kodu, który zwykle jest używany do ciągłego rozpoznawania, z możliwością odwołwania .table
się do pliku dla modelu słowa kluczowego.
W przypadku zamiany mowy na tekst postępuj zgodnie z tym samym wzorcem projektowania pokazanym w przewodniku rozpoznawania mowy, aby skonfigurować ciągłe rozpoznawanie. Następnie zastąp wywołanie metody recognizer.StartContinuousRecognitionAsync()
ciągiem recognizer.StartKeywordRecognitionAsync(KeywordRecognitionModel)
, a następnie przekaż KeywordRecognitionModel
obiekt . Aby zatrzymać ciągłe rozpoznawanie za pomocą rozpoznawania słów kluczowych, użyj polecenia recognizer.StopKeywordRecognitionAsync()
zamiast recognizer.StopContinuousRecognitionAsync()
.
Rozpoznawanie intencji używa identycznego wzorca z funkcjami StartKeywordRecognitionAsync
i StopKeywordRecognitionAsync
.
Dokumentacja referencyjna Package (NuGet) | Dodatkowe przykłady w witrynie GitHub |
Zestaw SPEECH SDK dla języka C++ obsługuje rozpoznawanie słów kluczowych, ale jeszcze nie dołączyliśmy tutaj przewodnika. Wybierz inny język programowania, aby rozpocząć pracę i zapoznać się z pojęciami, lub zapoznaj się z dokumentacją języka C++ i przykładami połączonymi od początku tego artykułu.
author: eric-urban ms.service: azure-ai-speech ms.topic: include ms.date: 9/12/2024 ms.author: eur
- Subskrypcja Azure. Możesz utworzyć go bezpłatnie.
- Utwórz zasób usługi Mowa w witrynie Azure Portal.
- Pobierz klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi.
Tworzenie słowa kluczowego w programie Speech Studio
Zanim będzie można użyć niestandardowego słowa kluczowego, musisz utworzyć słowo kluczowe przy użyciu strony niestandardowego słowa kluczowego w usłudze Speech Studio. Po podaniu słowa kluczowego tworzy .table
on plik, którego można użyć z zestawem SPEECH SDK.
Ważne
Niestandardowe modele słów kluczowych i pliki wynikowe .table
można tworzyć tylko w usłudze Speech Studio.
Nie można utworzyć niestandardowych słów kluczowych z zestawu SDK ani wywołań REST.
Przejdź do programu Speech Studio i zaloguj się. Jeśli nie masz subskrypcji mowy, przejdź do sekcji Tworzenie usług rozpoznawania mowy.
Na stronie Niestandardowe słowo kluczowe wybierz pozycję Utwórz nowy projekt.
Wprowadź nazwę, opis i język dla niestandardowego projektu słów kluczowych. Możesz wybrać tylko jeden język na projekt, a obsługa jest obecnie ograniczona do języka angielskiego (Stany Zjednoczone) i chińskiego (mandaryńskiego, uproszczonego).
Wybierz nazwę projektu z listy.
Aby utworzyć niestandardowe słowo kluczowe dla asystenta wirtualnego, wybierz pozycję Utwórz nowy model.
Wprowadź nazwę dla wybranego modelu, opisu i słowa kluczowego, a następnie wybierz pozycję Dalej. Zapoznaj się z wytycznymi dotyczącymi wybierania skutecznego słowa kluczowego.
Portal tworzy wymowę kandydata dla słowa kluczowego. Słuchaj każdego kandydata, wybierając przyciski odtwarzania i usuwając kontrole obok wszelkich niepoprawnych wymow. Zaznacz wszystkie wymowy, które odpowiadają temu, jak oczekujesz, że użytkownicy będą powiedzieć słowo kluczowe, a następnie wybierz przycisk Dalej , aby rozpocząć generowanie modelu słowa kluczowego.
Wybierz typ modelu, a następnie wybierz pozycję Utwórz. Listę regionów obsługujących typ modelu Zaawansowane można wyświetlić w dokumentacji obsługi regionów rozpoznawania słów kluczowych.
Wygenerowanie modelu może potrwać do 30 minut. Lista słów kluczowych zmienia się z Przetwarzania na Powodzenie po zakończeniu modelu.
W menu zwijanym po lewej stronie wybierz pozycję Dostosuj , aby dostroić i pobrać model. Pobrany plik jest
.zip
archiwum. Wyodrębnij archiwum i zobaczysz plik z.table
rozszerzeniem ..table
Używasz pliku z zestawem SDK, więc pamiętaj, aby zanotować jego ścieżkę.
Używanie modelu słowa kluczowego z zestawem SPEECH SDK
Zapoznaj się z dokumentacją referencyjną dotyczącą używania niestandardowego modelu słów kluczowych z zestawem SDK języka Go.
| Dokumentacja referencyjna Dodatkowe przykłady w usłudze GitHub
Zestaw SPEECH SDK dla języka Java obsługuje rozpoznawanie słów kluczowych, ale jeszcze nie dołączyliśmy tutaj przewodnika. Wybierz inny język programowania, aby rozpocząć pracę i dowiedzieć się więcej o pojęciach, lub zapoznaj się z dokumentacją języka Java i przykładami połączonymi od początku tego artykułu.
Dokumentacja referencyjna | Package (npm) | Dodatkowe przykłady w kodzie źródłowym biblioteki GitHub |
Zestaw SPEECH SDK dla języka JavaScript nie obsługuje rozpoznawania słów kluczowych. Wybierz inny język programowania lub odwołanie do języka JavaScript i przykłady połączone na początku tego artykułu.
Dokumentacja referencyjna Package (download) | Dodatkowe przykłady w usłudze GitHub |
W tym przewodniku Szybki start poznasz podstawy pracy z niestandardowymi słowami kluczowymi. Słowo kluczowe to słowo lub krótka fraza, która umożliwia aktywowanie głosu produktu. Modele słów kluczowych są tworzone w usłudze Speech Studio. Następnie wyeksportuj plik modelu używany z zestawem Speech SDK w aplikacjach.
Wymagania wstępne
- Subskrypcja platformy Azure. Możesz utworzyć go bezpłatnie.
- Utwórz zasób usługi Mowa w witrynie Azure Portal.
- Pobierz klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi.
Tworzenie słowa kluczowego w programie Speech Studio
Zanim będzie można użyć niestandardowego słowa kluczowego, musisz utworzyć słowo kluczowe przy użyciu strony niestandardowego słowa kluczowego w usłudze Speech Studio. Po podaniu słowa kluczowego tworzy .table
on plik, którego można użyć z zestawem SPEECH SDK.
Ważne
Niestandardowe modele słów kluczowych i pliki wynikowe .table
można tworzyć tylko w usłudze Speech Studio.
Nie można utworzyć niestandardowych słów kluczowych z zestawu SDK ani wywołań REST.
Przejdź do programu Speech Studio i zaloguj się. Jeśli nie masz subskrypcji mowy, przejdź do sekcji Tworzenie usług rozpoznawania mowy.
Na stronie Niestandardowe słowo kluczowe wybierz pozycję Utwórz nowy projekt.
Wprowadź nazwę, opis i język dla niestandardowego projektu słów kluczowych. Możesz wybrać tylko jeden język na projekt, a obsługa jest obecnie ograniczona do języka angielskiego (Stany Zjednoczone) i chińskiego (mandaryńskiego, uproszczonego).
Wybierz nazwę projektu z listy.
Aby utworzyć niestandardowe słowo kluczowe dla asystenta wirtualnego, wybierz pozycję Utwórz nowy model.
Wprowadź nazwę dla wybranego modelu, opisu i słowa kluczowego, a następnie wybierz pozycję Dalej. Zapoznaj się z wytycznymi dotyczącymi wybierania skutecznego słowa kluczowego.
Portal tworzy wymowę kandydata dla słowa kluczowego. Słuchaj każdego kandydata, wybierając przyciski odtwarzania i usuwając kontrole obok wszelkich niepoprawnych wymow. Zaznacz wszystkie wymowy, które odpowiadają temu, jak oczekujesz, że użytkownicy będą powiedzieć słowo kluczowe, a następnie wybierz przycisk Dalej , aby rozpocząć generowanie modelu słowa kluczowego.
Wybierz typ modelu, a następnie wybierz pozycję Utwórz. Listę regionów obsługujących typ modelu Zaawansowane można wyświetlić w dokumentacji obsługi regionów rozpoznawania słów kluczowych.
Wygenerowanie modelu może potrwać do 30 minut. Lista słów kluczowych zmienia się z Przetwarzania na Powodzenie po zakończeniu modelu.
W menu zwijanym po lewej stronie wybierz pozycję Dostosuj , aby dostroić i pobrać model. Pobrany plik jest
.zip
archiwum. Wyodrębnij archiwum i zobaczysz plik z.table
rozszerzeniem ..table
Używasz pliku z zestawem SDK, więc pamiętaj, aby zanotować jego ścieżkę.
Używanie modelu słowa kluczowego z zestawem SPEECH SDK
Zobacz przykład w witrynie GitHub, aby użyć niestandardowego modelu słowa kluczowego z zestawem Objective C SDK.
Dokumentacja referencyjna Package (download) | Dodatkowe przykłady w usłudze GitHub |
W tym przewodniku Szybki start poznasz podstawy pracy z niestandardowymi słowami kluczowymi. Słowo kluczowe to słowo lub krótka fraza, która umożliwia aktywowanie głosu produktu. Modele słów kluczowych są tworzone w usłudze Speech Studio. Następnie wyeksportuj plik modelu używany z zestawem Speech SDK w aplikacjach.
Wymagania wstępne
- Subskrypcja platformy Azure. Możesz utworzyć go bezpłatnie.
- Utwórz zasób usługi Mowa w witrynie Azure Portal.
- Pobierz klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi.
Tworzenie słowa kluczowego w programie Speech Studio
Zanim będzie można użyć niestandardowego słowa kluczowego, musisz utworzyć słowo kluczowe przy użyciu strony niestandardowego słowa kluczowego w usłudze Speech Studio. Po podaniu słowa kluczowego tworzy .table
on plik, którego można użyć z zestawem SPEECH SDK.
Ważne
Niestandardowe modele słów kluczowych i pliki wynikowe .table
można tworzyć tylko w usłudze Speech Studio.
Nie można utworzyć niestandardowych słów kluczowych z zestawu SDK ani wywołań REST.
Przejdź do programu Speech Studio i zaloguj się. Jeśli nie masz subskrypcji mowy, przejdź do sekcji Tworzenie usług rozpoznawania mowy.
Na stronie Niestandardowe słowo kluczowe wybierz pozycję Utwórz nowy projekt.
Wprowadź nazwę, opis i język dla niestandardowego projektu słów kluczowych. Możesz wybrać tylko jeden język na projekt, a obsługa jest obecnie ograniczona do języka angielskiego (Stany Zjednoczone) i chińskiego (mandaryńskiego, uproszczonego).
Wybierz nazwę projektu z listy.
Aby utworzyć niestandardowe słowo kluczowe dla asystenta wirtualnego, wybierz pozycję Utwórz nowy model.
Wprowadź nazwę dla wybranego modelu, opisu i słowa kluczowego, a następnie wybierz pozycję Dalej. Zapoznaj się z wytycznymi dotyczącymi wybierania skutecznego słowa kluczowego.
Portal tworzy wymowę kandydata dla słowa kluczowego. Słuchaj każdego kandydata, wybierając przyciski odtwarzania i usuwając kontrole obok wszelkich niepoprawnych wymow. Zaznacz wszystkie wymowy, które odpowiadają temu, jak oczekujesz, że użytkownicy będą powiedzieć słowo kluczowe, a następnie wybierz przycisk Dalej , aby rozpocząć generowanie modelu słowa kluczowego.
Wybierz typ modelu, a następnie wybierz pozycję Utwórz. Listę regionów obsługujących typ modelu Zaawansowane można wyświetlić w dokumentacji obsługi regionów rozpoznawania słów kluczowych.
Wygenerowanie modelu może potrwać do 30 minut. Lista słów kluczowych zmienia się z Przetwarzania na Powodzenie po zakończeniu modelu.
W menu zwijanym po lewej stronie wybierz pozycję Dostosuj , aby dostroić i pobrać model. Pobrany plik jest
.zip
archiwum. Wyodrębnij archiwum i zobaczysz plik z.table
rozszerzeniem ..table
Używasz pliku z zestawem SDK, więc pamiętaj, aby zanotować jego ścieżkę.
Używanie modelu słowa kluczowego z zestawem SPEECH SDK
Zobacz przykład w witrynie GitHub, aby użyć niestandardowego modelu słowa kluczowego z zestawem Objective C SDK. Chociaż obecnie nie mamy próbki swift dla parzystości, koncepcje są podobne.
Uwaga
Jeśli zamierzasz używać rozpoznawania słów kluczowych w aplikacji Swift w systemie iOS, pamiętaj, że nowe modele słów kluczowych utworzone w programie Speech Studio będą wymagać użycia pakietu xcframework zestawu SDK usługi Mowa z https://aka.ms/csspeech/iosbinaryembedded lub MicrosoftCognitiveServicesSpeechEmbedded-iOS
zasobnika w projekcie.
Dokumentacja referencyjna | Package (PyPi) | Dodatkowe przykłady w witrynie GitHub
W tym przewodniku Szybki start poznasz podstawy pracy z niestandardowymi słowami kluczowymi. Słowo kluczowe to słowo lub krótka fraza, która umożliwia aktywowanie głosu produktu. Modele słów kluczowych są tworzone w usłudze Speech Studio. Następnie wyeksportuj plik modelu używany z zestawem Speech SDK w aplikacjach.
Wymagania wstępne
- Subskrypcja platformy Azure. Możesz utworzyć go bezpłatnie.
- Utwórz zasób usługi Mowa w witrynie Azure Portal.
- Pobierz klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi.
Tworzenie słowa kluczowego w programie Speech Studio
Zanim będzie można użyć niestandardowego słowa kluczowego, musisz utworzyć słowo kluczowe przy użyciu strony niestandardowego słowa kluczowego w usłudze Speech Studio. Po podaniu słowa kluczowego tworzy .table
on plik, którego można użyć z zestawem SPEECH SDK.
Ważne
Niestandardowe modele słów kluczowych i pliki wynikowe .table
można tworzyć tylko w usłudze Speech Studio.
Nie można utworzyć niestandardowych słów kluczowych z zestawu SDK ani wywołań REST.
Przejdź do programu Speech Studio i zaloguj się. Jeśli nie masz subskrypcji mowy, przejdź do sekcji Tworzenie usług rozpoznawania mowy.
Na stronie Niestandardowe słowo kluczowe wybierz pozycję Utwórz nowy projekt.
Wprowadź nazwę, opis i język dla niestandardowego projektu słów kluczowych. Możesz wybrać tylko jeden język na projekt, a obsługa jest obecnie ograniczona do języka angielskiego (Stany Zjednoczone) i chińskiego (mandaryńskiego, uproszczonego).
Wybierz nazwę projektu z listy.
Aby utworzyć niestandardowe słowo kluczowe dla asystenta wirtualnego, wybierz pozycję Utwórz nowy model.
Wprowadź nazwę dla wybranego modelu, opisu i słowa kluczowego, a następnie wybierz pozycję Dalej. Zapoznaj się z wytycznymi dotyczącymi wybierania skutecznego słowa kluczowego.
Portal tworzy wymowę kandydata dla słowa kluczowego. Słuchaj każdego kandydata, wybierając przyciski odtwarzania i usuwając kontrole obok wszelkich niepoprawnych wymow. Zaznacz wszystkie wymowy, które odpowiadają temu, jak oczekujesz, że użytkownicy będą powiedzieć słowo kluczowe, a następnie wybierz przycisk Dalej , aby rozpocząć generowanie modelu słowa kluczowego.
Wybierz typ modelu, a następnie wybierz pozycję Utwórz. Listę regionów obsługujących typ modelu Zaawansowane można wyświetlić w dokumentacji obsługi regionów rozpoznawania słów kluczowych.
Wygenerowanie modelu może potrwać do 30 minut. Lista słów kluczowych zmienia się z Przetwarzania na Powodzenie po zakończeniu modelu.
W menu zwijanym po lewej stronie wybierz pozycję Dostosuj , aby dostroić i pobrać model. Pobrany plik jest
.zip
archiwum. Wyodrębnij archiwum i zobaczysz plik z.table
rozszerzeniem ..table
Używasz pliku z zestawem SDK, więc pamiętaj, aby zanotować jego ścieżkę.
Używanie modelu słowa kluczowego z zestawem SPEECH SDK
Zobacz przykład w witrynie GitHub, aby użyć niestandardowego modelu słów kluczowych z zestawem SDK języka Python.
Interfejs API REST zamiany mowy na tekst — dokumentacja | interfejsu API REST zamiany mowy na tekst w celu uzyskania krótkiej dokumentacji | audio Dodatkowe przykłady w usłudze GitHub
Interfejs API REST zamiany mowy na tekst nie obsługuje rozpoznawania słów kluczowych. Wybierz inny język programowania lub odwołanie i przykłady połączone od początku tego artykułu.
Interfejs wiersza polecenia usługi Mowa obsługuje rozpoznawanie słów kluczowych, ale jeszcze nie dołączyliśmy tutaj przewodnika. Wybierz inny język programowania, aby rozpocząć pracę i dowiedzieć się więcej o pojęciach.