Udostępnij za pośrednictwem


Tworzenie niestandardowego projektu mowy

Niestandardowe projekty mowy zawierają modele, zestawy danych trenowania i testowania oraz punkty końcowe wdrożenia. Każdy projekt jest specyficzny dla ustawień regionalnych. Możesz na przykład utworzyć projekt dla języka angielskiego w Stany Zjednoczone.

Tworzenie projektu

Aby utworzyć projekt niestandardowej mowy, wykonaj następujące kroki:

  1. Zaloguj się do programu Speech Studio.

  2. Wybierz subskrypcję i zasób usługi Mowa do pracy.

    Ważne

    Jeśli wytrenujesz model niestandardowy przy użyciu danych audio, wybierz region zasobów usługi Mowa z dedykowanym sprzętem do trenowania danych audio. Aby uzyskać więcej informacji, zobacz przypisy dolne w tabeli regionów .

  3. Wybierz pozycję Niestandardowa mowa>Utwórz nowy projekt.

  4. Postępuj zgodnie z instrukcjami podanymi przez kreatora, aby utworzyć projekt.

Wybierz nowy projekt według nazwy lub wybierz pozycję Przejdź do projektu. Te elementy menu zostaną wyświetlone w panelu po lewej stronie: zestawy danych mowy, trenowanie modeli niestandardowych, modele testowe i wdrażanie modeli.

Aby utworzyć projekt, użyj spx csr project create polecenia . Skonstruuj parametry żądania zgodnie z następującymi instrukcjami:

  • Ustaw wymagany language parametr. Ustawienia regionalne projektu i zawarte zestawy danych powinny być takie same. Nie można później zmienić ustawień regionalnych. Parametr interfejsu locale wiersza polecenia language usługi Mowa odpowiada właściwości w żądaniu i odpowiedzi w formacie JSON.
  • Ustaw wymagany name parametr. Jest to nazwa wyświetlana w programie Speech Studio. Parametr interfejsu displayName wiersza polecenia name usługi Mowa odpowiada właściwości w żądaniu i odpowiedzi w formacie JSON.

Oto przykładowe polecenie interfejsu wiersza polecenia usługi Mowa, które tworzy projekt:

spx csr project create --api-version v3.2 --name "My Project" --description "My Project Description" --language "en-US"

Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

Właściwość najwyższego poziomu self w treści odpowiedzi to identyfikator URI projektu. Użyj tego identyfikatora URI, aby uzyskać szczegółowe informacje o ocenach, zestawach danych, modelach, punktach końcowych i transkrypcjach projektu. Ten identyfikator URI służy również do aktualizowania lub usuwania projektu.

Aby uzyskać pomoc dotyczącą interfejsu wiersza polecenia usługi Mowa w projektach, uruchom następujące polecenie:

spx help csr project

Aby utworzyć projekt, użyj operacji Projects_Create interfejsu API REST zamiany mowy na tekst. Skonstruuj treść żądania zgodnie z następującymi instrukcjami:

  • Ustaw wymaganą locale właściwość. Powinny to być ustawienia regionalne zawartych zestawów danych. Nie można później zmienić ustawień regionalnych.
  • Ustaw wymaganą displayName właściwość. Jest to nazwa projektu wyświetlana w programie Speech Studio.

Utwórz żądanie HTTP POST przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie Projects_Create . Zastąp YourSubscriptionKey ciąg kluczem zasobu usługi Mowa, zastąp YourServiceRegion element regionem zasobu usługi Mowa i ustaw właściwości treści żądania zgodnie z wcześniejszym opisem.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/projects"

Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

Właściwość najwyższego poziomu self w treści odpowiedzi to identyfikator URI projektu. Użyj tego identyfikatora URI, aby uzyskać szczegółowe informacje o ocenach, zestawach danych, modelach, punktach końcowych i transkrypcjach projektu. Ten identyfikator URI służy również do aktualizowania lub usuwania projektu.

Wybieranie modelu

Istnieje kilka podejść do używania niestandardowych modeli mowy:

  • Model podstawowy zapewnia dokładne rozpoznawanie mowy poza ramką dla wielu scenariuszy. Modele podstawowe są okresowo aktualizowane w celu zwiększenia dokładności i jakości. Zalecamy, aby w przypadku korzystania z modeli podstawowych używać najnowszych domyślnych modeli bazowych. Jeśli wymagana możliwość dostosowywania jest dostępna tylko w przypadku starszego modelu, możesz wybrać starszy model podstawowy.
  • Model niestandardowy rozszerza model podstawowy w celu uwzględnienia słownictwa specyficznego dla domeny współużytkowanego we wszystkich obszarach domeny niestandardowej.
  • Wiele modeli niestandardowych może być używanych, gdy domena niestandardowa ma wiele obszarów, z których każdy ma określone słownictwo.

Zalecanym sposobem sprawdzenia, czy wystarczy model podstawowy, jest przeanalizowanie transkrypcji utworzonej na podstawie modelu podstawowego i porównanie jej z transkrypcją wygenerowaną przez człowieka dla tego samego dźwięku. Możesz porównać transkrypcje i uzyskać wynik współczynnika błędów słów (WER ). Jeśli wynik WER jest wysoki, zaleca się trenowanie modelu niestandardowego w celu rozpoznawania niepoprawnie zidentyfikowanych wyrazów.

Zalecane jest wiele modeli, jeśli słownictwo różni się w różnych obszarach domeny. Na przykład komentatorzy olimpijni zgłaszają różne wydarzenia, z których każda jest skojarzona z własną vernacular. Ponieważ każde słownictwo wydarzeń olimpijskich różni się znacząco od innych, tworzenie niestandardowego modelu specyficznego dla zdarzenia zwiększa dokładność, ograniczając dane wypowiedzi względem tego konkretnego wydarzenia. W związku z tym model nie musi przesiewać niepowiązanych danych w celu dopasowania. Niezależnie od tego, szkolenie nadal wymaga przyzwoitej różnorodności danych treningowych. Uwzględnij dźwięk od różnych komentatorów, którzy mają różne akcenty, płeć, wiek itp.

Stabilność i cykl życia modelu

Model podstawowy lub model niestandardowy wdrożony w punkcie końcowym przy użyciu mowy niestandardowej jest stały do momentu, gdy zdecydujesz się go zaktualizować. Dokładność i jakość rozpoznawania mowy pozostają spójne, nawet w przypadku wydania nowego modelu podstawowego. Dzięki temu można zablokować zachowanie określonego modelu, dopóki nie zdecydujesz się na użycie nowszego modelu.

Niezależnie od tego, czy trenujesz własny model, czy używasz migawki modelu podstawowego, możesz użyć modelu przez ograniczony czas. Aby uzyskać więcej informacji, zobacz Cykl życia modelu i punktu końcowego.

Następne kroki