Przekazywanie zestawów danych szkoleniowych i testowych na potrzeby niestandardowej mowy

Potrzebujesz danych dźwiękowych lub tekstowych do testowania dokładności rozpoznawania mowy lub trenowania modeli niestandardowych. Aby uzyskać informacje o typach danych obsługiwanych do testowania lub trenowania modelu, zobacz Trenowanie i testowanie zestawów danych.

Napiwek

Możesz również użyć edytora transkrypcji online, aby utworzyć i uściślić zestawy danych audio z etykietami.

Przekazywanie zestawów danych

Aby przekazać własne zestawy danych w programie Speech Studio, wykonaj następujące kroki:

  1. Zaloguj się do programu Speech Studio.

  2. Wybierz pozycję Niestandardowa mowa> Nazwa >projektu Zestawy>danych usługi Mowa Przekaż dane.

  3. Wybierz kartę Dane szkoleniowe lub Dane testowania.

  4. Wybierz typ zestawu danych, a następnie wybierz pozycję Dalej.

  5. Określ lokalizację zestawu danych, a następnie wybierz pozycję Dalej. Możesz wybrać plik lokalny lub wprowadzić lokalizację zdalną, taką jak adres URL obiektu blob platformy Azure. Jeśli wybierzesz lokalizację zdalną i nie używasz mechanizmu zabezpieczeń zaufanych usług platformy Azure, lokalizacja zdalna powinna być adresem URL, który można pobrać za pomocą prostego anonimowego żądania GET. Na przykład adres URL sygnatury dostępu współdzielonego lub adres URL dostępny publicznie. Adresy URL, które wymagają dodatkowej autoryzacji lub oczekują interakcji z użytkownikiem, nie są obsługiwane.

    Uwaga

    Jeśli używasz adresu URL obiektu blob platformy Azure, możesz zapewnić maksymalne bezpieczeństwo plików zestawu danych przy użyciu mechanizmu zabezpieczeń zaufanych usług platformy Azure. Użyjesz tych samych technik co w przypadku transkrypcji usługi Batch i zwykłych adresów URL konta magazynu dla plików zestawu danych. Więcej szczegółów można znaleźć tutaj.

  6. Wprowadź nazwę i opis zestawu danych, a następnie wybierz pozycję Dalej.

  7. Przejrzyj ustawienia, a następnie wybierz pozycję Zapisz i zamknij.

Po przekazaniu zestawu danych przejdź do strony Trenowanie modeli niestandardowych, aby wytrenować model niestandardowy.

Interfejs wiersza polecenia usługi Mowa i interfejs API REST zamiany mowy na tekst, w przeciwieństwie do programu Speech Studio, nie wybierasz, czy zestaw danych jest przeznaczony do testowania, czy trenowania w momencie przekazywania. Określasz sposób użycia zestawu danych podczas trenowania modelu lub uruchamiania testu.

Chociaż nie wskazujesz, czy zestaw danych jest przeznaczony do testowania lub trenowania, musisz określić rodzaj zestawu danych. Rodzaj zestawu danych służy do określania typu zestawu danych. W niektórych przypadkach rodzaj zestawu danych jest używany tylko do testowania lub trenowania, ale nie należy na tym polegać. Wartości interfejsu wiersza polecenia usługi Mowa i interfejsu API kind REST odpowiadają opcjom w programie Speech Studio zgodnie z opisem w poniższej tabeli:

Rodzaj interfejsu wiersza polecenia i interfejsu API Opcje programu Speech Studio
Akustyczne Dane szkoleniowe: audio i transkrypcja oznaczona przez człowieka
Testowanie danych: Transkrypcja (automatyczna synteza dźwięku)
Testowanie danych: audio i transkrypcja oznaczona przez człowieka
Pliki audio Testowanie danych: dźwięk
Język Dane szkoleniowe: zwykły tekst
LanguageMarkdown Dane szkoleniowe: tekst ustrukturyzowany w formacie markdown
Wymowa Dane treningowe: wymowa
Formatowanie danych wyjściowych Dane treningowe: format danych wyjściowych

Uwaga

Tekst ustrukturyzowany w zestawach danych trenowania w formacie markdown nie jest obsługiwany przez wersję 3.0 interfejsu API REST zamiany mowy na tekst. Musisz użyć interfejsu SPEECH do tłumaczenia tekstu interfejsu API REST w wersji 3.1. Aby uzyskać więcej informacji, zobacz Migrowanie kodu z wersji 3.0 do wersji 3.1 interfejsu API REST.

Aby utworzyć zestaw danych i połączyć go z istniejącym projektem, użyj spx csr dataset create polecenia . Skonstruuj parametry żądania zgodnie z następującymi instrukcjami:

  • project Ustaw parametr na identyfikator istniejącego projektu. Ten parametr jest zalecany, aby można było również wyświetlać zestaw danych i zarządzać nim w programie Speech Studio. Możesz uruchomić polecenie , spx csr project list aby uzyskać dostępne projekty.

  • Ustaw wymagany kind parametr. Możliwy zestaw wartości dla rodzaju zestawu danych to: Język, Akustyka, Wymowa i AudioFiles.

  • Ustaw wymagany contentUrl parametr. Ten parametr jest lokalizacją zestawu danych. Jeśli nie używasz mechanizmu zabezpieczeń zaufanych usług platformy Azure (zobacz następną notatkę), contentUrl parametr powinien być adresem URL, który można pobrać za pomocą prostego anonimowego żądania GET. Na przykład adres URL sygnatury dostępu współdzielonego lub adres URL dostępny publicznie. Adresy URL, które wymagają dodatkowej autoryzacji lub oczekują interakcji z użytkownikiem, nie są obsługiwane.

    Uwaga

    Jeśli używasz adresu URL obiektu blob platformy Azure, możesz zapewnić maksymalne bezpieczeństwo plików zestawu danych przy użyciu mechanizmu zabezpieczeń zaufanych usług platformy Azure. Użyjesz tych samych technik co w przypadku transkrypcji usługi Batch i zwykłych adresów URL konta magazynu dla plików zestawu danych. Więcej szczegółów można znaleźć tutaj.

  • Ustaw wymagany language parametr. Ustawienia regionalne zestawu danych muszą być zgodne z ustawieniami regionalnymi projektu. Nie można później zmienić ustawień regionalnych. Parametr interfejsu locale wiersza polecenia language usługi Mowa odpowiada właściwości w żądaniu i odpowiedzi w formacie JSON.

  • Ustaw wymagany name parametr. Ten parametr to nazwa wyświetlana w programie Speech Studio. Parametr interfejsu displayName wiersza polecenia name usługi Mowa odpowiada właściwości w żądaniu i odpowiedzi w formacie JSON.

Oto przykładowe polecenie interfejsu wiersza polecenia usługi Mowa, które tworzy zestaw danych i łączy go z istniejącym projektem:

spx csr dataset create --api-version v3.1 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c",
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "properties": {
    "acceptedLineCount": 0,
    "rejectedLineCount": 0
  },
  "lastActionDateTime": "2022-05-20T14:07:11Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T14:07:11Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description"
}

Właściwość najwyższego poziomu self w treści odpowiedzi to identyfikator URI zestawu danych. Użyj tego identyfikatora URI, aby uzyskać szczegółowe informacje o projekcie i plikach zestawu danych. Ten identyfikator URI służy również do aktualizowania lub usuwania zestawu danych.

Aby uzyskać pomoc dotyczącą interfejsu wiersza polecenia usługi Mowa w zestawach danych, uruchom następujące polecenie:

spx help csr dataset

Interfejs wiersza polecenia usługi Mowa i interfejs API REST zamiany mowy na tekst, w przeciwieństwie do programu Speech Studio, nie wybierasz, czy zestaw danych jest przeznaczony do testowania, czy trenowania w momencie przekazywania. Określasz sposób użycia zestawu danych podczas trenowania modelu lub uruchamiania testu.

Chociaż nie wskazujesz, czy zestaw danych jest przeznaczony do testowania lub trenowania, musisz określić rodzaj zestawu danych. Rodzaj zestawu danych służy do określania typu zestawu danych. W niektórych przypadkach rodzaj zestawu danych jest używany tylko do testowania lub trenowania, ale nie należy na tym polegać. Wartości interfejsu wiersza polecenia usługi Mowa i interfejsu API kind REST odpowiadają opcjom w programie Speech Studio zgodnie z opisem w poniższej tabeli:

Rodzaj interfejsu wiersza polecenia i interfejsu API Opcje programu Speech Studio
Akustyczne Dane szkoleniowe: audio i transkrypcja oznaczona przez człowieka
Testowanie danych: Transkrypcja (automatyczna synteza dźwięku)
Testowanie danych: audio i transkrypcja oznaczona przez człowieka
Pliki audio Testowanie danych: dźwięk
Język Dane szkoleniowe: zwykły tekst
LanguageMarkdown Dane szkoleniowe: tekst ustrukturyzowany w formacie markdown
Wymowa Dane treningowe: wymowa
Formatowanie danych wyjściowych Dane treningowe: format danych wyjściowych

Uwaga

Tekst ustrukturyzowany w zestawach danych trenowania w formacie markdown nie jest obsługiwany przez wersję 3.0 interfejsu API REST zamiany mowy na tekst. Musisz użyć interfejsu SPEECH do tłumaczenia tekstu interfejsu API REST w wersji 3.1. Aby uzyskać więcej informacji, zobacz Migrowanie kodu z wersji 3.0 do wersji 3.1 interfejsu API REST.

Aby utworzyć zestaw danych i połączyć go z istniejącym projektem, użyj Datasets_Create operacji zamiany mowy na tekst interfejsu API REST. Skonstruuj treść żądania zgodnie z następującymi instrukcjami:

  • project Ustaw właściwość na identyfikator URI istniejącego projektu. Ta właściwość jest zalecana, aby można było również wyświetlać zestaw danych i zarządzać nim w programie Speech Studio. Możesz wysłać żądanie Projects_List , aby uzyskać dostępne projekty.

  • Ustaw wymaganą kind właściwość. Możliwy zestaw wartości dla rodzaju zestawu danych to: Język, Akustyka, Wymowa i AudioFiles.

  • Ustaw wymaganą contentUrl właściwość. Ta właściwość jest lokalizacją zestawu danych. Jeśli nie używasz mechanizmu zabezpieczeń zaufanych usług platformy Azure (zobacz następną notatkę), contentUrl parametr powinien być adresem URL, który można pobrać za pomocą prostego anonimowego żądania GET. Na przykład adres URL sygnatury dostępu współdzielonego lub adres URL dostępny publicznie. Adresy URL, które wymagają dodatkowej autoryzacji lub oczekują interakcji z użytkownikiem, nie są obsługiwane.

    Uwaga

    Jeśli używasz adresu URL obiektu blob platformy Azure, możesz zapewnić maksymalne bezpieczeństwo plików zestawu danych przy użyciu mechanizmu zabezpieczeń zaufanych usług platformy Azure. Użyjesz tych samych technik co w przypadku transkrypcji usługi Batch i zwykłych adresów URL konta magazynu dla plików zestawu danych. Więcej szczegółów można znaleźć tutaj.

  • Ustaw wymaganą locale właściwość. Ustawienia regionalne zestawu danych muszą być zgodne z ustawieniami regionalnymi projektu. Nie można później zmienić ustawień regionalnych.

  • Ustaw wymaganą displayName właściwość. Ta właściwość to nazwa wyświetlana w programie Speech Studio.

Utwórz żądanie HTTP POST przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie. Zastąp YourSubscriptionKey ciąg kluczem zasobu usługi Mowa, zastąp YourServiceRegion element regionem zasobu usługi Mowa i ustaw właściwości treści żądania zgodnie z wcześniejszym opisem.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/datasets"

Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c",
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "properties": {
    "acceptedLineCount": 0,
    "rejectedLineCount": 0
  },
  "lastActionDateTime": "2022-05-20T14:07:11Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T14:07:11Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description"
}

Właściwość najwyższego poziomu self w treści odpowiedzi to identyfikator URI zestawu danych. Użyj tego identyfikatora URI, aby uzyskać szczegółowe informacje o projekcie i plikach zestawu danych. Ten identyfikator URI służy również do aktualizowania lub usuwania zestawu danych.

Ważne

Połączenie zestaw danych do niestandardowego projektu mowy nie jest wymagany do trenowania i testowania modelu niestandardowego przy użyciu interfejsu API REST lub interfejsu wiersza polecenia usługi Mowa. Jeśli jednak zestaw danych nie jest połączony z żadnym projektem, nie można go wybrać do trenowania ani testowania w programie Speech Studio.

Następne kroki