Przekazywanie zestawów danych szkoleniowych i testowych na potrzeby niestandardowej mowy
Potrzebujesz danych dźwiękowych lub tekstowych do testowania dokładności rozpoznawania mowy lub trenowania modeli niestandardowych. Aby uzyskać informacje o typach danych obsługiwanych do testowania lub trenowania modelu, zobacz Trenowanie i testowanie zestawów danych.
Napiwek
Możesz również użyć edytora transkrypcji online, aby utworzyć i uściślić zestawy danych audio z etykietami.
Przekazywanie zestawów danych
Aby przekazać własne zestawy danych w programie Speech Studio, wykonaj następujące kroki:
Zaloguj się do programu Speech Studio.
Wybierz pozycję Niestandardowa mowa> Nazwa >projektu Zestawy>danych usługi Mowa Przekaż dane.
Wybierz kartę Dane szkoleniowe lub Dane testowania.
Wybierz typ zestawu danych, a następnie wybierz pozycję Dalej.
Określ lokalizację zestawu danych, a następnie wybierz pozycję Dalej. Możesz wybrać plik lokalny lub wprowadzić lokalizację zdalną, taką jak adres URL obiektu blob platformy Azure. Jeśli wybierzesz lokalizację zdalną i nie używasz mechanizmu zabezpieczeń zaufanych usług platformy Azure, lokalizacja zdalna powinna być adresem URL, który można pobrać za pomocą prostego anonimowego żądania GET. Na przykład adres URL sygnatury dostępu współdzielonego lub adres URL dostępny publicznie. Adresy URL, które wymagają dodatkowej autoryzacji lub oczekują interakcji z użytkownikiem, nie są obsługiwane.
Uwaga
Jeśli używasz adresu URL obiektu blob platformy Azure, możesz zapewnić maksymalne bezpieczeństwo plików zestawu danych przy użyciu mechanizmu zabezpieczeń zaufanych usług platformy Azure. Użyjesz tych samych technik co w przypadku transkrypcji usługi Batch i zwykłych adresów URL konta magazynu dla plików zestawu danych. Więcej szczegółów można znaleźć tutaj.
Wprowadź nazwę i opis zestawu danych, a następnie wybierz pozycję Dalej.
Przejrzyj ustawienia, a następnie wybierz pozycję Zapisz i zamknij.
Po przekazaniu zestawu danych przejdź do strony Trenowanie modeli niestandardowych, aby wytrenować model niestandardowy.
Interfejs wiersza polecenia usługi Mowa i interfejs API REST zamiany mowy na tekst, w przeciwieństwie do programu Speech Studio, nie wybierasz, czy zestaw danych jest przeznaczony do testowania, czy trenowania w momencie przekazywania. Określasz sposób użycia zestawu danych podczas trenowania modelu lub uruchamiania testu.
Chociaż nie wskazujesz, czy zestaw danych jest przeznaczony do testowania lub trenowania, musisz określić rodzaj zestawu danych. Rodzaj zestawu danych służy do określania typu zestawu danych. W niektórych przypadkach rodzaj zestawu danych jest używany tylko do testowania lub trenowania, ale nie należy na tym polegać. Wartości interfejsu wiersza polecenia usługi Mowa i interfejsu API kind
REST odpowiadają opcjom w programie Speech Studio zgodnie z opisem w poniższej tabeli:
Rodzaj interfejsu wiersza polecenia i interfejsu API | Opcje programu Speech Studio |
---|---|
Akustyczny | Dane szkoleniowe: audio i transkrypcja oznaczona przez człowieka Testowanie danych: Transkrypcja (automatyczna synteza dźwięku) Testowanie danych: audio i transkrypcja oznaczona przez człowieka |
Pliki audio | Testowanie danych: dźwięk |
Język | Dane szkoleniowe: zwykły tekst |
LanguageMarkdown | Dane szkoleniowe: tekst ustrukturyzowany w formacie markdown |
Wymowa | Dane treningowe: wymowa |
Formatowanie danych wyjściowych | Dane treningowe: format danych wyjściowych |
Ważne
Nie używasz interfejsu wiersza polecenia usługi Mowa ani interfejsu API REST do bezpośredniego przekazywania plików danych. Najpierw zapiszesz pliki zestawu danych trenowania lub testowania pod adresem URL, do którego może uzyskiwać dostęp interfejs wiersza polecenia usługi Mowa lub interfejs API REST. Po przekazaniu plików danych możesz użyć interfejsu wiersza polecenia usługi Mowa lub interfejsu API REST, aby utworzyć zestaw danych na potrzeby niestandardowego testowania lub trenowania mowy.
Aby utworzyć zestaw danych i połączyć go z istniejącym projektem, użyj spx csr dataset create
polecenia . Skonstruuj parametry żądania zgodnie z następującymi instrukcjami:
project
Ustaw parametr na identyfikator istniejącego projektu. Ten parametr jest zalecany, aby można było również wyświetlać zestaw danych i zarządzać nim w programie Speech Studio. Możesz uruchomić polecenie ,spx csr project list
aby uzyskać dostępne projekty.Ustaw wymagany
kind
parametr. Możliwy zestaw wartości dla rodzaju zestawu danych trenowania to: Acoustic(akustyczny), AudioFiles (Pliki audio), Language (Język), LanguageMarkdown (Język), LanguageMarkdown (Język), LanguageMarkdown (Wymowa).Ustaw wymagany
contentUrl
parametr. Ten parametr jest lokalizacją zestawu danych. Jeśli nie używasz mechanizmu zabezpieczeń zaufanych usług platformy Azure (zobacz następną notatkę),contentUrl
parametr powinien być adresem URL, który można pobrać za pomocą prostego anonimowego żądania GET. Na przykład adres URL sygnatury dostępu współdzielonego lub adres URL dostępny publicznie. Adresy URL, które wymagają dodatkowej autoryzacji lub oczekują interakcji z użytkownikiem, nie są obsługiwane.Uwaga
Jeśli używasz adresu URL obiektu blob platformy Azure, możesz zapewnić maksymalne bezpieczeństwo plików zestawu danych przy użyciu mechanizmu zabezpieczeń zaufanych usług platformy Azure. Użyjesz tych samych technik co w przypadku transkrypcji usługi Batch i zwykłych adresów URL konta magazynu dla plików zestawu danych. Więcej szczegółów można znaleźć tutaj.
Ustaw wymagany
language
parametr. Ustawienia regionalne zestawu danych muszą być zgodne z ustawieniami regionalnymi projektu. Nie można później zmienić ustawień regionalnych. Parametr interfejsulocale
wiersza polecenialanguage
usługi Mowa odpowiada właściwości w żądaniu i odpowiedzi w formacie JSON.Ustaw wymagany
name
parametr. Ten parametr to nazwa wyświetlana w programie Speech Studio. Parametr interfejsudisplayName
wiersza polecenianame
usługi Mowa odpowiada właściwości w żądaniu i odpowiedzi w formacie JSON.
Oto przykładowe polecenie interfejsu wiersza polecenia usługi Mowa, które tworzy zestaw danych i łączy go z istniejącym projektem:
spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"
Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
"kind": "Acoustic",
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"properties": {
"textNormalizationKind": "Default",
"acceptedLineCount": 2,
"rejectedLineCount": 0,
"duration": "PT59S"
},
"lastActionDateTime": "2024-07-14T17:36:30Z",
"status": "Succeeded",
"createdDateTime": "2024-07-14T17:36:14Z",
"locale": "en-US",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"customProperties": {
"PortalAPIVersion": "3"
}
}
Właściwość najwyższego poziomu self
w treści odpowiedzi to identyfikator URI zestawu danych. Użyj tego identyfikatora URI, aby uzyskać szczegółowe informacje o projekcie i plikach zestawu danych. Ten identyfikator URI służy również do aktualizowania lub usuwania zestawu danych.
Aby uzyskać pomoc dotyczącą interfejsu wiersza polecenia usługi Mowa w zestawach danych, uruchom następujące polecenie:
spx help csr dataset
Interfejs wiersza polecenia usługi Mowa i interfejs API REST zamiany mowy na tekst, w przeciwieństwie do programu Speech Studio, nie wybierasz, czy zestaw danych jest przeznaczony do testowania, czy trenowania w momencie przekazywania. Określasz sposób użycia zestawu danych podczas trenowania modelu lub uruchamiania testu.
Chociaż nie wskazujesz, czy zestaw danych jest przeznaczony do testowania lub trenowania, musisz określić rodzaj zestawu danych. Rodzaj zestawu danych służy do określania typu zestawu danych. W niektórych przypadkach rodzaj zestawu danych jest używany tylko do testowania lub trenowania, ale nie należy na tym polegać. Wartości interfejsu wiersza polecenia usługi Mowa i interfejsu API kind
REST odpowiadają opcjom w programie Speech Studio zgodnie z opisem w poniższej tabeli:
Rodzaj interfejsu wiersza polecenia i interfejsu API | Opcje programu Speech Studio |
---|---|
Akustyczny | Dane szkoleniowe: audio i transkrypcja oznaczona przez człowieka Testowanie danych: Transkrypcja (automatyczna synteza dźwięku) Testowanie danych: audio i transkrypcja oznaczona przez człowieka |
Pliki audio | Testowanie danych: dźwięk |
Język | Dane szkoleniowe: zwykły tekst |
LanguageMarkdown | Dane szkoleniowe: tekst ustrukturyzowany w formacie markdown |
Wymowa | Dane treningowe: wymowa |
Formatowanie danych wyjściowych | Dane treningowe: format danych wyjściowych |
Ważne
Nie używasz interfejsu wiersza polecenia usługi Mowa ani interfejsu API REST do bezpośredniego przekazywania plików danych. Najpierw zapiszesz pliki zestawu danych trenowania lub testowania pod adresem URL, do którego może uzyskiwać dostęp interfejs wiersza polecenia usługi Mowa lub interfejs API REST. Po przekazaniu plików danych możesz użyć interfejsu wiersza polecenia usługi Mowa lub interfejsu API REST, aby utworzyć zestaw danych na potrzeby niestandardowego testowania lub trenowania mowy.
Aby utworzyć zestaw danych i połączyć go z istniejącym projektem, użyj Datasets_Create operacji zamiany mowy na tekst interfejsu API REST. Skonstruuj treść żądania zgodnie z następującymi instrukcjami:
project
Ustaw właściwość na identyfikator URI istniejącego projektu. Ta właściwość jest zalecana, aby można było również wyświetlać zestaw danych i zarządzać nim w programie Speech Studio. Możesz wysłać żądanie Projects_List , aby uzyskać dostępne projekty.Ustaw wymaganą
kind
właściwość. Możliwy zestaw wartości dla rodzaju zestawu danych trenowania to: Acoustic(akustyczny), AudioFiles (Pliki audio), Language (Język), LanguageMarkdown (Język), LanguageMarkdown (Język), LanguageMarkdown (Wymowa).Ustaw wymaganą
contentUrl
właściwość. Ta właściwość jest lokalizacją zestawu danych. Jeśli nie używasz mechanizmu zabezpieczeń zaufanych usług platformy Azure (zobacz następną notatkę),contentUrl
parametr powinien być adresem URL, który można pobrać za pomocą prostego anonimowego żądania GET. Na przykład adres URL sygnatury dostępu współdzielonego lub adres URL dostępny publicznie. Adresy URL, które wymagają dodatkowej autoryzacji lub oczekują interakcji z użytkownikiem, nie są obsługiwane.Uwaga
Jeśli używasz adresu URL obiektu blob platformy Azure, możesz zapewnić maksymalne bezpieczeństwo plików zestawu danych przy użyciu mechanizmu zabezpieczeń zaufanych usług platformy Azure. Użyjesz tych samych technik co w przypadku transkrypcji usługi Batch i zwykłych adresów URL konta magazynu dla plików zestawu danych. Więcej szczegółów można znaleźć tutaj.
Ustaw wymaganą
locale
właściwość. Ustawienia regionalne zestawu danych muszą być zgodne z ustawieniami regionalnymi projektu. Nie można później zmienić ustawień regionalnych.Ustaw wymaganą
displayName
właściwość. Ta właściwość to nazwa wyświetlana w programie Speech Studio.
Utwórz żądanie HTTP POST przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie. Zastąp YourSubscriptionKey
ciąg kluczem zasobu usługi Mowa, zastąp YourServiceRegion
element regionem zasobu usługi Mowa i ustaw właściwości treści żądania zgodnie z wcześniejszym opisem.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"kind": "Acoustic",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"contentUrl": "https://contoso.com/mydatasetlocation",
"locale": "en-US",
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"
Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
"kind": "Acoustic",
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
},
"properties": {
"textNormalizationKind": "Default",
"acceptedLineCount": 2,
"rejectedLineCount": 0,
"duration": "PT59S"
},
"lastActionDateTime": "2024-07-14T17:36:30Z",
"status": "Succeeded",
"createdDateTime": "2024-07-14T17:36:14Z",
"locale": "en-US",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"customProperties": {
"PortalAPIVersion": "3"
}
}
Właściwość najwyższego poziomu self
w treści odpowiedzi to identyfikator URI zestawu danych. Użyj tego identyfikatora URI, aby uzyskać szczegółowe informacje o projekcie i plikach zestawu danych. Ten identyfikator URI służy również do aktualizowania lub usuwania zestawu danych.
Ważne
Łączenie zestawu danych z projektem niestandardowej mowy nie jest wymagane do trenowania i testowania modelu niestandardowego przy użyciu interfejsu API REST lub interfejsu wiersza polecenia usługi Mowa. Jeśli jednak zestaw danych nie jest połączony z żadnym projektem, nie można go wybrać do trenowania ani testowania w programie Speech Studio.