Udostępnij za pośrednictwem


Używanie zasobu rozpoznawania mowy "Przynieś własny magazyn" (BYOS) na potrzeby zamiany mowy na tekst

Funkcja Bring Your Own Storage (BYOS) może być używana w następujących scenariuszach zamiany mowy na tekst:

  • Transkrypcja wsadowa
  • Transkrypcja w czasie rzeczywistym z włączonym rejestrowaniem wyników audio i transkrypcji
  • Mowa niestandardowa

Jedną parę zasobu usługi Mowa i konta magazynu można używać dla wszystkich scenariuszy jednocześnie.

W tym artykule wyjaśniono szczegółowo, jak używać zasobu mowy z obsługą systemu BYOS we wszystkich scenariuszach zamiany mowy na tekst. W tym artykule wyjaśniono, że masz w pełni skonfigurowany zasób usługi Mowa z obsługą systemu BYOS i skojarzone konto magazynu.

Magazyn danych

W przypadku korzystania z usługi BYOS usługa rozpoznawania mowy nie przechowuje żadnych artefaktów klienta po zakończeniu przetwarzania danych (transkrypcja, trenowanie modelu, testowanie modelu). Jednak niektóre metadane, które nie pochodzą z zawartości użytkownika, są przechowywane w środowisku usługi Mowa. Na przykład w scenariuszu dotyczącym mowy niestandardowej usługa przechowuje pewne informacje o niestandardowych punktach końcowych, takich jak używane przez nie modele.

Skojarzone z systemem BYOS konto magazynu przechowuje następujące dane:

Uwaga

Opcjonalnie w tej sekcji oznacza, że jest to możliwe, ale nie jest wymagane do przechowywania określonych artefaktów na skojarzonym z systemem BYOS koncie magazynu. W razie potrzeby można je przechowywać w innym miejscu.

Transkrypcja wsadowa

  • Dźwięk źródłowy (opcjonalnie)
  • Wyniki transkrypcji wsadowej

Transkrypcja w czasie rzeczywistym z włączonym rejestrowaniem wyników audio i transkrypcji

  • Dzienniki wyników audio i transkrypcji

Mowa niestandardowa

  • Pliki źródłowe zestawów danych na potrzeby trenowania i testowania modelu (opcjonalnie)
  • Wszystkie dane i metadane związane z modelami niestandardowymi hostowanymi przez zasób usługi Mowa z obsługą systemu BYOS (w tym kopie zestawów danych na potrzeby trenowania i testowania modelu)

Transkrypcja wsadowa

Transkrypcja wsadowa służy do transkrypcji dużej ilości danych audio w magazynie. Jeśli nie znasz transkrypcji usługi Batch, zapoznaj się z tym artykułem .

Wykonaj następujące kroki, aby wykonać transkrypcję usługi Batch przy użyciu zasobu mowy z obsługą systemu BYOS:

  1. Uruchom transkrypcję usługi Batch zgodnie z opisem w tym przewodniku.

    Ważne

    Nie używaj destinationContainerUrl parametru w żądaniu transkrypcji. Jeśli używasz usługi BYOS, wyniki transkrypcji są automatycznie przechowywane na skojarzonym z systemem BYOS koncie magazynu.

    Jeśli używasz destinationContainerUrl parametru, będzie działać, ale zapewnia znacznie mniejsze bezpieczeństwo danych ze względu na użycie sygnatury dostępu współdzielonego ad hoc. Więcej szczegółów można znaleźć tutaj.

  2. Po zakończeniu transkrypcji uzyskaj wyniki transkrypcji zgodnie z tym przewodnikiem. Rozważ użycie sasValidityInSeconds parametru (zobacz następującą sekcję).

Usługa mowa używa customspeech-artifacts kontenera obiektów blob na skojarzonym z systemem BYOS koncie magazynu do przechowywania wyników transkrypcji pośredniej i końcowej.

Uwaga

Usługa mowa korzysta ze wstępnie zdefiniowanych ścieżek kontenerów obiektów blob i nazw plików dla modułu transkrypcji usługi Batch w celu poprawnego działania. Nie przenosij, zmieniaj nazwy ani w żaden sposób nie zmieniaj zawartości kontenera customspeech-artifacts .

Niepowodzenie w tym celu najprawdopodobniej spowoduje trudne debugowanie błędów usługi 4xx i 5xx.

Nie twórz również rozwiązań, które bezpośrednio używają plików i folderów kontenera customspeech-artifacts . Używanie standardowych narzędzi do interakcji z transkrypcją usługi Batch. Zobacz szczegóły w sekcji Transkrypcja w usłudze Batch.

Pobieranie wyników transkrypcji usługi Batch za pośrednictwem interfejsu API REST

Interfejs API REST zamiany mowy na tekst w pełni obsługuje zasoby mowy z obsługą systemu BYOS. Jednak ponieważ dane są teraz przechowywane na koncie magazynu z obsługą usługi BYOS, żądania takie jak Pobieranie plików transkrypcji współdziałają z magazynem obiektów blob konta magazynu skojarzonego z systemem BYOS zamiast zasobów wewnętrznych usługi Mowa. Umożliwia korzystanie z tego samego kodu opartego na interfejsie API REST zarówno dla "zwykłych" i zasobów mowy z obsługą systemu BYOS.

W przypadku maksymalnego bezpieczeństwa użyj parametru sasValidityInSeconds z wartością ustawioną na 0 wartość w żądaniach, które zwracają adresy URL plików danych, takie jak żądanie Get Transcription Files . Oto przykładowy adres URL żądania:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/3b24ca19-2eb1-4a2a-b964-35d89eca486b/files?sasValidityInSeconds=0

Takie żądanie zwraca bezpośrednie adresy URL konta magazynu do plików danych (bez sygnatury dostępu współdzielonego lub innych dodatków). Na przykład:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/TranscriptionData/3b24ca19-2eb1-4a2a-b964-35d89eca486b_0_0.json"
      }

Adres URL tego formatu gwarantuje, że tylko tożsamości entra firmy Microsoft (użytkownicy, jednostki usługi, tożsamości zarządzane) z wystarczającymi prawami dostępu (takimi jak rola Czytelnik danych obiektu blob usługi Storage) mogą uzyskiwać dostęp do danych z adresu URL.

Ostrzeżenie

Jeśli sasValidityInSeconds parametr zostanie pominięty w żądaniu Pobierania plików transkrypcji lub podobnych, zostanie wygenerowany sygnatura dostępu współdzielonego delegowania użytkownika z ważnością 5 dni dla każdego zwróconego adresu URL pliku danych. Ten sygnatura dostępu współdzielonego jest podpisana przez przypisaną przez system tożsamość zarządzaną zasobu usługi Mowa z obsługą systemu BYOS. Z tego powodu sygnatura dostępu współdzielonego zezwala na dostęp do danych, nawet jeśli dostęp do klucza konta magazynu jest wyłączony. Więcej szczegółów można znaleźć tutaj.

Transkrypcja w czasie rzeczywistym z włączonym rejestrowaniem wyników audio i transkrypcji

Rejestrowanie można włączyć zarówno dla danych wejściowych audio, jak i rozpoznawanych mowy podczas używania mowy do tłumaczenia tekstu lub mowy. Zobacz pełny opis w tym artykule.

Jeśli używasz usługi BYOS, dzienniki znajdują się w customspeech-audiologs kontenerze obiektów blob na skojarzonym z systemem BYOS koncie magazynu.

Ostrzeżenie

Dane rejestrowania są przechowywane przez 5 dni. Po upływie tego okresu dzienniki zostaną automatycznie usunięte. Jest to również prawidłowe w przypadku zasobów usługi Mowa z obsługą systemu BYOS. Jeśli chcesz przechowywać dzienniki dłużej, skopiuj pliki korespondentów i foldery z customspeech-audiologs kontenera obiektów blob bezpośrednio lub użyj interfejsu API REST.

Uzyskiwanie dzienników transkrypcji w czasie rzeczywistym za pośrednictwem interfejsu API REST

Interfejs API REST zamiany mowy na tekst w pełni obsługuje zasoby mowy z obsługą systemu BYOS. Jednak ponieważ dane są teraz przechowywane na koncie magazynu z obsługą systemu BYOS, żądania takie jak Pobieranie dzienników modelu podstawowego współdziałają z magazynem obiektów blob magazynu skojarzonych z systemem BYOS, a nie z zasobami wewnętrznymi usługi Mowa. Umożliwia korzystanie z tego samego kodu opartego na interfejsie API REST zarówno dla "zwykłych" i zasobów mowy z obsługą systemu BYOS.

Aby uzyskać maksymalną liczbę zabezpieczeń, użyj parametru sasValidityInSeconds z wartością ustawioną 0 na wartość w żądaniach, które zwracają adresy URL plików danych, takie jak żądanie Get Base Model Logs( Pobierz dzienniki modelu podstawowego). Oto przykładowy adres URL żądania:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/endpoints/base/en-US/files/logs?sasValidityInSeconds=0

Takie żądanie zwraca bezpośrednie adresy URL konta magazynu do plików danych (bez sygnatury dostępu współdzielonego lub innych dodatków). Na przykład:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-audiologs/be172190e1334399852185c0addee9d6/en-US/2023-07-06/152339_fcf52189-0d3f-4415-becd-5f639fd7fd6b.v2.json"
      }

Adres URL tego formatu gwarantuje, że tylko tożsamości entra firmy Microsoft (użytkownicy, jednostki usługi, tożsamości zarządzane) z wystarczającymi prawami dostępu (takimi jak rola Czytelnik danych obiektu blob usługi Storage) mogą uzyskiwać dostęp do danych z adresu URL.

Ostrzeżenie

Jeśli sasValidityInSeconds parametr zostanie pominięty w żądaniu Pobierz dzienniki modelu podstawowego lub podobnych, zostanie wygenerowany sygnatura dostępu współdzielonego delegowania użytkownika z ważnością 5 dni dla każdego zwróconego adresu URL pliku danych. Ten sygnatura dostępu współdzielonego jest podpisana przez przypisaną przez system tożsamość zarządzaną zasobu usługi Mowa z obsługą systemu BYOS. Z tego powodu sygnatura dostępu współdzielonego zezwala na dostęp do danych, nawet jeśli dostęp do klucza konta magazynu jest wyłączony. Więcej szczegółów można znaleźć tutaj.

Mowa niestandardowa

Dzięki usłudze Custom Speech można ocenić i poprawić dokładność rozpoznawania mowy dla aplikacji i produktów. Niestandardowy model mowy może służyć do zamiany mowy w czasie rzeczywistym na tekst, tłumaczenie mowy i transkrypcję wsadową. Aby uzyskać więcej informacji, zobacz omówienie mowy niestandardowej.

Nie ma nic szczególnego w sposobie używania mowy niestandardowej z zasobem usługi Mowa z obsługą systemu BYOS. Jedyną różnicą jest to, że przechowywane są wszystkie dane powiązane z modelem niestandardowym, które usługa rozpoznawania mowy zbiera i generuje dla Ciebie. Dane są przechowywane w następujących kontenerach obiektów blob konta magazynu skojarzonego z systemem BYOS:

  • customspeech-models - Lokalizacja niestandardowych modeli mowy
  • customspeech-artifacts - Lokalizacja wszystkich innych danych związanych z mową niestandardową

Struktura kontenera obiektów blob jest udostępniana tylko dla Twoich informacji i może ulec zmianie bez powiadomienia.

Uwaga

Usługa rozpoznawania mowy korzysta ze wstępnie zdefiniowanych ścieżek kontenerów obiektów blob i nazw plików dla niestandardowego modułu rozpoznawania mowy w celu poprawnego działania. Nie przenosij, zmieniaj nazwy ani w żaden sposób zmieniaj zawartość kontenera customspeech-models i niestandardowych folderów powiązanych z mową kontenera customspeech-artifacts .

Niepowodzenie w tym celu bardzo prawdopodobne spowoduje trudne debugowanie błędów i może prowadzić do konieczności ponownego trenowania modelu niestandardowego.

Nie twórz również rozwiązań, które bezpośrednio używają plików i folderów kontenera customspeech-artifacts . Użyj standardowych narzędzi, takich jak interfejs API REST i program Speech Studio, aby korzystać z niestandardowych danych związanych z mową. Zobacz szczegóły w sekcji mowy niestandardowej.

Korzystanie z interfejsu API REST z niestandardową mową

Interfejs API REST zamiany mowy na tekst w pełni obsługuje zasoby mowy z obsługą systemu BYOS. Jednak ponieważ dane są teraz przechowywane na koncie magazynu z włączoną usługą BYOS, żądania takie jak Datasets_ListFiles interakcji z magazynem obiektów blob magazynu skojarzonego z usługą BYOS zamiast zasobów wewnętrznych usługi Mowa. Umożliwia korzystanie z tego samego kodu opartego na interfejsie API REST zarówno dla "zwykłych" i zasobów mowy z obsługą systemu BYOS.

Aby uzyskać maksymalne bezpieczeństwo, użyj parametru sasValidityInSeconds z wartością ustawioną na 0 wartość w żądaniach, które zwracają adresy URL plików danych, takie jak żądanie Get Dataset Files . Oto przykładowy adres URL żądania:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/8427b92a-cb50-4cda-bf04-964ea1b1781b/files?sasValidityInSeconds=0

Takie żądanie zwraca bezpośrednie adresy URL konta magazynu do plików danych (bez sygnatury dostępu współdzielonego lub innych dodatków). Na przykład:

 "links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/AcousticData/8427b92a-cb50-4cda-bf04-964ea1b1781b/4a61ddac-5b1c-4c21-b87d-22001b0f18ab.zip"
      }

Adres URL tego formatu gwarantuje, że tylko tożsamości entra firmy Microsoft (użytkownicy, jednostki usługi, tożsamości zarządzane) z wystarczającymi prawami dostępu (takimi jak rola Czytelnik danych obiektu blob usługi Storage) mogą uzyskiwać dostęp do danych z adresu URL.

Ostrzeżenie

Jeśli sasValidityInSeconds parametr zostanie pominięty w żądaniu Pobierz pliki zestawu danych lub podobnych, sygnatura dostępu współdzielonego delegowania użytkownika z ważnością 5 dni zostanie wygenerowana dla każdego zwróconego adresu URL pliku danych. Ten sygnatura dostępu współdzielonego jest podpisana przez przypisaną przez system tożsamość zarządzaną zasobu usługi Mowa z obsługą systemu BYOS. Z tego powodu sygnatura dostępu współdzielonego zezwala na dostęp do danych, nawet jeśli dostęp do klucza konta magazynu jest wyłączony. Więcej szczegółów można znaleźć tutaj.

Następne kroki