Trenowanie i testowanie zestawów danych

W projekcie mowy niestandardowej można przekazywać zestawy danych na potrzeby trenowania, inspekcji jakościowej i pomiaru ilościowego. W tym artykule opisano typy danych szkoleniowych i testowych, których można używać na potrzeby mowy niestandardowej.

Tekst i dźwięk używany do testowania i trenowania modelu niestandardowego powinny zawierać przykłady z zróżnicowanego zestawu głośników i scenariuszy, które mają być rozpoznawane przez model. Podczas zbierania danych na potrzeby testowania i trenowania modelu niestandardowego należy wziąć pod uwagę następujące czynniki:

  • Uwzględnij dane tekstowe i audio, aby uwzględnić rodzaje wypowiedzi słownych, które użytkownicy tworzą podczas interakcji z modelem. Na przykład model, który podnosi i obniża temperaturę, musi trenować instrukcje, które użytkownicy mogą wprowadzić w celu zażądania takich zmian.
  • Uwzględnij wszystkie wariancji mowy, które mają być rozpoznawane przez model. Wiele czynników może różnić się mową, w tym akcentami, dialektami, mieszaniem języka, wiekiem, płcią, skokiem głosu, poziomem stresu i godziną dnia.
  • Dołącz próbki z różnych środowisk, na przykład w pomieszczeniach, na zewnątrz i na zewnątrz, gdzie używany jest model.
  • Nagrywaj dźwięk przy użyciu urządzeń sprzętowych używanych przez system produkcyjny. Jeśli model musi identyfikować mowę zarejestrowaną na urządzeniach o różnej jakości, dane audio, które udostępniasz do trenowania modelu, muszą również reprezentować te zróżnicowane scenariusze.
  • Zachowaj zróżnicowany zestaw danych i reprezentatywny dla wymagań projektu. Później możesz dodać więcej danych do modelu.
  • Uwzględnij tylko dane, których model potrzebuje do transkrypcji. Uwzględnienie danych, które nie należą do wymagań dotyczących rozpoznawania modelu niestandardowego, może zaszkodzić ogólnej jakości rozpoznawania.

Typy danych

W poniższej tabeli wymieniono akceptowane typy danych, kiedy należy używać poszczególnych typów danych i zalecaną ilość. Nie każdy typ danych jest wymagany do utworzenia modelu. Wymagania dotyczące danych różnią się w zależności od tego, czy tworzysz test, czy trenujesz model.

Typ danych Używany do testowania Zalecane do testowania Używany do trenowania Zalecane do trenowania
Tylko dźwięk Tak (inspekcja wizualna) 5+ pliki audio Tak (wersja zapoznawcza dla en-US) 1–20 godzin dźwięku
Audio i transkrypcje oznaczone przez człowieka Tak (ocena dokładności) 0,5–5 godz. dźwięku Tak 1–20 godzin dźwięku
Zwykły tekst Nie. Nie dotyczy Tak 1–200 MB powiązanego tekstu
Tekst ustrukturyzowany Nie. Nie dotyczy Tak Maksymalnie 10 klas z maksymalnie 4000 elementami i maksymalnie 50 000 zdań treningowych
Wymowa Nie. Nie dotyczy Tak Od 1 KB do 1 MB tekstu wymowy
Format wyświetlania Nie. Nie dotyczy Tak Do 200 wierszy dla ITN, 1000 wierszy do ponownego zapisywania, 1000 wierszy dla filtru wulgaryzmów

Trenowanie przy użyciu zwykłego tekstu lub tekstu strukturalnego zwykle kończy się w ciągu kilku minut.

Napiwek

Zacznij od danych w postaci zwykłego tekstu lub danych tekstowych ze strukturą. Te dane poprawią rozpoznawanie specjalnych terminów i fraz. Trenowanie przy użyciu tekstu jest znacznie szybsze niż trenowanie przy użyciu dźwięku (w minutach i dniach).

Zacznij od małych zestawów przykładowych danych, które pasują do języka, akustyki i sprzętu, w którym będzie używany model. Małe zestawy danych reprezentatywnych mogą ujawnić problemy przed zainwestowaniem w zbieranie większych zestawów danych na potrzeby trenowania. Aby uzyskać przykładowe dane mowy niestandardowej, zobacz to repozytorium GitHub.

W przypadku trenowania modelu niestandardowego przy użyciu danych audio wybierz region zasobów usługi Mowa z dedykowanym sprzętem do trenowania danych audio. Aby uzyskać więcej informacji, zobacz przypisy dolne w tabeli regionów . W regionach z dedykowanym sprzętem do trenowania mowy niestandardowej usługa rozpoznawania mowy używa do 20 godzin danych treningowych dźwięku i może przetwarzać około 10 godzin danych dziennie. W innych regionach usługa rozpoznawania mowy używa do 8 godzin danych audio i może przetwarzać około 1 godziny danych dziennie. Po wytrenowanym modelu możesz skopiować model do innego regionu zgodnie z potrzebami przy użyciu interfejsu API REST Models_CopyTo .

Rozważ zestawy danych według scenariusza

Model wytrenowany w podzestawie scenariuszy może działać dobrze tylko w tych scenariuszach. Starannie wybieraj dane reprezentujące pełny zakres scenariuszy, które są potrzebne do rozpoznawania modelu niestandardowego. W poniższej tabeli przedstawiono zestawy danych, które należy wziąć pod uwagę w przypadku niektórych scenariuszy rozpoznawania mowy:

Scenariusz Dane zwykłego tekstu i dane tekstowe ze strukturą Audio i transkrypcje oznaczone przez człowieka Nowe słowa z wymową
Biuro obsługi Dokumenty marketingowe, witryna internetowa, przeglądy produktów związane z działaniami centrum telefonicznego Połączenia z centrum telefonicznego transkrypcji przez ludzi Terminy, które mają niejednoznaczną wymowę (zobacz przykład xbox w poprzedniej sekcji)
Asystent głosowy Listy zdań, które używają różnych kombinacji poleceń i jednostek Nagrane głosy mówiące polecenia na urządzeniu, transkrybowane w tekście Nazwy (filmy, piosenki, produkty), które mają unikatową wymowę
Dyktowanie Zapisane dane wejściowe, takie jak wiadomości błyskawiczne lub wiadomości e-mail Podobnie jak w poprzednich przykładach Podobnie jak w poprzednich przykładach
Wideo zostało zamknięte podpis Programy telewizyjne, filmy, treści marketingowe, podsumowania wideo Dokładne transkrypcje wideo Podobnie jak w poprzednich przykładach

Aby ułatwić określenie, którego zestawu danych użyć do rozwiązywania problemów, zapoznaj się z następującą tabelą:

Przypadek użycia Typ danych
Zwiększ dokładność rozpoznawania słownictwa i gramatyki specyficznego dla branży, takiego jak terminologia medyczna lub żargon IT. Zwykły tekst lub dane tekstowe ze strukturą
Zdefiniuj fonetyczną i wyświetlaną formę słowa lub terminu, który ma niestandardową wymowę, taką jak nazwy produktów lub akronimy. Dane wymowy lub wymowa fonetyczna w tekście ustrukturyzowanym
Zwiększ dokładność rozpoznawania stylów mówienia, akcentów lub konkretnych szumów tła. Audio i transkrypcje oznaczone przez człowieka

Audio i dane transkrypcji oznaczone przez człowieka na potrzeby trenowania lub testowania

Dane transkrypcji oznaczone przez człowieka można używać zarówno do celów szkoleniowych, jak i testowych . Aby porównać, musisz podać transkrypcje oznaczone przez człowieka (wyraz po słowie):

  • Aby poprawić aspekty akustyczne, takie jak niewielkie akcenty, style mówienia i szumy tła.
  • Aby zmierzyć dokładność mowy firmy Microsoft z dokładnością tekstu, przetwarza pliki audio.

Aby uzyskać listę modeli podstawowych, które obsługują trenowanie przy użyciu danych audio, zobacz Obsługa języka. Nawet jeśli model podstawowy obsługuje trenowanie przy użyciu danych audio, usługa może używać tylko części dźwięku. I nadal używa wszystkich transkrypcji.

Ważne

Jeśli model podstawowy nie obsługuje dostosowywania z danymi audio, do trenowania będzie używany tylko tekst transkrypcji. Jeśli przejdziesz do modelu podstawowego, który obsługuje dostosowywanie przy użyciu danych audio, czas trenowania może wzrosnąć z kilku godzin do kilku dni. Zmiana czasu trenowania byłaby najbardziej zauważalna, gdy przełączysz się do modelu podstawowego w regionie bez dedykowanego sprzętu do trenowania. Jeśli dane audio nie są wymagane, należy je usunąć, aby skrócić czas trenowania.

Dźwięk z transkrypcjami oznaczonymi przez człowieka zapewnia największą dokładność, jeśli dźwięk pochodzi z docelowego przypadku użycia. Przykłady muszą obejmować pełny zakres mowy. Na przykład centrum telefoniczne dla sklepu detalicznego otrzyma najwięcej połączeń dotyczących strojów kąpielowych i okularów przeciwsłonecznych w miesiącach letnich. Upewnij się, że twój przykład obejmuje pełny zakres mowy, który chcesz wykryć.

Rozważ następujące szczegóły:

  • Trenowanie za pomocą dźwięku przynosi największe korzyści, jeśli dźwięk jest również trudny do zrozumienia dla ludzi. W większości przypadków należy rozpocząć trenowanie przy użyciu tylko powiązanego tekstu.
  • Jeśli używasz jednego z najbardziej używanych języków, takich jak angielski USA, jest mało prawdopodobne, aby trzeba było trenować przy użyciu danych dźwiękowych. W przypadku takich języków modele podstawowe oferują już dobre wyniki rozpoznawania w większości scenariuszy, więc prawdopodobnie wystarczy trenować przy użyciu powiązanego tekstu.
  • Niestandardowa mowa może przechwytywać kontekst słów tylko w celu zmniejszenia błędów podstawiania, a nie błędów wstawiania ani usuwania.
  • Unikaj przykładów, które zawierają błędy transkrypcji, ale obejmują różnorodność jakości dźwięku.
  • Unikaj zdań niepowiązanych z domeną problemu. Niepowiązane zdania mogą zaszkodzić modelowi.
  • Gdy jakość transkrypcji różni się, można zduplikować wyjątkowo dobre zdania, takie jak doskonałe transkrypcje, które zawierają kluczowe frazy, aby zwiększyć ich wagę.
  • Usługa rozpoznawania mowy automatycznie używa transkrypcji, aby poprawić rozpoznawanie wyrazów i fraz specyficznych dla domeny, tak jakby zostały dodane jako powiązany tekst.
  • Ukończenie operacji treningowej może potrwać kilka dni. Aby zwiększyć szybkość trenowania, pamiętaj o utworzeniu subskrypcji usługi Mowa w regionie z dedykowanym sprzętem do trenowania.

Do poprawy rozpoznawania jest wymagany duży zestaw danych szkoleniowych. Ogólnie rzecz biorąc, zalecamy podanie transkrypcji wyrazów przez 1 do 20 godzin dźwięku. Jednak nawet nawet 30 minut może pomóc poprawić wyniki rozpoznawania. Chociaż tworzenie transkrypcji oznaczonej przez człowieka może zająć trochę czasu, ulepszenia rozpoznawania są tak dobre, jak podane dane. Należy przekazać tylko transkrypcje wysokiej jakości.

Pliki audio mogą mieć milczenie na początku i na końcu nagrania. Jeśli to możliwe, uwzględnij co najmniej połowę sekundy ciszy przed i po wystąpieniu mowy w każdym przykładowym pliku. Chociaż dźwięk z małą ilością głośności lub zakłócającym hałasem w tle nie jest przydatny, nie powinien ograniczać ani obniżać poziomu wydajności modelu niestandardowego. Przed zebraniem przykładów dźwiękowych należy zawsze rozważyć uaktualnienie mikrofonów i sprzętu przetwarzania sygnałów.

Ważne

Aby uzyskać więcej informacji na temat najlepszych rozwiązań dotyczących przygotowywania transkrypcji oznaczonych przez człowieka, zobacz Transkrypcje oznaczone etykietami ludzkimi z dźwiękiem.

Niestandardowe projekty mowy wymagają plików audio z następującymi właściwościami:

Ważne

Są to wymagania dotyczące uczenia i testowania transkrypcji oznaczonego przez człowieka audio i człowieka. Różnią się one od tych, które są przeznaczone tylko do trenowania i testowania audio. Jeśli chcesz używać trenowania i testowania tylko audio, zobacz tę sekcję.

Właściwości Wartość
File format RIFF (WAV)
Częstotliwość próbkowania 8000 Hz lub 16 000 Hz
Kanały 1 (mono)
Maksymalna długość na dźwięk Dwie godziny (testowanie) / 60 s (szkolenie)

Trenowanie przy użyciu dźwięku ma maksymalną długość dźwięku wynoszącą 60 sekund na plik. W przypadku plików audio dłuższych niż 60 sekund do trenowania są używane tylko odpowiednie pliki transkrypcji. Jeśli wszystkie pliki audio są dłuższe niż 60 sekund, trenowanie kończy się niepowodzeniem.
Format próbki PCM, 16-bitowy
Format archiwum .zip
Maksymalny rozmiar pliku zip 2 GB lub 10 000 plików

Dane zwykłego tekstu na potrzeby trenowania

Możesz dodać zdania zwykłego tekstu powiązanego tekstu, aby poprawić rozpoznawanie wyrazów i fraz specyficznych dla domeny. Powiązane zdania tekstowe mogą ograniczać błędy podstawiania związane z błędną poznawaniem typowych słów i wyrazów specyficznych dla domeny, pokazując je w kontekście. Słowa specyficzne dla domeny mogą być nietypowe lub zmyślone, ale ich wymowa musi być prosta do rozpoznania.

Podaj zdania związane z domeną w jednym pliku tekstowym. Użyj danych tekstowych, które są zbliżone do oczekiwanych wypowiedzi mówionych. Wypowiedzi nie muszą być kompletne ani poprawne gramatyczne, ale muszą dokładnie odzwierciedlać mówione dane wejściowe, których oczekujesz, że model zostanie rozpoznany. Jeśli to możliwe, spróbuj kontrolować jedno zdanie lub słowo kluczowe w osobnym wierszu. Aby zwiększyć wagę terminu, takiego jak nazwy produktów, dodaj kilka zdań, które zawierają termin. Nie kopiuj ich jednak zbyt wielu — może to mieć wpływ na ogólną szybkość rozpoznawania.

Uwaga

Unikaj powiązanych zdań tekstowych, które zawierają szumy, takie jak nierozpoznawalne znaki lub wyrazy.

Użyj tej tabeli, aby upewnić się, że plik zestawu danych w postaci zwykłego tekstu jest poprawnie sformatowany:

Właściwości Wartość
Kodowanie tekstu UTF-8 BOM
Liczba wypowiedzi na wiersz 1
Maksymalna wielkość pliku 200 MB

Należy również przestrzegać następujących ograniczeń:

  • Unikaj powtarzania znaków, wyrazów lub grup wyrazów więcej niż trzy razy. Na przykład nie używaj "aaaa", "tak tak", czy "to jest to, że to jest to to, że to jest to to, że to jest to to". Usługa rozpoznawania mowy może usuwać wiersze z zbyt wieloma powtórzeniami.
  • Nie używaj znaków specjalnych ani znaków UTF-8 powyżej U+00A1.
  • Identyfikatory URI będą odrzucane.
  • W przypadku niektórych języków, takich jak japoński lub koreański, importowanie dużych ilości danych tekstowych może zająć dużo czasu lub może upłynąć dłużej. Rozważ podzielenie zestawu danych na wiele plików tekstowych z maksymalnie 20 000 wierszy w każdym z nich.

Dane tekstowe ze strukturą na potrzeby trenowania

Uwaga

Dane tekstowe ze strukturą na potrzeby trenowania są w publicznej wersji zapoznawczej.

Użyj danych tekstowych ze strukturą, gdy dane są zgodne z określonym wzorcem w określonych wypowiedziach, które różnią się tylko słowami lub frazami z listy. Aby uprościć tworzenie danych treningowych i umożliwić lepsze modelowanie wewnątrz modelu języka niestandardowego, możesz użyć tekstu strukturalnego w formacie Markdown, aby zdefiniować listy elementów i fonetyczną wymowę słów. Następnie możesz odwoływać się do tych list w wypowiedziach szkoleniowych.

Oczekiwane wypowiedzi często są zgodne z określonym wzorcem. Jednym z typowych wzorców jest to, że wypowiedzi różnią się tylko słowami lub frazami z listy. Przykłady tego wzorca mogą być następujące:

  • "Mam pytanie o product"", gdzie product jest lista możliwych produktów.
  • "Zrób to objectcolor", gdzie object jest listą kształtów geometrycznych i color jest listą kolorów.

Aby uzyskać listę obsługiwanych modeli bazowych i ustawień regionalnych do trenowania za pomocą tekstu strukturalnego, zobacz Obsługa języka. Musisz użyć najnowszego modelu podstawowego dla tych ustawień regionalnych. W przypadku ustawień regionalnych, które nie obsługują trenowania za pomocą tekstu ustrukturyzowanego, usługa podejmie wszelkie zdania szkoleniowe, które nie odwołują się do żadnych klas w ramach trenowania przy użyciu danych w postaci zwykłego tekstu.

Plik tekstowy ze strukturą powinien mieć rozszerzenie md. Maksymalny rozmiar pliku to 200 MB, a kodowanie tekstu musi być UTF-8 BOM. Składnia języka Markdown jest taka sama jak w przypadku modeli usługi Language Understanding, w szczególności jednostek listy i przykładowych wypowiedzi. Aby uzyskać więcej informacji na temat pełnej składni języka Markdown, zobacz Language Understanding Markdown.

Poniżej przedstawiono kluczowe szczegóły dotyczące obsługiwanego formatu języka Markdown:

Właściwości opis Limity
@list Lista elementów, do których można się odwoływać w przykładowym zdaniu. Maksymalnie 20 list. Maksymalnie 35 000 elementów na listę.
speech:phoneticlexicon Lista wymowy fonetycznej zgodnie z Universal Telefon Set. Wymowa jest dostosowywana dla każdego wystąpienia, w którym słowo pojawia się na liście lub w zdaniu treningowym. Jeśli na przykład masz słowo, które brzmi jak "kot" i chcesz dostosować wymowę do "k ae t", dodaj do - cat/k ae tspeech:phoneticlexicon listy. Maksymalnie 15 000 wpisów. Maksymalnie dwie wymowy na słowo.
#ExampleSentences Symbol funta (#) rozdziela sekcję przykładowych zdań. Nagłówek sekcji może zawierać tylko litery, cyfry i podkreślenia. Przykładowe zdania powinny odzwierciedlać zakres mowy, którego powinien oczekiwać model. Zdanie treningowe może odwoływać się do elementów znajdujących się pod elementem @list za pomocą otaczających nawiasów klamrowych po lewej i prawej ({@list name}). Można odwoływać się do wielu list w tym samym zdaniu treningowym lub w ogóle nie. Maksymalny rozmiar pliku wynoszący 200 MB.
// Komentarze są zgodne z podwójnym ukośnikiem (//). Nie dotyczy

Oto przykładowy plik tekstowy ze strukturą:

// This is a comment because it follows a double slash (`//`).

// Here are three separate lists of items that can be referenced in an example sentence. You can have up to 10 of these.
@ list food =
- pizza
- burger
- ice cream
- soda

@ list pet =
- cat
- dog
- fish

@ list sports =
- soccer
- tennis
- cricket
- basketball
- baseball
- football

// List of phonetic pronunciations
@ speech:phoneticlexicon
- cat/k ae t
- fish/f ih sh

// Here are two sections of training sentences. 
#TrainingSentences_Section1
- you can include sentences without a class reference
- what {@pet} do you have
- I like eating {@food} and playing {@sports}
- my {@pet} likes {@food}

#TrainingSentences_Section2
- you can include more sentences without a class reference
- or more sentences that have a class reference like {@pet} 

Dane wymowy na potrzeby trenowania

Wyspecjalizowane lub złożone słowa mogą mieć unikatową wymowę. Te słowa można rozpoznać, jeśli można je podzielić na mniejsze słowa, aby je wypowiedzieć. Na przykład, aby rozpoznać "Xbox", wymawiać go jako "X box". Takie podejście nie zwiększy ogólnej dokładności, ale może poprawić rozpoznawanie tych i innych słów kluczowych.

Aby poprawić rozpoznawanie, możesz podać niestandardowy plik wymowy. Nie używaj niestandardowych plików wymowy, aby zmienić wymowę typowych słów. Aby uzyskać listę języków obsługujących wymowę niestandardową, zobacz obsługa języków.

Uwaga

Możesz użyć pliku wymowy obok dowolnego innego zestawu danych treningowych z wyjątkiem danych trenowania tekstu ustrukturyzowanego. Aby używać danych wymowy ze strukturą tekstu, musi znajdować się w pliku tekstowym ze strukturą.

Forma mówiona to sekwencja fonetyczna wypisana. Może składać się z liter, wyrazów, sylab lub kombinacji wszystkich trzech. Ta tabela zawiera kilka przykładów:

Rozpoznany wyświetlony formularz Formularz mówiony
3CPO trzy c p o
CNTK c n t k
IEEE i triple e

Wymowa jest udostępniana w jednym pliku tekstowym. Uwzględnij wypowiedzi mówione i niestandardową wymowę dla każdej z nich. Każdy wiersz w pliku powinien rozpoczynać się od rozpoznanego formularza, a następnie znaku tabulatora, a następnie sekwencji fonetycznej rozdzielanej spacją.

3CPO    three c p o
CNTK    c n t k
IEEE    i triple e

Zapoznaj się z poniższą tabelą, aby upewnić się, że pliki zestawu danych wymowy są prawidłowe i poprawnie sformatowane.

Właściwości Wartość
Kodowanie tekstu UtF-8 BOM (ANSI jest również obsługiwany w języku angielskim)
Liczba wymowy na wiersz 1
Maksymalna wielkość pliku 1 MB (1 KB dla warstwy Bezpłatna)

Dane audio na potrzeby trenowania lub testowania

Dane audio są optymalne do testowania dokładności podstawowej mowy firmy Microsoft do modelu tekstowego lub modelu niestandardowego. Należy pamiętać, że dane audio są używane do sprawdzania dokładności mowy dotyczącej wydajności określonego modelu. Jeśli chcesz określić dokładność modelu, użyj transkrypcji z etykietą audio i człowieka.

Uwaga

Dane tylko audio do trenowania są dostępne w wersji zapoznawczej ustawień en-US regionalnych. W przypadku innych ustawień regionalnych, aby trenować przy użyciu danych audio, należy również podać transkrypcje oznaczone przez człowieka.

Niestandardowe projekty mowy wymagają plików audio z następującymi właściwościami:

Ważne

Są to wymagania dotyczące trenowania i testowania tylko audio. Różnią się one od tych dla audio + human-labeled trenowanie i testowanie transkrypcji. Jeśli chcesz użyć uczenia i testowania transkrypcji audio i oznaczonej przez człowieka, zobacz tę sekcję.

Właściwości Wartość
File format RIFF (WAV)
Częstotliwość próbkowania 8000 Hz lub 16 000 Hz
Kanały 1 (mono)
Maksymalna długość na dźwięk Dwie godziny
Format próbki PCM, 16-bitowy
Format archiwum .zip
Maksymalny rozmiar archiwum 2 GB lub 10 000 plików

Uwaga

Podczas przekazywania danych szkoleniowych i testowych rozmiar pliku .zip nie może przekroczyć 2 GB. Jeśli potrzebujesz więcej danych do trenowania, podziel je na kilka .zip plików i przekaż je oddzielnie. Później możesz trenować z wielu zestawów danych. Można jednak przetestować tylko jeden zestaw danych.

Użyj soX , aby zweryfikować właściwości dźwięku lub przekonwertować istniejący dźwięk na odpowiednie formaty. Oto kilka przykładowych poleceń SoX:

Działanie Polecenie oprogramowania SoX
Sprawdzanie formatu pliku dźwiękowego. sox --i <filename>
Przekonwertuj plik dźwiękowy na pojedynczy kanał, 16 bitów, 16 kHz. sox <input> -b 16 -e signed-integer -c 1 -r 16k -t wav <output>.wav

Niestandardowe dane formatowania tekstu wyświetlanego na potrzeby trenowania

Dowiedz się więcej na temat przygotowywania danych formatowania tekstu wyświetlanego i wyświetlania formatowania tekstu za pomocą mowy na tekst.

Automatyczny format wyświetlania danych wyjściowych rozpoznawania mowy ma kluczowe znaczenie dla zadań podrzędnych, a jeden rozmiar nie pasuje do wszystkich. Dodanie niestandardowych reguł formatu wyświetlania umożliwia użytkownikom definiowanie własnych reguł formatowania leksykalnego do wyświetlania w celu poprawy jakości usługi rozpoznawania mowy na podstawie niestandardowej usługi rozpoznawania mowy platformy Microsoft Azure.

Umożliwia to pełne dostosowanie danych wyjściowych wyświetlania, takich jak dodawanie reguł ponownego zapisywania w celu zmiany liter i ponownego formatowania niektórych wyrazów, dodawanie wulgaryzmów i maskowanie z danych wyjściowych, definiowanie zaawansowanych reguł ITN dla niektórych wzorców, takich jak liczby, daty, adresy e-mail; lub zachować niektóre frazy i zachować je z dowolnych procesów wyświetlania.

Na przykład:

Formatowanie niestandardowe Tekst wyświetlany
Brak Mój numer finansowy od firmy contoso to 8BEV3
Wielkie litery "Contoso" (za pośrednictwem #rewrite reguły)
Formatowanie numeru finansowego (za pomocą #itn reguły)
Mój numer finansowy firmy Contoso to 8B-EV-3

Aby uzyskać listę obsługiwanych modeli bazowych i ustawień regionalnych do trenowania za pomocą tekstu strukturalnego, zobacz Obsługa języka. Plik Format wyświetlania powinien mieć rozszerzenie md. Maksymalny rozmiar pliku to 10 MB, a kodowanie tekstu musi mieć wartość UTF-8 BOM. Aby uzyskać więcej informacji na temat dostosowywania reguł formatu wyświetlania, zobacz Wyświetlanie reguł formatowania Najlepsze rozwiązanie.

Właściwości opis Limity
#ITN Lista reguł normalizacji invert-text do definiowania określonych wzorców wyświetlania, takich jak liczby, adresy i daty. Maksymalnie 200 wierszy
#rewrite Lista par ponownego zapisywania w celu zastąpienia niektórych wyrazów z powodów, takich jak zamiana liter i korekta pisowni. Maksymalnie 1000 wierszy
#profanity Lista niechcianych słów, które będą maskowane w postaci ****** danych wyjściowych wyświetlania i maskowania, oprócz wbudowanych list wulgaryzmów firmy Microsoft. Maksymalnie 1000 wierszy
#test Lista przypadków testów jednostkowych w celu sprawdzenia, czy reguły wyświetlania działają zgodnie z oczekiwaniami, w tym dane wejściowe w formacie leksykalnym i oczekiwane dane wyjściowe formatu wyświetlania. Maksymalny rozmiar pliku wynoszący 10 MB

Oto przykładowy plik formatu wyświetlania:

// this is a comment line
// each section must start with a '#' character
#itn
// list of ITN pattern rules, one rule for each line
\d-\d-\d
\d-\l-\l-\d
#rewrite
// list of rewrite rules, each rule has two phrases, separated by a tab character
old phrase	new phrase
# profanity
// list of profanity phrases to be tagged/removed/masked, one line one phrase
fakeprofanity
#test
// list of test cases, each test case has two sentences, input lexical and expected display output
// the two sentences are separated by a tab character
// the expected sentence is the display output of DPP+CDPP models
Mask the fakeprofanity word	Mask the ************* word

Następne kroki