Megosztás a következőn keresztül:


Adathalmazok betanítása és tesztelése

Egyéni beszédprojektekben adatkészleteket tölthet fel a betanításhoz, a minőségi vizsgálathoz és a mennyiségi méréshez. Ez a cikk az egyéni beszédhez használható betanítási és tesztelési adatok típusait ismerteti.

Az egyéni modellek teszteléséhez és betanítása során használt szövegnek és hangnak különböző hangszórókból és forgatókönyvekből származó mintákat kell tartalmaznia, amelyeket a modell felismerni szeretne. Vegye figyelembe ezeket a tényezőket, amikor egyéni modell teszteléséhez és betanításához gyűjt adatokat:

  • Szöveges és hangadatokat is tartalmazhat a felhasználók által a modell használata során tett verbális utasításokhoz. Egy olyan modell például, amely megemeli és csökkenti a hőmérsékletet, be kell tanítani azokat az állításokat, amelyeket az emberek elvégezhetnek az ilyen módosítások kéréséhez.
  • Adja meg a modell által felismerni kívánt összes beszédeltérést. Számos tényező megváltoztathatja a beszédet, beleértve az ékezeteket, a dialektusokat, a nyelvkeverést, az életkort, a nemet, a hangmagasságot, a stresszszintet és a napszakot.
  • Használjon különböző környezetekből származó mintákat, például beltéri, kültéri és közúti zajt, ahol a modellt használják.
  • Hang rögzítése az éles rendszer által használt hardvereszközökkel. Ha a modellnek különböző minőségű eszközökön rögzített beszédet kell azonosítania, a modell betanításához megadott hangadatoknak is ezeket a különböző forgatókönyveket kell képviselniük.
  • Tartsa az adatkészletet változatosnak és a projekt követelményeinek megfelelőnek. Később további adatokat is hozzáadhat a modellhez.
  • Csak olyan adatokat tartalmazzon, amelyeket a modellnek át kell írnia. Az egyéni modell felismerési követelményein belül nem szereplő adatok használata összességében ronthatja a felismerés minőségét.

Adattípusok

Az alábbi táblázat az elfogadott adattípusokat, az egyes adattípusok használatát és a javasolt mennyiséget sorolja fel. Nem minden adattípus szükséges a modell létrehozásához. Az adatkövetelmények attól függően változnak, hogy teszt vagy modell betanítása van-e.

Adattípus Teszteléshez használatos Teszteléshez ajánlott Betanításhoz használatos Ajánlott betanításhoz
Csak hang Igen (vizuális ellenőrzés) 5+ hangfájl Igen (előzetes verzió en-US) 1-20 órányi hang
Hang + emberi címkével ellátott átiratok Igen (pontosság kiértékelése) 0,5-5 órányi hang Igen 1-20 órányi hang
Egyszerű szöveg Nem Nem értelmezhető Igen 1–200 MB kapcsolódó szöveg
Strukturált szöveg Nem Nem értelmezhető Igen Legfeljebb 10 osztály legfeljebb 4000 tétellel és legfeljebb 50 000 betanítási mondattal
Kiejtés Nem Nem értelmezhető Igen 1 KB–1 MB kiejtési szöveg
Megjelenítési formátum Nem Nem értelmezhető Igen ItN esetén legfeljebb 200 sor, átíráshoz 1000 sor, trágár szűrő esetén 1000 sor

Az egyszerű vagy strukturált szöveggel végzett betanítás általában néhány percen belül befejeződik.

Tipp.

Kezdje egyszerű szöveges adatokkal vagy strukturált szöveges adatokkal. Ezek az adatok javítják a speciális kifejezések és kifejezések felismerését. A szöveg betanítása sokkal gyorsabb, mint a hanggal való betanítás (percek és napok).

Kezdje a modell nyelvével, akusztikájával és hardverével egyező kis mintaadatkészletekkel. A reprezentatív adatok kis adathalmazai problémákat okozhatnak, mielőtt nagyobb adathalmazokat gyűjtenek be a betanításhoz. Az egyéni beszédadatok mintájáért tekintse meg ezt a GitHub-adattárat.

Ha hangadatokkal tanít be egyéni modellt, válasszon egy beszéderőforrás-régiót dedikált hardverrel a hangadatok betanításához. További információ: lábjegyzetek a régiók táblában. Az egyéni beszédtanításhoz dedikált hardverrel rendelkező régiókban a Speech szolgáltatás legfeljebb 20 órányi hangbetanítási adatot használ fel, és naponta körülbelül 10 órányi adatot képes feldolgozni. Más régiókban a Speech szolgáltatás legfeljebb 8 órát használ fel a hangadatokból, és naponta körülbelül 1 órányi adatot képes feldolgozni. A modell betanítása után szükség szerint átmásolhatja a modellt egy másik régióba a Models_CopyTo REST API-val.

Adathalmazok megfontolása forgatókönyv szerint

A forgatókönyvek egy részhalmazára betanított modell csak ezekben a forgatókönyvekben tud jól teljesíteni. Gondosan válassza ki azokat az adatokat, amelyek az egyéni modell felismeréséhez szükséges forgatókönyvek teljes hatókörét képviselik. Az alábbi táblázat néhány beszédfelismerési forgatókönyv esetében figyelembe veendő adathalmazokat mutatja be:

Eset Egyszerű szöveges adatok és strukturált szöveges adatok Hang + emberi címkével ellátott átiratok Új szavak kiejtéssel
Hívásközpont Marketingdokumentumok, webhely, termékértékelések a call center tevékenységével kapcsolatban Hívásközponti hívások emberek által átírva Kétértelmű kiejtéssel rendelkező kifejezések (lásd az Xbox-példát az előző szakaszban)
Hangsegéd A parancsok és entitások különböző kombinációit használó mondatok listája Rögzített hangokat beszélő parancsok az eszközre, átírva szövegbe Egyedi kiejtéssel rendelkező nevek (filmek, dalok, termékek)
Diktálás Írásos bemenet, például csevegőüzenetek vagy e-mailek Hasonló az előző példákhoz Hasonló az előző példákhoz
Videó zárt képaláírás TV-műsorszkriptek, filmek, marketingtartalmak, videóösszesítések Videók pontos átiratai Hasonló az előző példákhoz

A problémák megoldásához használandó adatkészlet meghatározásához tekintse meg az alábbi táblázatot:

Használati eset Adattípus
Az iparágspecifikus szókincs és nyelvhelyesség, például az orvosi terminológia vagy az informatikai szakzsargon felismerési pontosságának javítása. Egyszerű szöveges vagy strukturált szöveges adatok
Definiálja a nem megfelelő kiejtéssel rendelkező szavak vagy kifejezések fonetikus és megjelenített formáját, például termékneveket vagy betűszókat. Kiejtési adatok vagy fonetikus kiejtés strukturált szövegben
A beszédstílusok, jelölőszínek vagy adott háttérzajok felismerési pontosságának javítása. Hang + emberi címkével ellátott átiratok

Audio + emberi címkével ellátott átiratadatok betanításhoz vagy teszteléshez

A hang- és az emberi címkével ellátott átirati adatokat betanítási és tesztelési célokra is használhatja. Az összehasonlításhoz emberi címkével ellátott átiratokat (szóról szóra) kell megadnia:

  • Az akusztikai szempontok, például az enyhe ékezetek, a beszédstílusok és a háttérzajok javítása.
  • A Microsoft beszédének pontosságának mérése a hangfájlok feldolgozásakor.

A hangadatokkal való betanítást támogató alapmodellek listáját a Nyelvi támogatás című témakörben találja. Még akkor is, ha egy alapmodell támogatja a hangadatok betanítását, előfordulhat, hogy a szolgáltatás csak a hang egy részét használja. És még mindig az összes átiratot használja.

Fontos

Ha egy alapmodell nem támogatja a hangadatok testreszabását, a betanításhoz csak az átirat szövegét használja a rendszer. Ha olyan alapmodellre vált, amely támogatja a hangadatok testreszabását, a betanítási idő több óráról több napra nőhet. A betanítási idő változása akkor lenne a legfigyelmesebb, ha a betanításhoz dedikált hardver nélkül váltana egy alapmodellre egy régióban . Ha a hangadatokra nincs szükség, távolítsa el azokat a betanítási idő csökkentése érdekében.

Az emberi címkével ellátott átiratokkal ellátott hang a legnagyobb pontossági javulást nyújtja, ha a hang a célhasználati esetből származik. A mintáknak a beszéd teljes hatókörére ki kell terjedniük. Például egy kiskereskedelmi üzlet telefonos ügyfélszolgálata a nyári hónapokban kapja a legtöbb hívást a fürdőruháról és a napszemüvegről. Győződjön meg arról, hogy a minta tartalmazza az észlelni kívánt beszéd teljes hatókörét.

Vegye figyelembe az alábbi részleteket:

  • A hanggal végzett betanítás akkor hozza a legtöbb előnyt, ha a hang az emberek számára is nehezen érthető. A legtöbb esetben csak kapcsolódó szöveggel kell elkezdeni a betanítást.
  • Ha az egyik leggyakrabban használt nyelvet használja, például az amerikai angolt, nem valószínű, hogy hangadatokkal kellene betanítania. Az ilyen nyelvek esetében az alapmodellek már jó felismerési eredményeket kínálnak a legtöbb forgatókönyvben, így valószínűleg elegendő a kapcsolódó szöveg betanítása.
  • Az egyéni beszéd csak a helyettesítési hibák csökkentése, a beszúrási és törlési hibák csökkentése érdekében képes rögzíteni a szókörnyezetet.
  • Kerülje az átírási hibákat tartalmazó mintákat, de ne tartalmazza a hangminőség sokféleségét.
  • Kerülje a problémás tartományhoz nem kapcsolódó mondatokat. A nem kapcsolódó mondatok károsíthatják a modellt.
  • Ha az átirat minősége változik, kivételesen jó mondatokat duplikálhat, például a kulcskifejezéseket tartalmazó kiváló átiratokat, hogy növeljék súlyukat.
  • A Speech szolgáltatás automatikusan használja az átiratokat a tartományspecifikus szavak és kifejezések felismerésének javítására, mintha kapcsolódó szövegként lettek volna hozzáadva.
  • A betanítási művelet végrehajtása több napig is eltarthat. A betanítás sebességének javítása érdekében mindenképpen hozzon létre Beszédszolgáltatás-előfizetést egy olyan régióban, amely dedikált hardverrel rendelkezik a betanításhoz.

A felismerés javításához nagy betanítási adatkészletre van szükség. Általában azt javasoljuk, hogy 1–20 órányi hanganyagot adjon meg szóról szóra átiratokkal. Azonban akár 30 perc is segíthet a felismerési eredmények javításában. Bár az emberi címkével ellátott átirat létrehozása időbe telhet, a felismerés fejlesztései csak olyan jók, mint az Ön által megadott adatok. Csak kiváló minőségű átiratokat töltsön fel.

A hangfájlok elnémulhatnak a felvétel elején és végén. Ha lehetséges, minden mintafájlban adjon meg legalább fél másodpercnyi csendet beszéd előtt és után. Bár az alacsony rögzítési hangerővel vagy zavaró háttérzajral rendelkező hang nem hasznos, nem szabad korlátoznia vagy rontja az egyéni modellt. Hangminták gyűjtése előtt mindig fontolja meg a mikrofonok és a jelfeldolgozó hardver frissítését.

Fontos

További információ az emberi címkével ellátott átiratok előkészítésének ajánlott eljárásairól: Emberi címkével ellátott átiratok hanggal.

Az egyéni beszédprojektek az alábbi tulajdonságokkal rendelkező hangfájlokat igényelnek:

Fontos

Ezek az Audio + emberi címkével ellátott átiratok betanítására és tesztelésére vonatkozó követelmények. Különböznek azoktól, amelyek csak a hang betanítását és tesztelését biztosítják. Ha csak a hang betanítását és tesztelését szeretné használni, tekintse meg ezt a szakaszt.

Tulajdonság Érték
Fájlformátum RIFF (WAV)
Mintasebesség 8000 Hz vagy 16 000 Hz
Csatornák 1 (mono)
Hangonkénti maximális hossz Két óra (tesztelés) / 60 s (betanítás)

A hangalapú betanítás maximális hanghossza fájlonként 60 másodperc. A 60 másodpercnél hosszabb hangfájlok esetében csak a megfelelő átiratfájlokat használja a betanításhoz. Ha az összes hangfájl 60 másodpercnél hosszabb, a betanítás sikertelen lesz.
Minták formátuma PCM, 16 bites
Archív formátum .zip
Maximális zip-méret 2 GB vagy 10 000 fájl

Egyszerű szöveges adatok betanításhoz

A tartományspecifikus szavak és kifejezések felismerésének javítása érdekében egyszerű szöveges mondatokat adhat hozzá a kapcsolódó szövegekhez. A kapcsolódó szöveges mondatok csökkenthetik a gyakori szavak és a tartományspecifikus szavak helytelen felismerésével kapcsolatos helyettesítési hibákat, ha kontextusban jelenítik meg őket. A tartományspecifikus szavak lehetnek nem gyakoriak vagy kész szavak, de a kiejtésüknek könnyen felismerhetőnek kell lennie.

Adjon meg tartományhoz kapcsolódó mondatokat egyetlen szöveges fájlban. Olyan szöveges adatokat használjon, amelyek közel állnak a várt kimondott szövegekhez. A kimondott szövegeknek nem kell teljesnek vagy nyelvtanilag helyesnek lenniük, de pontosan tükrözniük kell a modell által felismerni kívánt beszélt bemenetet. Ha lehetséges, próbáljon meg egy mondatot vagy kulcsszót egy külön sorban vezérelni. Egy kifejezés, például a terméknevek súlyának növeléséhez adjon hozzá több mondatot, amelyek tartalmazzák a kifejezést. De ne másolja őket túl sokszor – ez hatással lehet az összesített felismerési arányra.

Feljegyzés

Kerülje az olyan kapcsolódó szöveges mondatokat, amelyek zajt, például felismerhetetlen karaktereket vagy szavakat tartalmaznak.

Ezzel a táblával győződjön meg arról, hogy az egyszerű szöveges adathalmazfájl megfelelően van formázva:

Tulajdonság Érték
Szövegkódolás UTF-8 BOM
Kimondott szövegek száma soronként 0
Maximális fájlméret 200 MB

A következő korlátozásokat is be kell tartania:

  • Kerülje az ismétlődő karakterek, szavak vagy szócsoportok háromnál többszörös ismétlődését. Például ne használja az "aaaa", "igen, igen, igen" vagy "ez az, hogy ez az. " Előfordulhat, hogy a Speech szolgáltatás túl sok ismétléssel elveti a sorokat.
  • Ne használjon speciális karaktereket vagy U+00A1 feletti UTF-8-karaktereket.
  • Az URI-k el lesznek utasítva.
  • Egyes nyelvek, például a japán vagy a koreai nyelv esetében a nagy mennyiségű szöveges adat importálása hosszú időt vehet igénybe, vagy időtúllépést okozhat. Fontolja meg az adathalmaz több szövegfájlra való felosztását, amely egyenként legfeljebb 20 000 sort tartalmaz.

Strukturált szöveges adatok betanításhoz

Feljegyzés

A betanítás strukturált szöveges adatai nyilvános előzetes verzióban érhetőek el.

Strukturált szöveges adatokat akkor használjon, ha az adatok egy adott mintát követnek, különösen a kimondott szövegeket, amelyek csak szavak vagy kifejezések alapján különböznek egy listából. A betanítási adatok létrehozásának egyszerűsítése és az egyéni nyelvi modellen belüli jobb modellezés érdekében markdown formátumú strukturált szövegekkel definiálhatja az elemek listáját és a szavak kiejtését. Ezután hivatkozhat ezekre a listákra a betanítási kimondott szövegekben.

A várt kimondott szövegek gyakran követnek egy bizonyos mintát. Az egyik gyakori minta az, hogy a kimondott szövegek csak szavak vagy kifejezések szerint különböznek egy listából. Példák erre a mintára:

  • "Van egy kérdésem, product" hol product található a lehetséges termékek listája.
  • "Make that objectcolor," where object is a list of geometric shapes and color is a list of colors.

A támogatott alapmodellek és területi beállítások listáját a strukturált szöveggel való betanításhoz a Nyelvi támogatás című témakörben találja. Ezekhez a területi beállításokhoz a legújabb alapmodellt kell használnia. A strukturált szöveggel történő betanítást nem támogató területi beállítások esetében a szolgáltatás olyan betanítási mondatokat fog használni, amelyek egyetlen osztályra sem hivatkoznak egyszerű szöveges adatokkal való betanítás részeként.

A strukturált szövegfájlnak .md kiterjesztéssel kell rendelkeznie. A fájl maximális mérete 200 MB, a szövegkódolásnak pedig UTF-8 anyagjegyzéknek kell lennie. A Markdown szintaxisa megegyezik a Language Understanding-modellek szintaxisával, különösen az entitások és a kimondott szövegek listájával. A teljes Markdown-szintaxisról további információt a Language Understanding Markdown című témakörben talál.

A támogatott Markdown-formátum főbb részletei:

Tulajdonság Leírás Korlátok
@list Egy példamondatban hivatkozható elemek listája. Legfeljebb 20 lista. Listábanként legfeljebb 35 000 elem lehet.
speech:phoneticlexicon A fonetikai kiejtések listája az Univerzális Telefon halmaz szerint. A kiejtés minden olyan példányhoz igazodik, ahol a szó megjelenik egy listában vagy betanítási mondatban. Ha például van egy olyan szó, amely "macska" néven hangzik el, és a kiejtést "k ae t" értékre szeretné állítani, akkor fel kell vennie - cat/k ae t a speech:phoneticlexicon listát. Legfeljebb 15 000 bejegyzés. Szónként legfeljebb két kiejtés.
#ExampleSentences A font szimbólum (#) elválasztja a példamondatok egy szakaszát. A szakaszfejléc csak betűket, számjegyeket és aláhúzásjeleket tartalmazhat. A példamondatoknak a modell által várt beszédtartományt kell tükrözniük. A betanítási mondatok a bal és jobb oldali kapcsos zárójelek ({@list name}) használatával hivatkozhatnak az a@list) alatti elemekre. Ugyanabban a betanítási mondatban több listára is hivatkozhat, vagy egyáltalán nem. Maximális fájlméret 200 MB.
// A megjegyzések kettős perjelet (//) követnek. Nem alkalmazható

Íme egy példa strukturált szövegfájlra:

// This is a comment because it follows a double slash (`//`).

// Here are three separate lists of items that can be referenced in an example sentence. You can have up to 10 of these.
@ list food =
- pizza
- burger
- ice cream
- soda

@ list pet =
- cat
- dog
- fish

@ list sports =
- soccer
- tennis
- cricket
- basketball
- baseball
- football

// List of phonetic pronunciations
@ speech:phoneticlexicon
- cat/k ae t
- fish/f ih sh

// Here are two sections of training sentences. 
#TrainingSentences_Section1
- you can include sentences without a class reference
- what {@pet} do you have
- I like eating {@food} and playing {@sports}
- my {@pet} likes {@food}

#TrainingSentences_Section2
- you can include more sentences without a class reference
- or more sentences that have a class reference like {@pet} 

Kiejtési adatok betanításhoz

A speciális vagy a szavakból készült szavak egyedi kiejtéssel rendelkezhetnek. Ezek a szavak felismerhetők, ha kisebb szavakra bonthatók a kiejtésükhöz. Az "Xbox" felismerése érdekében például az "X box" kifejezést kell kiejtenie. Ez a megközelítés nem növeli az általános pontosságot, de javíthatja ennek és más kulcsszavaknak a felismerését.

A felismerés javítása érdekében megadhat egy egyéni kiejtési fájlt. Ne használjon egyéni kiejtési fájlokat a közös szavak kiejtésének módosításához. Az egyéni kiejtést támogató nyelvek listáját a nyelvi támogatásban találja.

Feljegyzés

A kiejtési fájlokat bármely más betanítási adatkészlettel együtt használhatja, kivéve a strukturált szöveges betanítási adatokat. A kiejtési adatok strukturált szöveggel való használatához strukturált szövegfájlban kell lenniük.

A kimondott forma a fonetikai sorrend. Betűkből, szavakból, szótagokból vagy mindhárom kombinációjából állhat. Ez a táblázat néhány példát tartalmaz:

Felismert megjelenített űrlap Beszélt űrlap
3CPO három c p o
CNTK c n t k
Én Enterprise kiadás E i triple e

A kiejtéseket egyetlen szöveges fájlban kell megadnia. Adja meg a kimondott szöveget és egy egyéni kiejtést mindegyikhez. A fájl minden sorának a felismert űrlappal, majd egy tabulátorjellel, majd a szóközzel tagolt fonetikus sorozattal kell kezdődnie.

3CPO    three c p o
CNTK    c n t k
IEEE    i triple e

Tekintse meg az alábbi táblázatot annak ellenőrzéséhez, hogy a kiejtési adathalmaz fájljai érvényesek és helyesen vannak formázva.

Tulajdonság Érték
Szövegkódolás UTF-8 BOM (az ANSI angol nyelven is támogatott)
Kiejtések száma soronként 0
Maximális fájlméret 1 MB (1 KB ingyenes szint esetén)

Hangadatok betanításhoz vagy teszteléshez

A hangadatok optimálisan tesztelik a Microsoft alapkonfigurációs beszédének pontosságát szövegmodellbe vagy egyéni modellbe. Ne feledje, hogy a hangadatok egy adott modell teljesítményével kapcsolatos beszéd pontosságának vizsgálatára szolgálnak. Ha egy modell pontosságát szeretné számszerűsíteni, használjon hang+ emberi címkével ellátott átiratokat.

Feljegyzés

A betanításhoz csak hangadatok érhetők el előzetes verzióban a en-US területi beállításhoz. Más területi beállítások esetében a hangadatok betanításakor emberi címkével ellátott átiratokat is meg kell adnia.

Az egyéni beszédprojektek az alábbi tulajdonságokkal rendelkező hangfájlokat igényelnek:

Fontos

Ezek csak a hang betanítására és tesztelésére vonatkozó követelmények. Különböznek az Audio + emberi címkével ellátott átiratok betanításához és teszteléséhez használttól. Ha az Audio + emberi címkével ellátott átiratok betanítását és tesztelését szeretné használni, tekintse meg ezt a szakaszt.

Tulajdonság Érték
Fájlformátum RIFF (WAV)
Mintasebesség 8000 Hz vagy 16 000 Hz
Csatornák 1 (mono)
Hangonkénti maximális hossz Két óra
Minták formátuma PCM, 16 bites
Archív formátum .zip
Archív méret maximális mérete 2 GB vagy 10 000 fájl

Feljegyzés

Betanítási és tesztelési adatok feltöltésekor a .zip fájl mérete nem haladhatja meg a 2 GB-ot. Ha több adatra van szüksége a betanításhoz, ossza fel több .zip fájlra, és töltse fel őket külön. Később több adathalmazból is betanítása választható. Azonban csak egyetlen adatkészletből tesztelhet.

A SoX használatával ellenőrizheti a hangtulajdonságokat, vagy átalakíthatja a meglévő hangot a megfelelő formátumokra. Íme néhány példa SoX-parancsra:

Tevékenység SoX parancs
Ellenőrizze a hangfájl formátumát. sox --i <filename>
A hangfájl konvertálása egycsatornás, 16 bites, 16 kHz-es formátumba. sox <input> -b 16 -e signed-integer -c 1 -r 16k -t wav <output>.wav

Egyéni megjelenítési szövegformázási adatok betanításhoz

További információ a megjelenítendő szövegformázási adatok előkészítéséről és a szövegformázás beszédről szövegre való megjelenítéséről.

Az automatikus Beszédfelismerés kimeneti megjelenítési formátuma kritikus fontosságú az alsóbb rétegbeli feladatokhoz, és az egyméret nem fér el az összeshez. Egyéni megjelenítési formátumszabályok hozzáadásával a felhasználók saját lexikális megjelenítési formátumszabályokat határozhatnak meg a beszédfelismerési szolgáltatás minőségének javítása érdekében a Microsoft Azure egyéni beszédszolgáltatásán felül.

Lehetővé teszi a megjelenítési kimenetek teljes testreszabását, például átírási szabályok hozzáadását bizonyos szavak nagybetűsítéséhez és újraformázásához, trágár szavak és maszkok hozzáadását a kimenetből, speciális ITN-szabályokat határoz meg bizonyos mintákhoz, például számokhoz, dátumokhoz, e-mail-címekhez; vagy megőrizhet bizonyos kifejezéseket, és megtarthatja őket a megjelenítési folyamatoktól.

Példa:

Egyéni formázás Megjelenítendő szöveg
Egyik sem A contoso-ból származó pénzügyi számom 8BEV3
A "Contoso" nagybetűsítése (szabályon keresztül #rewrite )
Pénzügyi szám formázása (szabályon keresztül #itn )
A Contoso pénzügyi száma 8B-EV-3

A támogatott alapmodellek és területi beállítások listáját a strukturált szöveggel való betanításhoz a Nyelvi támogatás című témakörben találja. A Megjelenítési formátum fájlnak .md kiterjesztéssel kell rendelkeznie. A fájl maximális mérete 10 MB, a szövegkódolásnak pedig UTF-8 BOM-nak kell lennie. A megjelenítési formázási szabályok testreszabásával kapcsolatos további információkért tekintse meg a Formázási szabályok megjelenítése – ajánlott eljárás című témakört.

Tulajdonság Leírás Korlátok
#ITN Az invert-szöveg normalizálási szabályok listája bizonyos megjelenítési minták, például számok, címek és dátumok meghatározásához. Legfeljebb 200 sor
#rewrite Az újraírási párok listája, amelyek bizonyos szavakat felülírnak olyan okokból, mint a nagybetűsítés és a helyesírás-javítás. Legfeljebb 1000 sor
#profanity A Microsoft beépített trágárságlistáin a megjelenítési és maszkolt kimenetből maszkolt ****** nem kívánt szavak listája. Legfeljebb 1000 sor
#test Az egységtesztelési esetek listája, amely ellenőrzi, hogy a megjelenítési szabályok a várt módon működnek-e, beleértve a lexikális formátum bemenetét és a várt megjelenítési formátum kimenetét. Maximális fájlméret 10 MB

Íme egy példa a formátumfájl megjelenítésére:

// this is a comment line
// each section must start with a '#' character
#itn
// list of ITN pattern rules, one rule for each line
\d-\d-\d
\d-\l-\l-\d
#rewrite
// list of rewrite rules, each rule has two phrases, separated by a tab character
old phrase	new phrase
# profanity
// list of profanity phrases to be tagged/removed/masked, one line one phrase
fakeprofanity
#test
// list of test cases, each test case has two sentences, input lexical and expected display output
// the two sentences are separated by a tab character
// the expected sentence is the display output of DPP+CDPP models
Mask the fakeprofanity word	Mask the ************* word

Következő lépések