Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Poznámka: Pokud jste nováčkem, zvažte použití čtečky formátu textu CNTK. V budoucnu bude LUSequenceReader zastaralý a nakonec se nepodporuje.
LUSequenceReader je podobný LMSequenceReader. Používá se ale pro úlohy porozumění jazyku, které mají vstupní a výstupní řetězce, které se liší. Příklad nastavení LUSequenceReader je následující:
reader = [
readerType = "LUSequenceReader"
randomize = "none"
wordContext = 0:1:2
nbrUttsInEachRecurrentIter = 10
unk = "<unk>"
wordMap = "$DataDir$\inputmap.txt"
file = "$DataDir$\atis.train.IOB"
labelIn = [
useWordMap = true
beginSequence = "BOS"
endSequence = "EOS"
token = "$DataDir$\input.txt"
]
labels = [
beginSequence = "O"
endSequence = "O"
token = "$DataDir$\output.txt"
]
]
LuSequenceReader má následující parametry:
wordContext: Určuje kontextové okno. NapříkladwordContext=0:1:2určuje kontextové okno 3. V tomto kontextovém okně čte vstup v aktuálním čase, příště a čas po dalším čase. Dalším příkladem by bylowordContext=0:-1. V takovém případě luSequencReader přečte kontextové okno 2, které se skládají z aktuálního vstupu a okamžitého posledního vstupu.randomize: je to buďNoneneboAuto. Určuje režim, zda se provádí randomizace vět celého korpusu.nbrUttsInEachRecurrentIter: Určuje limit počtu vět v minibatchu. Čtečka uspořádá vstupní věty stejné délky až do zadaného limitu do každého minibatchu. U opakujících se sítí trenér resetuje skryté aktivity vrstvy pouze na začátku vět. Aktivity skrytých vrstev se přenesou na další minibatch, pokud není dosaženo konce věty. Použití více vět v minibatchu může urychlit trénovací procesy.unk: Určuje symbol, který bude představovat neviditelné vstupní symboly. Obvykle je tento symbol "".wordMap: Určuje soubor, který mapuje vstupy na jiné vstupy. To je užitečné, pokud chce uživatel mapovat některé vstupy na neznámé symboly. Příklad souboru mapování slov je následující:buy buytrans <unk>file: soubor obsahuje vstup a jeho popisky. Poslední sloupec je popisek a ostatní sloupce obsahují vstupy. Příklad trénovacího souboru je uvedený níže.BOS Oflight Ofrom Ocharlotte B-fromloc.city_nameto Olas B-toloc.city_namevegas I-toloc.city_nameEOS O
V předchozím příkladu si také můžete všimnout dvou dílčích bloků pojmenovaných labelIn a labels.
labelIn: oddíl pro vstupní popisek. Obsahuje následující nastavení:useWordMap–truenebofalse, určuje, jestli se pomocí mapování slov mapují vstupní slova na jiná vstupní slova.beginSequence– počáteční symbol větyendSequence– symbol zakončení větytoken– Soubor tokenu obsahuje seznam vstupních slov. Jejich rozkazy nejsou důležité.
labels: oddíl pro popisek výstupu.token– Soubor tokenu obsahuje seznam výstupních popisků. Jejich pořadí není důležité, pokud jsou tokeny jedinečné.