BrainScript LM 序列讀取器
注意:如果您是新使用者,請考慮使用CNTK文字格式讀取器。 在未來的 LMSequenceReader 將會被取代,最終不支援。
LMSequenceReader 是讀取文字字串的讀取器。 它最常用於語言模型化工作。 其設定的範例如下
reader = [
readerType = "LMSequenceReader"
randomize = false
nbruttineachrecurrentiter = 10
unk = "<unk>"
wordclass = "$DataDir$\wordclass.txt"
file = "$DataDir$\penntreebank.train.txt"
labelIn = [
labelDim = 10000
beginSequence = "</s>"
endSequence = "</s>"
]
]
LMSequenceReader 具有下列參數:
randomize
:它是None
或Auto
。 這會指定是否執行整個主體的句子隨機化模式。nbruttsineachrecurrentiter
:這會指定迷你批次中句子數目的限制。 讀取器會將長度相同的輸入句子排列到每個迷你批次中,上限為指定的限制。 針對迴圈網路,定型器只會在句子開頭重設隱藏層活動。 如果未達到句子結尾,隱藏層的活動會傳遞給下一個迷你批次。 在迷你批次中使用多個句子可以加速定型程式。unk
:這會指定要表示未看到輸入符號的符號。 通常,此符號為 「」。 未看到的單字會對應至符號。wordclass
:這會指定類別資訊的字組。 這用於類別型語言模型化。 類別資訊的範例如下。 第一個資料行是字組索引。 第二個數據行是出現的次數,第三個數據行是單字,最後一個資料行是單字的類別識別碼。0 42068 </s> 0
1 50770 the 0
2 45020 <unk> 0
3 32481 N 0
4 24400 of 0
5 23638 to 0
6 21196 a 0
7 18000 in 1
8 17474 and 1
file
:檔案包含文字字串。 以下範例如下。 在此範例中,您也可以注意到一個名為 的labelIn
子區塊。pis n 年長會以非執行主管的身分加入面板。 N mr. 是 n.v. 的荷蘭文發佈群組
labelIn
:輸入標籤的 區段。 其中包含下列設定beginSequence
– 句子開頭符號endSequence
– 句子結束符號labelDim
– 標籤的維度。 這通常表示詞彙大小。