BrainScript LM 序列讀取器

發行項
03/15/2017

注意：如果您是新使用者，請考慮使用CNTK文字格式讀取器。在未來的 LMSequenceReader 將會被取代，最終不支援。

LMSequenceReader 是讀取文字字串的讀取器。它最常用於語言模型化工作。其設定的範例如下

reader = [
    readerType = "LMSequenceReader"
    randomize = false
    nbruttineachrecurrentiter = 10
    unk = "<unk>"
    wordclass = "$DataDir$\wordclass.txt"
    file = "$DataDir$\penntreebank.train.txt"
    labelIn = [
        labelDim = 10000
        beginSequence = "</s>"
        endSequence = "</s>"
    ]
]

LMSequenceReader 具有下列參數：

randomize：它是 None 或 Auto 。這會指定是否執行整個主體的句子隨機化模式。
nbruttsineachrecurrentiter：這會指定迷你批次中句子數目的限制。讀取器會將長度相同的輸入句子排列到每個迷你批次中，上限為指定的限制。針對迴圈網路，定型器只會在句子開頭重設隱藏層活動。如果未達到句子結尾，隱藏層的活動會傳遞給下一個迷你批次。在迷你批次中使用多個句子可以加速定型程式。
unk：這會指定要表示未看到輸入符號的符號。通常，此符號為「」。未看到的單字會對應至符號。
wordclass：這會指定類別資訊的字組。這用於類別型語言模型化。類別資訊的範例如下。第一個資料行是字組索引。第二個數據行是出現的次數，第三個數據行是單字，最後一個資料行是單字的類別識別碼。

0 42068 </s> 0

1 50770 the 0

2 45020 <unk> 0

3 32481 N 0

4 24400 of 0

5 23638 to 0

6 21196 a 0

7 18000 in 1

8 17474 and 1
file：檔案包含文字字串。以下範例如下。在此範例中，您也可以注意到一個名為的 labelIn 子區塊。

pis n 年長會以非執行主管的身分加入面板。 N mr. 是 n.v. 的荷蘭文發佈群組
labelIn：輸入標籤的區段。其中包含下列設定
- beginSequence – 句子開頭符號
- endSequence – 句子結束符號
- labelDim – 標籤的維度。這通常表示詞彙大小。

共用方式為

BrainScript LM 序列讀取器

其他資源