共用方式為


BrainScript LM 序列讀取器

注意:如果您是新使用者,請考慮使用CNTK文字格式讀取器。 在未來的 LMSequenceReader 將會被取代,最終不支援。

LMSequenceReader 是讀取文字字串的讀取器。 它最常用於語言模型化工作。 其設定的範例如下

reader = [
    readerType = "LMSequenceReader"
    randomize = false
    nbruttineachrecurrentiter = 10
    unk = "<unk>"
    wordclass = "$DataDir$\wordclass.txt"
    file = "$DataDir$\penntreebank.train.txt"
    labelIn = [
        labelDim = 10000
        beginSequence = "</s>"
        endSequence = "</s>"
    ]
]

LMSequenceReader 具有下列參數:

  • randomize:它是 NoneAuto 。 這會指定是否執行整個主體的句子隨機化模式。

  • nbruttsineachrecurrentiter:這會指定迷你批次中句子數目的限制。 讀取器會將長度相同的輸入句子排列到每個迷你批次中,上限為指定的限制。 針對迴圈網路,定型器只會在句子開頭重設隱藏層活動。 如果未達到句子結尾,隱藏層的活動會傳遞給下一個迷你批次。 在迷你批次中使用多個句子可以加速定型程式。

  • unk:這會指定要表示未看到輸入符號的符號。 通常,此符號為 「」。 未看到的單字會對應至符號。

  • wordclass:這會指定類別資訊的字組。 這用於類別型語言模型化。 類別資訊的範例如下。 第一個資料行是字組索引。 第二個數據行是出現的次數,第三個數據行是單字,最後一個資料行是單字的類別識別碼。

    0 42068 </s> 0

    1 50770 the 0

    2 45020 <unk> 0

    3 32481 N 0

    4 24400 of 0

    5 23638 to 0

    6 21196 a 0

    7 18000 in 1

    8 17474 and 1

  • file:檔案包含文字字串。 以下範例如下。 在此範例中,您也可以注意到一個名為 的 labelIn 子區塊。

    pis n 年長會以非執行主管的身分加入面板。 N mr. 是 n.v. 的荷蘭文發佈群組

  • labelIn:輸入標籤的 區段。 其中包含下列設定

    • beginSequence – 句子開頭符號
    • endSequence – 句子結束符號
    • labelDim – 標籤的維度。 這通常表示詞彙大小。