Condividi tramite


Lettore sequenza LM BrainScript

Nota: se sei un nuovo arrivato, prendi in considerazione l'uso di CNTK lettore di formato testo. In futuro LMSequenceReader sarà deprecato e alla fine non supportato.

LMSequenceReader è un lettore che legge la stringa di testo. Viene usato principalmente per le attività di modellazione del linguaggio. Di seguito è riportato un esempio di configurazione

reader = [
    readerType = "LMSequenceReader"
    randomize = false
    nbruttineachrecurrentiter = 10
    unk = "<unk>"
    wordclass = "$DataDir$\wordclass.txt"
    file = "$DataDir$\penntreebank.train.txt"
    labelIn = [
        labelDim = 10000
        beginSequence = "</s>"
        endSequence = "</s>"
    ]
]

LMSequenceReader include i parametri seguenti:

  • randomize: è None o Auto. Specifica la modalità di esecuzione della sequenza casuale delle frasi dell'intero corpus.

  • nbruttsineachrecurrentiter: specifica il limite del numero di frasi in un minibatch. Il lettore dispone le frasi di input di stessa lunghezza, fino al limite specificato, in ogni minibatch. Per le reti ricorrenti, il formatore reimposta le attività del livello nascosto solo all'inizio delle frasi. Le attività dei livelli nascosti vengono trasportate al minibatch successivo se non viene raggiunta una fine di frase. L'uso di più frasi in un minibatch può velocizzare i processi di training.

  • unk: specifica il simbolo per rappresentare i simboli di input non visualizzati. In genere, questo simbolo è "". Le parole non visualizzate verranno mappate al simbolo.

  • wordclass: specifica le informazioni sulla classe della parola. Viene usato per la modellazione del linguaggio basata su classi. Di seguito è riportato un esempio delle informazioni sulla classe. La prima colonna è l'indice delle parole. La seconda colonna è il numero di occorrenze, la terza colonna è la parola e l'ultima colonna è l'ID della classe della parola.

    0 42068 </s> 0

    1 50770 the 0

    2 45020 <unk> 0

    3 32481 N 0

    4 24400 of 0

    5 23638 to 0

    6 21196 a 0

    7 18000 in 1

    8 17474 and 1

  • file: il file contiene stringhe di testo. Di seguito è riportato un esempio. In questo esempio è anche possibile notare un sottoblocdo denominato labelIn.

    pierre N anni farà parte del consiglio di amministrazione come direttore non esecutivo nov. N mr. è presidente di n.v. il gruppo di pubblicazione olandese

  • labelIn: sezione per l'etichetta di input. Contiene le seguenti configurazioni

    • beginSequence – simbolo iniziale della frase
    • endSequence – simbolo finale della frase
    • labelDim : dimensione delle etichette. Questo significa in genere la dimensione del vocabolario.