Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Nota: se sei un nuovo arrivato, prendi in considerazione l'uso di CNTK lettore di formato testo. In futuro LMSequenceReader sarà deprecato e alla fine non supportato.
LMSequenceReader è un lettore che legge la stringa di testo. Viene usato principalmente per le attività di modellazione del linguaggio. Di seguito è riportato un esempio di configurazione
reader = [
readerType = "LMSequenceReader"
randomize = false
nbruttineachrecurrentiter = 10
unk = "<unk>"
wordclass = "$DataDir$\wordclass.txt"
file = "$DataDir$\penntreebank.train.txt"
labelIn = [
labelDim = 10000
beginSequence = "</s>"
endSequence = "</s>"
]
]
LMSequenceReader include i parametri seguenti:
randomize: èNoneoAuto. Specifica la modalità di esecuzione della sequenza casuale delle frasi dell'intero corpus.nbruttsineachrecurrentiter: specifica il limite del numero di frasi in un minibatch. Il lettore dispone le frasi di input di stessa lunghezza, fino al limite specificato, in ogni minibatch. Per le reti ricorrenti, il formatore reimposta le attività del livello nascosto solo all'inizio delle frasi. Le attività dei livelli nascosti vengono trasportate al minibatch successivo se non viene raggiunta una fine di frase. L'uso di più frasi in un minibatch può velocizzare i processi di training.unk: specifica il simbolo per rappresentare i simboli di input non visualizzati. In genere, questo simbolo è "". Le parole non visualizzate verranno mappate al simbolo.wordclass: specifica le informazioni sulla classe della parola. Viene usato per la modellazione del linguaggio basata su classi. Di seguito è riportato un esempio delle informazioni sulla classe. La prima colonna è l'indice delle parole. La seconda colonna è il numero di occorrenze, la terza colonna è la parola e l'ultima colonna è l'ID della classe della parola.0 42068 </s> 01 50770 the 02 45020 <unk> 03 32481 N 04 24400 of 05 23638 to 06 21196 a 07 18000 in 18 17474 and 1file: il file contiene stringhe di testo. Di seguito è riportato un esempio. In questo esempio è anche possibile notare un sottoblocdo denominatolabelIn.pierre N anni farà parte del consiglio di amministrazione come direttore non esecutivo nov. N mr. è presidente di n.v. il gruppo di pubblicazione olandese
labelIn: sezione per l'etichetta di input. Contiene le seguenti configurazionibeginSequence– simbolo iniziale della fraseendSequence– simbolo finale della fraselabelDim: dimensione delle etichette. Questo significa in genere la dimensione del vocabolario.