Aracılığıyla paylaş


BrainScript LU Sıra Okuyucusu

Not: Yeni gelen biriyseniz lütfen CNTK Metin Biçimi Okuyucusu'nu kullanmayı göz önünde bulundurun. Gelecekte LUSequenceReader kullanım dışı bırakılacak ve sonunda desteklenmeyecektir.

LUSequenceReader, LMSequenceReader'a benzer. Ancak farklı giriş ve çıkış dizelerine sahip olan dil anlama görevleri için kullanılır. LUSequenceReader'ın ayarlanmasına bir örnek aşağıda verilmiştir

reader = [
    readerType = "LUSequenceReader"
    randomize = "none"
    wordContext = 0:1:2
    nbrUttsInEachRecurrentIter = 10
    unk = "<unk>"
    wordMap = "$DataDir$\inputmap.txt"
    file = "$DataDir$\atis.train.IOB"
    labelIn = [
        useWordMap = true
        beginSequence = "BOS"
        endSequence = "EOS"
        token = "$DataDir$\input.txt"
    ]
    labels = [
        beginSequence = "O"
        endSequence = "O"
        token = "$DataDir$\output.txt"
    ]
]

LUSequenceReader aşağıdaki parametrelere sahiptir:

  • wordContext: bu bir bağlam penceresi belirtir. Örneğin, wordContext=0:1:2 3 bağlam penceresini belirtir. Bu bağlam penceresinde, girişi geçerli bir zamanda, bir sonraki seferde ve bir sonraki seferden sonraki saatte okur. Başka bir örnek de olacaktır wordContext=0:-1. Bu durumda, LUSequencReader geçerli giriş ve hemen son giriş içeren 2 bağlam penceresini okur.

  • randomize: veya AutoşeklindedirNone. Bu, tüm bir birenin tümce rastgele seçiminin yapılıp yapılmayacağının modunu belirtir.

  • nbrUttsInEachRecurrentIter: Bu, bir minibatch içindeki cümle sayısı sınırını belirtir. Okuyucu, her minibatch için belirtilen sınıra kadar aynı uzunlukta giriş cümlelerini düzenler. Yinelenen ağlar için eğitmen gizli katman etkinliklerini yalnızca cümlelerin başında sıfırlar. Gizli katmanların etkinlikleri, cümlenin sonuna ulaşılmaması durumunda bir sonraki minibatch'e taşınır. Minibatch içinde birden çok cümle kullanmak eğitim süreçlerini hızlandırabilir.

  • unk: bu, görünmeyen giriş simgelerini temsil eden simgeyi belirtir. Genellikle, bu simge "" şeklindedir.

  • wordMap: bu, girişleri diğer girişlerle eşleyen bir dosya belirtir. Bu, kullanıcı bazı girişleri bilinmeyen simgelerle eşlemek istiyorsa kullanışlıdır. Eşleme dosyası sözcüğünün bir örneği aşağıdaki gibidir:

    buy buy

    trans <unk>

  • file: dosya giriş ve etiketlerini içerir. Son sütun etikettir ve diğer sütunlar girişler içerir. Eğitim dosyası örneği aşağıda verilmiştir.

    BOS O

    flight O

    from O

    charlotte B-fromloc.city_name

    to O

    las B-toloc.city_name

    vegas I-toloc.city_name

    EOS O

Yukarıdaki örnekte ve labelsadlı labelIn iki alt bloğu da görebilirsiniz.

  • labelIn: giriş etiketi bölümü. Aşağıdaki kurulumları içerir

    • useWordMaptrue veya false, giriş sözcüklerinin diğer giriş sözcükleriyle eşlenip eşlenmediğini belirtir.
    • beginSequence – cümle başlangıcı simgesi
    • endSequence – cümle bitiş simgesi
    • token – belirteç dosyası giriş sözcüklerinin listesini içerir. Emirleri önemli değil.
  • labels: çıkış etiketi bölümü.

    • token – belirteç dosyası çıkış etiketlerinin listesini içerir. Belirteçler benzersiz olduğu sürece sıraları önemli değildir.