BrainScript UCI Fast Reader

Upozornění

UCIFastReader je zastaralý a nahrazuje se CNTK čtečkou formátu textu. Použijte CNTK čtečku formátu textu pro vaše sítě.

UCIFastReader čte textová data formátu UCI, ve kterých je každý datový záznam řádkem s plovoucí desetinou čárkou a hodnotami popisků. Informace o popisku jsou buď na začátku, nebo na konci každého řádku, pokud jsou k dispozici informace o popisku. Chcete-li použít UCIFastReader, který jste nastavili readerType na hodnotu UCIFastReader in

reader = [
    readerType = "UCIFastReader"
    file = "c:\cntk\data\mnist\mnist_train.txt"
    features = [
        dim = 784
        start = 1
    ]
    labels = [
        dim = 1
        start = 0
        labelDim = 10
        labelMappingFile = "c:\cntk\data\mnist\mnistlabels.txt"
    ]
]

V tomto příkladu si také můžete všimnout dvou dílčích bloků pojmenovaných features a labels. Tyto názvy používají čtenáři dat ke shodě s výpočetním uzlem ve vaší síti a dat načtenými ze souborů. Pokud se k vytvoření sítě používají jednoduchí tvůrci sítě a featureslabels jsou standardní názvy uzlů funkcí a popisků. Pokud jste definovali síť pomocí tvůrce sítě NDL, musíte se ujistit, že tyto názvy odpovídají odpovídajícím uzlům ve vaší síti. UCIFastReader má následující parametry:

file: soubor, který obsahuje datovou sadu. Tento parametr byl přesunut z dílčích bloků funkcí a popisků, protože UCIFastReader vyžaduje, aby soubor byl stejný, a přesunutím úrovně nahoru se ujistěte, že toto omezení splňuje.
dim: dimenze vstupní hodnoty. Všimněte si, že každý sloupec v datovém souboru UCI představuje jednu dimenzi vstupních dat.
start: počáteční sloupec (založený na nule) vstupních dat.
labelDim: počet možných hodnot popisků. Tento parametr je vyžadován pro popisky kategorií, protože dimenze uzlu popisku bude určena touto hodnotou. Všimněte si, že samotná hodnota popisku je obvykle zadána v jednom sloupci v datovém souboru UCI.
labelMappingFile: cesta k souboru použitému k mapování z hodnoty popisku na číselný identifikátor popisku. Soubor obvykle obsahuje všechny možné hodnoty popisků, jeden na řádek, který může být text nebo číselný. Číslo řádku založené na nule je identifikátor, který bude použit CNTK k identifikaci daného popisku. Je důležité, aby se pro trénování a vyhodnocení používal stejný soubor mapování popisků. Můžete to provést přesunutím parametru labelMappingFile nahoru, aby ho mohly sdílet jak bloky trénování, tak vyhodnocení.
customDelimiter: přizpůsobený oddělovač. Ve výchozím nastavení se mezery používají jako oddělovač. S tímto parametrem můžete kromě mezer použít jiný oddělovač, jako je čárka nebo středník. Všimněte si ale, že tato čtečka nezpracuje prázdná pole, například dvě čárky v řádku s prázdnými znaky nebo bez mezer mezi nimi.
customDecimalPoint: přizpůsobená desetinná čárka. Ve výchozím nastavení se tečka používá jako desetinná čárka. S tímto parametrem můžete použít další desetinnou čárku, například ty, které se používají v evropských zemích.
labelType: chcete-li určit, jak mají být sloupce popisků interpretovány. Ve výchozím nastavení je nastavená na "Category", což znamená, že vyžaduje mapování tabulky na mapování z hodnot (může být řetězec) na ID tříd, aby se hodnoty převedou na 1-horkou reprezentaci. Můžete ji nastavit na Regrese, která označuje, že se hodnoty používají přímo bez převodu nebo Žádné, aby se nezoznačily žádné popisky.

Další možnosti:

traceLevel: Celé číslo, které definuje podrobnost čtenáře. Aktuálně se používá: 0 (bez trasování) a 1. Výchozí hodnota je 0.
prefetch: Logická hodnota ("true" nebo "false") označující, jestli má být povolené předběžné načtení. Předběžné načtení odkazuje na skutečnost, že se data čtou asynchronně do hlavního zpracování. Výchozí hodnota je false.
randomize: Řetězec ("none", "auto") řídí pořadí, ve kterém se mají řádky číst. V případě "Žádné" se čtou v lineárním pořadí; V případě "auto" se vyberou náhodně; Todo může být také celé číslo za určitých omezení.
minibatchMode: Pokud je daná a nastavená na "částečnou", jsou přijímány částečné minibatchy; Jinak musí být velikost trénovacích dat násobek velikosti minibatchu.

Last updated on 2017-03-15

BrainScript UCI Fast Reader

Další materiály