Utilizzo degli stride per esprimere il padding e il layout della memoria

I tensori DirectML, supportati da buffer Direct3D 12, sono descritti dalle proprietà note come dimensioni e i passi del tensore. Le dimensioni del tensore descrivono le dimensioni logiche del tensore. Ad esempio, un tensore 2D potrebbe avere un'altezza pari a 2 e una larghezza pari a 3. Logicamente, il tensore ha 6 elementi distinti, anche se le dimensioni non specificano il modo in cui tali elementi vengono archiviati in memoria. I strides del tensore descrivono la struttura della memoria degli elementi del tensore.

Matrici bidimensionali (2D)

Si consideri un tensore 2D con altezza pari a 2 e una larghezza pari a 3; i dati comprendono caratteri testuali. In C/C++, questo potrebbe essere espresso usando una matrice multidimensionale.

constexpr int rows = 2;
constexpr int columns = 3;
char tensor[rows][columns];
tensor[0][0] = 'A';
tensor[0][1] = 'B';
tensor[0][2] = 'C';
tensor[1][0] = 'D';
tensor[1][1] = 'E';
tensor[1][2] = 'F';

Di seguito viene visualizzata la visualizzazione logica del tensore precedente.

A B C
D E F

In C/C++, una matrice multidimensionale viene archiviata in ordine principale di riga. In altre parole, gli elementi consecutivi lungo la dimensione width vengono archiviati in modo contiguo nello spazio di memoria lineare.

Scostamento:	0	1	2	3	4	5
Valore:	Un	B	C	D	E	F

Lo stride di una dimensione è il numero di elementi da ignorare per accedere all'elemento successivo in tale dimensione. Strides esprime il layout del tensore in memoria. Con un ordine di riga maggiore, lo stride della dimensione width è sempre 1, poiché gli elementi adiacenti lungo la dimensione vengono archiviati in modo contiguo. Lo stride della dimensione altezza dipende dalle dimensioni della dimensione di larghezza; nell'esempio precedente, la distanza tra gli elementi consecutivi lungo la dimensione altezza (ad esempio, da A a D) è uguale alla larghezza del tensore (ovvero 3 in questo esempio).

Per illustrare un layout diverso, considera l'ordine per colonne. In altre parole, gli elementi consecutivi lungo la dimensione altezza vengono archiviati in modo contiguo nello spazio di memoria lineare. In questo caso, "height-stride" è sempre 1 e "width-stride" è 2 (la dimensione dell'altezza).

Scostamento:	0	1	2	3	4	5
Valore:	Un	D	B	E	C	F

Dimensioni superiori

Quando si tratta di dimensioni maggiori di due, è difficile fare riferimento a un layout come riga-principale o colonna-principale. Il resto di questo argomento usa quindi termini ed etichette come questi.

2D: "HW": l'altezza rappresenta la dimensione di ordine più alto (row-major).
2D: "WH": la larghezza è la dimensione dell'ordine più alto (colonna-principale).
3D: "DHW": profondità è la dimensione dell'ordine più alto, seguita dall'altezza e quindi dalla larghezza.
3D: "WHD": la larghezza è la dimensione più alta, seguita dall'altezza e quindi dalla profondità.
4D: "NCHW": numero di immagini (dimensioni batch), quindi il numero di canali, quindi altezza e larghezza.

In generale, lo stride packed di una dimensione è uguale al prodotto delle dimensioni dell'ordine inferiore. Ad esempio, con un layout "DHW", il D-stride è uguale a H * W; H-stride è uguale a W; e il W-stride è uguale a 1. Si dice che i passi di avanzamento siano impacchettati quando la dimensione fisica totale del tensore è uguale alla dimensione logica totale del tensore; in altre parole, non c'è spazio aggiuntivo né elementi sovrapposti.

Estendere l'esempio 2D a tre dimensioni, in modo da avere un tensore con profondità 2, altezza 2 e larghezza 3 (per un totale di 12 elementi logici).

A B C
D E F

G H I
J K L

Con un layout "DHW", questo tensore viene archiviato come segue.

Scostamento:	0	1	2	3	4	5	6	7	8	9	10	11
Valore:	Un	B	C	D	E	F	G	H	Io	J	Okay	L

D-stride = height (2) * width (3) = 6 (ad esempio, la distanza tra 'A' e 'G').
H-stride = width (3) = 3 (ad esempio, la distanza tra 'A' e 'D').
W-stride = 1 (ad esempio, la distanza tra 'A' e 'B').

Il prodotto punto degli indici/coordinate di un elemento e gli stride forniscono l'offset a tale elemento nel buffer. Ad esempio, l'offset dell'elemento H (d=1, h=0, w=1) è 7.

{1, 0, 1} ⋅ {6, 3, 1} = 1 * 6 + 0 * 3 + 1 * 1 = 7

Tensori organizzati

Gli esempi precedenti illustrano tensori compressi . Un tensore viene detto compresso quando la dimensione logica del tensore (in elementi) è uguale alla dimensione fisica del buffer (in elementi) e ogni elemento ha un indirizzo/offset univoco. Ad esempio, un tensore 2x2x3 viene compresso se il buffer ha una lunghezza di 12 elementi e nessuna coppia di elementi condivide lo stesso offset nel buffer. I tensori compressi sono il caso più comune; ma i progressi consentono layout di memoria più complessi.

Trasmissione con passi

Se le dimensioni del buffer di un tensore (in elementi) sono inferiori al prodotto delle dimensioni logiche, è necessario che ci siano alcune sovrapposizioni di elementi. Il caso consueto per questo è noto come trasmissione; dove gli elementi di una dimensione sono duplicati di un'altra dimensione. Si esaminerà ad esempio l'esempio 2D. Supponiamo di voler un tensore logicamente 2x3, ma la seconda riga è identica alla prima. Ecco come sembra.

A B C
A B C

Può essere archiviato come tensore HW/row-major compresso. Ma uno spazio di archiviazione più compatto conterrà solo 3 elementi (A, B e C) e usa un'altezza-stride pari a 0 anziché 3. In questo caso, la dimensione fisica del tensore è di 3 elementi, ma la dimensione logica è di 6 elementi.

In generale, se lo stride di una dimensione è 0, tutti gli elementi nelle dimensioni di ordine inferiore vengono ripetuti lungo la dimensione trasmessa; ad esempio, se il tensore è NCHW e C-stride è 0, ogni canale ha gli stessi valori lungo H e W.

Riempimento con passi

Si dice che un tensore venga riempito se le dimensioni fisiche sono maggiori delle dimensioni minime necessarie per adattarsi ai relativi elementi. Quando non è presente alcuna trasmissione né elementi sovrapposti, la dimensione minima del tensore (negli elementi) è semplicemente il prodotto delle sue dimensioni. È possibile usare la funzione DMLCalcBufferTensorSize helper (vedere Funzioni helper DirectML per un elenco di tale funzione) per calcolare le dimensioni minime del buffer per i tensori DirectML.

Si supponga che un buffer contenga i valori seguenti (gli elementi 'x' indicano valori di spaziatura interna).

0	1	2	3	4	5	6	7	8	9
Un	B	C	x	x	D	E	F	x	x

Il tensore riempito può essere descritto usando un'altezza-stride di 5 anziché 3. Invece di procedere di 3 elementi per passare alla riga successiva, il passo è di 5 elementi (3 elementi reali più 2 elementi di riempimento). Il riempimento è comune nella grafica computerizzata, per esempio, per garantire che un'immagine abbia un allineamento a potenza di due.

A B C
D E F

Descrizioni del tensore del buffer DirectML

DirectML può funzionare con un'ampia gamma di layout fisici di tensori, poiché la struttura DML_BUFFER_TENSOR_DESC ha sia membri Sizes che Strides. Alcune implementazioni dell'operatore potrebbero essere più efficienti con un layout specifico, quindi non è insolito modificare la modalità di archiviazione dei dati tensor per ottenere prestazioni migliori.

La maggior parte degli operatori DirectML richiede tensori 4D o 5D e l'ordine dei valori di dimensioni e passi è fisso. Correggendo l'ordine delle dimensioni e dei valori di passo in una descrizione di un tensore, è possibile che DirectML inferisca layout fisici diversi.

DML_BUFFER_TENSOR_DESC::Taglie = { Taglia N, Taglia C, Taglia H, Taglia W }
DML_BUFFER_TENSOR_DESC::Falcate = { N-falde, C-falcata, H-falcata, W-falcata }

DML_BUFFER_TENSOR_DESC::Taglie = { Taglia N, Taglia C, Taglia D, Taglia H, Taglia W }
DML_BUFFER_TENSOR_DESC::Falcate = { N-falde, C-falcata, D-falcata, H-falcata, W-falcata }

Se un operatore DirectML richiede un tensore 4D o 5D, ma i dati effettivi hanno un rango inferiore (ad esempio, 2D), le dimensioni iniziali devono essere riempite con 1s. Ad esempio, un tensore "HW" viene impostato usando DML_BUFFER_TENSOR_DESC::Sizes = { 1, 1, H, W }.

Se i dati del tensore vengono archiviati in NCHW/NCDHW, non è necessario impostare DML_BUFFER_TENSOR_DESC::Strides, a meno che non si voglia effettuare un broadcast o aggiungere un padding. È possibile impostare il campo strides su nullptr. Tuttavia, se i dati del tensore vengono archiviati in un altro layout, ad esempio NHWC, sono necessari passi per esprimere la trasformazione da NCHW a tale layout.

Per un esempio semplice, considerare la descrizione di un tensore 2D con altezza 3 e larghezza 5.

NCHW compresso (passi impliciti)

DML_BUFFER_TENSOR_DESC::Taglie = { 1, 1, 3, 5 }
DML_BUFFER_TENSOR_DESC::Passi = nullptr

NCHW confezionato (passi espliciti)

N-falcata = taglia C * taglia H * taglia W = 1 * 3 * 5 = 15
Passo C = Taglia H * Taglia W = 3 * 5 = 15
Passo H = Dimensione W = 5
W-falcata = 1
DML_BUFFER_TENSOR_DESC::Taglie = { 1, 1, 3, 5 }
DML_BUFFER_TENSOR_DESC::Passi = { 15, 15, 5, 1 }

NHWC compresso

N-stride = H-dimensione * W-dimensione * C-dimensione = 3 * 5 * 1 = 15
Passo H = Taglia W * Taglia C = 5 * 1 = 5
Passo W = Taglia C = 1
Passo C = 1
DML_BUFFER_TENSOR_DESC::Taglie = { 1, 1, 3, 5 }
DML_BUFFER_TENSOR_DESC::Passi = { 15, 1, 5, 1 }

Vedere anche

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-06-21