DML_CONVOLUTION_OPERATOR_DESC-Struktur (directml.h)

Artikel
08/23/2023

Führt eine Konvolution des FilterTensor mit dem InputTensor aus. Dieser Operator unterstützt eine Reihe von Standardkonvolutionskonfigurationen. Diese Standardkonfigurationen umfassen Vorwärts- und Rückwärtskonvolution (transponiert) durch Festlegen der Felder Richtung und Modus sowie tiefenweise Konvolution durch Festlegen des Felds GroupCount .

Eine Zusammenfassung der beteiligten Schritte: Führen Sie die Konvolution in den Ausgabe tensor durch; Umformung der Verzerrung auf die gleichen Dimensionsgrößen wie der Ausgabe tensor; Fügen Sie den umgeformten Bias-Tensor dem Ausgabe tensor hinzu.

Syntax

struct DML_CONVOLUTION_OPERATOR_DESC {
  const DML_TENSOR_DESC     *InputTensor;
  const DML_TENSOR_DESC     *FilterTensor;
  const DML_TENSOR_DESC     *BiasTensor;
  const DML_TENSOR_DESC     *OutputTensor;
  DML_CONVOLUTION_MODE      Mode;
  DML_CONVOLUTION_DIRECTION Direction;
  UINT                      DimensionCount;
  const UINT                *Strides;
  const UINT                *Dilations;
  const UINT                *StartPadding;
  const UINT                *EndPadding;
  const UINT                *OutputPadding;
  UINT                      GroupCount;
  const DML_OPERATOR_DESC   *FusedActivation;
};

Member

InputTensor

Typ: const DML_TENSOR_DESC*

Ein Tensor, der die Eingabedaten enthält. Die erwarteten Dimensionen des InputTensor sind:

{ BatchCount, InputChannelCount, InputWidth } für 3D,
{ BatchCount, InputChannelCount, InputHeight, InputWidth } für 4D und
{ BatchCount, InputChannelCount, InputDepth, InputHeight, InputWidth } für 5D.

FilterTensor

Typ: const DML_TENSOR_DESC*

Ein Tensor, der die Filterdaten enthält. Die erwarteten Dimensionen des FilterTensor sind:

{ FilterBatchCount, FilterChannelCount, FilterWidth } für 3D,
{ FilterBatchCount, FilterChannelCount, FilterHeight, FilterWidth } für 4D und
{ FilterBatchCount, FilterChannelCount, FilterDepth, FilterHeight, FilterWidth } für 5D.

BiasTensor

Typ: _Maybenull_ const DML_TENSOR_DESC*

Ein optionaler Tensor, der die Biasdaten enthält. Der Bias tensor ist ein Tensor mit Daten, der über den Ausgabe tensor am Ende der Konvolution übertragen wird, die dem Ergebnis hinzugefügt wird. Die erwarteten Dimensionen des BiasTensor sind:

{ 1, OutputChannelCount, 1 } für 3D,
{ 1, OutputChannelCount, 1, 1 } für 4D und
{ 1, OutputChannelCount, 1, 1, 1 } für 5D.

Für jeden Ausgabekanal wird der einzelne Biaswert für diesen Kanal jedem Element in diesem Kanal des OutputTensor hinzugefügt. Das heißt, der BiasTensor wird auf die Größe des OutputTensor übertragen, und der Operator gibt die Summe dieses übertragenen BiasTensor mit dem Ergebnis von Convolution zurück.

OutputTensor

Typ: const DML_TENSOR_DESC*

Ein Tensor, in den die Ergebnisse geschrieben werden sollen. Die erwarteten Dimensionen des OutputTensor sind:

{ BatchCount, OutputChannelCount, OutputWidth } für 3D,
{ BatchCount, OutputChannelCount, OutputHeight, OutputWidth } für 4D und
{ BatchCount, OutputChannelCount, OutputDepth, OutputHeight, OutputWidth } für 5D.

Mode

Typ: DML_CONVOLUTION_MODE

Der Modus, der für den Konvolutionsvorgang verwendet werden soll. DML_CONVOLUTION_MODE_CROSS_CORRELATION ist das Verhalten, das für typische Rückschlussszenarien erforderlich ist. Im Gegensatz dazu kippt DML_CONVOLUTION_MODE_CONVOLUTION die Reihenfolge der Elemente in jedem Filterkern entlang jeder räumlichen Dimension.

Direction

Typ: DML_CONVOLUTION_DIRECTION

Die Richtung der Faltungsoperation. DML_CONVOLUTION_DIRECTION_FORWARD ist die primäre Form der Konvolution, die für Rückschlüsse verwendet wird, wobei während des Trainings eine Kombination aus DML_CONVOLUTION_DIRECTION_FORWARD und DML_CONVOLUTION_DIRECTION_BACKWARD verwendet wird.

DimensionCount

Typ: UINT

Die Anzahl der räumlichen Dimensionen für den Konvolutionsvorgang. Räumliche Dimensionen sind die niedrigeren Dimensionen des FaltungsfilterTensor. Die Dimension "Breite" und "Höhe" sind z. B. räumliche Dimensionen eines 4D-Konvolutionsfilter-Tensors. Dieser Wert bestimmt auch die Größe der Arrays Strides, Dilations, StartPadding, EndPadding und OutputPadding . Sie sollte auf 2 festgelegt werden, wenn InputTensor.DimensionCount den Wert 4 aufweist, und auf 3, wenn InputTensor.DimensionCount den Wert 5 aufweist.

Strides