DirectML の UAV バリアとリソース状態バリア

順序指定されていないアクセスビュー (UAV) バリアの要件

Direct3D 12 の UAV バリア

Direct3D 12 では、同じコマンドリスト内の隣接するコンピューティングシェーダーディスパッチは、介入する順序なしアクセスビュー (UAV) バリアと同期されない限り、GPU 上で並列に実行できます。これにより、GPU ハードウェアの使用率を上げることでパフォーマンスを向上させることができます。ただし、既定では、UAV バリアを使用しないと、隣接する 2 つのディスパッチの並列実行によって、2 つのディスパッチの間にデータ依存関係が存在する場合に競合状態が発生する可能性があります。または、両方のディスパッチが同じメモリ領域への UAV 書き込みを実行する場合。

UAV バリアでは、後続のディスパッチが開始される前に、以前に送信されたすべてのディスパッチが GPU で実行を完了するように強制されます。 UAV バリアは、データ競合を回避するために、同じコマンドリスト上のディスパッチ間で同期するために使用されます。 ID3D12GraphicsCommandList::ResourceBarrier メソッドを使用して UAV バリアを発行できます。

DirectML の UAV バリア

DirectML では、Direct3D 12 で計算シェーダーをディスパッチする方法と似た方法で演算子がディスパッチされます。つまり、隣接する演算子のディスパッチは、それらの間に UAV バリアが存在しない限り、GPU 上で並列に実行できます。一般的な機械学習モデルには、その演算子間のデータ依存関係が含まれています。たとえば、ある演算子の出力が別の演算子の入力にフィードされます。そのため、UAV バリアを使用してディスパッチを正しく同期することが重要です。

DirectML では、入力テンソルからの読み取りのみを行うことが保証されます (書き込みは行われません)。また、テンソルの DML_BUFFER_TENSOR_DESC::TotalTensorSizeInBytes メンバーの範囲外の出力テンソルへの書き込みは一切行われないことも保証されます。つまり、DirectML の演算子間のデータ依存関係は、演算子の入力バインドと出力バインドのみを調べることで推論できます。

たとえば、これらの保証により、介在する UAV バリアを発行することなく、リソースの同じ領域を入力としてバインドする 2 つの演算子をディスパッチできます。 DirectML では入力テンソルに書き込むことはないため、これは常に安全です。別の例として、2 つの同時実行演算子ディスパッチの出力テンソルを同じ Direct3D 12 リソースにバインドすることは常に安全です (テンソルが重複しない限り)。DirectML はテンソルの範囲外に書き込むことはありません (tensor の DML_BUFFER_TENSOR_DESC::TotalTensorSizeInBytes で定義)。

UAV バリアは同期の一種であり、UAV バリアを不必要に使用するとパフォーマンスに悪影響を及ぼす可能性があります。そのため、コマンドリスト内でディスパッチを正しく同期するために必要な UAV バリアの最小数を使用することをお勧めします。

例 1

次の例では、畳み込み演算子の出力が ReLU アクティブ化に送られ、その後にバッチ正規化が行われます。

    CONVOLUTION (conv1)
         |
  ACTIVATION_RELU (relu1)
         |
BATCH_NORMALIZATION (batch1)

3 つの演算子すべてにデータ依存関係が存在するため、連続するディスパッチの間に UAV バリアが必要になります ( IDMLCommandRecorder::RecordDispatch を参照)。

dmlCommandRecorder->RecordDispatch(d3d12CommandList, conv1)
d3d12CommandList->ResourceBarrier( UAV バリア)
dmlCommandRecorder->RecordDispatch(d3d12CommandList, relu1)
d3d12CommandList->ResourceBarrier( UAV バリア)
dmlCommandRecorder->RecordDispatch(d3d12CommandList, バッチ 1)

例 2

     MAX_POOLING (pool1)
        /    \
CONVOLUTION  CONVOLUTION
  (conv1)      (conv2)
        \    /
         JOIN (join1)

以下では、プーリングの出力が 2 つのコンボリューションに取り込まれ、次にその出力が JOIN 演算子を使用して連結されます。データの依存関係は、 pool1 と conv1 と conv2の両方、および conv1 と conv2 と join1の間に存在します。このグラフを実行する 1 つの有効な方法を次に示します。

dmlCommandRecorder->RecordDispatch(d3d12CommandList, プール1)
d3d12CommandList->ResourceBarrier( UAV バリア)
dmlCommandRecorder->RecordDispatch(d3d12CommandList, conv1)
dmlCommandRecorder->RecordDispatch(d3d12CommandList, conv2)
d3d12CommandList->ResourceBarrier( UAV バリア)
dmlCommandRecorder->RecordDispatch(d3d12CommandList, ジョイン1)

この場合、 conv1 と conv2 は GPU 上で同時に実行できるため、パフォーマンスが向上する可能性があります。

リソースバリア状態の要件

呼び出し元は、GPU で DirectML ディスパッチを実行する前に、すべての Direct3D 12 リソースが正しいリソースバリア状態であることを確認する必要があります。 DirectML は、ユーザーに代わって移行バリアを実行しません。

GPU で IDMLCommandRecorder::RecordDispatch を実行する前に、バインドされているすべてのリソースをD3D12_RESOURCE_STATE_UNORDERED_ACCESS状態に移行するか、D3D12_RESOURCE_STATE_COMMONなどのD3D12_RESOURCE_STATE_UNORDERED_ACCESSに暗黙的に昇格可能な状態に移行する必要があります。この呼び出しが完了すると、リソースは D3D12_RESOURCE_STATE_UNORDERED_ACCESS 状態のままになります。詳細については、「 DirectML でのバインド」を参照してください。

こちらも参照ください

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-05-01