Regras de ponto flutuante

O Direct3D dá suporte a várias representações de ponto flutuante. Todos os cálculos de ponto flutuante operam sob um subconjunto definido das regras de ponto flutuante de precisão única do IEEE 754 de 32 bits.

regras de ponto flutuante de 32 bits

Há dois conjuntos de regras: aqueles que estão em conformidade com o IEEE-754 e aqueles que se desviam do padrão.

Seguindo as regras IEEE-754

Algumas dessas regras são uma única opção em que o IEEE-754 oferece opções.

Dividir por 0 produz +/- INF, exceto 0/0 que resulta em NaN.
o log de (+/-) 0 produz -INF.

o log de um valor negativo (diferente de -0) produz NaN.
Raiz quadrada recíproca (rsq) ou raiz quadrada (sqrt) de um número negativo produz NaN.

A exceção é -0; sqrt(-0) produz -0 e rsq(-0) produz -INF.
INF – INF = NaN
(+/-)INF / (+/-)INF = NaN
(+/-)INF * 0 = NaN
NaN (qualquer OP) qualquer valor = NaN
As comparações EQ, GT, GE, LT e LE, quando um ou ambos os operandos são NaN, retornam FALSE.
As comparações ignoram o sinal de 0 (portanto, +0 é igual a -0).
O NE de comparação, quando um ou ambos os operandos são NaN, retorna TRUE.
Comparações de qualquer valor não NaN em relação a +/- INF retornam o resultado correto.

desvios ou requisitos adicionais das regras do IEEE-754

O IEEE-754 requer que as operações de ponto flutuante produzam um resultado que seja o valor representável mais próximo de um resultado infinitamente preciso, conhecido como arredondamento para o par mais próximo.

Direct3D 11 e versões posteriores definem o mesmo requisito que o IEEE-754: operações de ponto flutuante de 32 bits produzem um resultado que está dentro de 0,5 unidades do último lugar (ULP) do resultado infinitamente preciso teórico. Isso significa que, por exemplo, o hardware tem permissão para truncar os resultados para 32 bits em vez de executar o arredondamento para o mais próximo par, pois isso resultaria em um erro de no máximo 0,5 ULP. Essa regra se aplica apenas à adição, subtração e multiplicação.

As versões anteriores do Direct3D definem um requisito mais flexível do que o IEEE-754: as operações de ponto flutuante de 32 bits produzem um resultado que está dentro de uma unidade de último lugar (1 ULP) do resultado infinitamente preciso. Isso significa que, por exemplo, o hardware tem permissão para truncar resultados para 32 bits em vez de arredondar para o par mais próximo, pois isso resultaria em um erro de no máximo um ULP.
Não há suporte para exceções de ponto flutuante, bits de status ou armadilhas.
Os números desnormalizados são convertidos para zero com preservação de sinal na entrada e saída de qualquer operação matemática de ponto flutuante. Exceções são feitas para qualquer operação de movimentação de dados ou de E/S que não manipule os dados.
Estados que contêm valores de ponto flutuante, como Viewport MinDepth/MaxDepth ou BorderColor, podem ser fornecidos como valores subnormais e podem ou não ser eliminados antes que o hardware os utilize.
Operações mínimas ou máximas liberam números desnormalizados para comparação, mas o resultado pode ou não ser a liberação de números desnormalizados.
A entrada de NaN em uma operação sempre resulta em NaN na saída. Mas o padrão de bit exato do NaN não é necessário para permanecer o mesmo (a menos que a operação seja uma instrução de movimentação bruta - que não altere os dados).)
Operações mínimas ou máximas para as quais apenas um operando é NaN retornam o outro operando como resultado (ao contrário das regras de comparação que examinamos anteriormente). Esta é uma regra IEEE 754R.

A especificação IEEE-754R para operações mínimas e máximas de ponto flutuante indica que, se uma das entradas para min ou max for um valor QNaN silencioso, o resultado da operação será o outro parâmetro. Por exemplo:
```
min(x,QNaN) == min(QNaN,x) == x (same for max)
```
Uma revisão da especificação IEEE-754R adotou um comportamento diferente para mínimo e máximo quando uma entrada é um valor SNaN de "sinalização" versus um valor QNaN:
```
min(x,SNaN) == min(SNaN,x) == QNaN (same for max)
```
Em geral, o Direct3D segue os padrões para aritmética: IEEE-754 e IEEE-754R. Mas, nesse caso, temos um desvio.

As regras aritméticas no Direct3D 10 e posterior não fazem distinções entre valores de NaN silenciosos e de sinalização (QNaN versus SNaN). Todos os valores naN são tratados da mesma maneira. No caso de mínimo e máximo, o comportamento do Direct3D para qualquer valor naN é como o QNaN é tratado na definição IEEE-754R. (Para fins de integridade - se ambas as entradas forem NaN, qualquer valor naN será retornado.)
Outra regra do IEEE 754R é que min(-0,+0) == min(+0,-0) == -0 e max(-0,+0) == max(+0,-0) == +0, que respeita o sinal, em contraste com as regras de comparação para zero assinado (como vimos anteriormente). O Direct3D recomenda o comportamento do IEEE 754R aqui, mas não o impõe; é permitido que o resultado da comparação de zeros dependa da ordem dos parâmetros, usando uma comparação que ignora os sinais.
x*1.0f sempre resulta em x (exceto número desnormalizado liberado).
x/1.0f sempre resulta em x (exceto número desnormalizado liberado).
x +/- 0,0f sempre resulta em x (exceto quando denorm é anulado). Mas -0 + 0 = +0.
Operações fundidas (como mad, dp3) produzem resultados que são tão precisos quanto a pior ordenação serial possível de avaliação da expansão não fundida da operação. A definição da pior ordenação possível, para fins de tolerância, não é uma definição fixa para uma determinada operação fundida; depende dos valores específicos das entradas. Cada uma das etapas individuais na expansão desconectada tem uma tolerância permitida de 1 ULP (ou para qualquer instrução que Direct3D chamar com tolerância mais frouxa do que 1 ULP, a tolerância mais frouxa é permitida).
Operações fundidas seguem as mesmas regras de NaN que operações não fundidas.
sqrt e rcp têm tolerância de 1 ULP. As instruções recíprocas e recíprocas de raiz quadrada, rcp e rsq, têm seu próprio requisito de precisão relaxado separado.
As operações de multiplicação e divisão operam no nível de precisão de ponto flutuante de 32 bits (precisão de 0,5 ULP para multiplicação e 1,0 ULP para recíproca). Se x/y for implementado diretamente, os resultados deverão ser de precisão maior ou igual a um método de duas etapas.

regras de ponto flutuante de 64 bits (precisão dupla)

Os drivers de hardware e de vídeo opcionalmente dão suporte a ponto flutuante de dupla precisão. Para indicar suporte, quando você chama ID3D11Device::CheckFeatureSupport com D3D11_FEATURE_DOUBLES, o driver define DoublePrecisionFloatShaderOps de D3D11_FEATURE_DATA_DOUBLES como TRUE. O driver e o hardware devem dar suporte a todas as instruções de ponto flutuante de dupla precisão.

Instruções de precisão dupla seguem os requisitos de comportamento do IEEE 754R.

O suporte para geração de valores desnormalizados é necessário para dados de precisão dupla (sem comportamento de liberação para zero). Da mesma forma, as instruções não leem dados desnormalizados como se fossem zero com sinal, elas respeitam o valor desnormalizado.

regras de ponto flutuante de 16 bits

O Direct3D também dá suporte a representações de 16 bits de números de ponto flutuante.

Formato:

1 bit de sinal (s) na posição do bit MSB
5 bits de expoente desviado (e)
10 bits de fração (f), com um bit oculto adicional

Um valor float16 (v) segue estas regras:

se e == 31 e f != 0, v é NaN independentemente de s
Se e == 31 e f == 0, então v = (-1)s*infinito (infinito com sinal)
se e estiver entre 0 e 31, v = (-1)s*2(e-15)*(1.f)
se e == 0 e f != 0, v = (-1)s*2(e-14)*(0.f) (números desnormalizados)
se e == 0 e f == 0, então v = (-1)s*0 (zero com sinal)

As regras de ponto flutuante de 32 bits também se aplicam aos números de ponto flutuante de 16 bits, ajustadas para o layout de bits descrito anteriormente. As exceções a isso incluem:

Precisão: as operações não fundidas em números de ponto flutuante de 16 bits produzem um resultado que é o valor representável mais próximo a um resultado infinitamente preciso (arredondar para o mais próximo par, conforme IEEE-754, aplicado a valores de 16 bits). As regras de ponto flutuante de 32 bits seguem uma tolerância de 1 ULP, as regras de ponto flutuante de 16 bits seguem uma tolerância de 0,5 ULP para operações não fundidas e 0,6 ULP para operações fundidas.
Números de ponto flutuante de 16 bits preservam números desnormalizados.

regras de ponto flutuante de 11 bits e 10 bits

O Direct3D também dá suporte a formatos de ponto flutuante de 11 bits e 10 bits.

Formato:

Nenhum bit de sinal
5 bits de expoente desviado (e)
6 bits de fração (f) para um formato de 11 bits, 5 bits de fração (f) para um formato de 10 bits, com um bit oculto adicional em ambos os casos.

Um valor float11/float10 (v) segue as seguintes regras:

se e == 31 e f != 0, v é NaN
se e == 31 e f == 0, v = +infinito
se e estiver entre 0 e 31, v = 2(e-15)*(1.f)
se e == 0 e f != 0, v = *2(e-14)*(0.f) (números desnormalizados)
se e == 0 e f == 0, v = 0 (zero)

As regras de ponto flutuante de 32 bits também se aplicam a números de ponto flutuante de 11 bits e 10 bits, ajustadas para a configuração de bits descrita anteriormente. As exceções incluem:

Precisão: as regras de ponto flutuante de 32 bits seguem a ULP 0,5.
Números de ponto flutuante de 10/11 bits preservam números subnormais.
Qualquer operação que resulte em um número menor que zero é fixada a zero.

Apêndices

Recursos

Texturas

Comentários

Esta página foi útil?

Last updated on 2025-06-10