Utilização dos objetos accelerator e accelerator_view

Podes usar o acelerador e as classes accelerator_view para especificar o dispositivo ou emulador onde vais executar o teu código AMP em C++. Um sistema pode ter vários dispositivos ou emuladores que diferem pela quantidade de memória, pelo suporte à memória partilhada, pelo suporte à depuração ou pelo suporte a precisão dupla. O C++ Accelerated Massive Parallelism (C++ AMP) fornece APIs que pode usar para examinar os aceleradores disponíveis, definir um como predefinido, especificar múltiplas accelerator_views para múltiplas chamadas a parallel_for_each e realizar tarefas especiais de depuração.

Observação

Os cabeçalhos AMP C++ foram preteridos a partir do Visual Studio 2022 versão 17.0. A inclusão de cabeçalhos AMP gerará erros de compilação. Defina _SILENCE_AMP_DEPRECATION_WARNINGS antes de incluir quaisquer cabeçalhos AMP para silenciar os avisos.

Usando o acelerador padrão

O runtime AMP C++ escolhe um acelerador padrão, a menos que escrevas código para escolher um específico. O runtime escolhe o acelerador padrão da seguinte forma:

Se a aplicação estiver a correr em modo de depuração, um acelerador que suporta depuração.
Caso contrário, o acelerador especificado pela CPPAMP_DEFAULT_ACCELERATOR variável de ambiente, se estiver definido.
Caso contrário, um dispositivo não emulado.
Caso contrário, o dispositivo que tem a maior quantidade de memória disponível.
Caso contrário, um dispositivo que não está ligado ao ecrã.

Além disso, o runtime especifica um access_type de access_type_auto para o acelerador padrão. Isto significa que o acelerador por defeito usa memória partilhada se for suportada e se as suas características de desempenho (largura de banda e latência) forem conhecidas por serem as mesmas das memórias dedicadas (não partilhadas).

Pode determinar as propriedades do acelerador padrão construindo o acelerador padrão e examinando as suas propriedades. O seguinte exemplo de código imprime o caminho, a quantidade de memória do acelerador, o suporte à memória partilhada, o suporte à dupla precisão e o suporte limitado à dupla precisão do acelerador padrão.

void default_properties() {
    accelerator default_acc;
    std::wcout << default_acc.device_path << "\n";
    std::wcout << default_acc.dedicated_memory << "\n";
    std::wcout << (accs[i].supports_cpu_shared_memory ?
        "CPU shared memory: true" : "CPU shared memory: false") << "\n";
    std::wcout << (accs[i].supports_double_precision ?
        "double precision: true" : "double precision: false") << "\n";
    std::wcout << (accs[i].supports_limited_double_precision ?
        "limited double precision: true" : "limited double precision: false") << "\n";
}

CPPAMP_DEFAULT_ACCELERATOR Variável de Ambiente

Podes definir a CPPAMP_DEFAULT_ACCELERATOR variável ambiente para especificar o accelerator::device_path do acelerador predefinido. O caminho depende do hardware. O código seguinte utiliza a accelerator::get_all função para recuperar uma lista dos aceleradores disponíveis e depois mostra o caminho e as características de cada acelerador.

void list_all_accelerators()
{
    std::vector<accelerator> accs = accelerator::get_all();

    for (int i = 0; i <accs.size(); i++) {
        std::wcout << accs[i].device_path << "\n";
        std::wcout << accs[i].dedicated_memory << "\n";
        std::wcout << (accs[i].supports_cpu_shared_memory ?
            "CPU shared memory: true" : "CPU shared memory: false") << "\n";
        std::wcout << (accs[i].supports_double_precision ?
            "double precision: true" : "double precision: false") << "\n";
        std::wcout << (accs[i].supports_limited_double_precision ?
            "limited double precision: true" : "limited double precision: false") << "\n";
    }
}

Seleção de um Acelerador

Para selecionar um acelerador, use o accelerator::get_all método para obter uma lista dos aceleradores disponíveis e depois selecione um com base nas suas propriedades. Este exemplo mostra como escolher o acelerador que tem mais memória:

void pick_with_most_memory()
{
    std::vector<accelerator> accs = accelerator::get_all();
    accelerator acc_chosen = accs[0];

    for (int i = 0; i <accs.size(); i++) {
        if (accs[i].dedicated_memory> acc_chosen.dedicated_memory) {
            acc_chosen = accs[i];
        }
    }

    std::wcout << "The accelerator with the most memory is "
        << acc_chosen.device_path << "\n"
        << acc_chosen.dedicated_memory << ".\n";
}

Observação

Um dos aceleradores que são devolvidos por accelerator::get_all é o acelerador de CPU. Não podes executar código no acelerador do CPU. Para filtrar o acelerador da CPU, compare o valor da propriedade device_path do acelerador que é devolvido por accelerator::get_all com o valor do acelerador::cpu_accelerator. Para mais informações, consulte a secção "Aceleradores Especiais" neste artigo.

Memória Partilhada

Memória partilhada é a memória que pode ser acedida tanto pela CPU como pelo acelerador. O uso de memória partilhada elimina ou reduz significativamente a sobrecarga de cópia de dados entre a CPU e o acelerador. Embora a memória seja partilhada, não pode ser acedida simultaneamente tanto pela CPU como pelo acelerador, o que causa comportamentos indefinidos. A propriedade do acelerador supports_cpu_shared_memory retorna true se o acelerador suportar memória partilhada, e a propriedade default_cpu_access_type obtém a access_type padrão para a memória alocada no accelerator— por exemplo, arrays associado ao accelerator, ou array_view objetos acedidos no accelerator.

O tempo de execução do C++ AMP escolhe automaticamente o melhor padrão access_type para cada accelerator, mas as características de desempenho (largura de banda e latência) da memória partilhada podem ser piores do que as da memória de aceleradores dedicados (não partilhada) ao ler ou escrever a partir do CPU. Se a memória partilhada tiver um desempenho tão bom quanto a memória dedicada para leitura e escrita a partir da CPU, o runtime irá por padrão em access_type_read_write; caso contrário, o runtime escolhe um padrão mais conservador em access_type e permite que a aplicação o sobrescreva se os padrões de acesso à memória dos seus núcleos de computação beneficiarem de um padrão diferente em access_type.

O exemplo de código seguinte mostra como determinar se o acelerador por defeito suporta memória partilhada, e a seguir substitui o seu tipo de acesso padrão e cria um accelerator_view a partir dele.

#include <amp.h>
#include <iostream>

using namespace Concurrency;

int main()
{
    accelerator acc = accelerator(accelerator::default_accelerator);

    // Early out if the default accelerator doesn't support shared memory.
    if (!acc.supports_cpu_shared_memory)
    {
        std::cout << "The default accelerator does not support shared memory" << std::endl;
        return 1;
    }

    // Override the default CPU access type.
    acc.set_default_cpu_access_type(access_type_read_write);

    // Create an accelerator_view from the default accelerator. The
    // accelerator_view reflects the default_cpu_access_type of the
    // accelerator it's associated with.
    accelerator_view acc_v = acc.default_view;
}

An accelerator_view reflete sempre o default_cpu_access_type de accelerator a que está associado e não fornece uma interface para sobrepor ou alterar o seu access_type.

Alteração do acelerador padrão

Pode alterar o acelerador padrão chamando o accelerator::set_default método. Só podes mudar o acelerador predefinido uma vez por execução de aplicação e tens de o alterar antes de qualquer código ser executado na GPU. Qualquer chamada subsequente de função para alterar o acelerador retorna false. Se quiser usar um acelerador diferente numa chamada para parallel_for_each, leia a secção "Utilização de Múltiplos Aceleradores" neste artigo. O exemplo de código seguinte define o acelerador padrão para um que não é emulado, não está ligado a um ecrã e suporta dupla precisão.

bool pick_accelerator()
{
    std::vector<accelerator> accs = accelerator::get_all();
    accelerator chosen_one;

    auto result = std::find_if(accs.begin(), accs.end(),
        [] (const accelerator& acc) {
            return !acc.is_emulated &&
                acc.supports_double_precision &&
                !acc.has_display;
        });

    if (result != accs.end()) {
        chosen_one = *(result);
    }

    std::wcout <<chosen_one.description <<std::endl;
    bool success = accelerator::set_default(chosen_one.device_path);
    return success;
}

Utilização de Múltiplos Aceleradores

Existem duas formas de usar múltiplos aceleradores na sua aplicação:

Podes passar accelerator_view objetos para as chamadas ao método parallel_for_each .
Podes construir um objeto array usando um objeto específico accelerator_view . O runtime do C++ AMP irá captar o accelerator_view do objeto array capturado na expressão lambda.

Aceleradores Especiais

Os caminhos dos dispositivos de três aceleradores especiais estão disponíveis como propriedades da accelerator classe:

accelerator::direct3d_ref Campo de Dados: Este acelerador single-threaded utiliza software na CPU para emular uma placa gráfica genérica. É usado por padrão para depuração, mas não é útil em ambiente de produção porque é mais lento do que os aceleradores de hardware. Além disso, está disponível apenas no SDK DirectX e no SDK do Windows, e é improvável que esteja instalado nos computadores dos seus clientes. Para obter mais informações, consulte Debugging GPU Code.
accelerator::direct3d_warp Data Member: Este acelerador fornece uma solução alternativa para executar código AMP em C++ em CPUs multicore que utilizam Streaming SIMD Extensions (SSE).
accelerator::cpu_accelerator Elemento de Dados: Pode utilizar este acelerador para configurar as matrizes de preparação. Não pode executar código AMP em C++. Para mais informações, consulte a publicação Staging Arrays in C++ AMP no blogue Parallel Programming in Native Code.

Interoperabilidade

O runtime AMP C++ suporta interoperabilidade entre a accelerator_view classe e a interface Direct3D ID3D11Device. O método create_accelerator_view pega numa IUnknown interface e devolve um accelerator_view objeto. O método get_device pega num accelerator_view objeto e devolve uma IUnknown interface.

Consulte também

C++ AMP (paralelismo maciço acelerado em C++)
Depuração de Código GPU
accelerator_view Classe

Last updated on 2016-11-04