_mm256_permute2_pd

更新:2011 年 3 月

需要 Visual Studio 2010 SP1。

Microsoft 专用

生成 XOP YMM 指令 vpermil2pd 以从浮点值前两个源的值(具有可选零位调整)中进行选择。

__m256 _mm_permute2_pd (
   __m256d src1,
   __m256d src2,
   __m256i selector,
   int control
); 

参数

  • [in] src1
    包含四个 64 位浮点值的 256 位参数。

  • [in] src2
    包含四个 64 位浮点值的 256 位参数。

  • [in] selector
    包含四个 64 位浮点值的 256 位参数。

  • [in] control
    32 位整数参数,可控制决定结果中是否为零值的方法。

返回值

包含四个 64 位浮点值的 256 位结果 r。

该结果的高 128 位中的每个值为零,或者是从高 128 位的 src1 和 src2 中的两个 64 位浮点值中选择的值。 该结果的低 128 位中的每个值为零,或者是从低 128 位的 src1 和 src2 中的两个 64 位浮点值中选择的值。

要求

内部

体系结构

_mm256_permute2_pd

XOP

头文件 <intrin.h>

备注

高 128 位的 selector 中两个四字的每个为其对于该结果的相应四字选择的值,来自高 128 位的 src1 和 src2 中四个 64 位浮点值的其中之一。 在将此值写入结果之前可用零来替换,取决于 control 的值以及 selector 四字的位 3 的值。 同样,低 128 位的 selector 中两个四字的每个所选的值,来自低 128 位的 src1 和 src2 中四个 64 位浮点值的其中之一,并且此值还可以使用 0 来替换。

对于高 128 位的 selector 中的每个四字,第二个和第三个低序位选择 src1 或 src2 的其中一个浮点值,使用值 0 到 1 选择 src1 [2] 到 src1 [3],使用值 2 到 3 选择 src2 [2] 到 src2 [3]。 对于低 128 位的 selector 中的每个四字,第二个和第三个低序位选择 src1 或 src2 的其中一个浮点值,使用值 0 到 1 选择 src1 [0] 到 src1 [1],使用值 2 到 3 选择 src2 [0] 到 src2 [1]。

selector 中每个四字的下一个位将被称为以下的“匹配”位。 忽略 selector 中的每个低序位和高序位 60 位四字。

第四个源,control,确定要将结果值设置为 0 的条件。 control 的值必须为 0、1、2 或 3。 如果 control 是 0 或 1,则所选的浮点值将被写入该目标。 如果 control 为 2,则当 selector 中相应的匹配位为 0 时,将所选的浮点值写入该目标,但是当该匹配位为 1 时,将写入零。 如果 control 为 3,则当相应的匹配位为 1 时,将所选的浮点值写入该目标,但是当该匹配位为 0 时,将写入零。

vpermil2pd 指令是 XOP 系列指令的一部分。 在您使用此内部函数之前,必须确保处理器支持该指令。 若要确定此指令的硬件支持,调用 InfoType = 0x80000001 的 __cpuid 内部函数并检查和 CPUInfo[2] (ECX) 的位 11。 当该指令受支持时,此位为 1,否则为 0。

示例

#include <stdio.h>
#include <intrin.h>
int main()
{
    __m256d a, b, d;
    __m256i select;
    int i;
    for (i = 0; i < 4; i++) {
        a.m256d_f64[i] = i;
        b.m256d_f64[i] = i + 4;
    }
    select.m256i_i64[0] = 2 << 1;
    select.m256i_i64[1] = (1 << 1) + 8; // turn on match bit
    select.m256i_i64[2] = 0 << 1;
    select.m256i_i64[3] = (3 << 1) + 8; // turn on match bit

    
    d = _mm256_permute2_pd(a, b, select, 0); // just select, don't zero
    printf_s("%.3lf %.3lf %.3lf %.3lf\n", d.m256d_f64[0],
             d.m256d_f64[1], d.m256d_f64[2], d.m256d_f64[3]);
    d = _mm256_permute2_pd(a, b, select, 2); // zero if match is 1
    printf_s("%.3lf %.3lf %.3lf %.3lf\n", d.m256d_f64[0],
             d.m256d_f64[1], d.m256d_f64[2], d.m256d_f64[3]);
    d = _mm256_permute2_pd(a, b, select, 3); // zero if match is 0
    printf_s("%.3lf %.3lf %.3lf %.3lf\n", d.m256d_f64[0],
             d.m256d_f64[1], d.m256d_f64[2], d.m256d_f64[3]);
}
  

请参见

参考

__cpuid, __cpuidex

其他资源

_mm256_permute2_ps

_mm_permute2_pd

针对 Visual Studio 2010 SP1 添加的 XOP 内部函数

修订记录

Date

修订记录

原因

2011 年 3 月

添加了本内容。

SP1 功能更改。