_mm256_permute2_pd
更新:2011 年 3 月
需要 Visual Studio 2010 SP1。
Microsoft 专用
生成 XOP YMM 指令 vpermil2pd 以从浮点值前两个源的值(具有可选零位调整)中进行选择。
__m256 _mm_permute2_pd (
__m256d src1,
__m256d src2,
__m256i selector,
int control
);
参数
[in] src1
包含四个 64 位浮点值的 256 位参数。[in] src2
包含四个 64 位浮点值的 256 位参数。[in] selector
包含四个 64 位浮点值的 256 位参数。[in] control
32 位整数参数,可控制决定结果中是否为零值的方法。
返回值
包含四个 64 位浮点值的 256 位结果 r。
该结果的高 128 位中的每个值为零,或者是从高 128 位的 src1 和 src2 中的两个 64 位浮点值中选择的值。 该结果的低 128 位中的每个值为零,或者是从低 128 位的 src1 和 src2 中的两个 64 位浮点值中选择的值。
要求
内部 |
体系结构 |
---|---|
_mm256_permute2_pd |
XOP |
头文件 <intrin.h>
备注
高 128 位的 selector 中两个四字的每个为其对于该结果的相应四字选择的值,来自高 128 位的 src1 和 src2 中四个 64 位浮点值的其中之一。 在将此值写入结果之前可用零来替换,取决于 control 的值以及 selector 四字的位 3 的值。 同样,低 128 位的 selector 中两个四字的每个所选的值,来自低 128 位的 src1 和 src2 中四个 64 位浮点值的其中之一,并且此值还可以使用 0 来替换。
对于高 128 位的 selector 中的每个四字,第二个和第三个低序位选择 src1 或 src2 的其中一个浮点值,使用值 0 到 1 选择 src1 [2] 到 src1 [3],使用值 2 到 3 选择 src2 [2] 到 src2 [3]。 对于低 128 位的 selector 中的每个四字,第二个和第三个低序位选择 src1 或 src2 的其中一个浮点值,使用值 0 到 1 选择 src1 [0] 到 src1 [1],使用值 2 到 3 选择 src2 [0] 到 src2 [1]。
selector 中每个四字的下一个位将被称为以下的“匹配”位。 忽略 selector 中的每个低序位和高序位 60 位四字。
第四个源,control,确定要将结果值设置为 0 的条件。 control 的值必须为 0、1、2 或 3。 如果 control 是 0 或 1,则所选的浮点值将被写入该目标。 如果 control 为 2,则当 selector 中相应的匹配位为 0 时,将所选的浮点值写入该目标,但是当该匹配位为 1 时,将写入零。 如果 control 为 3,则当相应的匹配位为 1 时,将所选的浮点值写入该目标,但是当该匹配位为 0 时,将写入零。
vpermil2pd 指令是 XOP 系列指令的一部分。 在您使用此内部函数之前,必须确保处理器支持该指令。 若要确定此指令的硬件支持,调用 InfoType = 0x80000001 的 __cpuid 内部函数并检查和 CPUInfo[2] (ECX) 的位 11。 当该指令受支持时,此位为 1,否则为 0。
示例
#include <stdio.h>
#include <intrin.h>
int main()
{
__m256d a, b, d;
__m256i select;
int i;
for (i = 0; i < 4; i++) {
a.m256d_f64[i] = i;
b.m256d_f64[i] = i + 4;
}
select.m256i_i64[0] = 2 << 1;
select.m256i_i64[1] = (1 << 1) + 8; // turn on match bit
select.m256i_i64[2] = 0 << 1;
select.m256i_i64[3] = (3 << 1) + 8; // turn on match bit
d = _mm256_permute2_pd(a, b, select, 0); // just select, don't zero
printf_s("%.3lf %.3lf %.3lf %.3lf\n", d.m256d_f64[0],
d.m256d_f64[1], d.m256d_f64[2], d.m256d_f64[3]);
d = _mm256_permute2_pd(a, b, select, 2); // zero if match is 1
printf_s("%.3lf %.3lf %.3lf %.3lf\n", d.m256d_f64[0],
d.m256d_f64[1], d.m256d_f64[2], d.m256d_f64[3]);
d = _mm256_permute2_pd(a, b, select, 3); // zero if match is 0
printf_s("%.3lf %.3lf %.3lf %.3lf\n", d.m256d_f64[0],
d.m256d_f64[1], d.m256d_f64[2], d.m256d_f64[3]);
}
请参见
参考
其他资源
针对 Visual Studio 2010 SP1 添加的 XOP 内部函数
修订记录
Date |
修订记录 |
原因 |
---|---|---|
2011 年 3 月 |
添加了本内容。 |
SP1 功能更改。 |