avx512 第2页 - IT屋-程序员软件开发技术分享社区

使用__m512的水平添加(AVX512)

如何有效地对512位AVX寄存器中的浮点数进行水平加法(即，将单个向量中的项相加)?对于128位和256位寄存器，可以使用_mm_hadd_ps和_mm256_hadd_ps完成，但没有_mm512_hadd_ps.英特尔内部函数指南文档_mm512_reduce_add_ps.它实际上并不对应于一条指令，但是它的存在表明存在一种最佳方法，但是它似乎没有在最新的GCC快照随附的头文件中定义，我无法 ..

发布时间：2020-11-30 04:42:52 simd intrinsics avx512 其他开发

在两个相同的Skylake Xeon Gold 6154系统上测得的不同的内核间延迟

我们一直在使用两个相同的Skylake服务器，它们具有完全相同的软件，Centos 7 OS和BIOS设置.除了延迟性能之外，其他所有内容都是相同的.我们的软件正在使用AVX512. 在测试中，我注意到AVX512每次都会降低其中一个系统的性能(增加延迟).有明显的性能差异.我检查了所有内容，都一样. 我该怎么做才能解决此问题?哪个工具可以提供帮助? 先谢谢了. sudo ..

发布时间：2020-11-29 20:10:14 c performance x86-64 intel avx512 其他开发

错误:未在此范围内声明"_mm512_loadu_epi64"

我正在尝试为此问题报告创建一个最小的复制器. AVX-512似乎存在一些问题，该产品已在装有Skylake处理器的最新Apple机器上发货. 根据 GCC6发行说明，AVX-512齿轮应该可用.根据英特尔内在指南 vmovdqu64可与AVX-512VL和AVX-512F: $ cat test.cxx #include #include ..

发布时间：2020-11-13 00:11:42 c++ gcc x86 intrinsics avx512 C/C++开发

如何用gcc或clang模拟_mm256_loadu_epi32？

Intel的内部指南列出了内部 _mm256_loadu_epi32 ： _m256i _mm256_loadu_epi32（ void const * mem_addr）; / * 指令：vmovdqu32 ymm，m256 CPUID标志：AVX512VL + AVX512F 说明从以下位置加载256位（由8个压缩的32位整数组成）记忆到dst。 mem_addr不需 ..

发布时间：2020-09-27 01:58:18 c++ c intrinsics avx512 C/C++开发

如何从ioremap()地址加载avx-512 zmm寄存器?

我的目标是创建一个有效负载超过64b的PCIe事务.为此，我需要读取一个ioremap()地址. 对于128b和256b，我可以分别使用xmm和ymm寄存器，它们可以按预期工作. 现在，我想对512b zmm寄存器(类似内存的存储?！)做同样的事情我不允许在此处显示的经许可的代码使用256b的汇编代码: void __iomem *addr; uint8_t datare ..

发布时间：2020-09-15 05:48:35 gcc x86-64 inline-assembly avx avx512 其他开发

运行基本的Avx512代码时获取非法指令

我正在尝试学习AVX指令，并且在运行我收到的基本代码时非法指令(核心已转储) 下面提到了代码，我正在使用对其进行编译 g ++ -mavx512f 1.cpp 究竟是什么问题，以及如何解决? 谢谢！ #include #include using namespace std; void add(const flo ..

发布时间：2020-09-15 05:48:31 c++ c avx avx2 avx512 C/C++开发

对齐与不对齐x86 SIMD指令之间的选择

通常有两种类型的SIMD指令: A.使用对齐的内存地址的地址，如果地址未在操作数大小边界上对齐，则会引发一般保护(#GP)异常: movaps xmm0, xmmword ptr [rax] vmovaps ymm0, ymmword ptr [rax] vmovaps zmm0, zmmword ptr [rax] B.而那些使用未对齐内存地址的地址，则不会引发此类异常: ..

发布时间：2020-09-15 05:43:18 x86 sse simd avx avx512 其他开发

在AVX-512加载和存储中使用掩码寄存器时，是否会由于对被掩码元素的无效访问而引发故障?

当我进行写屏蔽的AVX-512存储时，如下所示: vmovdqu8 [rsi] {k1}, zmm0 如果未映射在处访问的部分存储器，但是对于所有这些位置，写掩码为零(即，由于掩码而导致数据实际上未被修改)，则会导致指令错误). 另一种询问方式是这些被AVX-512屏蔽的存储区是否具有与AVX中引入的vmaskmov类似的故障抑制能力. 解决方案如果被掩盖的元素接触无效的 ..

发布时间：2020-09-15 05:35:07 x86 avx avx512 其他开发

如何在zmm1中加载"1" (AVX-512)

我需要用"1"填充zmm1以便能够快速地在循环中填充内存中的大数据字段.如何在Intel汇编中通过mov rax，0FFFFFFFFFFFFFFFFFFh之类的"1"设置zmm1?我对{k1} {z}参数没有任何经验. 请参见下面的代码. PCMPEQD zmm1, zmm1 我收到错误代码“无效的指令操作数" 解决方案 clang ++和g ++使用vpternlogd ..

发布时间：2020-09-13 01:20:47 assembly avx512 其他开发

Cygwin中.seh_savexmm的无效寄存器

$ make 我曾与cygwin合作，但出现了编译错误. 我不确定.seh_savexmm的无效注册请帮我. 我在Google上搜索了此问题，但未找到有很多问题，但没有灵魂. 请帮助我. perl ./generate-functions.pl -file operationMetadata.csv g++ -std=c++14 -O3 -Wall -g -mavx512vl -mavx ..

发布时间：2020-09-13 00:45:59 gcc assembly cygwin avx512 其他开发

如何将AVX512寄存器zmm26中的QuadWord写入rax寄存器?

我希望对zmm 0-31寄存器集的四字单元执行整数算术运算，并保留由这些运算产生的进位位.看来只有在通用寄存器集中处理了数据，这才有可能. 因此，我想将信息从zmm 0-31寄存器之一复制到通用寄存器之一.处理完通用寄存器中的64位数据后，我想将数据返回到原始zmm 0-31寄存器，该寄存器位于与之相同的QuadWord位置.我知道我可以使用命令将数据从通用寄存器rax移至AVX512寄 ..

发布时间：2020-09-12 22:38:50 assembly x86 intel avx512 其他开发

在仅读取ZMM寄存器并写入k掩码的512位指令之后，Skylake是否需要vzeroupper来使turbo时钟恢复?

写入ZMM寄存器可以使Skylake-X(或类似的)CPU无限期地处于最大涡流降低的状态. ( SIMD指令可降低CPU频率和vpxord xmm16,xmm16,xmm16和vpcmpeqb与zmm16一起使用.) 如果有硬件，如何进行测试: @BeeOnRope发布了在RWT线程中测试代码:将vbroadcastsd zmm15, [zero_dp]替换为vpcmpeqb k0, ..

发布时间：2020-09-12 22:05:26 assembly x86 intel micro-optimization avx512 其他开发

使用AVX-512或AVX-2对大数据计数1位(填充计数)

我有很长的内存，例如256 KiB或更长时间.我想计算整个块中1位的数目，或者换句话说:将所有字节的“填充计数"值相加. 我知道AVX-512具有 VPOPCNTDQ指令计算512位向量中每个连续64位中1位的数目，而IIANM应该可以在每个周期中发布一个(如果有合适的SIMD矢量寄存器)-但是我没有任何经验编写SIMD代码(我是GPU专家).另外，我不确定100％是否支持AVX-512目标 ..

发布时间：2020-07-29 21:22:22 assembly avx2 avx512 bitcount population-count 其他开发

冲突检测指令如何使循环矢量化变得更容易?

AVX512CD指令系列为:VPCONFLICT，VPLZCNT和VPBROADCASTM. 有关这些说明的Wikipedia部分说: AVX-512冲突检测(AVX-512CD)中的说明是旨在帮助有效地计算的无冲突子集通常无法安全向量化的循环中的元素. 有哪些示例说明这些指令在向量化循环中很有用?如果答案包含标量循环及其向量化的对应物，将会很有帮助. 谢谢！解 ..

发布时间：2020-07-23 07:17:49 x86 vectorization simd intel-mic avx512 其他开发

在Knights Landing上清除单个或几个ZMM寄存器的最有效方法是什么?

说，我要清除4个zmm寄存器. 以下代码会提供最快的速度吗? vpxorq zmm0, zmm0, zmm0 vpxorq zmm1, zmm1, zmm1 vpxorq zmm2, zmm2, zmm2 vpxorq zmm3, zmm3, zmm3 在AVX2上，如果我想清除ymm寄存器，则vpxor比vxorps更快，更快，因为vpxor可以在多个单元上运行. ..

发布时间：2020-07-15 02:10:38 assembly avx xeon-phi avx512 knights-landing 其他开发

如何在不支持硬件的情况下测试AVX-512指令?

我正在尝试学习x86-64的新AVX-512指令，但是我的计算机均不支持它们.我尝试使用各种反汇编程序(从Visual Studio到在线反汇编程序: 1 ，所以我想知道是否有一个在线服务可以编译小型(x86-64)汇编代码并在特定处理器上运行或逐步执行该汇编代码? (例如，英特尔的Sandy Bridge，Cannon Lake等) 解决方案使用 https://software.in ..

发布时间：2020-07-07 18:34:23 assembly x86 intel amd-processor avx512 其他开发

为什么AVX512-IFMA仅支持52位整数?

从该值可以推断出它使用与双精度浮点硬件相同的组件.但是double的尾数为53位，那么为什么AVX512-IFMA限制为52位? 解决方案 IEEE-754 double精度实际上只有52个显式存储的位，第53位(最高有效位)是隐式1. ..

发布时间：2020-06-12 19:23:41 precision fma avx512 其他开发

AVX512BW：使用bsf / tzcnt处理32位代码中的64位掩码吗？

这是我在AVX512BW中“ strlen”功能的代码 vxorps zmm0，zmm0，zmm0； ZMM0 = 0 vpcmpeqb k0，zmm0，[ebx]; ebx是字符串，它与64字节边界对齐kortestq k0，k0；找到0x00吗？ jnz .chk_0x00 现在用于'chk_0x00'，在x86_64系统中没有问题我们可以这样处理： ..

发布时间：2020-05-31 20:46:18 assembly x86 32-bit micro-optimization avx512 其他开发

SIMD指令降低CPU频率

我阅读了此英特尔最新的处理器具有高级指令(AVX-512)，这可能会导致内核或其他CPU的运行速度变慢，这是因为它们使用了多少电量. 我认为在 Agner的博客中也提到了类似的内容(但我找不到确切的帖子). /p> 我想知道Skylake支持的其他哪些指令具有类似的效果，它们会降低功耗以在以后最大化吞吐量?所有带v前缀的指令(例如vmovapd，vmulpd，vaddpd，vsubpd ..

发布时间：2020-05-21 20:28:13 optimization x86 intel compiler-optimization avx512 其他开发

AVX512舍入模式如何工作(或者NDISASM只是感到困惑)?

我正在尝试了解特定的AVX512F指令 vcvtps2udq . 指令的签名为VCVTPS2UDQ zmm1 {k1}{z}, zmm2/m512/m32bcst{er}.手册信息如下. 为了理解新的舍入模式，以下代码段与NASM(2.12.02)组合在一起 vcvtps2udq zmm0,zmm1 vcvtps2udq zmm0,zmm1,{rz-sae} vcvtps2udq ..

发布时间：2020-05-16 21:05:39 assembly x86 nasm avx512 其他开发

avx512相关内容