neon - IT屋-程序员软件开发技术分享社区

Arm Neon本征函数，两个向量相加

我有一个非常简单的C函数，将两个整数数组成对相加： void add_arrays(int* a, int* b, int* target, int size) { for(int i=0; i ..

发布时间：2022-04-12 11:58:08 c arm add hpc neon 其他开发

将 uint32x4_t 类型的 r1、r3 和 r4 加载到 NEON 寄存器中，我有以下代码: r3 = veorq_u32(r0,r3);r4 = r1；r1 = vandq_u32(r1,r3);r4 = veorq_u32(r4,r2);r1 = veorq_u32(r1,r0); 我只是想知道 GCC 是否真的将 r4 = r1 翻译成 vmov 指令.看着反汇编的代码，我并不感到 ..

发布时间：2022-01-17 14:25:01 c arm simd neon intrinsics 其他开发

ARM NEON 汇编程序错误:“指令不能有条件"；

根据arm 信息center vadd 可以有条件地执行，但是当我尝试时 vaddeq.f32 d0,d0,d1 Xcode 返回 65: 指令不能有条件 -- vaddeq.f32 d0,d0,d1 我注意到的一件事是，似乎只有 NEON 指令会出现此错误.VFP 指令不会产生这些错误. 是否必须设置编译器标志才能启用 NEON 条件指令? 解决方案 ARM 架构参考手册说 ..

发布时间：2022-01-17 14:23:25 xcode math assembly arm neon 其他开发

arm 霓虹灯比较操作产生负一

我正在尝试以下汇编代码: vclt.f32 q9,q0,#0vst1.i32 q9,[r2:128] 但如果条件为真，则q9中的对应元素设置为负一而不是正一. 我该怎么做才能得到一个积极的? 解决方案这对于向量比较指令是正常的，因此您可以将比较结果用作带有 AND 或 XOR 指令或其他各种用例的掩码.p> 您通常不需要 +1.例如，如果要计算匹配的元素个数，只需使用减法指令 ..

发布时间：2022-01-17 14:22:29 assembly arm neon 其他开发

numpy 是否自动针对树莓派进行了优化

Raspberry Pi(armv7l 架构)支持可用于优化的 neon vfpv4. 安装命令 pip3 install numpy 或 apt-get python3-numpy 时，标准版 numpy 是否包括这些优化? 我不是在谈论 blas 和 lapack.原生 numpy. 解决方案正如 Mark Setchell 所指出的，numpy 似乎没有针对 NEON ..

发布时间：2022-01-17 14:12:56 numpy optimization raspberry-pi arm neon Python

NEON、SSE 和交错负载与随机播放

我试图理解“Iwillnotexist Idonotexist"在SIMD optimization of cvtColor using ARM NEON intrinsics上发表的评论: ...为什么不使用映射到 VLD3 指令的 ARM NEON 内部结构?这样可以省去所有的改组，简化和加速代码.英特尔 SSE 实施需要 shuffle，因为它缺少 2/3/4 路去交错加载指令，但您不 ..

发布时间：2022-01-17 14:10:28 arm x86-64 sse neon 其他开发

与 NEON 内在函数的数据类型兼容性

我正在使用 C++ 代码中的 NEON 内在函数进行 ARM 优化.我理解并掌握了大部分打字问题，但我被困在这个问题上: 指令 vzip_u8 返回一个 uint8x8x2_t 值(实际上是两个 uint8x8_t 的数组).我想将返回的值分配给一个普通的 uint16x8_t.我没有看到合适的 vreinterpretq 内在实现这一点，并且简单的强制转换被拒绝. 解决方案一些定 ..

发布时间：2022-01-17 14:03:43 gcc arm neon intrinsics 其他开发

将 8bit uint8_t 加载为 uint32_t?

我的图像处理项目使用灰度图像.我有 ARM Cortex-A8 处理器平台.我想使用NEON. 我有一个灰度图像(考虑下面的示例)，在我的算法中，我只需要添加列. 如何并行加载四个 8 位像素值，它们是 uint8_t，作为四个 uint32_t 到 128- 之一位 NEON 寄存器?我必须使用什么内在函数来做到这一点? 我的意思是: 我必须将它们加载为 32 位，因 ..

发布时间：2022-01-17 14:03:19 arm neon intrinsics cortex-a 其他开发

如何检查手臂上NEON的存在?

如何判断给定ARM处理器上是否存在NEON引擎?可以为此目的查询任何状态/标志寄存器吗? 解决方案我相信unixsmurf 的答案与使用具有特权内核的操作系统一样好.对于通用功能检测，似乎 ARM 要求从操作系统中获取它，因此您必须使用操作系统 API 来获取它. 在 Android NDK 上，将 #include 与 (android_get ..

发布时间：2022-01-17 14:01:57 arm neon 其他开发

ARM 到 C 调用约定，NEON 寄存器保存

有一个类似的帖子涵盖了常规寄存器.NEON 寄存器呢?据我记得，寄存器的上半部分或下半部分必须在函数调用中保留.我在任何地方都找不到该信息，有人可以澄清一下吗? 谢谢来自 AAPCS，§5.1.1 核心寄存器: r0-r3 是参数和暂存寄存器；r0-r1也是结果寄存器 r4-r8 是被调用者保存寄存器 r9 可能是被调用者保存寄存器，也可能不是(在 AAPCS 的某些变体中 ..

发布时间：2022-01-17 13:59:13 arm neon abi 其他开发

尝试检查 gcc 中的 neon 指令时如何解决错误指令“vadd.i16 q0,q0,q0"

检查 gcc 对 neon 指令 vadd.i16 q0,q0,q0 的支持失败测试.c主函数(){__asm__("vadd.i16 q0, q0, q0");返回0；}arm-linux-androideabi-gcc test.c/tmp/ccfc8m0G.s:汇编器消息:/tmp/ccfc8m0G.s:24:错误:错误指令`vadd.i16 q0,q0,q0' 尝试使用标志 -mcpu= ..

发布时间：2022-01-17 13:56:14 gcc arm neon x264 codesourcery 其他开发

为什么编译器没有定义 __ARM_FEATURE_CRC32?

我已经研究这个问题一段时间了，我希望有人能指出我的错误.我想我再也看不到森林了. 我有一个用于测试的 LeMaker HiKey 开发板.它的 AArch64，因此它具有 NEON 和其他 cpu 功能，如 AES、SHA 和 CRC32: $ cat/proc/cpuinfo处理器:AArch64 处理器版本 3 (aarch64)...特点: fp asimd evtstrm aes ..

发布时间：2022-01-17 13:55:18 c++ arm c-preprocessor neon intrinsics C/C++开发

NEON 包矢量比较结果成位图

我有一个比较两个浮点操作数的比较结果如下；我需要做的是根据比较结果需要执行以下操作:即: neon_gt_res = vcgtq_f32(temp1, temp2);if(neon_gt_res[0]) 数组[0] |= (unsigned char)0x01;if(neon_gt_res[1]) 数组[0] |= (unsigned char)0x02;if(neon_gt_res[2]) 数 ..

发布时间：2022-01-17 13:54:43 c arm intrinsics neon 其他开发

在 ARMv7a 上与 Neon 进行 64 位签名比较支持 CMGT 的最有效方法是什么?

这个问题最初是为这里是 SSE2.由于每个算法都与 ARMv7a+NEON 对相同操作的支持重叠，因此更新了问题以包括 ARMv7+NEON 版本.应评论者的要求，在此处提出此问题以表明它确实是一个单独的主题，并提供可能对 ARMv7+NEON 更实用的替代解决方案.这些问题的最终目的是找到考虑到 WebAssembly SIMD 的理想实现. 解决方案有符号 64 位饱和减法. ..

发布时间：2022-01-17 13:54:35 assembly arm simd webassembly neon 其他开发

RGBA 到 ABGR:适用于 iOS/Xcode 的内联臂霓虹灯 asm

这段代码(非常相似的代码，没有尝试过完全这段代码)使用Android NDK编译，但不适用于Xcode/armv7+arm64/iOS 评论错误: uint32_t *src;uint32_t *dst;#ifdef __ARM_NEON__asm__ 易失性("vld1.32 {d0, d1}, [%[src]] \n"//错误:需要向量寄存器"vrev32.8 q0, q0 \n"// ..

发布时间：2022-01-17 13:42:26 ios xcode assembly arm neon 移动开发

ARM和NEON可以并行工作吗?

这是参考问题:内部 Neon 的校验和代码实现打开链接中列出的子问题作为单独的问题.由于多个问题不能作为单线程的一部分提出. 不管怎样，问题来了: ARM 和 NEON(就 arm cortex-a8 架构而言)真的可以并行工作吗?我怎样才能做到这一点? 有人可以指点我或分享一些示例实现(伪代码/算法/代码，而不是理论实现论文或演讲)，它们一起使用了 ARM-NEON 的 ..

发布时间：2022-01-17 13:38:24 arm inline-assembly simd neon cortex-a8 其他开发

ARM NEON 的 SSE _mm_movemask_epi8 等效方法

我决定继续快速弯道优化并坚持_mm_movemask_epi8 SSE 指令.如何使用 uint8x16_t 输入为 ARM Neon 重写它? 解决方案经过一些测试，看起来以下代码可以正常工作: int32_t _mm_movemask_epi8_neon(uint8x16_t 输入){const int8_t __attribute__ ((aligned (16))) xr[8] ..

发布时间：2022-01-17 13:34:22 arm sse neon 其他开发

检测预处理器中的 ARM NEON 可用性?

根据ARM ARM、__ARM_NEON__ 在 Neon SIMD 指令可用时定义.我无法让 GCC 提供它. 运行 Debian 8.2 的 BananaPi Pro 开发板提供了 Neon: $ cat/proc/cpuinfo |grep 霓虹灯特点:swp 半拇指 fastmult vfp edsp 霓虹灯 vfpv3 tls vfpv4 idiva idivt 我使用的是 G ..

发布时间：2022-01-11 20:06:42 gcc macros arm c-preprocessor neon 其他开发

aarch64 上未对齐 SIMD 加载/存储的性能

较旧的答案表明 aarch64 支持未对齐的读/写并提到了性能成本，但不清楚答案是否也仅涵盖 ALU 或 SIMD(128 位寄存器)操作. 相对于对齐的 128 位 NEON 加载和存储，未对齐的 128 位 NEON 加载和存储在 aarch64 上慢多少(如果有的话)? 对于未对齐的 SIMD 加载和存储是否有单独的指令(如 SSE2 的情况)，或者已知对齐的加载/存储与潜在未对 ..

发布时间：2021-11-17 22:45:09 alignment simd neon arm64 其他开发

未知的寄存器名称“q0"在 asm (arm64)

我目前正在尝试为新的 arm64 架构编译我的库.我有一堆 NEON 程序集，对于所有这些程序集，我都收到错误 asm 中未知的寄存器名称“q0". 即使我写得这么简单: asm (“"::: "q0", "q1", "q2", "q3"); 我认为 arm64 支持 NEON.我错过了什么吗? 解决方案 “v0": scanon$ cat bar.cint foo(vo ..

发布时间：2021-11-17 22:43:42 ios llvm xcode5 neon arm64 移动开发

neon相关内容