neon相关内容

快速正弦/余弦对ARMv7 + NEON:寻找测试者...

有人能访问到iPhone 3GS或潘多拉请测试以下汇编程序我只是写? 它应该计算正弦和余弦真的快上NEON矢量FPU。我知道它编译罚款,但没有足够的硬件,我不能对它进行测试。如果你可以只计算了几个正弦和余弦,并将结果与​​SINF()和cosf(进行比较),这将真正帮助。 谢谢! 的#include<&math.h中GT;///计算​​两个角的正弦和余弦 ///在:角=两个角度,前$ ..
发布时间:2016-05-29 14:39:23 其它硬件开发

NEON,SSE和交叉负载VS洗牌

我想用ARM NEON内在来了解在cvtColor的 SIMD优化的“Iwillnotexist Idonotexist”提出的意见: ...你为什么不使用ARM NEON intrisics映射到VLD3指令?这不遗余力你所有的洗牌,既简化和加快了code。英特尔SSE执行需要洗牌,因为它缺少2/3/4路去交织加载指令,但你不应该对他们传递他们的空闲。 我遇到的麻烦是该解决方案提供了 ..
发布时间:2016-05-29 14:38:21 其它硬件开发

校验code实施Neon在内部函数

我想实现校验和计算code(2的补加)的NEON,使用内部。当前的校验和计算正在对ARM进行。 我执行从存储器中取出128位在一次成NEON寄存器并执行的SIMD(加),并且结果是从128位的数字折叠以一个16位数字。 一切看起来都工作正常,但我的NEON实现消耗更多时间的ARM版本。 ARM版采用: 0.860000小号 NEON版本需要: 1.260000小号 注意: 使用公用 ..
发布时间:2016-05-29 14:38:09 其它硬件开发

未知错误GCC,在编制ARM NEON(严重)

我有一个基于ARM NEON Cortex-A8处理器的目标。我被利用NEON的优化我的code。但是,当我编译我的code我得到这个奇怪的错误。不知道如何解决这个问题。 我试图编译我的主机使用code的Sourcery(PART2)以下的code(第1部分)。 而我得到这个奇怪的错误(PART3)。难道我做错了什么吗?任何人都可以编译这个,看看他们是否也得到同样的编译错误? 奇怪的部分是, ..
发布时间:2016-05-29 14:37:42 其它硬件开发

上证所_mm_movemask_epi8等效方法为ARM NEON

我决定继续在高速弯道的优化和stucked _mm_movemask_epi8 SSE指令。我怎么能与 uint8x16_t 输入改写它ARM霓虹灯? 解决方案 一些测试,它看起来像下面后,code工作正确的: int32_t _mm_movemask_epi8_neon(uint8x16_t输入) { 常量中int8_t __attribute__((对齐(16)))XR ..
发布时间:2016-05-29 14:31:50 其它硬件开发

与NEON内在的数据类型兼容性

我对ARM的优化工作使用NEON内部函数,从C + + code。我了解和掌握大部分打字的问题,但我被困在这一个: 指令 vzip_u8 返回 uint8x8x2_t 值(其实两个数组 uint8x8_t )。我想返回的值赋给一个普通的 uint16x8_t 。我没有看到相应的 vreinter preTQ 内在实现这一目标,和简单的强制类型转换将被拒绝。 解决方案 一些定义来回答清楚. ..
发布时间:2016-05-29 14:31:39 其它硬件开发

ARM NEON矢量化失败

我想在我的ARM Cortex-A9使NEON矢量化,但我得到在编译的输出: “不是矢量:不支持相关的语句:D.14140_82 = D.14143_77 * D.14141_81” 下面是我的循环: 无效my_mul(float32_t * __restrict数据1,float32_t * __restrict数据2,float32_t * __restrict出来){ 的for ..
发布时间:2016-05-29 14:31:14 其它硬件开发

加载8bit的uint8_t有作为uint32_t的?

我的图像处理项目与灰度图像。我有ARM Cortex-A8处理器的平台。我想利用NEON的。 我有一个灰度图像(考虑下面的例子),并在我的算法FFT,我只添加列。 我如何可以加载 4个8位像素值并行,这是的 uint8_t有,因为四uint32_t的到128之一位NEON寄存器?什么内在的我必须使用要做到这一点? 我的意思是: 我必须加载它们作为32位,因为如果你仔细看,那一刻我做25 ..
发布时间:2016-05-29 14:30:53 其它硬件开发

方法vectorise直方图SIMD?

我想实现在霓虹灯直方图。是否有可能vectorise? 解决方案 Histogramming几乎是不可能的矢量化,很遗憾。 您或许可以优化标量code然而有些 - 一种常见的伎俩是使用两个直方图,然后在最后将它们结合起来。这使您可以重叠加载/递增/存储以及由此把一些序列依赖性和相关的潜伏期。伪code: 初始化直方图1为全0 初始化直方图2为全0 循环 获取输入值1 获取输入值 ..
发布时间:2016-05-29 14:26:49 其它硬件开发

iPhone检测处理器型号/ NEON支持

我在寻找一种方式在配备了全新的ARM处理器(如iPhone 3GS和某些iPod 3G),并配有旧的ARM处理器的设备设备之间的运行时间来区分。 我知道我可以使用的uname()来确定设备型号,但只有一些iPod的触摸3G在他们的ARM处理器得到了提升,这是不够的。 所以,我正在寻找的其中之一: 的检测处理器型号的一种方式 - 我想有没有。 确定ARM NEON指令是否被支持的一种方式 ..
发布时间:2016-05-29 14:26:10 移动开发

利用联盟(封装在一个结构),以旁路转换霓虹灯数据类型

我做了我的第一种方法与SSE,那里基本上只有一种数据类型 __ m128i 矢量内部函数。切换到霓虹灯,我发现了数据类型和函数原型是更具体的,例如 uint8x16_t (16的向量 unsigned char型), uint8x8x2_t (2向量与8 unsigned char型每个), uint32x4_t (带4 uint32_t的)等。 首先,我很热情(更容易找到所需的数据类型,操作确 ..
发布时间:2016-05-29 14:25:42 C/C++开发

臂NEON内在VS手工装配

http://hilbert-space.de/?p=22 在这个网站是非常过时它表明手写ASM将给予更大的改善则内部函数。我想知道如果这是当前真理即使是现在2012年。 因此​​具有使用GNU交叉编译器内部函数提高编译优化? 解决方案 我的经验是,这种intrinsic还没有真正是值得的麻烦。这太容易为编译器注入你内在的额外的寄存器卸载/负载阶跃。得到它停止这样做的努力不仅仅是原始N ..
发布时间:2016-05-29 14:20:56 其它硬件开发

C / Renderscript /霓虹灯内部函数之间的电池电量消耗 - 视频滤波器(Edgedetection)APK

我已经开发了3 C / RS /霓虹内部函数版本的视频处理算法的采用Android NDK(用C ++的API Renderscript)。调用C / RS /霓虹灯将从JAVA前端进行到母语水平的NDK的一面。我发现,由于某种原因,霓虹灯版本会消耗大量的电能与C和RS版本比较。我用的 Trepn 5.0 因为我的能力测试。 能否有人澄清我就对这些方法C,Renderscript功耗级别 - ..
发布时间:2015-12-05 11:24:34 移动开发

安卓的ARMv6 / V7和VFP / NEON

我想了解更多关于Android手机所使用的CPU。原因是,我们正在建设的C库里面有一定的CPU /数学处理器架构的标志,我们可以设置。 到目前为止,我们已经发现,所有的Andr​​oid设备的CPU是ARM设计的,可以是的ARMv6 (旧设备,低端,华为,中兴,小SE)或的ARMv7 (蜂窝片和所有的更昂贵的设备,几乎全部用分辨率为WVGA或更高)我已经确认〜20设备和所有具有该类型的处理器 ..
发布时间:2015-12-04 11:14:44 移动开发

什么是的iOS / Android的ARM设备上的最快的FFT库?

什么是的iOS / Android的ARM设备上的最快的FFT库?什么库人在iOS / Android的平台通常使用?我猜VDSP是使用最频繁的iOS上的图书馆。 编辑:我的code是在 http://anthonix.com/ffts 并使用BSD许可。它运行在Android和iOS,它比libav,FFTW和VDSP更快。 EDIT2:如果有人能提供访问POWER7机器(或其他机器),请给 ..
发布时间:2015-12-04 11:00:00 移动开发