neon 第10页 - IT屋-程序员软件开发技术分享社区

快速正弦/余弦对ARMv7 + NEON：寻找测试者...

有人能访问到iPhone 3GS或潘多拉请测试以下汇编程序我只是写？它应该计算正弦和余弦真的快上NEON矢量FPU。我知道它编译罚款，但没有足够的硬件，我不能对它进行测试。如果你可以只计算了几个正弦和余弦，并将结果与SINF（）和cosf（进行比较），这将真正帮助。谢谢！的#include＆LT;＆math.h中GT;///计算两个角的正弦和余弦 ///在：角=两个角度，前$ ..

发布时间：2016-05-29 14:39:23 performance assembly arm iphone-3gs neon 其它硬件开发

NEON，SSE和交叉负载VS洗牌

我想用ARM NEON内在来了解在cvtColor的 SIMD优化的“Iwillnotexist Idonotexist”提出的意见： ...你为什么不使用ARM NEON intrisics映射到VLD3指令？这不遗余力你所有的洗牌，既简化和加快了code。英特尔SSE执行需要洗牌，因为它缺少2/3/4路去交织加载指令，但你不应该对他们传递他们的空闲。我遇到的麻烦是该解决方案提供了 ..

发布时间：2016-05-29 14:38:21 arm x86-64 sse neon 其它硬件开发

校验code实施Neon在内部函数

我想实现校验和计算code（2的补加）的NEON，使用内部。当前的校验和计算正在对ARM进行。我执行从存储器中取出128位在一次成NEON寄存器并执行的SIMD（加），并且结果是从128位的数字折叠以一个16位数字。一切看起来都工作正常，但我的NEON实现消耗更多时间的ARM版本。 ARM版采用： 0.860000小号 NEON版本需要： 1.260000小号注意：使用公用 ..

发布时间：2016-05-29 14:38:09 embedded arm simd neon cortex-a8 其它硬件开发

未知错误GCC，在编制ARM NEON（严重）

我有一个基于ARM NEON Cortex-A8处理器的目标。我被利用NEON的优化我的code。但是，当我编译我的code我得到这个奇怪的错误。不知道如何解决这个问题。我试图编译我的主机使用code的Sourcery（PART2）以下的code（第1部分）。而我得到这个奇怪的错误（PART3）。难道我做错了什么吗？任何人都可以编译这个，看看他们是否也得到同样的编译错误？奇怪的部分是， ..

发布时间：2016-05-29 14:37:42 c gcc arm neon codesourcery 其它硬件开发

翻译SSE霓虹灯：如何收拾，然后提取32位结果

我必须从SSE以下说明翻译成明丽 uint32_t的一个= _mm_cvtsi128_si32（_mm_shuffle_epi8（一，SHUFFLE_MASK））; 其中：静态常量__m128i SHUFFLE_MASK = _mm_setr_epi8（3，7，11，15，-1，-1，-1，-1， ..

发布时间：2016-05-29 14:36:28 c++ arm sse neon intrinsics C/C++开发

上证所_mm_movemask_epi8等效方法为ARM NEON

我决定继续在高速弯道的优化和stucked _mm_movemask_epi8 SSE指令。我怎么能与 uint8x16_t 输入改写它ARM霓虹灯？解决方案一些测试，它看起来像下面后，code工作正确的： int32_t _mm_movemask_epi8_neon（uint8x16_t输入） { 常量中int8_t __attribute__（（对齐（16）））XR ..

发布时间：2016-05-29 14:31:50 arm sse neon 其它硬件开发

与NEON内在的数据类型兼容性

我对ARM的优化工作使用NEON内部函数，从C + + code。我了解和掌握大部分打字的问题，但我被困在这一个：指令 vzip_u8 返回 uint8x8x2_t 值（其实两个数组 uint8x8_t ）。我想返回的值赋给一个普通的 uint16x8_t 。我没有看到相应的 vreinter preTQ 内在实现这一目标，和简单的强制类型转换将被拒绝。解决方案一些定义来回答清楚. ..

发布时间：2016-05-29 14:31:39 gcc arm neon intrinsics 其它硬件开发

ARM NEON矢量化失败

我想在我的ARM Cortex-A9使NEON矢量化，但我得到在编译的输出： “不是矢量：不支持相关的语句：D.14140_82 = D.14143_77 * D.14141_81” 下面是我的循环：无效my_mul（float32_t * __restrict数据1，float32_t * __restrict数据2，float32_t * __restrict出来）{ 的for ..

发布时间：2016-05-29 14:31:14 compiler-construction arm vectorization neon 其它硬件开发

加载8bit的uint8_t有作为uint32_t的？

我的图像处理项目与灰度图像。我有ARM Cortex-A8处理器的平台。我想利用NEON的。我有一个灰度图像（考虑下面的例子），并在我的算法FFT，我只添加列。我如何可以加载 4个8位像素值并行，这是的 uint8_t有，因为四uint32_t的到128之一位NEON寄存器？什么内在的我必须使用要做到这一点？我的意思是：我必须加载它们作为32位，因为如果你仔细看，那一刻我做25 ..

发布时间：2016-05-29 14:30:53 arm neon intrinsics cortex-a 其它硬件开发

ARM为C调用约定，NEON寄存器保存

有一个 ..

发布时间：2016-05-29 14:30:12 arm neon abi 其它硬件开发

为什么ARM的NEON并不比普通的C ++更快？

下面是一个C ++ code：的#define ARR_SIZE_TEST（8 * 1024 * 1024）无效cpp_tst_add（无符号* X，无符号* Y） { 对于（寄存器INT I = 0; I＆LT; ARR_SIZE_TEST ++ I） { X [i] = X [I] + Y [I] } } 下面是一个霓虹灯版本：无效neon_as ..

发布时间：2016-05-29 14:29:09 c++ arm neon cortex-a8 C/C++开发

如何试图签GCC霓虹灯指令时不好解决`指令Q0 vadd.i16，Q0，Q0“

检查GCC支持失败霓虹灯指令vadd.i16 Q0，Q0，Q0 test.c的诠释的main（） { __asm __（“vadd.i16 Q0，Q0，Q0”）;返回0; } 臂Linux的androideabi-GCC test.c的 /tmp/ccfc8m0G.s：汇编的消息： /tmp/ccfc8m0G.s:24：错误：错误 ..

发布时间：2016-05-29 14:28:41 gcc arm neon x264 codesourcery 其它硬件开发

方法vectorise直方图SIMD？

我想实现在霓虹灯直方图。是否有可能vectorise？解决方案 Histogramming几乎是不可能的矢量化，很遗憾。您或许可以优化标量code然而有些 - 一种常见的伎俩是使用两个直方图，然后在最后将它们结合起来。这使您可以重叠加载/递增/存储以及由此把一些序列依赖性和相关的潜伏期。伪code：初始化直方图1为全0 初始化直方图2为全0 循环获取输入值1 获取输入值 ..

发布时间：2016-05-29 14:26:49 image-processing arm histogram simd neon 其它硬件开发

ARM和NEON可以并行工作？

这是参照问题： ..

发布时间：2016-05-29 14:26:19 arm inline-assembly simd neon cortex-a8 其它硬件开发

iPhone检测处理器型号/ NEON支持

我在寻找一种方式在配备了全新的ARM处理器（如iPhone 3GS和某些iPod 3G），并配有旧的ARM处理器的设备设备之间的运行时间来区分。我知道我可以使用的uname（）来确定设备型号，但只有一些iPod的触摸3G在他们的ARM处理器得到了提升，这是不够的。所以，我正在寻找的其中之一：的检测处理器型号的一种方式 - 我想有没有。确定ARM NEON指令是否被支持的一种方式 ..

发布时间：2016-05-29 14:26:10 iphone arm ipod-touch neon 移动开发

我做了我的第一种方法与SSE，那里基本上只有一种数据类型 __ m128i 矢量内部函数。切换到霓虹灯，我发现了数据类型和函数原型是更具体的，例如 uint8x16_t （16的向量 unsigned char型）， uint8x8x2_t （2向量与8 unsigned char型每个）， uint32x4_t （带4 uint32_t的）等。首先，我很热情（更容易找到所需的数据类型，操作确 ..

发布时间：2016-05-29 14:25:42 c++ gcc arm vectorization neon C/C++开发

臂NEON内在VS手工装配

http://hilbert-space.de/?p=22 在这个网站是非常过时它表明手写ASM将给予更大的改善则内部函数。我想知道如果这是当前真理即使是现在2012年。因此具有使用GNU交叉编译器内部函数提高编译优化？解决方案我的经验是，这种intrinsic还没有真正是值得的麻烦。这太容易为编译器注入你内在的额外的寄存器卸载/负载阶跃。得到它停止这样做的努力不仅仅是原始N ..

发布时间：2016-05-29 14:20:56 arm neon intrinsics 其它硬件开发

C / Renderscript /霓虹灯内部函数之间的电池电量消耗 - 视频滤波器（Edgedetection）APK

我已经开发了3 C / RS /霓虹内部函数版本的视频处理算法的采用Android NDK（用C ++的API Renderscript）。调用C / RS /霓虹灯将从JAVA前端进行到母语水平的NDK的一面。我发现，由于某种原因，霓虹灯版本会消耗大量的电能与C和RS版本比较。我用的 Trepn 5.0 因为我的能力测试。能否有人澄清我就对这些方法C，Renderscript功耗级别 - ..

发布时间：2015-12-05 11:24:34 android c android-ndk neon renderscript 移动开发

安卓的ARMv6 / V7和VFP / NEON

我想了解更多关于Android手机所使用的CPU。原因是，我们正在建设的C库里面有一定的CPU /数学处理器架构的标志，我们可以设置。到目前为止，我们已经发现，所有的Android设备的CPU是ARM设计的，可以是的ARMv6 （旧设备，低端，华为，中兴，小SE）或的ARMv7 （蜂窝片和所有的更昂贵的设备，几乎全部用分辨率为WVGA或更高）我已经确认〜20设备和所有具有该类型的处理器 ..

发布时间：2015-12-04 11:14:44 android arm neon armv7 移动开发

什么是的iOS / Android的ARM设备上的最快的FFT库？

什么是的iOS / Android的ARM设备上的最快的FFT库？什么库人在iOS / Android的平台通常使用？我猜VDSP是使用最频繁的iOS上的图书馆。编辑：我的code是在 http://anthonix.com/ffts 并使用BSD许可。它运行在Android和iOS，它比libav，FFTW和VDSP更快。 EDIT2：如果有人能提供访问POWER7机器（或其他机器），请给 ..

发布时间：2015-12-04 11:00:00 android ios arm fft neon 移动开发

neon相关内容