快速 ARM NEON memcpy [英] Fast ARM NEON memcpy

查看：162 发布时间：2021/11/17 22:11:05 c assembly arm memcpy neon

本文介绍了快速 ARM NEON memcpy的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我想在 ARMv7 内核上复制图像.最简单的实现是每行调用 memcpy.

I want to copy an image on an ARMv7 core. The naive implementation is to call memcpy per line.

for(i = 0; i < h; i++) {
  memcpy(d, s, w);
  s += sp;
  d += dp;
}

我知道以下内容

d, dp, s, sp, w

都是 32 字节对齐的，所以我的下一个(仍然很幼稚)实现是沿着

are all 32-byte aligned, so my next (still quite naive) implementation was along the lines of

for (int i = 0; i < h; i++) {
  uint8_t* dst = d;
  const uint8_t* src = s;
  int remaining = w;
  asm volatile (
    "1:                                               \n"
    "subs     %[rem], %[rem], #32                     \n"
    "vld1.u8  {d0, d1, d2, d3}, [%[src],:256]!        \n"
    "vst1.u8  {d0, d1, d2, d3}, [%[dst],:256]!        \n"
    "bgt      1b                                      \n"
    : [dst]"+r"(dst), [src]"+r"(src), [rem]"+r"(remaining)
    :
    : "d0", "d1", "d2", "d3", "cc", "memory"
  );
  d += dp;
  s += sp;
}

在大量迭代中比 memcpy 快约 150%(在不同的图像上，因此没有利用缓存).我觉得这应该离最佳状态还差得很远，因为我还没有使用预加载，但是当我使用预加载时，我似乎只能使性能变得更糟.有没有人对此有任何见解?

Which was ~150% faster than memcpy over a large number of iterations (on different images, so not taking advantage of caching). I feel like this should be nowhere near the optimum because I am yet to use preloading, but when I do I only seem to be able to make performance substantially worse. Does anyone have any insight here?

快速 ARM NEON memcpy [英] Fast ARM NEON memcpy

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

快速 ARM NEON memcpy [英] Fast ARM NEON memcpy

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭