代码有效，但速度较慢 [英] codes works but are slow

查看：101 发布时间：2019/6/22 2:12:26 C++

本文介绍了代码有效，但速度较慢的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

关于如何改进代码以使其快速实现的任何建议?我如何将以下函数重新编写为内联汇编?

Any suggestions on how to improve the code, in order to make it fast?How would I re-write the following function as inline assembly?

void tomSimd::calculations(void* btr)
{
    __declspec(align(8))short* block =(short*)btr;
    
    int j;
    
    __declspec(align(8)) __m64*block1 = (__m64*)block;
    __m64 s0,s1,s2,s3,f0,f1,f2,f3,temp4,temp5,temp6,temp7;
    j=0;
    
    // transpose input
    temp4 = _mm_unpacklo_pi16(block1[j],block1[j+1]);
    temp5 = _mm_unpacklo_pi16(block1[j+2],block1[j+3]);
    temp6 = _mm_unpackhi_pi16(block1[j],block1[j+1]);
    temp7 = _mm_unpackhi_pi16(block1[j+2],block1[j+3]);
    f0 = _mm_unpacklo_pi32(temp4,temp5);
    f2 = _mm_unpacklo_pi32(temp6,temp7);
    f1 = _mm_unpackhi_pi32(temp4,temp5);
    f3 = _mm_unpackhi_pi32(temp6,temp7);
    
    // stage one
    s0 =_mm_add_pi16(f0,f3);
    s3 =_mm_sub_pi16(f0,f3);
    s1 =_mm_add_pi16(f1,f2);
    s2 =_mm_sub_pi16(f1,f2);
    
    //stage 2
    block1[j] =_mm_add_pi16(s0,s1);
    block1[j+2] =_mm_sub_pi16(s0,s1);
    block1[j+1] =_mm_add_pi16(s2,_mm_slli_pi16(s3, 1));
    block1[j+3] =_mm_sub_pi16(s3,_mm_slli_pi16(s2, 1));
    
    _mm_empty();
}

代码有效，但速度较慢 [英] codes works but are slow

问题描述

推荐答案

相关文章

其他开发语言最新文章

热门教程

热门工具

登录关闭

代码有效，但速度较慢 [英] codes works but are slow

问题描述

推荐答案

相关文章

其他开发语言最新文章

热门教程

热门工具

登录 关闭

登录关闭