auto-vectorization - IT屋-程序员软件开发技术分享社区

为什么在 AMD64 上对 mmap 内存的未对齐访问有时会出现段错误?

..

发布时间：2022-01-31 10:03:11 c gcc x86-64 mmap auto-vectorization 其他开发

重叠数组的总和、自动矢量化和限制

Arstechnia 最近有一篇文章为什么有些编程语言比其他语言快.它比较了 Fortran 和 C 并提到了求和数组.在 Fortran 中，假设数组不重叠，以便进一步优化.在 C/C++ 中，指向同一类型的指针可能会重叠，因此通常不能使用这种优化.但是，在 C/C++ 中，可以使用 restrict 或 __restrict 关键字告诉编译器不要假设指针重叠.所以我开始研究关于自动矢量化的问 ..

发布时间：2021-12-20 16:29:03 c++ c optimization sse auto-vectorization C/C++开发

为什么在 AMD64 上对 mmap'ed 内存的未对齐访问有时会出现段错误?

我有一段代码，在 AMD64 兼容 CPU 上的 Ubuntu 14.04 上运行时会出现段错误: #include #include #include int main(){uint32_t 总和 = 0；uint8_t *buffer = mmap(NULL, 1 这仅在使用 mmap 分配内存时才会出现段错误.如果我使用 malloc、堆栈上的缓冲区或全局变量，它不会出现段错误. ..

发布时间：2021-12-02 08:07:27 c gcc x86-64 mmap auto-vectorization 其他开发

什么是“矢量化"?

现在好几次，我在 matlab、fortran ……其他一些……中遇到过这个术语，但我从来没有找到解释它是什么意思，它有什么作用?所以我在这里问，什么是矢量化，例如“循环被矢量化"是什么意思? 解决方案许多 CPU 具有“向量"或“SIMD"指令集，它们同时将相同的操作应用于两个、四个或更多个数据段.现代x86芯片有SSE指令，很多PPC芯片有“Altivec"指令，甚至有些ARM芯片有 ..

发布时间：2021-09-17 19:16:19 vectorization simd auto-vectorization 其他开发

std::min 与使用 #pragma GCC 优化(“O3")的三元 gcc 自动矢量化

我知道“为什么我的编译器要这样做"不是最好的问题类型，但这个问题对我来说真的很奇怪，我很困惑. 我原以为 std::min() 和手写的三元是一样的(可能还有一些编译时模板的东西)，而且在正常使用时它似乎编译成相同的操作.然而，当试图做一个“min and sum"时loop autovectorize 它们似乎不一样，如果有人能帮我找出原因，我会很高兴.这是一个产生问题的小示例代码: # ..

发布时间：2021-06-12 20:48:36 c++ gcc optimization compiler-optimization auto-vectorization C/C++开发

MSVC 2017是否支持自动CPU分派?

我在一些站点上读到，当使用SSE2体系结构并检测AVX支持运行时时，MSVC实际上可以发出AVX指令.是真的吗? 我测试了肯定会从AVX/AVX2支持中受益的各种循环，但是当在调试器中运行时，我真的找不到任何AVX指令. 使用/arch:AVX时，它会发出AVX指令，但是它当然会在不支持它的CPU上崩溃(经过测试)，因此也没有运行时检测.我可以使用AVX内在函数，并且可以从中成功创建A ..

发布时间：2021-04-12 20:54:54 visual-c++ compiler-optimization cpu-architecture avx auto-vectorization 其他开发

使用GCC时如何禁用向量化?

我正在使用以下命令编译代码: gcc -O3 -ftree-vectorizer-verbose=6 -msse4.1 -ffast-math 所有优化均已启用. 但是我想在保持其他优化的同时禁用向量化. 解决方案大多数GCC开关可与no前缀一起使用以禁用其行为.尝试使用-fno-tree-vectorize(在命令行上的-O3之后). ..

发布时间：2020-11-12 22:36:28 gcc vectorization sse simd auto-vectorization 其他开发

如何编写编译器可以有效地编译为SSE或AVX的C ++代码?

比方说，我有一个用c ++编写的函数，该函数对许多向量执行矩阵向量乘法.它需要指向要转换的向量数组的指针.我是否可以正确地假设编译器无法在编译时有效地优化SIMD指令，因为它在编译时不知道所传递指针的对齐方式(SSE需要16字节对齐或AVX需要32字节对齐)?还是数据的内存对齐方式与最佳SIMD代码无关，并且数据对齐方式只会影响缓存性能? 如果对齐对于所生成的代码很重要，我如何让(Visua ..

发布时间：2020-07-18 19:05:31 visual-c++ sse simd avx auto-vectorization 其他开发

从cython循环数组的循环矢量化

#cython：boundscheck = False，环绕= False，initializedcheck = False，nonecheck = False，cdivision = True from libc.stdlib cimport malloc，free from libc.stdio cimport printf cimport numpy as np impor ..

发布时间：2018-04-21 11:19:45 gcc cython auto-vectorization 其他开发

GCC暗示向量化

我希望GCC对以下代码进行矢量化： -fopt-info 告诉我GCC目前不在。我认为问题在于 W 的跨越访问，或者可能是 k 的后退增量。请注意， height 和 width 是常量， index_type 被设置至无符号长整型目前。我删除了一些评论 0; k-）{ 116，pre> { 117 Yp [k * width + i] = 0.0; （index_type j ..

发布时间：2018-04-21 10:38:08 gcc vectorization auto-vectorization 其他开发

gcc auto-vectorisation（未处理的data-ref）

我不明白为什么这样的代码没有使用gcc 4.4.6进行向量化 int MyFunc（const float * pfTab，对于（int i = 0; i ..

发布时间：2018-04-21 10:30:22 gcc openmp auto-vectorization 其他开发

了解gcc 4.9.2自动矢量化输出

我正在学习gcc自动矢量化模块。阅读此处的文档。这是我试过的（debian jessie amd64）： $ cat ex1.c int a [256]，b [256]，c [256]; foo（）{ int i; （i = 0; i a [i] = b [i] + c [i]的 ; $ b然后，我只需运行： $ gcc -xc ..

发布时间：2018-04-20 17:22:53 c gcc auto-vectorization 其他开发

如何帮助gcc矢量化C代码

我有以下C代码。第一部分是从复合数字矩阵中读入标准矩阵，称为 M 。有趣的部分是第二部分。 #include #include #include #include #include int main（）{ int n，m，c，d; float re，im; ..

发布时间：2018-04-20 17:20:53 c gcc auto-vectorization 其他开发

为什么gcc自动矢量化不适用于卷积矩阵比3x3？

我为卷积矩阵实现了以下程序： #include #include #define NUM_LOOP 1000 #define N 128 //输入或输出维数1 #define MN //输入或输出维数2 #define P 5 / /卷积矩阵维数1如果你想要一个3×3卷积矩阵它必须是3 #define QP //卷积矩阵维数 ..

发布时间：2018-04-20 16:43:54 c gcc x86 compiler-optimization auto-vectorization 其他开发

如何在gcc中启用sse3自动插件

我有一个简单的循环，带有n个复数的乘积。当我数百万次执行这个循环时，我希望它尽可能快。我明白，使用SSE3和gcc内在函数可以快速完成此操作，但是我对是否有可能让gcc自动矢量化代码感兴趣。以下是一些示例代码 #include complex float f（complex float x []，int n）{ complex float p = 1.0; ..

发布时间：2018-04-20 16:26:58 c gcc sse auto-vectorization 其他开发

为什么在AMD64上未对齐访问mmap内存有时会出现段错误？

#include inttypes.h> #include #include int main（） { uint32_t sum = 0; uint8_t * buffer = mmap（NULL，1 MAP_PRIVATE | MAP_ANONYMOUS，-1,0）; uint16_t ..

发布时间：2018-04-20 16:04:34 c gcc x86-64 mmap auto-vectorization 其他开发

在视觉工作室2012年对矢量的特征类型的自动矢量化表现不佳

我有stig :: vector的Eigen :: vector3d类型，当我编译此代码使用Microsoft Visual Studio 2012具有用于报告向量化细节的 / Qvec-report：2 标志。它显示循环未向量化由于原因1304（循环包含不同类型的分配）在msdn页面上指定 - https://msdn.microsoft.com/en-us/library/jj658585.a ..

发布时间：2016-10-30 23:56:09 c++ visual-studio-2012 eigenvector sse2 auto-vectorization C/C++开发

展开循环，做独立的总和与矢量

有关下面的循环GCC将只向量化循环，如果我告诉它例如使用关联数学与 -Ofast 。浮动SUMF（浮点* X） { X =（浮点*）__ builtin_assume_aligned（X，64）; 浮总和= 0; 的for（int i = 0; I＆LT; 2048;我++）之和+ = X [I] 返回总和; } 下面是 -Ofast -mavx 组装 SUMF（浮点*） ..

发布时间：2016-08-18 13:27:01 c gcc x86 loop-unrolling auto-vectorization C/C++

重叠的阵列，自动矢量的总和，并限制

Arstechnia最近有一篇文章 ..

发布时间：2016-08-17 23:36:04 c++ c optimization sse auto-vectorization C/C++开发

为什么使用浮点类型时，O3优化不提高性能？

我编译相应的 C 实施两个浮动和 INT 当我编译它们 O2 几乎每一件事情都是一样的，但是当我使用 O3 标志使用自动向量化能力两者产生变异的速度提升。我看到大会放出来，发现差异，但我不知道为什么编译 GCC 这样吗？之间是什么原因和差异浮动键入和 INT 键入乘法之前，我调换的，因为某些原因，第二个矩阵。矩阵的尺寸是128×128和 O2 标INT执行速度可达5.4在同一实现时启用 O3 ..

发布时间：2016-07-18 20:41:13 gcc assembly optimization x86 auto-vectorization .NET Framework

auto-vectorization相关内容