double-double-arithmetic相关内容

在 GPU 上用 2 个 FP32 模拟 FP64

如果用两个单精度浮点数来模拟双精度浮点数,性能会如何,能做好吗? 目前,Nvidia 对支持双精度的 Tesla 卡收取相当高的费用,使您能够获得三分之一的单精度性能(Titan/Titan Black 除外). 如果使用具有 gimped 双精度的 Geforce GPU 并使用 2 个单精度浮点数模拟双精度,性能会如何? 解决方案 您可以通过计算实现每个双浮点操作所需的 f ..
发布时间:2022-01-10 15:30:02 其他开发

模仿“双"使用 2 个“浮点数"

我正在为仅支持 32 位单精度浮点运算的嵌入式硬件编写程序.然而,我正在实现的算法需要 64 位双精度加法和比较.我正在尝试使用两个 float 的元组来模拟 double 数据类型.因此,double d 将被模拟为包含元组的 struct:(float d.hi, float d.low). 使用字典顺序进行比较应该简单明了.然而,添加有点棘手,因为我不确定我应该使用哪个基础.应该是 F ..

优化快速乘法但缓慢加法:FMA 和 doubledouble

当我第一次获得 Haswell 处理器时,我尝试实施 FMA 来确定 Mandelbrot 集.主要算法是这样的: intn = 0;for(int32_t i=0; i 这确定 n 个像素是否在 Mandelbrot 集中.所以对于双浮点,它运行超过 4 个像素(floatn = __m256d, intn = __m256i).这需要 4 次 SIMD 浮点乘法和 4 次 SIMD 浮点加 ..

模拟“双重"使用 2 个“浮动"

我正在为仅支持 32 位单精度浮点运算的嵌入式硬件编写程序.但是,我正在实现的算法需要 64 位双精度加法和比较.我正在尝试使用两个 float 的元组来模拟 double 数据类型.因此,double d 将被模拟为包含元组的 struct:(float d.hi, float d.low). 使用字典顺序进行比较应该很简单.然而,添加有点棘手,因为我不确定我应该使用哪个基地.应该是 FL ..

向量双双浮点运算

存在双精度浮点不够用的工作负载,因此需要四精度.这很少在硬件中提供,因此解决方法是使用 double-double,其中 128 位数字由一对 64 位数字表示.这不是真正的 IEEE-754 四精度 - 一方面,您不会获得任何额外的指数位 - 但在许多用途上已经足够接近,并且比纯软件实现快得多. 许多计算机提供向量浮点运算,最好将它们用于双双运算.这可能吗?特别是,在 https 中查看 ..