infiniband相关内容
我有两台机器.每台机器上有多张特斯拉卡.每台机器上还有一张 InfiniBand 卡.我想通过 InfiniBand 在不同机器上的 GPU 卡之间进行通信.只需点对点单播就可以了.我当然想使用 GPUDirect RDMA,这样我就可以省去额外的复制操作. 我知道 Mellanox 现在提供 驱动程序InfiniBand 卡.但它没有提供详细的开发指南.我也知道 OpenMPI 支持我要求
..
我刚刚开始熟悉infiniband,我想了解可用于解决infiniband节点的方法. 基于该代码的示例来自:使用IB动词进行RDMA读写我可以使用IPoIB通过IP或主机名来寻址单个节点. 另一种方法是直接使用端口GUID地址.但看起来您必须查找这些内容,并且与以太网mac寻址更相似. 然后是一个称为LID地址的东西,这是结构管理器分配的16位本地地址.如何在运行时使用和确定L
..
我对JSOR和jVerbs都有基本的了解. 两个都处理JNI的限制,并使用快速路径来减少延迟.两者都使用用户Verbs RDMA接口来避免上下文切换并提供快速的路径访问.两者都有用于零拷贝传输的选项. 区别在于JSOR仍使用Java Socket接口.jVerbs提供了一个新的界面.jVerbs还具有一种称为“状态动词调用"的功能,可以避免RDMA请求的重复序列化,他们称这样可以减少延
..
众所周知,OFED的Socket Direct协议已已弃用,而OFED的3.x版本确实完全不附带SDP.因此,Java的 SDP 也无法正常工作.我想知道用Java编程infiniband的正确方法是什么?除了编写JNI代码以外,还有其他便携式解决方案吗? 我的要求是在众多infiniband动力机器中实现 RDMA . 解决方案 jVerbs 可能就是您要找的东西.
..
我不熟悉将Microsoft Azure用于科学计算的目的,并且在设置过程中遇到了一些问题. 我有一个跳箱设置,可以用作我希望使用的软件的许可证服务器,并且还具有一个通用驱动器来存储所有软件. 还设置了6个计算节点(16个核心/节点),我可以毫无问题地从跳转框"ssh"到计算节点.跳转框和计算节点将CentOS与OpenMPI 1.10.3一起使用 我已经创建了一个脚本,该脚本存储在我
..
我有两台机器.每台机器上有多个Tesla卡.每台机器上还有一个InfiniBand卡.我想通过InfiniBand在不同机器上的GPU卡之间进行通信.只是点对点单播就可以了.我当然想使用GPUDirect RDMA,这样我就可以避免进行额外的复制操作. 我知道Mellanox现在提供了驱动程序. InfiniBand卡.但是它没有提供详细的开发指南.我也知道OpenMPI支持我要的功能.但是
..
在大量内核上调试我的程序,我遇到了insufficient virtual memory的非常奇怪的错误.我的调查导致了代码的安全性,其中主机向每个从机发送小消息.然后,我编写了一个小程序,其中1个主机仅使用MPI_SEND发送10个整数,而所有从机均使用MPI_RECV接收它.比较MPI_SEND之前和之后的文件/proc/self/status,发现内存大小之间的差异非常大!最有趣的事情(这使
..
是否存在可以在内核空间中使用的 RDMA(Infiniband) API?我发现的大多数API是用户空间. kDAPL和kAL可以在linux内核中使用;但是,我尚未找到使用这些API的示例代码.有人可以帮我提供内核空间中RDMA的示例代码吗? 解决方案 您可以检查"krping"测试-这正是您所需要的. 它使用RDMA-CM建立连接并运行一些RDMA流量. 从 OpenFabric
..
我尝试在8节点IB(OFED-1.5.3-4.0.42)集群上部署Hadoop-RDMA,并且遇到以下问题(又名File ...只能复制到0个节点,而不是1个): frolo @ A11:〜/ hadoop-rdma-0.9.8> ./bin/hadoop dfs -copyFromLocal ../pg132 .txt /user/frolo/input/pg132.txt 警告:$
..