distributed相关内容

使用DAG的Condor作业,其中一些作业需要运行同一主机

我有一个计算任务,该任务分为多个独立的程序执行,并具有依赖性。我正在使用Condor 7作为任务调度程序(在Vanilla Universe中,由于对程序的限制超出了我的能力范围,因此不涉及检查点),因此DAG看起来是很自然的解决方案。但是,某些程序需要在同一主机上运行。在Condor手册中找不到如何执行此操作的参考。 示例DAG文件: JOB A.condor 职位B B.con ..
发布时间:2020-10-03 02:42:35 其他开发

在Windows网络中启动远程进程

我有几个从属计算机和一个主计算机,它们一起运行分布式应用程序。每个从属计算机上的进程都必须具有GUI和网络访问权限(我认为这将被称为交互式进程)。为了易于使用,如果主计算机可以启动/停止这些从计算机上的进程,那就太好了。 我的第一个想法是使用WMI和Win32_Process类来启动远程进程,但经过进一步调查,人们认为以这种方式启动的进程是非交互式且隔离的,因此不能具有任何GUI。一条便条说 ..

如何将构建卸载到服务器上以保持工作效率?

我有几个大型项目正在研究。根据项目和选项的不同,构建时间从10到100分钟不等,这使我在这段时间内变得毫无用处。无论如何,我可以将这些计算机配置为“编译节点”,以便在进行构建时仍可以工作吗? 我听说过针对Visual Studio可以做到这一点,但是我已经看到了价格标签。我正在寻找最好是免费的或低于$ 100的商品。 解决方案 您可以设置免费的 TeamCity 持续集成构建服务器。 ..
发布时间:2020-09-24 03:35:21 其他开发

Spark 1.0.2(也是1.1.0)挂在分区上

我在apache spark中遇到了一个奇怪的问题,我将不胜感激. 从hdfs读取数据(并进行从json到对象的某种转换)后,处理完2个分区(总共512个)后,下一阶段(处理所述对象)失败. 这在大型数据集上发生(我注意到的最小数据集约为700兆,但可能更低,我还没有缩小范围). 编辑:tgz文件大小为700兆,未压缩的大小为6兆. 编辑2:在spark 1.1.0上发生相同的事情 ..

提供的锁无效.锁已过期,或者消息已从队列中删除

我正在使用Microsoft azure服务总线队列来处理计算,并且我的程序可以正常运行几个小时,但是从那时起,我开始为所处理的每条消息获取此异常.我不知道从哪里开始,因为前几个小时一切都很好.我的代码似乎也是正确的.我将在处理Azure Service Bus消息的地方发布该方法. public static async Task processCalculations(BrokeredM ..
发布时间:2020-09-16 00:43:42 C#/.NET

ZooKeeper和任何分布式键值存储之间有什么区别?

我是Zookeeper和分布式系统的新手,我自己也正在学习它. 据我目前的了解,ZooKeeper似乎只是一个键值存储,其键是路径,值是字符串,这与Redis没什么不同. (显然,我们也可以使用斜杠分隔的路径作为redis中的键.) 所以我的问题是,ZooKeeper与其他分布式KV商店之间的本质区别是什么?为什么ZooKeeper使用所谓的“路径"作为键而不是简单的字符串? 解 ..

如何使用预训练的Keras模型使用分布式Dask进行模型预测?

我正在加载预先训练的keras模型,然后尝试使用dask并行化大量输入数据吗?不幸的是,我与此有关的一些问题与如何创建我的dask数组有关.任何指导将不胜感激! 设置: 首先,我从此存储库中克隆了 https://github.com/sanchit2843/dlworkshop.git 可复制代码示例: import numpy as np import pandas a ..
发布时间:2020-07-30 20:25:45 其他开发

是否有针对Java的现成的时钟同步解决方案?

我们有一个大型的高性能软件系统,该系统由多个交互的Java进程(而不是EJB)组成.每个进程可以在同一台计算机上,也可以在不同的计算机上. 某些事件是在一个进程中生成的,然后以不同的方式传播到其他进程以进行进一步处理,等等. 出于基准测试的目的,我们需要创建一个记录每个事件何时通过“检查点"的日志,最终将这些日志组合起来,以获得每个事件如何在系统中传播以及延迟时间的时间表(当然,过程切 ..

分布式主键-UUID,简单的自动增量还是自定义的顺序值?

我知道以前曾问过这种类型的问题,但是我找不到一个可以比较我所想到的选择的问题.因此,我要在此处发布它们,如果有重复,请发布链接. 这篇文章结束了很长的篇幅,如果您有时间请仔细阅读,因为问题在末尾 EDIT2:我接受了一个答案,因为我认为这将是目前的最佳解决方案.但是我想我想提出另外两个问题,回答有关串联数字的查询.可在以下位置找到它们:将两个整数组合起来以创建唯一数字& 在C#中连接整 ..
发布时间:2020-07-21 02:15:10 其他开发

PHP SoapClient:分布式WSDL文件的问题

我在PHP的SoapClient中使用分布式WSDL文件(方案/其他定义在实际WSDL之外声明)时遇到问题. 这是我收到的错误消息: SOAP-ERROR: Parsing WSDL: 'getSomeInfo' already defined. 经过一番谷歌搜索,这似乎是PHP中的一个错误,因为其他人发现了完全相同的问题:是否有任何错误修复?有解决此错误的解决方案吗? 我 ..
发布时间:2020-07-19 21:18:03 PHP

以分布式方式在Spark中读取CSV文件

我正在开发一个Spark处理框架,该框架读取大型CSV文件,将它们加载到RDD中,执行一些转换,最后保存一些统计信息. 有问题的CSV文件平均约为50GB.我正在使用Spark 2.0. 我的问题是: 当我使用sparkContext.textFile()函数加载文件时,是否需要先将文件存储在驱动程序的内存中,然后再将其分发给工作人员(因此,在工作区上需要相当大的内存)司机)?还 ..
发布时间:2020-07-11 22:39:00 其他开发

Tibco EMS和Rendezvous有什么区别

这两种技术之间的主要区别是什么?一个相对于另一个有明显的优势吗? 解决方案 RV就像广播电台,而EMS就像电话. 如果您想向城镇中的每个人发送消息(例如今天的天气预报),那么收音机就很好了,因为一条消息会同时发送给每个人.电话不好,是因为打电话给每个人都需要很长时间,而您要为每次通话支付20美分. 如果您想告诉某人您的信用卡号,可以使用该电话,因为您可以确保与正确的人通话.收音 ..
发布时间:2020-07-11 01:06:48 其他开发

如何设计分布式作业调度程序?

我想设计一个作业调度程序集群,其中包含用于执行cron作业调度的几台主机.例如,将需要run every 5 minutes的作业提交给集群,集群应指出下一次要启动的主机,请确保: 容灾能力:如果并非所有主机都关闭,则应该成功触发该作业. 有效期:仅一台主机可以触发下一次作业运行. 由于容灾,作业无法绑定到特定主机.一种方法是所有主机都轮询一个数据库表(一定是带锁的),这样可以保证只 ..
发布时间:2020-07-10 19:37:30 其他开发

GUI要求的最终一致性?

使用分布式和可伸缩体系结构时,通常需要最终的一致性. 从图形上讲,如何处理这种最终的一致性? 用户习惯于单击“保存",并立即查看结果...最终不可能保持一致. 在这种情况下如何处理GUI? 请注意,该问题适用于桌面应用程序和Web应用程序. PS:我正在使用Microsoft平台,但是我想这个问题适用于任何技术... 解决方案 A 任务基于UI的非常适合此模型 ..
发布时间:2020-06-14 18:40:36 其他开发

为什么将多人票称为多人票?

为什么 multi-paxos 被称为多paxos?我看不到它是“多”的。 解决方案 这是关于算法的多次轮次,以便以最少的消息传递来同意稳定领导者的顺序请求。最初,没有公认的领导者,您必须运行至少一轮基本Paxos,候选人领导者会发送准备请求(使用论文 Paxos变得简单)。多数人的积极回应证实它是领导者。然后,它发送该回合的接受消息,如果您获得大多数接受确认,则该消息成功终止。它可以立即 ..
发布时间:2020-06-03 20:56:28 其他开发

筏如何处理上一个提交的条目?

在木筏纸张第5.4.2节中 如果领导者在 提交条目之前崩溃,则未来的领导者将尝试 完成复制条目。但是,领导者不能立即得出结论 一旦将其存储在大多数服务器上,则前一个条目的输入就是 的提交。可能存在这样的情况,旧的日志条目在大多数服务器上存储了 ,但仍可能被 的未来领导者覆盖。 作者提到要避免上述情况 要消除如图8所示的问题,筏 永远不会通过计算 个副本来提交先前条 ..
发布时间:2020-06-03 20:37:01 其他开发

气流计划程序未获取DAG运行

我正在设置气流,以使网络服务器在一台计算机上运行,​​而调度程序在另一台计算机上运行。两者共享同一个MySQL Metastore数据库。这两个实例都出现在日志中,没有任何错误,但是调度程序没有拾取任何通过Web UI手动触发DAG创建的DAG运行。 MysQL中的dag_run表显示了一些条目,它们都处于运行状态: mysql>从dag_run选择*; + ---- + --- ..

分布式开发团队-所需工具

我有一个遍布全球的开发人员团队,分布在不同时区。 在这样的团队中,什么是实现最高生产率的最佳工具? 我正在寻找: 源代码控制 错误跟踪 构建管理 其他可能有帮助的事情 谢谢 解决方案 当您说“开源”时,您的意思就是免费软件,或者您说的是“我需要/希望能够看到源”。 请注意,您的决定将受项目性质的影响。有许多免费的开发/项目托管站点,要求您的项目必须是一个 ..
发布时间:2020-06-02 21:12:46 其他开发

在张量流中进行模型并行化的正确方法是什么?

我有多个4GB GPU节点,所以我希望它们并行运行大型模型.我希望仅将层与适当的设备范围分割成几部分就可以启用模型并行性,但事实证明,这不会减少主节点(任务0)的内存占用. (10个节点配置-主节点:20g,关注者:2g,1个节点配置-主节点:6〜7g) 可疑的是,由于我没有为它们设置正确的设备范围,因此没有分布渐变. 我的模型在github上可用.( https://github.c ..
发布时间:2020-05-24 21:14:05 其他开发