distributed相关内容

GRPC使训练在单个工作程序中暂停(分布式张量流,已同步)

我正在尝试以同步分布式的方式训练模型以实现数据并行性。我的机器上有4个GPU。每个GPU都应该运行一个工作程序来训练数据的单独的不重叠子集(在图复制之间)。主数据文件分为16个较小的TFRecord文件。每个工作人员应处理4个不同的文件。问题在于,培训在每个工人流程中独立且在不同时间冻结。它们在某个时刻冻结。 其中之一'ps'报告以下与grpc相关的错误: 2017-09-21 16 ..
发布时间:2020-10-22 18:51:16 其他开发

模拟网络断开连接以本地测试分布式应用程序分区

我有几个在本地主机上运行的分布式应用程序实例;每个实例都通过某些端口与他人通信,所有实例共同构成一个整体。 (我实际上是在谈论 ZooKeeper ,在Linux上运行) 现在我想编写单元测试来模拟整体分区。 例如我有5个实例,我想将它们分为3个和2个两组,以便一个组中的一个实例无法与另一组中的一个实例进行通信。当一台数据中心中有3台计算机,另一台数据中心中有2台计算机,并且数据中心 ..
发布时间:2020-10-22 18:51:12 Java开发

什么时候使用Paxos这样的共识算法而不是Vector Clock?

我已经阅读了很多有关确保分布式系统中节点之间一致性的不同策略的信息,但是我在确定何时使用哪种算法方面遇到了一些麻烦。 我将在哪种系统上使用矢量时钟?哪种系统最适合使用Paxos之类的东西?两者是互斥的吗? 解决方案 有一个由2个节点组成的分布式系统,用于存储数据。数据被复制到两个节点,因此,如果一个节点死亡,则数据不会丢失(耐用性)并继续提供服务(可用性)。而且,您还希望您的2节点系 ..
发布时间:2020-10-22 18:51:09 其他开发

Redis芹菜的任务优先级

我想用芹菜实现一个分布式的工作执行系统。鉴于RabbitMQ不支持优先级,而我非常需要此功能,因此我转向celery + redis。 在我的情况下,任务与硬件密切相关例如,任务A只能在Worker 1上运行,因为只有Worker 1的PC拥有必需的硬件。我将每个工作人员的CONCURRENCY设置为1,以便每个工作人员每次只能运行一个任务。每个任务大约需要2分钟。 要实现优先级功能, ..
发布时间:2020-10-22 18:51:05 Python

各种领域驱动设计系统之间的集成

我最近一直在采用“域驱动设计”原则,但是在实现“边界上下文”以及上下文和/或其他系统之间的集成时遇到了一些麻烦。 例如,使用以下系统: 仓库/存货系统 实体将包含“产品”,该产品具有“数量”等属性, “位置” 在线订购系统 实体包括“订购”,“ OrderLine”和“购物篮”。 订购系统的一项明确的业务规则是,不能为商品订购商品产品缺货,但是此信息在库存保持系统内。据 ..

分布式项目管理/错误跟踪

现在我们有了DSCM,是否有任何分布式的项目管理/错误跟踪工具 ? 解决方案 是的,我玩了化石具有一些不错的功能: 集成的分布式错误跟踪和分布式Wiki 内置的Web界面(如hg服务),可支持对项目历史的深入考古挖掘 通过HTTP和代理支持进行所有网络通信,从而使所有操作都可在限制性防火墙后进行 所有内容(客户端,服务器和实用程序)都包含在一个自包含的可执行文件中-易于安装 ..
发布时间:2020-10-22 18:50:58 其他开发

具有多个GPU的分布式张量流

tf.train.replica_device_setter 似乎不允许指定要使用的GPU。 我想做的事情如下: with tf .device( tf.train.replica_device_setter( worker_device ='/ job:worker:task:%d / gpu:%d'%(deviceindex,gpuindex)): ..
发布时间:2020-10-22 18:50:55 其他开发

分布式Tensorflow:CreateSession仍在等待

下面的简单脚本启动,其标题中显示了args。它的行为有所不同,但通常其中一个工作程序挂起并打印这些“ CreateSession仍在等待其他任务”消息。为什么新的MonitoredTrainingSession需要其他人?为什么其他人不等它开始呢? ##!/ bin / bash #python train.py --job master --task 0& #python train. ..
发布时间:2020-10-22 18:50:47 Python

如何确定Kafka群集大小

我计划决定在Kafka群集上应存在多少个节点。我不确定要考虑的参数。我确信它必须> = 3(复制因子为2,容错为1个节点)。 有人可以告诉我应该记住哪些参数 我知道以下因素,但不知道它如何定量地影响群集大小。我知道它如何定性地影响群集的大小。还有其他影响群集大小的参数吗? 1.复制因子(群集大小> =复制因子) 2.节点故障容限。 (群集大小> =节点故障+ 1) 在考虑 ..
发布时间:2020-10-22 18:50:45 其他开发

在Apache Kafka中,为什么使用者实例不能多于分区?

我正在了解Kafka,请在此处阅读介绍部分 https://kafka.apache.org/documentation.html#introduction 特别是关于消费者的部分。在引言的倒数第二段中, Kafka做得更好。通过在主题内具有并行性(即分区)的概念,Kafka能够在消费者进程池中提供订购保证和负载平衡。该 是通过将主题中的分区分配给消费者组中的消费者而实现的,因 ..
发布时间:2020-10-22 18:50:40 其他开发

分布式Tensorflow:CreateSession仍在等待工作者的响应:/ job:ps /副本:0 /任务:0

我正在尝试使用TF进行第一个分布式培训示例。我已使用TF文档 https://www.tensorflow.org/deploy/distributed中的示例,其中一个ps和一个工作人员分别在不同的群集上。但是,我总是得到 CreateSession仍在等待工作者的响应:如下所示,工作者集群上的/ job:ps / replica:0 / task:0 ! trainer.py 导入 ..
发布时间:2020-10-19 22:55:43 Python

Google的Spanner中的TrueTime API是什么?

我试图多次阅读该文档,但听不懂。 解决方案 TrueTime是Google提供的一种API,可直接暴露时钟不确定性。 与标准日期时间相比库,而不是特定的时间戳,TrueTime的 now()函数返回一个时间间隔[最早,最新]。 它还提供了两个功能: after(t)如果t肯定已通过,则返回true。例如。 t ..

在不稳定的网络中保持分布式数据库同步

我面临以下挑战: 我在不同地理位置的一堆数据库中,网络可能故障很多(我正在使用蜂窝网络)。我需要使所有数据库保持同步,但无需实时进行。我正在使用Java,但可以自由选择任何免费数据库。 关于如何实现此目标的任何建议。 谢谢。 解决方案 我不知道有任何数据库可以立即为您提供此功能。由于最终的一致性和冲突解决的需要,这里有很多复杂性(例如,如果网络被分为两半,您将值更新为12 ..

BokehWebInterface不适用于Dask Distributed

我已将Dask从0.14.3版本更新到0.15.0,并从1.16.3版本发布到1.17.0。 BokehWebInterface已从此版本中删除。可以 http:// localhost:8787 加载主页,但是我无法访问任务,状态,工作程序(它尝试重新加载,直到所有任务完成,然后给出无法到达错误)。一切都可以在早期版本上使用。 loop = IOLoop.current() t = Th ..
发布时间:2020-10-15 18:50:15 其他开发

将图分布到跨群集节点

我在Dask.delayed方面取得了不错的进展。作为一个小组,我们决定花更多的时间使用Dask处理图。 我对分布有疑问。我在集群上看到以下行为。我启动例如在8个节点中的每个节点上有8个工作线程,每个节点有4个线程,然后说/我client.compute 8个图来创建模拟数据以进行后续处理。我希望每个节点生成8个数据集。但是,似乎发生的是,这八个功能并非在不合理的情况下在前两个节点上运行。随 ..
发布时间:2020-10-15 18:44:52 其他开发

如何找到为什么任务无法在dask分布式中失败?

我正在使用 dask.distributed 开发一个分布式计算系统。我使用 Executor.map 函数提交给它的任务有时会失败,而其他似乎相同的任务则会成功运行。 框架是否提供诊断问题的任何方法? 更新 失败是指增加由调度程序提供的Bokeh Web UI中失败任务的计数。 由 Executor.map 运行的函数返回无。它与数据库进行通信,从其表中检索一些行,执行计算并 ..
发布时间:2020-10-15 18:43:28 Python

建议的解决方案:在分布式环境中生成唯一的ID

我一直在浏览网络,试图找到一种解决方案,使我们能够在区域分布的环境中生成唯一的ID。 我查看了以下选项(以及其他): 雪花(通过Twitter) 这似乎是一个不错的解决方案,但我只是不喜欢必须管理另一个软件才能创建ID所带来的额外复杂性; 此阶段它缺少文档,因此我认为这不是一个很好的投资; 节点需要能够使用Zookeeper相互通信(延迟/通信失败是什么?) UUID ..
发布时间:2020-10-10 02:44:43 PHP

使用Paxos跨节点同步大文件

我正在尝试使用Paxos来维护文件大小约为50MB的节点之间的共识,并在各个节点上不断对其进行修改。我遇到了实用性问题。 要求: 跨数百个节点同步50MB以上的文件 已将更改更改为该文件最多可以在几秒钟内通过网络传播,该文件可以从任何节点创建,并且彼此之间不可能直接竞争。 加入网络的新节点可以在几分钟之内(不到1小时)通过跟随Paxos消息来构建整个文件 我遇到的问题我面临的问题 ..

在项目之间共享自定义PHP代码的最佳方法

我正在开发一个分布式环境,主要是使用PHP。 我拥有的许多项目都共享一些相同的代码。例如,我的日志记录代码(基于log4php,但带有一些自定义添加项)。 我可以将这段代码复制粘贴到每个项目中,但是很自然,如果我更改了任何内容在其中,我需要将其重新粘贴到任何地方,并且“希望”它什么都不会改变。 显然不是一个好方法。 现在,我想知道:共享此代码的最佳和最简单的方法是什么? 我希望有 ..
发布时间:2020-10-07 00:49:57 PHP