distributed相关内容

分布式分析系统数据一致性架构设计

我正在重构一个将进行大量计算的分析系统,我需要一些关于可能的架构设计的想法,以解决我面临的数据一致性问题. 当前架构 我有一个基于队列的系统,其中不同的请求应用程序创建最终由工作人员使用的消息. 每个“请求应用"将大型计算分解成较小的部分,这些部分将被发送到队列并由工作人员处理. 当所有部分都完成后,原始“请求应用"将合并结果. 此外,workers 使用来自中央数据 ..
发布时间:2021-11-17 02:56:09 其他开发

以数据为中心和面向对象的应用程序模型有什么区别?

什么是以数据为中心的应用程序,它与面向对象的应用程序模型有什么区别? 解决方案 这两个概念有些正交,一个 Data Centric Application 是数据库发挥关键作用的地方,数据库中的属性可能会影响应用程序中运行的代码路径,并且代码更通用并且所有/大多数业务逻辑都是通过数据库关系和约束定义的.OOP 可用于创建以数据为中心的应用程序. 当人们说 OOP 架构在代码中实现业务 ..
发布时间:2021-11-17 02:28:43 其他开发

微服务:什么是智能端点和哑管道?

我阅读了 Martin Fowler 的一篇文章“微服务",发现很难了解智能端点和哑管道.请解释这些术语,欢迎举例. 解决方案 我没有读过这篇文章,所以我只能推测他的确切意思,但正如他以 ESB 为例针对微服务和 ZeroMQ 作为一个例子以微服务为例,我希望我的推测非常准确: Unix(和Linux)的一个想法是构建小的独立应用程序并通过管道连接它们.我使用的可能最常见的两个命令集 ..
发布时间:2021-11-17 02:00:16 其他开发

点差 vs MPI vs zeromq?

在 像 UDP 一样使用TCP 的可靠性,一位用户提到了 Spread 消息传递 API.我还遇到过一个名为 ØMQ 的问题.我也对 MPI 有所了解. 所以,我的主要问题是:为什么我会选择一个而不是另一个?更具体地说,既然有成熟的 MPI 实现,我为什么要选择使用 Spread 或 ØMQ? 解决方案 MPI 被设计为具有快速、可靠网络的紧耦合计算集群.Spread 和 ØMQ 是 ..
发布时间:2021-11-15 01:00:11 其他开发

ZooKeeper 和任何分布式键值存储之间有什么区别?

我是zookeeper和分布式系统的新手,我自己也在学习. 据我目前的理解,ZooKeeper 似乎只是一个键值存储,其键是路径,值是字符串,这与 Redis 没有什么不同.(显然我们也可以使用斜线分隔的路径作为 redis 中的键.) 所以我的问题是,ZooKeeper 和其他分布式 KV 存储之间的本质区别是什么?为什么 ZooKeeper 使用所谓的“路径"作为键,而不是简单的字 ..
发布时间:2021-11-14 23:59:12 其他开发

Zookeeper 的真实使用

我最近一直在查看 Zookeeper 并想知道目前是否有人在使用它以及什么他们专门用它来存储. 最常见的用例是配置信息,但您存储的是哪种数据以及多少数据? 解决方案 Apache CXF 实现 使用 zookeeper 作为其服务注册库.单个容器具有一个分布式软件 (dsw) 包,用于侦听所有服务事件,并在服务状态更改时具有指示分布的属性.dsw 与发现包通信,在参考实现案例中,发现 ..
发布时间:2021-11-14 23:56:01 其他开发

如何在 Cassandra 中快速增加计数器而不会过时

我有一个卡桑德拉问题.您知道 Cassandra 如何更新/增加计数器吗? 我想使用一个可以写入 cassandra 的风暴螺栓(来自 Storm-contrib repo on github 的 CassandraCounterBatchingBolt).但是,我不确定 incrementCounterColumn() 方法的某些实现是如何工作的……而且 cassandra 计数器也有一些 ..
发布时间:2021-11-14 23:34:42 其他开发

如何决定Kafka集群大小

我打算决定 Kafka 集群上应该有多少个节点.我不确定要考虑的参数.我确定它必须 >=3(复制因子为 2,容错为 1 个节点). 谁能告诉我在决定集群大小时应该记住哪些参数以及它们如何影响大小. 我知道以下因素,但不知道它如何在数量上影响集群大小.我知道它如何定性地影响集群大小.还有其他影响集群大小的参数吗?1.复制因子(集群大小>=复制因子)2.节点容错.(集群大小 >= 节点故障 ..
发布时间:2021-11-12 01:52:22 其他开发

在 Apache Kafka 中,为什么消费者实例不能多于分区?

我正在学习 Kafka,在这里阅读介绍部分 https://kafka.apache.org/documentation.html#introduction 特别是关于消费者的部分.在引言的倒数第二段中,它是 Kafka 做得更好.通过在主题内具有并行性(分区)的概念,Kafka 是能够在消费者进程池上提供排序保证和负载平衡.这个通过将主题中的分区分配给消费者组中的消费者来实现每 ..
发布时间:2021-11-12 01:42:20 其他开发

Dask Distributed - 如何为每个工作人员运行一项任务,使该任务在工作人员可用的所有内核上运行?

我对使用 distributed python 库非常陌生.我有 4 个工作人员,我已经成功地为每个工作人员使用 14 个内核(在 16 个可用内核中)启动了一些并行运行,从而导致 4*14=56 个任务并行运行. 但是如果我只想在每个工人中一次完成一项任务,如何进行.通过这种方式,我希望在 worker 上并行使用 14 个内核来完成一项任务. 解决方案 Dask Worker 维 ..
发布时间:2021-09-28 19:59:00 其他开发

使用 openquery 创建索引

如何使用 openquery 语法在远程 SQL Server 数据库中存在的表上创建索引? 解决方案 你不能站在你这边.索引必须仅添加到本地对象.您也不能使用索引视图. 您可以要求对方为您在他们的表中添加索引... 编辑:扩展约翰的答案......你可以尝试: SELECT * FROM OPENQUERY(LinkedServer, 'CREATE INDEX etc;S ..
发布时间:2021-09-10 19:41:15 其他开发

Jmeter分布式测试问题

有没有办法在 Jmeter 的分布式测试中跨从站同步“线程组运行"? 例如,假设我的测试计划有 2 个线程组,并且我使用 2 个从站运行 JMeter.如果其中一个从站首先完成第一个线程组,我希望该特定从站等待另一个从站完成也是第一个线程组.然后我要他们一起进行第二个! 请帮忙解决这个问题. 解决方案 我不认为我们在 JMeter 中有一个直接的方法.我假设您连续运行线程组. ..
发布时间:2021-09-06 18:45:17 其他开发

在分布式张量流学习中使用参数服务器的原因是什么?

简短版本:我们不能在其中一个工作线程中存储变量而不使用参数服务器吗? 长版:我想在tensorflow中实现神经网络的同步分布式学习.我希望每个工人在训练期间都拥有模型的完整副本. 我已阅读分布式张量流教程和分布式训练imagenet代码,不明白为什么我们需要参数服务器吗. 我看到它们用于存储变量的值,而 replica_device_setter 会注意变量在参数服务器之间均匀 ..
发布时间:2021-09-05 19:08:22 其他开发

Solr 跨多核搜索

我有两个 Solr 内核. Core0 从名为 items 的 Oracle 表中导入数据.每个项目都有一个唯一的 id (item_id),并且是视频项目或音频项目 (item_type).其他字段包含可搜索文本(说明、评论等) Core1 从两个名为 video_item_dates 和 audio_item_dates 的表(来自不同的数据库)导入数据,它们记录了特定市场中某个项 ..
发布时间:2021-06-04 19:29:54 其他开发

Python中的分布式读者-作家锁定

我正在寻找读者-作家锁在分布式系统中的python中使用. 到目前为止,我已经发现: redlock ,它基于redis.不提供读者-作者锁定. dask的分布式软件包提供了锁,但同样,没有读者-作者锁定. 与Zookeeper配合使用的 kazoo,提供读者-作者锁定.但是Zookeeper是一个非常重的依赖项,因为它是用Java编写的,因此需要JDK. kazoo/Zoo ..
发布时间:2021-05-30 20:07:28 其他开发

@distributed似乎可以正常工作,函数返回很奇怪

我正在学习如何在Julia中进行并行计算.我在3x嵌套的 for 循环的开始处使用 @sync @distributed 来并行化事物(请参见底部的代码).从行 println(errCmp [row,col])中,我可以看到数组 errCmp 的所有元素都已打印出来.例如 来自工作人员3:2.351134946074191e9来自工作人员4:2.3500830193505473e9来自工作人员 ..
发布时间:2021-05-28 18:45:29 其他开发

用于简单分布式计算问题的Java框架/工具

我们生成的pdf文件包含有关数万名客户每月财务余额的数据.在高峰时(到年底有100.000个文件),使用5台服务器之间的负载分配过程可能需要长达5天的时间才能完成.工作负载的分配是一个手动过程(例如,服务器1为客户端1到20.000生成pdf,服务器2为20.001到40.000,等等). 我们使用Java,因此我们希望以类似于 BOINC (BOINC不是用Java编码的),这将使我们具备 ..
发布时间:2021-05-09 19:27:32 其他开发

mysql上的分布式事务

我正在使用分布式事务的分布式系统上工作,这意味着我可能有一个需要同时编辑多个数据库(在多个服务器上)的事务. 在我的系统中,有一个控制器来管理分发. 我要满足的方案是:服务器A希望启动分布式事务.参与者是服务器A和服务器B.因此服务器A向控制器发送请求以发起分布式事务.控制器打开与服务器A和服务器B的连接,并要求它们进行本地事务.服务器A和服务器B都必须回复服务器它们已准备就绪.控制器 ..
发布时间:2021-05-01 18:30:51 其他开发

无法获得两个Erlang节点进行通信

无论我做什么,我都无法获得两个不同的节点进行通信.这可能是一个非常简单的问题. 我已经创建了文件.cookie.erlang,并将其放置到主目录中.然后,我打开一个终端窗口并键入以下命令: erl -sname user1 @ pcerlang:set_cookie(node(),cookie). 在另一个终端窗口中键入: erl -sname user2 @ pcerlang: ..
发布时间:2021-05-01 18:30:38 其他开发