distributed-computing相关内容

不同主机上的 OpenMP 程序

我想知道是否可以在多个主机上运行 OpenMP 程序.到目前为止,我只听说过可以在多个线程上执行但都在同一台物理计算机中执行的程序.是否可以在两个(或更多)客户端上执行程序?我不想使用 MPI. 解决方案 是的,可以在分布式系统上运行 OpenMP 程序,但我怀疑它是否在每个用户的范围内.ScaleMP 提供了 vSMP——一种昂贵的商业管理程序软件,允许在许多联网主机上创建虚拟 NUMA ..

为什么 Google 的 TrueTime API 难以复制?

我不知道为什么媒体普遍说 Google 的 TrueTime API 难以复制(Wired、Slashdot 等). 我可以理解获得 Google 实现的低错误间隔是多么困难,但我不认为 API 本身会非常困难. 例如,我制作了一个 hacked together 版本.这是间隔. typedef struct TT_interval {struct timeval 最早;stru ..

服务器如何与 RMI 中的客户端进行会话

我希望有人告诉我在哪里搜索如何在 RMI 中的客户端和服务器之间建立会话,即用于搜索目的的概念的名称是什么? 解决方案 我在 2001 年的书中将其命名为远程会话模式. 这个想法是有一个单一的 RMI 对象,绑定在注册表中,只有一个 login() 方法.如果成功,该方法将为每次调用返回一个新的 RemoteSession 对象,其中包含会话所需的 API.RemoteSession ..
发布时间:2021-12-15 20:54:40 其他开发

限制大 RDD

我正在阅读许多图像,我想处理其中的一小部分以进行开发.因此,我试图了解 spark 和python 可以做到这一点: 在[1]中:d = sqlContext.read.parquet('foo')在 [2]: d.map(lambda x: x.photo_id).first()出[2]:u'28605'在 [3]: d.limit(1).map(lambda x: x.photo_id)输出 ..
发布时间:2021-12-15 19:22:21 Python

活动任务在 Spark UI 中是一个负数

当使用 spark-1.6.2 和 pyspark,我看到这个: 您看到活动任务是一个负数字(总任务数与已完成任务数的差值). 这个错误的根源是什么? 我有很多个执行者的节点.但是,好像有一个任务好像一直空闲(我看不到任何进展),而另一个相同的任务正常完成. 这也是相关的:邮件我可以确认正在创建许多任务,因为我使用的是 1k 或 2k 执行器. 我得到的错误有点不同: ..
发布时间:2021-12-15 19:08:24 Python

当 Spark 意识到 RDD 不再被使用时,它会取消持久化 RDD 吗?

当我们想要多次使用它时,我们可以将 RDD 持久化到内存和/或磁盘中.但是,我们以后是否必须自己取消持久化,或者 Spark 是否会进行某种垃圾收集并在不再需要 RDD 时取消持久化?我注意到如果我自己调用 unpersist 函数,我的性能会变慢. 解决方案 是的,当 RDD 被垃圾回收时,Apache Spark 将取消持久化. 在 RDD.persist 可以看到: sc.c ..
发布时间:2021-12-15 18:38:49 其他开发

更改 Hadoop 中的文件拆分大小

我在 HDFS 目录中有一堆小文件.虽然文件的体积相对较小,但每个文件的处理时间是巨大的.也就是说,一个 64mb 文件,它是 TextInputFormat 的默认分割大小,甚至需要几个小时来处理. 我需要做的是减小分割大小,以便我可以利用更多节点来完成一项工作. 所以问题是,如何通过 10kb 来分割文件?我是否需要为此实现我自己的 InputFormat 和 RecordRead ..
发布时间:2021-12-15 18:28:59 Java开发

如何以平衡的方式跨服务器分配(纸牌游戏桌)经销商?

我目前正在开发一种类似于二十一点的在线纸牌游戏,它将由一系列牌桌组成,其中每张牌桌都有一个“庄家"和多个人类玩家.经销商(计算机机器人)负责发牌和洗牌.表 将存储在 PostgreSQL 数据库表中,管理员可以添加/删除/编辑表. 游戏将由一个 Web 前端和一个 REST/websocket API 后端组成.我可能会使用 Kubernetes 和 Nginx 作为后端服务器的负载均衡器. ..

自动完成的后端

这是一道面试题:设计一个自动完成的分布式后端. 我会回答如下: 自动完成是通过给定的后缀在字典中进行搜索.字典可能应该组织为 trie.字典是根据最频繁的查询构建的,但这是另一回事. 现在我假设字典不会经常更改(例如每天一次而不是每毫秒一次).因此,我们可以在多个处理自动完成查询的服务器上复制字典(例如,使用负载平衡器和循环策略). 我们也应该考虑字典,但这也是另一回事. ..

是否有一致的 UML 图样式来记录或说明(Docker)容器在系统架构规范中的作用?

我计划绘制一些 UML 结构图来说明 Docker 映像(或容器,在部署图中)在我正在构建的软件的整体结构中的位置.我对说明容器的内容、网络端口和其他接口的映射以及多个容器互操作的方式很感兴趣. 我的问题空间是分布式的、基于事件的系统 (DEBS),所以我预计我的大多数容器都会有消息队列进出.我的架构的另一部分涉及使用内存数据网格,它将跨越集群中多个节点的多个容器. 如何用 UML 建 ..

内存缓存 VS.分布式系统中的集中缓存

我们目前正在寻找访问分布式系统上的关键数据的最合适的解决方案,并且我们正在考虑是使用内存缓存还是集中式缓存. 关于我们希望存储/访问的数据的一些信息: 非常小的数据量 数据很冷;这意味着它几乎没有变化,并且只有当我们的后台系统中的某个人发生变化时才会发生变化 更改时必须是最新的(几个 100 毫秒的延迟是可以的) 我们的应用程序非常关键的路径,需要非常高的 SLA(可靠性和响应时 ..

Spark:同时从具有不同内存/内核配置的单个 JVM 作业启动

问题说明 假设您有带独立管理器的 Spark 集群,其中的作业通过在客户端应用程序中创建的 SparkSession 进行调度.客户端应用程序在 JVM 上运行.为了提高性能,您必须使用不同的配置启动每个作业,请参阅下面的作业类型示例. 问题是您无法从单个 JVM 创建两个会话. 那么您将如何同时启动具有不同会话配置的多个 Spark 作业? 不同的会话配置我的意思是: ..

为什么微服务之间的共享库不好?

Sam Newman 在他的书 Building Microservices 中指出 服务之间耦合太多的弊端远比代码重复带来的问题严重 我只是不明白服务之间的共享代码是如何邪恶的.如果出现对共享库的需求,作者的意思是服务边界本身设计得很差,还是他真的意味着我应该在常见业务逻辑依赖的情况下复制代码?我看不出这能解决什么问题. 假设我有两个服务共有的实体共享库.两个服务的公共域对象可能 ..

如何为 API 客户端提供 1,000,000 个数据库结果?

跟进我之前的问题: 使用“光标"用于 PostgreSQL 中的分页 向 API 客户端提供 1,000,000 个数据库结果的好方法是什么? 我们目前使用的是 PostgreSQL.一些建议的方法: 使用光标 进行分页使用随机数分页(向每个查询添加“GREATER THAN ORDER BY") 使用 LIMIT 和 OFFSET 进行分页(分解为非常大的数据集) ..
发布时间:2021-11-15 00:34:57 其他开发

动物园管理员工作

我正在学习 Zookeeper.我了解到当集群包含 1000 台机器时,zookeeper 非常有用.我几乎没有怀疑. 我尝试阅读以下链接以了解解释 Apache ZooKeeper 解释 Apache ZooKeeper 我有以下问题 1) 在处理集群中的数千台机器时,zookeeper 有什么帮助? 2)zookeeper如何解决分布式同步问题? 3)zookeeper ..
发布时间:2021-11-15 00:06:22 服务器开发

高级主选举算法与欺凌算法相比有什么好处?

我阅读了当前的主选举算法(如 Raft、Paxos 或 Zab)如何在集群上选举主,但不明白为什么他们使用复杂的算法而不是简单的欺凌算法. 我正在开发一个集群库并使用 UDP 多播来处理心跳消息.每个节点加入一个多播地址,并定期向该地址发送数据报包.如果节点发现有一个新节点向该多播地址发送数据包,则该节点会被简单地添加到集群中,类似地,当集群中的节点没有从某个节点获取任何包时,它们会将其从集 ..

Zookeeper 如何管理其他集群中的节点角色?

我的理解是Zookeeper经常用来解决分布式系统中“跟踪哪个节点扮演特定角色"的问题(例如DB中的主节点或MapReduce中的主节点)集群等). 为简单起见,假设我们有一个包含一个主节点和多个副本的数据库,并且数据库中的当前主节点出现故障.在这种情况下,原则上,可以使副本节点之一成为新的主节点.此时我的理解是: 如果我们没有 Zookeeper 应用服务器可能不知道我们有一个 ..

使用 Zookeeper 而不仅仅是数据库来管理分布式系统的目的是什么?

我正在学习 Zookeeper,到目前为止我不明白将其用于数据库无法解决的分布式系统的目的. 我读过的用例是通过让 Zookeeper 客户端读/写 Zookeeper 服务器来为分布式系统实现锁、屏障等.不能通过读/写数据库来实现吗? 例如,我的书描述了使用 Zookeeper 实现锁的方法是让想要获取锁的 Zookeeper 客户端创建一个 ephemeral znode,并在 l ..
发布时间:2021-11-15 00:00:32 Java开发

Zookeeper vs 内存数据网格 vs Redis

我在多个资源中发现了不同的 zookeeper 定义.也许其中一些是断章取义的,但请看看它们: Zookeeper 使用的一个典型例子是分布式内存计算... ZooKeeper 是一个开源 Apache™ 项目,提供集中式基础架构和支持跨集群同步的服务. Apache ZooKeeper 是一个开源文件应用程序接口 (API),它允许大型系统中的分布式进程相互同步,以便所有发出请 ..