distributed-computing相关内容
我工作的一个项目,我们有原子排列充当哈希值。每当用户连接到某个值被散列的服务器,该散列被用作索引来查找阵列中的元件,并返回该元素。 “外部势力”(这是由一个长期运行的gen_server处理)是能够改变这阵,所以我不能简单地硬code吧。我的问题是如何“举办”这阵。 我的第一个执行是一个简单的gen_server从而保持围绕阵列的副本,并将其发送给谁要求它。然后要求它的过程可能穿越它,并得到他们
..
从我的previous问题的后续行动:
..
我要GeoSpark库添加到Apache的火花。如何从星火外壳添加GeoSpark库? 解决方案 $ ./bin/spark-shell --master本地[4] --jars code.jar - 罐子选项将分发您当地的习俗罐子自动群集
..
我下面这个指南,但我不能运行斯卡拉在星火,当我试图创建一个JAR的 SBT 的 我的 simple.sbt 的是: 名称:=“简单计划” 版本:=“1.0” scalaVersion:=“2.10.4” libraryDependencies + =“org.apache.spark”%“火花core_2.10”%“1.6.0” 以下是错误: SBT包 [INFO] .. [提醒] [NO
..
在设计一个分布式存储和分析的体系结构,它是一种常见的使用方式,在同一台计算机中的数据节点上运行分析引擎? 特别是,它将使意义上直接卡桑德拉/ HDFS节点上运行的Spark /风暴? 我知道,在HDFS马preduce有这种使用模式,因为
..
据我所知,您可以发送单个文件,使用Python程序星火依赖。但是关于全面库的内容(例如numpy的)? 星火是否有办法使用提供的软件包管理器(例如PIP)安装库的依赖?或者,这都需要手动完成执行星火计划之前? 如果答案是手动的,那么什么是“最佳实践”的方法已有大量分布式节点的同步库(安装路径,版本等)? 解决方案 实际上有真正尝试过,我想我张贴评论不会做的正是你希望与什么相关性的链接。
..
我的星火集群有1个主站和3工人(4单独的机器,每台机器1核心)和其他设置,如下面的图片,其中 spark.cores.max 设置为 3 和 spark.executor.cores 也 3 (在 PIC-1 ) 但是,当我提出我的工作,星火产业集群,从星火网络的用户界面,我可以看到只有一个执行程序用于(根据使用的内存和 RDD块在 PIC-2 ),但不是所有的执行者。在这种情况下,处理速度比我
..
假设我有一个包含(INT,INT)元组的RDD。 我希望把它变成一个矢量,其中的元组中第一个INT是指数,第二个是值。 任何想法我怎么能做到这一点? 更新我的问题,并添加我的解决方案,以澄清: 我的RDD已经由密钥减小,按键的数量是已知的。 我想一个向量,以更新单个蓄能器而不是多个累加器。 有我的最终解决方案是: reducedStream.foreachRDD(RDD = GT;
..
我实现的 k均值的,我想创造新的重心。但叶映射一个元素了!然而,当 K 是一个较小的值,如15,它会正常工作。在此基础上 href=\"http://www.cs.berkeley.edu/~rxin/ampcamp-ecnu/machine-learning-with-spark.html\" rel=\"nofollow\"> code 我有: VAL K = 25 //集群数量 VAL数
..
这是从一个跟进的问题在这里。我想在此基础上的实施。它的伟大工程,的但的我想换成 groupByKey()与 reduceByKey() ,但我不知道如何(我现在并不担心性能)。下面是相关缩小的code: VAL数据= sc.textFile(“dense.txt”)。图( T => (t.split(“#”)(0),parseVector(t.split(“#”)(1))
..
我要存储用星火大稀疏矩阵, 所以我试图用 CoordinateMatrix ,因为它是一个分布式的矩阵。 不过,我还没有找到一种方法来访问每个条目直接像这样的方式: 申请(INT X,int y)对 我只找到了功能,如:公共RDD< MatrixEntry>项() 在这种情况下,我不得不遍历所有的条目,以找出一个我想,这是不是有效的方法。 有没有人使用 Coordinat
..
说我有3个节点的分发系统,我的数据被这些节点之间分配。例如,我有它存在于所有3个节点test.csv文件,它包含的2列: **行| ID,C。** --------------- ROW1 | K1,C1 ROW2 | K1,C2 ROW3 | K1,C3 ROW4 | K2,C4 row5 | K2,C5 row6 | K2,C6 row7 | K3,C7 row8 | K3,C8 row9
..
我正在学习有关动物园管理员。我学会了当集群中含有机1000的那个饲养员是非常有用的。我有几个疑问。 我试着阅读下面的链接了解 解释的Apache ZooKeeper的结果 解释的Apache ZooKeeper的 我有以下几个问题 1)在如何处理集群上千台机器时,动物园管理员是有帮助吗?结果 2)如何解决饲养员分布式同步问题?结果 3)究竟是如何解决的动物园管理员集中配置的问题?
..
我似乎无法连接使用RMI的2台机器。为了确保有没有什么毛病我的code我复制从维基百科的简单例子( HTTP: //en.wikipedia.org/wiki/Java_remote_method_invocation ),我编辑的code打印出一个简单的int。 我想给所有的权限,并把所有的防火墙关闭,我仍然得到这个错误: java.rmi.ConnectException:拒绝连接到主机
..
我已经贴伪code下面一个Paxos的算法,并想知道,如果有人可以点我在正确的方向。我想实现下面的算法,但我是一个困惑是什么下方正是“意见”重新presents。我知道评论说,这是一个“过去的观点号码数值图”,但如果有人可以给我解释一下,究竟这些“价值”是什么“的看法号”是。 状态: num_h:最高提案#见过的prepare num_a,val_a:最高值,并建议#哪个节点已接受
..
我已经贴伪$ C $下一个Paxos的算法在这里: 和想知道,如果有人可以点我在正确的方向。 该算法说每个节点都有一个“状态”,其中包含了一堆信息的节点应该防不胜防。 假设我们有两个节点:节点#1和节点#2。在最简单的情况下,节点#2加入节点#1,他们都发挥的Paxos。到底发生了什么的节点#1和节点#2后2加入1的状态?什么时候该“意见”的数据结构的变化和它包含什么?如果有人能够给我解释一
..
我要寻找我可以插入一个分布式应用程序,它可实现所有的八卦为基础的成员资格协议的库。 这样的库将允许我发送/接收成员名单,合并收到会员名单,等等......更妙的是,如果库中实现的协议具有性能O(LOGN)的性能保证。 有谁知道任何这样的开源库的?它不需要满足所有的上述要求;甚至一些部分实现将是有益的。 解决方案 看看这对谷歌code: HTTP://$c$c.google.com/p /
..
我百思不得其解与阿姆达尔定律来计算性能提升和串行应用程序的一部分,想不通的是,这一个。 已知如下: S(N)=加速比为(N)的CPU N =数CPU的 F =方案的其上执行连续的部分 S(N)= N /(1 + F *(N - 1)) 如果我有4个CPU的3倍的和加速比(性能提高)。什么会的 F 的是什么? 我的猜测: S(N)= 3(这是我们使用的性能提升4个CPU的)
..
这是一个面试问题:设计一个分布式后端的自动完成。 我会回答它,如下所示: 自动完成是由给定后缀在词典中搜索。这本字典应可能组织成一个的线索的。这本字典是从最频繁的查询建造,但它是另一回事。 现在我假设字典不经常改变(例如一天一次,而不是每毫秒)。因此,我们可以只复制在多个服务器处理自动完成查询(例如使用负载均衡和循环策略)的字典。 我们也应该思考一下字典,而是这也是另外一个故事了。 是否
..
我有一个分布式/联合数据库结构如下: 在三个地理区域(“节点”)的数据库有s $ P $垫 在多个数据库聚集在每一个节点 的关系型数据库是PostgreSQL,MySQL和甲骨文,和MS SQL Server的混合;非关系型数据库MongoDB的两种或卡桑德拉 在每个节点和整个节点联合在松耦合通过RabbitMQ的实现,与运行的RabbitMQ代理的每个节点 我在执行一个只读节点间聚集的工
..