distributed-computing 第16页 - IT屋-程序员软件开发技术分享社区

二郎：分布式的阵列上工作

我工作的一个项目，我们有原子排列充当哈希值。每当用户连接到某个值被散列的服务器，该散列被用作索引来查找阵列中的元件，并返回该元素。 “外部势力”（这是由一个长期运行的gen_server处理）是能够改变这阵，所以我不能简单地硬code吧。我的问题是如何“举办”这阵。我的第一个执行是一个简单的gen_server从而保持围绕阵列的副本，并将其发送给谁要求它。然后要求它的过程可能穿越它，并得到他们 ..

发布时间：2016-05-30 23:51:22 arrays erlang distributed-computing 其他开发

如何提供一个API客户端包含1,000,000个数据库结果？

从我的previous问题的后续行动： ..

发布时间：2016-05-22 19:22:38 api postgresql pagination distributed-computing 其他开发

如何我们的定制库添加到Apache火花？

我要GeoSpark库添加到Apache的火花。如何从星火外壳添加GeoSpark库？解决方案 $ ./bin/spark-shell --master本地[4] --jars code.jar - 罐子选项将分发您当地的习俗罐子自动群集 ..

发布时间：2016-05-22 16:43:06 java scala apache-spark distributed-computing Java开发

创建星火JAR

我下面这个指南，但我不能运行斯卡拉在星火，当我试图创建一个JAR的 SBT 的我的 simple.sbt 的是：名称：=“简单计划” 版本：=“1.0” scalaVersion：=“2.10.4” libraryDependencies + =“org.apache.spark”％“火花core_2.10”％“1.6.0” 以下是错误： SBT包 [INFO] .. [提醒] [NO ..

发布时间：2016-05-22 16:31:15 java scala apache-spark sbt distributed-computing Java开发

在卡桑德拉/ HDFS和星火运动数据

在设计一个分布式存储和分析的体系结构，它是一种常见的使用方式，在同一台计算机中的数据节点上运行分析引擎？特别是，它将使意义上直接卡桑德拉/ HDFS节点上运行的Spark /风暴？我知道，在HDFS马preduce有这种使用模式，因为 ..

发布时间：2016-05-22 16:21:19 hadoop cassandra apache-spark hdfs distributed-computing 其他开发

在星火执行人节点安装Python的依赖最简单的方法？

据我所知，您可以发送单个文件，使用Python程序星火依赖。但是关于全面库的内容（例如numpy的）？星火是否有办法使用提供的软件包管理器（例如PIP）安装库的依赖？或者，这都需要手动完成执行星火计划之前？如果答案是手动的，那么什么是“最佳实践”的方法已有大量分布式节点的同步库（安装路径，版本等）？解决方案实际上有真正尝试过，我想我张贴评论不会做的正是你希望与什么相关性的链接。 ..

发布时间：2016-05-22 16:18:07 hadoop dependencies apache-spark shared-libraries distributed-computing 其他开发

为什么星火未分配任务给所有执行者，但只有一个执行者？

我的星火集群有1个主站和3工人（4单独的机器，每台机器1核心）和其他设置，如下面的图片，其中 spark.cores.max 设置为 3 和 spark.executor.cores 也 3 （在 PIC-1 ）但是，当我提出我的工作，星火产业集群，从星火网络的用户界面，我可以看到只有一个执行程序用于（根据使用的内存和 RDD块在 PIC-2 ），但不是所有的执行者。在这种情况下，处理速度比我 ..

发布时间：2016-05-22 16:15:09 performance configuration apache-spark distributed-computing spark-streaming 其他开发

如何打开一个已知的结构RDD以矢量

假设我有一个包含（INT，INT）元组的RDD。我希望把它变成一个矢量，其中的元组中第一个INT是指数，第二个是值。任何想法我怎么能做到这一点？更新我的问题，并添加我的解决方案，以澄清：我的RDD已经由密钥减小，按键的数量是已知的。我想一个向量，以更新单个蓄能器而不是多个累加器。有我的最终解决方案是： reducedStream.foreachRDD（RDD = GT; ..

发布时间：2016-05-22 16:14:09 scala vector apache-spark distributed-computing rdd 其他开发

元素映射坏了

我实现的 k均值的，我想创造新的重心。但叶映射一个元素了！然而，当 K 是一个较小的值，如15，它会正常工作。在此基础上 href=\"http://www.cs.berkeley.edu/~rxin/ampcamp-ecnu/machine-learning-with-spark.html\" rel=\"nofollow\"> code 我有： VAL K = 25 //集群数量 VAL数 ..

发布时间：2016-05-22 15:56:14 java scala apache-spark distributed-computing rdd Java开发

更换groupByKey（）与reduceByKey（）

这是从一个跟进的问题在这里。我想在此基础上的实施。它的伟大工程，的但的我想换成 groupByKey（）与 reduceByKey（），但我不知道如何（我现在并不担心性能）。下面是相关缩小的code： VAL数据= sc.textFile（“dense.txt”）。图（ T =＆GT; （t.split（“＃”）（0），parseVector（t.split（“＃”）（1）） ..

发布时间：2016-05-22 15:56:09 scala apache-spark machine-learning mapreduce distributed-computing AI人工智能

如何访问直接在星火CoordinateMatrix条目？

我要存储用星火大稀疏矩阵，所以我试图用 CoordinateMatrix ，因为它是一个分布式的矩阵。不过，我还没有找到一种方法来访问每个条目直接像这样的方式：申请（INT X，int y）对我只找到了功能，如：公共RDD＆LT; MatrixEntry＆GT;项（）在这种情况下，我不得不遍历所有的条目，以找出一个我想，这是不是有效的方法。有没有人使用 Coordinat ..

发布时间：2016-05-22 15:45:05 matrix apache-spark distributed-computing sparse-matrix 其他开发

如何星火聚合函数 - aggregateByKey工作？

发布时间：2016-05-22 15:28:45 apache-spark distributed-computing 其他开发

动物园管理员工作

我正在学习有关动物园管理员。我学会了当集群中含有机1000的那个饲养员是非常有用的。我有几个疑问。我试着阅读下面的链接了解解释的Apache ZooKeeper的结果解释的Apache ZooKeeper的我有以下几个问题 1）在如何处理集群上千台机器时，动物园管理员是有帮助吗？结果 2）如何解决饲养员分布式同步问题？结果 3）究竟是如何解决的动物园管理员集中配置的问题？ ..

发布时间：2016-05-21 14:16:13 apache distributed-computing zookeeper 服务器开发

无法建立RMI连接到远程计算机

我似乎无法连接使用RMI的2台机器。为了确保有没有什么毛病我的code我复制从维基百科的简单例子（ HTTP： //en.wikipedia.org/wiki/Java_remote_method_invocation ），我编辑的code打印出一个简单的int。我想给所有的权限，并把所有的防火墙关闭，我仍然得到这个错误： java.rmi.ConnectException：拒绝连接到主机 ..

发布时间：2015-12-01 13:05:56 java amazon-web-services rmi distributed-computing Java开发

什么是＆QUOT;查看＆QUOT;在协商一致的Paxos算法？

我已经贴伪code下面一个Paxos的算法，并想知道，如果有人可以点我在正确的方向。我想实现下面的算法，但我是一个困惑是什么下方正是“意见”重新presents。我知道评论说，这是一个“过去的观点号码数值图”，但如果有人可以给我解释一下，究竟这些“价值”是什么“的看法号”是。状态： num_h：最高提案＃见过的prepare num_a，val_a：最高值，并建议＃哪个节点已接受 ..

发布时间：2015-11-30 22:34:52 algorithm distributed-computing paxos consensus C/C++

如何使第2阶段中的Paxos感分布式共识算法？

我已经贴伪$ C $下一个Paxos的算法在这里：和想知道，如果有人可以点我在正确的方向。该算法说每个节点都有一个“状态”，其中包含了一堆信息的节点应该防不胜防。假设我们有两个节点：节点＃1和节点＃2。在最简单的情况下，节点＃2加入节点＃1，他们都发挥的Paxos。到底发生了什么的节点＃1和节点＃2后2加入1的状态？什么时候该“意见”的数据结构的变化和它包含什么？如果有人能够给我解释一 ..

发布时间：2015-11-30 22:13:13 algorithm distributed-computing paxos consensus C/C++

开源八卦为基础的会员协议？

我要寻找我可以插入一个分布式应用程序，它可实现所有的八卦为基础的成员资格协议的库。这样的库将允许我发送/接收成员名单，合并收到会员名单，等等......更妙的是，如果库中实现的协议具有性能O（LOGN）的性能保证。有谁知道任何这样的开源库的？它不需要满足所有的上述要求;甚至一些部分实现将是有益的。解决方案看看这对谷歌code： HTTP：//$c$c.google.com/p / ..

发布时间：2015-11-30 22:01:04 algorithm distributed-computing distributed-algorithm C/C++

使用阿姆达尔定律计算性能提升

我百思不得其解与阿姆达尔定律来计算性能提升和串行应用程序的一部分，想不通的是，这一个。已知如下： S（N）=加速比为（N）的CPU N =数CPU的 F =方案的其上执行连续的部分 S（N）= N /（1 + F *（N - 1））如果我有4个CPU的3倍的和加速比（性能提高）。什么会的 F 的是什么？我的猜测： S（N）= 3（这是我们使用的性能提升4个CPU的） ..

发布时间：2015-11-30 21:55:53 algorithm parallel-processing distributed-computing parallelism-amdahl C/C++

后端为自动完成

这是一个面试问题：设计一个分布式后端的自动完成。我会回答它，如下所示：自动完成是由给定后缀在词典中搜索。这本字典应可能组织成一个的线索的。这本字典是从最频繁的查询建造，但它是另一回事。现在我假设字典不经常改变（例如一天一次，而不是每毫秒）。因此，我们可以只复制在多个服务器处理自动完成查询（例如使用负载均衡和循环策略）的字典。我们也应该思考一下字典，而是这也是另外一个故事了。是否 ..

发布时间：2015-11-30 21:41:07 algorithm architecture language-agnostic autocomplete distributed-computing C/C++

在分布式数据库汇总工作，优化网络带宽

我有一个分布式/联合数据库结构如下：在三个地理区域（“节点”）的数据库有s $ P $垫在多个数据库聚集在每一个节点的关系型数据库是PostgreSQL，MySQL和甲骨文，和MS SQL Server的混合;非关系型数据库MongoDB的两种或卡桑德拉在每个节点和整个节点联合在松耦合通过RabbitMQ的实现，与运行的RabbitMQ代理的每个节点我在执行一个只读节点间聚集的工 ..

发布时间：2015-11-30 20:41:15 database algorithm caching optimization distributed-computing C/C++

distributed-computing相关内容