cluster-computing相关内容

R 聚类分析和具有相关矩阵的树状图

我必须对大量数据进行聚类分析.由于我有很多缺失值,我制作了一个相关矩阵. corloads = cor(df1[,2:185], use = "pairwise.complete.obs") 现在我遇到了如何继续的问题.我读了很多文章和例子,但没有什么对我有用.我如何才能知道有多少集群适合我? 我已经试过了: dissimilarity = 1 - corloads距离 = as.di ..
发布时间:2021-11-27 12:02:08 其他开发

Kubernetes 集群不会将外部 ip 公开为 <nodes>

这是我的 service.yaml 代码: 种类:服务api版本:v1元数据:名称:登录规格:选择器:应用程序:登录端口:- 协议:TCP名称:http端口:5555目标端口:登录-http类型:节点端口 我将服务类型写为 类型:NodePort 但是当我按下下面的命令时,它不会将外部 IP 显示为“节点": 'kubectl get svc' 这里是输出: NAME TYPE CL ..
发布时间:2021-11-27 09:49:55 其他开发

AWS ECS 任务内存硬限制和软限制

我对 ECS 任务定义同时具有硬内存和软内存限制的目的感到困惑. IIRC 软限制是调度程序在实例上为任务运行保留多少内存,硬限制是容器在被谋杀之前可以使用多少内存. 我的问题是,如果 ECS 调度程序根据软限制将任务分配给实例,您可能会遇到使用高于软限制但低于硬限制的内存的任务可能会导致实例超过其最大值内存(假设所有其他任务使用的内存略低于或等于其软限制). 这是正确的吗? ..
发布时间:2021-11-27 09:40:57 其他开发

我的 Spark 的 Worker 无法连接 Master.Akka 有问题吗?

我想将 Spark Standlone 模式安装到我的两个虚拟机的集群中. 使用 spark-0.9.1-bin-hadoop1 版本,我在每个 vm 中都成功执行了 spark-shell.我按照官方文档制作了一个vm(ip:xx.xx.xx.223) 作为 Master 和 Worker 并使另一个 (ip:xx.xx.xx.224) 仅作为 Worker. 但是224-ip vm无法连接 ..
发布时间:2021-11-26 22:40:54 其他开发

MySQL 的扩展解决方案(复制、集群)

在启动时,我们正在考虑为我们的数据库扩展解决方案.MySQL 的事情变得有些混乱(至少对我而言),它有 MySQL 集群、复制和MySQL 集群复制(从 5.1.6 版开始),这是 MySQL 集群的异步版本.MySQL 手册解释了其 集群常见问题,但很难从中确定何时使用其中之一. 如果您熟悉这些解决方案之间的差异、优缺点,以及您建议何时使用每种解决方案,我将不胜感激. 解决方案 我 ..
发布时间:2021-11-20 22:00:32 MySQL

在 Python 上的 WordCloud 我想合并两种语言

在 Python 上的 WordCloud 中,我想将两种语言合并到一张图片中(英语、阿拉伯语),但是我无法添加阿拉伯语,因为您看到的是正方形而不是单词,并且当我调用 Arab_reshaper 库并制作它读取 csv 文件它向我显示阿拉伯语并将英语作为正方形 wordcloud = WordCloud(搭配 = 错误,宽度=1600,高度=800,background_color='白色', ..
发布时间:2021-11-17 01:25:39 其他开发

点差 vs MPI vs zeromq?

在 像 UDP 一样使用TCP 的可靠性,一位用户提到了 Spread 消息传递 API.我还遇到过一个名为 ØMQ 的问题.我也对 MPI 有所了解. 所以,我的主要问题是:为什么我会选择一个而不是另一个?更具体地说,既然有成熟的 MPI 实现,我为什么要选择使用 Spread 或 ØMQ? 解决方案 MPI 被设计为具有快速、可靠网络的紧耦合计算集群.Spread 和 ØMQ 是 ..
发布时间:2021-11-15 01:00:11 其他开发

Zookeeper - 从独立升级到法定人数

目前我在测试系统中使用了一个独立的 ZK 实例.但是这个测试系统已经变成了生产系统,我想在不影响 ZK 监管的 SolrCloud 系统的可用性的情况下从 1 个 ZK 实例升级到 3 个. 从我读过的内容来看,使用滚动重启从 3 升级到 5 等等非常容易,但没有找到任何关于从独立(1 个实例)升级到 3 的信息. 有没有人对此有任何见解(任何可能尝试过的人)?谢谢! 解决方案 ..
发布时间:2021-11-15 00:07:17 其他开发

高级主选举算法与欺凌算法相比有什么好处?

我阅读了当前的主选举算法(如 Raft、Paxos 或 Zab)如何在集群上选举主,但不明白为什么他们使用复杂的算法而不是简单的欺凌算法. 我正在开发一个集群库并使用 UDP 多播来处理心跳消息.每个节点加入一个多播地址,并定期向该地址发送数据报包.如果节点发现有一个新节点向该多播地址发送数据包,则该节点会被简单地添加到集群中,类似地,当集群中的节点没有从某个节点获取任何包时,它们会将其从集 ..
发布时间:2021-11-15 00:04:23 其他开发

连接到 Apache Kafka 多节点集群中的 Zookeeper

我按照以下说明设置了多节点 kafka 集群.现在,如何连接到zookeeper?可以在 JAVA 中从生产者/消费者端连接到一个动物园管理员还是有办法连接所有动物园管理员节点? 设置多节点Apache ZooKeeper集群 在集群的每个节点上,将以下几行添加到文件 kafka/config/zookeeper.properties server.1=zNode01:2888:3 ..
发布时间:2021-11-15 00:01:44 其他开发

ZooKeeper 替代品?(集群协调服务)

ZooKeeper 是一种用于数据中心的高度可用的协调服务.它起源于 Hadoop 项目.可以在其上实现锁定、故障转移、领导者选举、组成员身份和其他协调问题.ZooKeeper 有其他替代方案吗?(当然是免费软件) 解决方案 我广泛地研究了 Zookeeper/Curator, Eureka、etcd 和 consul.如果您在 Java 世界中,Zookeeper/Curator 和 E ..
发布时间:2021-11-14 23:58:47 其他开发

Spark 2.2 Sort 因庞大的数据集而失败

我在排序基于 4 列的庞大数据集 (1.2 T) 时遇到问题.我还需要在排序后立即根据排序函数中使用的列之一在 HDFS 中写入最终数据集时对该数据集进行分区. 这是我几天前发布的一个 stackoverflow 帖子,描述了我使用相同代码但关于连接两个数据集的另一个问题: 上一期 我使用这篇文章的答案来改进我的代码.现在连接工作正常. 我测试了没有排序的代码,它工作正常. ..
发布时间:2021-11-14 22:49:16 其他开发

Spark 2.2 Join 失败,数据集庞大

我目前在尝试使用 Spark DataFrame API 将庞大的数据集 (654 GB) 与较小的数据集 (535 MB) 结合(内部)时遇到问题. 我正在使用 broadcast() 函数向工作节点广播较小的数据集. 我无法在这两个数据集之间进行连接.这是我得到的错误示例: 19/04/26 19:39:07 INFO executor.CoarseGrainedExecutor ..
发布时间:2021-11-14 22:20:44 其他开发

使用 Scala 将 Array[DenseVector] 转换为 CSV

我在 Scala 中使用 Kmeans Spark 函数,我需要将获得的集群中心保存到 CSV 中.这个 val 是类型:Array[DenseVector]. val cluster = KMeans.train(parsedData, numClusters, numIterations)val中心=clusters.clusterCenters 我试图将 centers 转换为 RDD ..
发布时间:2021-11-14 21:12:26 其他开发

Spark spark-submit --jars 参数需要逗号列表,如何声明 jars 目录?

在 在 Spark 文档中提交应用程序,截至1.6.0 及更早版本,不清楚如何指定 --jars 参数,因为它显然不是冒号分隔的类路径,也不是目录扩展. 文档说“包含您的应用程序和所有依赖项的捆绑 jar 的路径.URL 必须在集群内部全局可见,例如,hdfs://路径或存在于所有节点." 问题:提交类路径的所有选项是什么?--jars 在 $SPARK_HOME/bin 中的 spa ..
发布时间:2021-11-12 05:32:57 其他开发

连接到 Apache Kafka 多节点集群中的 Zookeeper

我按照以下说明设置了多节点 kafka 集群.现在,如何连接到zookeeper?可以在 JAVA 中从生产者/消费者端连接到一个动物园管理员还是有办法连接所有动物园管理员节点? 设置多节点Apache ZooKeeper集群 在集群的每个节点上,将以下几行添加到文件 kafka/config/zookeeper.properties server.1=zNode01:2888:3 ..
发布时间:2021-11-12 02:22:48 其他开发

集群中的 Apache Flink 流不会与工作人员拆分作业

我的目标是建立一个使用 Kafka 作为源的高吞吐量集群 &Flink 作为流处理引擎.这是我所做的. 我已经在主节点和工作节点上设置了一个 2 节点集群,以下配置. 掌握 flink-conf.yaml jobmanager.rpc.address: #本地主机jobmanager.rpc.port: 6123jobmanager.heap.mb: 256taskmanager.h ..
发布时间:2021-11-12 02:13:46 其他开发

Flink- 在远程集群上运行 WordCount 示例时出错

我在 VirtualBox 上有一个 Flink 集群,包括三个节点,1 个主节点和 2 个从节点.我自定义了 WordCount 示例并创建了一个胖 jar 文件以使用 VirtualBox Flink 远程集群运行它,但我遇到了错误. 注意:我手动将依赖项导入到项目中(使用 Intellij IDEA)并且我没有使用 maven 作为依赖项提供者.我在本地机器上测试了我的代码,没问题! ..
发布时间:2021-11-12 01:10:11 其他开发

集群中的 Apache Flink 流不会与工作人员拆分作业

我的目标是建立一个使用 Kafka 作为源的高吞吐量集群 &Flink 作为流处理引擎.这是我所做的. 我已经在主节点和工作节点上设置了一个 2 节点集群,以下配置. 掌握 flink-conf.yaml jobmanager.rpc.address: #本地主机jobmanager.rpc.port:6123jobmanager.heap.mb: 256taskmanager.he ..
发布时间:2021-11-12 01:01:28 其他开发