apache-storm相关内容

如何为 Apache Storm 工作人员启用 GC 日志记录,同时防止日志文件覆盖和限制磁盘空间使用

我们最近决定在多个集群上为 Apache Storm 工作程序启用 GC 日志记录(具体版本各不相同),以帮助调查与拓扑相关的内存和垃圾收集问题.我们想为工人这样做,但我们也想避免我们知道可能会发生的两个问题: 当工作人员因任何原因重新启动时覆盖日志文件 日志使用过多的磁盘空间,导致磁盘被填满(如果集群运行时间足够长,除非进行管理,否则日志文件将填满磁盘) 当一个进程的 Java G ..
发布时间:2021-11-14 23:38:35 其他开发

线程“main"中的异常java.lang.NoClassDefFoundError: backtype/storm/spout/MultiScheme

我正在尝试将 Storm 与 Kafka 集成.我正在使用 KafkaSpout 运行 Storm 拓扑.这是基本的字数统计拓扑.我使用 Apache Kafka 作为源和风暴来处理数据.在提交拓扑时,我面临这些问题.我对 Kafka 和 Storm 很陌生.请建议我在以下代码中需要做的更改. 这是我的代码: public class TopologyMain {private stati ..
发布时间:2021-11-14 23:38:31 Java开发

使用 KafkaOffsetMonitoring 工具监控 Kafka Spout

我正在为我的项目使用 Storm-0.9.2 发行版附带的 kafkaSpout.我想监控这个 spout 的吞吐量.我尝试使用 KafkaOffsetMonitoring,但它没有显示任何消费者阅读我的主题. 我怀疑这是因为我在 Zookeeper 中为 spout 指定了根路径来存储消费者偏移量.kafkaOffsetMonitor 如何知道在哪里查找有关我的 kafkaSpout 实例 ..
发布时间:2021-11-14 23:38:28 其他开发

当你添加更多节点时,Storm 如何处理字段分组?

刚刚阅读了有关storm的更多详细信息,并发现它具有进行字段分组的能力,例如,如果您在计算每个用户的推文并且您有两个具有用户ID字段分组的任务,则相同的用户ID将被发送到相同的任务. 因此任务 1 可能在内存中具有以下计数鲍勃:10爱丽丝:5 任务 2 在内存中可能有以下计数吉尔:10乔:4 如果我向集群添加了一台新机器以增加容量并运行重新平衡,我在内存中的计数会发生什么变化?你 ..
发布时间:2021-11-14 23:38:24 其他开发

Apache Storm 远程拓扑提交

我一直在测试使用 IDE (Eclipse) 远程提交 Storm Topologies.我成功地将简单的storm拓扑上传到远程Storm集群,但奇怪的是当我检查Storm UI以确保远程提交的拓扑是否正常工作时,我在UI中只看到_acker bolt,但其他bolts并且喷口不在那里.之后,我从命令行手动提交了拓扑并再次检查了 Storm UI,它正在正常工作,没有问题.我一直在寻找原因,但没 ..
发布时间:2021-11-14 23:38:22 Java开发

从 Storm bolt 将行插入 HBase

我希望能够从分布式(非本地)Storm 拓扑中将新条目写入 HBase.有一些 GitHub 项目提供 HBase Mappers 或 预制 Storm bolts 将元组写入 HBase.这些项目提供了在 LocalCluster 上执行其示例的说明. 我在使用这两个项目并直接从 Bolt 访问 HBase API 时遇到的问题是,它们都需要将 HBase-site.xml 文件包含在类路 ..
发布时间:2021-11-14 23:38:18 Java开发

Kafka Spout 的字段分组

可以对 kafka spout 发出的元组进行字段分组吗?如果是,那么 Storm 是如何知道 Kafka 记录中的字段的? 解决方案 Kafka Spout 像任何其他组件一样声明其输出字段.我的解释基于 KafkaSpout 的当前 implementation. 在KafkaSpout.java 类中,我们看到declareOutputFields 方法调用KafkaConfi ..
发布时间:2021-11-14 23:38:12 其他开发

ack引起的风暴延迟

我使用kafka-storm来连接kafka和storm.我有 3 台服务器运行 Zookeeper、kafka 和 Storm.kafka 中有一个主题“test",它有 9 个分区. 在storm拓扑中,KafkaSpout executor的数量是9个,默认任务数也应该是9个.“提取"螺栓是唯一连接到“日志"喷口 KafkaSpout 的螺栓. 从用户界面来看,spout 的失败 ..
发布时间:2021-11-14 23:38:06 其他开发

如何在cloudfoundry上使用kafka和storm?

我想知道是否可以将 kafka 作为云原生应用程序运行,我是否可以在 Pivotal Web Services 上创建 kafka 集群作为服务.我不想只做客户端集成,我想自己运行 kafka 集群/服务? 谢谢,阿尼尔 解决方案 我可以指出几个起点,从这些起点到功能齐全的东西需要一些工作. 一种选择是使用 docker 镜像在 Cloud Foundry(例如 Pivotal ..

Apache Storm bolt 从不同的 spout/bolt 接收多个输入元组

一个 bolt 是否可以从不同的 spout/bolt 接收多个输入元组?例如,Bolt C 接收来自 Spout A 的输入元组和来自 Bolt B 的输入元组进行处理.我应该如何实施它?我的意思是为 Bolt C 及其拓扑编写 Java 代码. 解决方案 教程回答您的问题. https://storm.apache.org/documentation/Tutorial.html ..
发布时间:2021-11-14 23:37:57 Java开发

使 Storm JAR 仅在 Gradle 项目中编译

我正在尝试构建一个包含 Storm 项目的 Gradle 项目.为了在 Storm 上运行这个项目,我必须首先创建一个 JAR 文件并让 Storm 运行我的拓扑,例如 storm jar myJarFile.jar com.mypackage.MyStormMainClass 我遇到了问题,因为 Gradle 默认在编译时和运行时都包含 Storm 依赖项.这会导致以下异常: 线程“mai ..
发布时间:2021-11-14 23:37:50 其他开发

物理内存使用率过高

当我尝试使用 在具有 Storm 的本地模式下运行拓扑时出现此错误 mvn compile exec:java -Dexec.classpathScope=compile -Dexec.mainClass=my.Topology 错误是 错误 backtype.storm.util - 异步循环死了!java.lang.OutOfMemoryError:物理内存使用率过高:physical ..
发布时间:2021-11-14 23:37:47 Java开发

从风暴螺栓记录 - 它要去哪里?

我在集群上的拓扑中部署了几个 Bolt.每个都配置为通过 slf4j 登录.在测试机器上,我让 stdout 和 file appenders 工作正常. 当我将它部署到集群时,日志记录似乎已经消失了.据我所知,我在风暴日志(在主管机器上)、/var/log/* 或其他任何地方都没有得到任何信息. 我可以在 Storm Worker 内部使用日志系统吗?如果是这样,是否有获取消息的技巧 ..
发布时间:2021-11-14 23:37:44 其他开发

在 Storm 中配置并行性

我是 Apache Storm 的新手,我正在尝试自己思考如何配置 Storm 并行性.所以有一篇很棒的文章“Understanding the Parallelism of风暴拓扑",但它只会引起问题. 当您有一个多节点风暴集群时,每个拓扑都根据 TOPOLOGY_WORKERS 配置参数作为一个整体分布.因此,如果您有 5 个工人,那么您就有 5 个 spout 副本(每个工人 1 个) ..
发布时间:2021-11-14 23:37:41 其他开发

工人之间如何共享螺栓和喷口?

假设我在 Storm 集群中有 2 个 spout 和 3 个 bolt,并且有两个工作节点.将在这些工人之间共享这些喷口和螺栓(例如,第一个工人有 1 个喷口和 2 个螺栓,第二个工人有 1 个喷口和 1 个螺栓),或者每个工人有 2 个喷口和 3 个螺栓,最终有 4 个喷口和 6 个螺栓整个集群? 解决方案 Spout 和 bolt 由您的所有集群(so worker)共享. 如 ..
发布时间:2021-11-14 23:37:35 其他开发