apache-storm相关内容
我正在尝试编写简单的 Storm + Camel 项目.我的 Storm 拓扑分析了推文,一个 bolt 应该将推文文本发送到 apache camel route,而后者又使用 websocket 通知某些 webapp. 由于在尝试使用 build once CamelContext 时从 Bolts 收到 NotSerializableExceptions,我无法使其工作. 我已
..
我正在使用 python 风暴.我用这个命令在本地运行拓扑 mvn compile exec:java -Dexec.classpathScope=compile -Dexec.mainClass=my.Topology 并得到这个错误 java.lang.NoSuchMethodError: org.slf4j.spi.LocationAwareLogger.log(Lorg/slf4j/
..
标题几乎说明了一切,我有一些 Storm 拓扑,我想测量它们的延迟,即从 Kafka 传入消息到最终相关执行的最后一点之间的时间量螺栓.如果我可以深入研究结果以查看每个螺栓的延迟,则加分. 这可以通过简单地调整 Storm 配置来完成吗? 如果没有,是 http://storm.incubator.apache.org/apidocs/backtype/storm/hooks/info
..
我正在绝望地尝试配置序列化程序实例以在我的 Storm 拓扑中使用. storm 文档指出,有两种方法可以注册序列化程序: 1.要注册的类的名称.在这种情况下,Storm 将使用 Kryo 的 FieldsSerializer 来序列化类.这可能是课程的最佳选择,也可能不是 - 有关更多详细信息,请参阅 Kryo 文档.2. 从要注册的类的名称到 com.esotericsoftware.
..
在 yaml 中设置 topology.stats.sample.rate: 1.0 对性能有什么影响? 这是如何工作的? 解决方案 topology.stats.sample.rate 配置计算 Storm 拓扑统计数据的速率. defaults.yaml 中的默认值为 0.05.这意味着 100 个事件中只考虑了 5 个. 1 的值表示要计算每个元组的统计信息. 这
..
我现在有一个包含 2 个物理节点的 Storm 集群.我在 node-1 上运行 storm nimbus,在 node-2 上运行 storm supervisor.看起来我所有的拓扑都只在节点 2(主管节点)上运行.我也应该在 node-1 上运行主管吗? 谢谢 解决方案 你可以,但我不推荐它. 在 Storm 当前的设计中,nimbus 是一个单点故障(有计划解决这个问题
..
我们将 Storm 与 Kafka 和 ZooKeeper 一起使用.我们遇到过必须删除一些主题并使用不同名称重新创建它们的情况.除了现在读取新主题名称之外,我们的 Kafka 喷口保持不变.但是现在,当尝试从新主题读取时,spout 正在使用旧主题分区的偏移量.因此,my-topic-name 分区 0 的尾部位置将为 500,但偏移量将类似于 10000. 有没有办法重置偏移位置,使其与
..
我可以使用标准的 spout、bolt 组合来进行流聚合并且在愉快的情况下工作得很好,当使用刻度元组以某个时间间隔保留数据时使用批处理.现在我正在做一些失败管理(跟踪未保存的元组等).(即不是来自风暴的 ootb) 但我读过三叉戟为您提供了更高的抽象和更好的故障管理.我不明白的是三叉戟中是否有刻度元组支持.基本上我想在当前一分钟左右的内存中批处理并保留所有聚合数据前几分钟使用三叉戟.
..
想要对事件流进行实时指标计算,Azure 中什么是好的选择?流分析还是风暴?我对 SQL 或 Java 都很满意,所以想知道其他的区别是什么. 解决方案 这取决于您的需要和要求.我将尝试列出两者的优势和优势.在设置方面,Stream Analytics 比 Storm 更胜一筹.如果您需要经常问很多不同的问题,流分析非常有用.流分析也只能处理 CSV 或 JSON 类型的数据.流分析也只能
..
我已经开始使用storm,所以我使用本教程 当我使用 LocalCluster 运行我的拓扑时,一切看起来都很好,我的问题是我没有在元组上收到 ACK,这意味着我的 spout ack 永远不会被调用. 我的代码如下 - 你知道为什么不调用 ack 吗? 所以我的拓扑是这样的 public StormTopology build() {TopologyBuilder build
..
我有一个 Apache Storm 拓扑结构,并希望每隔一段时间执行一次特定操作.我不知道如何以一种自然而优雅的方式来解决这个问题. 它应该是一个 Bolt 还是一个使用 ScheduledExecutorService 的 Spout,或者其他什么? 解决方案 Tick tuples 是一个不错的选择 https://kitmenke.com/blog/2014/08/04/tic
..
内部服务器错误org.apache.thrift7.transport.TTransportException: java.net.ConnectException: 连接被拒绝在 org.apache.thrift7.transport.TSocket.open(TSocket.java:183)在 org.apache.thrift7.transport.TFramedTransport.op
..
所以我想弄清楚如何使用 ES 和 Kibana 安装和设置 Storm/Stormcrawler,如 此处. 我从来没有在我的本地机器上安装过 Storm,因为我以前用过 Nutch,而且我从来没有在本地安装过 Hadoop……我认为 Storm 可能也一样(也许不是?). 我现在想开始用 Stormcrawler 而不是 Nutch 爬行. 看来,如果我只是下载一个版本并将/b
..
使用锚定时是否有限制重播次数的选项?我有一个应该解析 json 对象的元组,以防它出现异常,我希望它再重播两次. 我试图跟踪 Storm 用打印重播的次数,但每次我输入不可解析的值时,计数器都会显示不同的结果. catch{收集器失败(元组)} 解决方案 BaseRichSpout 类中的 fail 方法为空.这意味着您应该覆盖相同的方法来处理失败的元组回复策略.
..
我正在尝试使用图形 API 获取 fb 页面数据.每个帖子的大小超过 1MB,其中 kafka 默认 fetch.message 为 1MB.通过在 kafa consumer.properties 和 server.properties 文件中添加以下行,我已将 kafka 属性从 1MB 更改为 3MB. fetch.message.max.bytes=3048576 (consumer.p
..
我正在为 Storm 开发代码,这是开发人员的一个例子.我的问题是,当您从 IDE Eclipse 运行此代码时,没有建立 Storm 和 Zookeeper 之间的连接.Zookeeper运行在2181,也是设置在storm.yaml中. 我的例外是: 72992 [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2000] WARN o.a.s.s.o.a.z
..
我是 Storm 的新手,我在弄清楚如何按顺序处理记录时遇到了问题. 我有一个数据集,其中包含具有以下字段的记录: user_id、location_id、time_of_checking 现在,我想确定满足我指定路径的用户(例如,从位置 A 到位置 B 再到位置 C 的用户). 我正在使用 Kafka 生产者并从文件中读取这些记录来模拟实时数据.数据按日期排序. 因
..
我有一个拓扑结构,我试图计算由 SimulatorSpout(不是真正的 Stream)生成的单词出现次数,然后写入 MySQL 数据库表,表方案非常简单: 字段 |类型 |...身份证 |整数(11) |自动_icr词 |varchar(50) |计数 |整数(11) | 但我面临着奇怪的问题(正如我之前提到的)我成功提交了 The Topology 到我的 Storm Cluster,它由
..
我一直在寻找几个小时,但没有找到明确的答案.我想知道什么是最适合与 apachestorm/spark 一起使用的数据可视化工具.我知道有 tableau 和 jaspersoft,但它们不是免费的.此外,还可以使用 elasticsearch 和 kibana,但我想找到/尝试其他方法.所以,你有什么想法吗?! 非常感谢您的关注. 解决方案 Apache Zeppelin 是一个很
..
我是 Storm 的新手,我正在浏览 Storm 的字数统计示例.这是跟踪计数的螺栓 public static class WordCount extends BaseBasicBolt {映射counts = new HashMap();@覆盖公共无效执行(元组元组,BasicOutputCollector 收集器){字符串字 = tuple.getString(0);整数计数 = coun
..