flume相关内容
我有一个简单的水槽设置,带有一个 HTTP 源和一个将 POST 请求有效负载写入文件的接收器.(此完整设置是在 Linux 机器上进行的). 在那之后,我的任务是对这些设置进行性能测试.所以我决定使用JMeter(这是第一次,我正在使用它). 所以我在我的 windows 机器上创建了一个测试计划(使用 GUI),然后将其复制到 linux 环境中的 jmeter/bin 文件夹中.
..
我现在使用 CDH-5.3.1 集群,其中三个 Zookeeper 实例位于三个 ip: 133.0.127.40 n1133.0.127.42 n2133.0.127.44 n3 启动时一切正常,但最近我注意到节点 n2 不断收到警告: 捕获流异常结束EndOfStreamException: 无法从客户端 sessionid **0x0** 读取附加数据,可能客户端已关闭套接字在 org
..
我正在尝试阅读有关 Kafka 主题的消息,但无法阅读.该进程在一段时间后被终止,没有读取任何消息. 这是我得到的重新平衡错误: [2014-03-21 10:10:53,215] 错误处理消息时出错,停止消费者:(kafka.consumer.ConsoleConsumer$)kafka.common.ConsumerRebalanceFailedException:topic-1395
..
查询:做一个router接口作为kafka集群的生产者. 问题:我的路由器接口正在尝试将数据推送到运行 kafka 的端口.(默认为 9092). 问.1 但是 kafka 代理可以在不创建主题的情况下接受这些数据吗? 问.2 kafka 消费者可以在不指定主题的情况下拉取数据吗? 如果是,如何?如果没有,有什么办法解决这个问题,我怎样才能做到这一点? 第一次编辑:
..
以下是当前流程的步骤: Flafka 将日志写入 HDFS 上的“登陆区". Oozie 安排的一项作业将完整文件从着陆区复制到暂存区. 临时数据由使用临时区域作为其位置的 Hive 表“架构化". 将临时表中的记录添加到永久 Hive 表中(例如,insert into Permanent_table select * from staging_table). Hive 表中的数据
..
我想创建一个可以实时读取日志的系统,并使用apache spark来处理它.我很困惑,如果我应该使用 kafka 或水槽之类的东西将日志传递给 Spark 流,还是应该使用套接字传递日志.我已经浏览了 Spark 流文档中的示例程序 - Spark 流示例.但是,如果有人能指导我更好地将日志传递给火花流,我将不胜感激.对我来说,这是一个新的领域. 解决方案 Apache Flume 可能有
..
我正在尝试阅读有关 Kafka 主题的消息,但无法阅读.该进程在一段时间后被终止,没有读取任何消息. 这是我得到的重新平衡错误: [2014-03-21 10:10:53,215] 错误处理消息时出错,停止消费者:(kafka.consumer.ConsoleConsumer$)kafka.common.ConsumerRebalanceFailedException:topic-1395
..
我是Kafka的新手,正在为我的新应用程序尝试一些小用例.用例基本上是卡夫卡制片人—>卡夫卡消费品—>槽-卡夫卡水源—> flume-hdfs-sink. 在消耗(步骤2)时,以下是步骤顺序.1. Consumer.Poll(1.0)1.a.产生多个主题(正在监听多个水槽代理)1.b.生产.轮询()2.每25毫秒一次Flush()3.每隔msgs提交一次(asynchCommit = fal
..
以下是当前流程的步骤: 由Oozie安排的作业将完整文件从着陆区复制到暂存区. 通过将暂存区用作其位置的Hive表对暂存数据进行“模式化". 将登台表中的记录添加到永久性Hive表中(例如,插入到staging_table中的* * from staging_table ). 通过在Impala中执行 refresh permanent_table ,可以在Impala中获得Hive表
..
下午好,我无法增加Flume的堆大小.结果,我得到: 线程“主"中的异常java.lang.OutOfMemoryError:Java堆空间 我增加了在"flume-env.sh"以及Hadoop/Yarn中定义的堆.没有运气. 需要注意的一点是,在启动水槽时,Exec(processbuilder?)似乎将堆定义为20Mb.关于如何覆盖它的任何想法? 信息:包括通过(/usr/lo
..
我正在根据我们通过简单的图像信标收集的检测数据为我们的网络媒体资源提供分析.我们的数据管道从Flume开始,我需要最快的方法来解析查询字符串参数,形成一条简单的文本消息并将其推入Flume. 出于性能方面的考虑,我倾向于使用nginx.由于已经支持从内存提供静态图像,因此我的任务简化为处理查询字符串并将消息转发到Flume.因此,问题是: 将Nginx与Flume集成的最简单可靠的方法
..
我正在使用此命令启动代理 bin/flume-ng代理--conf ./conf/-f conf/twitter.conf Dflume.root.logger = DEBUG,控制台-n TwitterAgent 我的错误消息是 线程"Twitter Stream Consumer-1 [Receiving stream]"中的异常java.lang.OutOfMemoryErro
..
我是Kafka的新手,正在为我的新应用程序尝试一些小用例.用例基本上是 卡夫卡制片人—>卡夫卡消费品—>槽-卡夫卡水源—>水槽-hdfs-水槽. 在消耗(步骤2)时,以下是步骤顺序. 1. Consumer.Poll(1.0) 1.a.产生多个主题(正在监听多个水槽代理) 1.b.生产.轮询() 2.每25毫秒一次Flush() 3.每隔msgs提交一次(asynchCommit = fal
..
请让我知道是否可以使用Flume将数据从Facebook传输到HDFS, 如果可以,请发布水槽的Configuration(Source). 谢谢 解决方案 有关如何从社交媒体(Facebook)流式传输数据的某些信息在 上. https://github.com/DataDanSandler
..
我在HDFS上使用flume生成了一些twitter数据日志文件,日志文件的实际格式是什么?我期待的是json格式的数据.但是看起来 此.有人可以帮助我如何读取此数据吗?或者我做这件事的方式有什么问题 解决方案 从此链接下载文件(hive-serdes-1.0-SNAPSHOT.jar) 然后将此文件放入$ HIVE_HOME/lib 将罐子放入蜂巢壳 hive> ADD JAR
..
我已遵循cloudera的教程( http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/),以便使用Apache Flume将Twitter数据提取到HDFS中. Twitter仅从2014年1月15日起才将其api连接限制为SSL/TLS.更改之后,我的Flume代理已停止流式传输Twitter数据. 如
..
根据此处 中的Flume文档 Flume源使用由外部源(如Web服务器)传递给它的事件.外部源以目标Flume源可以识别的格式将事件发送到Flume.例如,Avro Flume源可用于从流中从Avro接收器发送事件的流中的Avro客户端或其他Flume代理接收Avro事件. 为什么Flume来源需要识别或理解消息的格式?它所做的只是将邮件转发到其中一个频道. 解决方案 根据我
..
是否有任何资源可以帮助我为Flume-ng的HTTPSource编写自定义处理程序.我阅读了文档,并且有一个Json的示例处理程序,但是我想知道是否有人需要编写一个处理程序来从XML消息主体创建Flume事件. HttpSource现在在Flume-ng 1.3.1中可用,但是我们需要处理程序来解释我们的数据. 谢谢. 解决方案 您是否看过您只需要转换以下内容:
..
Flume具有一些准备就绪的组件,可以在进一步推动事件之前对其进行转换- 像RegexHbaseEventSerializer一样,您可以加入HBaseSink.此外,提供自定义序列化器也很容易. 我想处理事件并将其发送到下一个频道.最接近我想要的是 Regex Extractor拦截器,它接受用于regexp匹配的自定义序列化程序.但是它不能替代事件主体,只是将新的标头和结果附加到事件中,
..
我已经为我的应用程序配置了flume代理,其中源是Spooldir,接收器是HDFS 我能够在hdfs中收集文件. 代理配置为: agent.sources = src-1 agent.channels = c1 agent.sinks = k1 agent.sources.src-1.type = spooldir agent.sources.src-1.channels =
..