flume-ng相关内容
需要你的帮助! 我正在尝试从 Twitter 获取数据,然后将其加载到 Hive 中进行分析的简单练习.虽然我能够使用flume(使用Twitter 1% firehose Source)将数据导入HDFS,也能够将数据加载到Hive表中. 但无法看到我期望在 Twitter 数据中出现的所有列,例如 user_location、user_description、user_friend
..
我想将 Kafka 消息写入 MySQL 数据库.this 中有一个例子 链接.在那个例子中,apache flume 用于消费消息并将其写入 MySQL.我使用相同的代码,当我运行 flume-ng agent 和 event 总是变成 null 我的 flume.conf.properties 文件是: agent.sources=kafkaSrcagent.channels=chan
..
我正在尝试从 JMS 源读取数据并将它们推送到 KAFKA 主题,同时在几个小时后我观察到推送到 KAFKA 主题的频率几乎为零,经过一些初步分析后,我发现 FLUME 日志中有以下异常. 2017 年 2 月 28 日 16:35:44,758 错误 [SinkRunner-PollingRunner-DefaultSinkProcessor] (org.apache.flume.SinkRu
..
下午好,我无法增加Flume的堆大小.结果,我得到: 线程“主"中的异常java.lang.OutOfMemoryError:Java堆空间 我增加了在"flume-env.sh"以及Hadoop/Yarn中定义的堆.没有运气. 需要注意的一点是,在启动水槽时,Exec(processbuilder?)似乎将堆定义为20Mb.关于如何覆盖它的任何想法? 信息:包括通过(/usr/lo
..
我想将Kafka消息写到MySQL数据库.此示例链接.在该示例中,apache槽用于消耗消息并将其写入MySQL.我使用的是相同的代码,当我运行 flume-ng代理和 event 时,总是变成 null 我的 flume.conf.properties 文件是: agent.sources = kafkaSrcagent.channels =频道1agent.sinks = jdbcS
..
我已经为我的应用程序配置了flume代理,其中源是Spooldir,接收器是HDFS 我能够在hdfs中收集文件. 代理配置为: agent.sources = src-1 agent.channels = c1 agent.sinks = k1 agent.sources.src-1.type = spooldir agent.sources.src-1.channels =
..
我是flume的新手.我的flume代理以http服务器为源,从那里定期获取zip文件(压缩的xml文件).此zip文件很小(小于10 mb),我想放将zip文件解压缩到hdfs接收器中.请分享一些操作方法.我是否需要自定义拦截器. 解决方案 Flume会尝试逐行读取文件,除非您配置了特定的反序列化器.解串器使您可以控制文件的解析和拆分方式.您当然可以遵循blob反序列化器的示例,该示例是
..
我是Flume的新用户,请将我视为绝对的菜鸟.我在为特定用例配置Flume时遇到一个小问题,希望您能提供帮助.请注意,我没有使用HDFS,这就是为什么这个问题与您在论坛上可能看到的其他问题不同的原因. 我有两个通过Oracle Virtual Box上的内部网络相互连接的虚拟机(VM).我的目标是让一个VM监视一个特定的目录,该目录中永远只有一个文件.更改文件后,我希望Flume仅发送新行/
..
我想将数据从flume-ng写入Google Cloud Storage. 这有点复杂,因为我观察到了非常奇怪的行为.让我解释一下: 简介 我已经在Google Cloud上启动了一次hadoop集群(一键设置),以使用存储桶. 当我在主服务器上SSH并使用hdfs命令添加文件时,我可以立即在存储桶中看到它 $ hadoop fs -ls / 14/11/27 15:01:
..
我有一个玩具设置,使用水槽向hdfs发送log4j消息。我无法配置hdfs接收器以避免许多小文件。我想我可以在每次文件大小达到10MB时配置hdfs接收器来创建一个新文件,但它仍然创建约1.5KB的文件。 这是我的当前水槽配置: a1.sources = o1 a1.sinks = i1 a1.channels = c1 #source配置 a1.sources.o
..
text_with_headers序列化程序(HDFS汇序列化程序)允许保存Flume事件标题而不是丢弃它们。输出格式由标题,后面跟一个空格,然后是主体有效载荷组成。我们想放弃身体并仅保留标题。 对于HBase接收器,“RegexHbaseEventSerializer”允许我们转换事件。但是我无法为HDFS接收器找到这样的规定。 您可以设置序列化器属性添加到 header_and_text ,
..
当我尝试Cloudera 5.4.2时有一个小问题。基于这篇文章 Apache Flume - 获取Twitter数据 http://www.tutorialspoint.com/apache_flume/fetching_twitter_data.htm 它试图使用Flume和Twitter流获取推文进行数据分析。所有的事情都很开心,创建Twitter应用程序,在HDFS上创建目录
..
新来flume ... 我正在接收avro事件并将它们存储到HDFS中。 据我所知,默认情况下只有事件的主体存储在HDFS中。我也知道有一个 avro_event序列化程序。但是我不知道这个串行器实际上在做什么?它如何影响接收器的最终输出? 另外,我不知道如何将事件转储到保存其头信息的HDFS中。是否需要编写自己的序列化程序? 解决方案 事实证明,序列化程序 avro_e
..
我在虚拟机中使用Flume 1.6.0,在另一台虚拟机中使用Hadoop 2.7.1。 当我将Avro Events发送到Flume 1.6.0并尝试在Hadoop 2.7.1 HDFS系统上编写代码时。发生以下异常: $ b $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $进程(HDFSEventSink.java:455)] HDFS IO错误 org.apache
..
bin / flume-ng agent -n TwitterAgent --conf ./conf/ -f conf / flume-twitter.conf -Dflume.root.logger = DEBUG,console 当我运行上面的命令时,它会产生以下错误: 2016-05-06 13:33:31,357(Twitter Stream consumer-
..
我想获得星火与水槽工作,水槽下面的配置: #Declare log.sources SRC = log.sinks =火花 log.channels = CHS#定义源log.sources.src.type = EXEC log.sources.src.command = SH /home/user/shell/flume.sh水槽的#define log.sinks.spark.type
..