bigdata相关内容
我正在尝试运行示例Spark流代码.但我收到此错误: 16/06/02 15:25:42 ERROR streaming.StreamingContext: Error starting the context, marking it as stopped java.lang.IllegalArgumentException: requirement failed: No output op
..
我知道在新的Kafka版本中,我们有新的保留策略选项-压缩日志,删除具有相同密钥的旧版本的邮件.但是经过很长一段时间,我们将获得太多带有旧消息的压缩日志段.我们如何自动清除此压缩日志? UDPATE : 我应该澄清一下,我们需要紧凑的日志和方法来清理那些旧的消息. 我在这里找到了针对同一问题的讨论 http://grokbase.com/t/kafka/users/14bv6gaz0t
..
我遇到了 Fluentd .当它足够容易直接将原始数据存储在db上时,为什么要使用这种东西呢?我可能会误解此处技术的使用.很高兴听到一些反馈. 为什么任何人都想遍历另一层,因为它很容易捕获并在您自己的数据存储区中存储原始数据? 请考虑这种情况.我要存储页面浏览量.原始数据存储在RDBMS中,格式化数据存储在Mongodb中.这是我当前设置的简短描述: 当用户访问我的网站时.我的应
..
我们使用Hiveserver2(在Hortonworks HDP2.2发行版上)创建了新的数据仓库.一段时间后,我们在hdfs上的/tmp/hive/hive中有超过1048576个目录,因为hive服务器在此位置生成了该目录. 有人有类似的问题吗? 来自hiveserver的日志: 2015-08-31 06:48:15,828 WARN [HiveServer2-Handler-
..
我对Spark非常陌生.我有一个输入json文件,我将其读取为 val df = spark.read.json("/Users/user/Desktop/resource.json"); resource.json的内容如下: {"path":"path1","key":"key1","region":"region1"} {"path":"path112","key":"key
..
发表在NSDI 2015上的论文“了解数据分析框架中的性能"得出的结论是,CPU(而非IO或网络)是Spark的性能瓶颈. Kay在Spark上进行了一些实验,包括BDbench,TPC-DS和生产工作负载(仅使用Spark SQL?).我不知道这个结论是否适用于基于Spark的某些框架(例如Streaming,通过网络接收连续的数据流,网络IO和磁盘都将承受很大压力). 解决方案 Spa
..
现在,我在如何处理数据并将其转换为数据框方面遇到了麻烦.基本上我想做的是先读取数据 data = pd.read_csv(querylog, sep=" ", header=None) 然后分组 query_group = data.groupby('Query') ip_group = data.groupby('IP') 最后创建一个空白数据框以映射其值 df = p
..
我有以下数据框:df 在某些时候,我需要根据时间戳(毫秒)过滤掉项目. 但是,对我来说很重要的是保存筛选的记录数(以防万一我想使工作失败) 我可以天真地做: ======Lots of calculations on df ====== val df_filtered = df.filter($"ts" >= startDay && $"ts"
..
因此,我想读取RDD并将其放入一个数组中.为此,我可以使用 collect 方法.但是该方法确实很烦人,因为在我的情况下,它一直在给出kyro缓冲区溢出错误.如果我过多地设置了kyro缓冲区大小,它将开始出现自己的问题.另一方面,我注意到,如果仅使用 saveAsTextFile 方法将RDD保存到文件中,则不会出错.因此,我在想,必须有一些更好的方法来将RDD读入数组,这没有 collect 方
..
我有一个10GB的.xml文件,我想使用mass insert将其上传到Redis服务器.我需要有关如何将此.xml数据转换为Redis支持的某些键,值或任何其他数据结构的建议?我正在使用流溢出堆栈,例如,如果我占用comments.xml. 数据模式: 行Id ="5" PostId ="5" Score ="9" Text =“这是一个超级理论上的AI问题.一个有趣的讨论!但是不合时宜.
..
我有65000个数据可以从DB导入到excel中.但是PF DataExporter组件没有将大数据写入excel中.我可以用于此过程吗?该过程是否有库? 解决方案 您可以使用: Apache POI 一些示例-快速指南非常易于使用,非常简单例子 碧玉报告只需链接-需要一些时间才能弄清 如果您只需要一个excel导出,请使用Apache POI. 如果您有很多报告,我建
..
我是火花的新手,使用cloudera管理器中可用的包裹安装了火花之后. 我已经配置了文件,如cloudera Enterprise的以下链接所示: 完成此设置后,我通过运行/opt/cloudera/parcels/SPARK/lib/spark/sbin/start-all.sh启动了spark中的所有节点.但是由于出现以下指定的错误,我无法运行工作程序节点. [root@lo
..
input.txt包含8000000行和4列.前2列为文字,后2列为数字.第1列和第2列中的唯一符号(例如"c33")的数量不固定.第3列和第4列的值分别是第1列和第2列的唯一符号数,分别用“]"分割. input.txt文件的每一行都是这样的: c33]c21]c5]c7]c8]c9 TPS2]MIC17]ERG3]NNF1]CIS3]CWP2 6 6 **理想的结果: row[
..
我有一个CSV格式的文件,其中包含一个带有"id","timestamp","action","value"和"location"列的表. 我想对表的每一行应用一个函数,并且已经在R中编写了如下代码: user
..
sqoop job --create myjob --import --connect "jdbc:mysql://localhost/classicmodels" --username root --password 123 --table customers -m 1 --taget-dir /manoj280217/sqoop 错误: 17/02/28 08:56:18 INFO
..
我正在使用 Java 创建压缩算法; 要使用我的算法,我需要大量有关目标文件结构的信息. 收集数据后,我需要重新读取文件.
..
如何将提交给presto群集的所有查询存储在一个文件(ORC文件)中,或者存储在其他数据库中.目的是保留对presto worker执行的所有查询的记录. 我知道我需要覆盖queryCompleted方法,我还尝试遵循我是新手,无论是专家还是专家.如果有人可以帮助我,那就太好了. 解决方案 这是我的方法,它可以在EMR5.9(0.184之前)上工作. 首先,您已经知道,可以使用
..
我们需要将表列数据类型从字符串更改为日期.在尝试执行操作时遇到以下错误.你能帮忙吗? hive>描述sales_staging; 好 cust_id字符串prod_num字符串 数量int sale_date字符串 sale_id字符串 耗时:0.151秒, 已提取:5行 hive>更改表sales_staging更改sale_date sale_date DATE
..
我将使用大量结构如下的文件: /day/hour-min.txt.gz 共14天.我将使用一个由90个节点/工人组成的集群. 我正在读取wholeTextFiles()的所有内容,因为这是允许我适当地拆分数据的唯一方法.所有计算将在每分钟的基础上完成(因此基本上是每个文件),最后减少一些步骤.大约有20.000个文件;如何有效地对它们进行分区?我要让火花决定吗? 理想情况下,
..
我们的网上商店中大约有170万种产品,我们要记录该产品在1年的时间里有多少次观看,我们希望至少每2小时记录一次观看次数,问题是要使用哪种结构这个任务? 现在,我们尝试将统计信息保留在具有2列classified_id,stats的记录中30天,其中统计信息就像带格式date:views,date:views ...的已剥离json ...例如,一条记录看起来像 345422,{051216
..