bigdata相关内容

如何从Kafka 0.8.2中的压缩日志中清除旧段

我知道在新的Kafka版本中,我们有新的保留策略选项-压缩日志,删除具有相同密钥的旧版本的邮件.但是经过很长一段时间,我们将获得太多带有旧消息的压缩日志段.我们如何自动清除此压缩日志? UDPATE : 我应该澄清一下,我们需要紧凑的日志和方法来清理那些旧的消息. 我在这里找到了针对同一问题的讨论 http://grokbase.com/t/kafka/users/14bv6gaz0t ..
发布时间:2020-09-20 19:54:45 Java开发

流利如何使这种情况受益?

我遇到了 Fluentd .当它足够容易直接将原始数据存储在db上时,为什么要使用这种东西呢?我可能会误解此处技术的使用.很高兴听到一些反馈. 为什么任何人都想遍历另一层,因为它很容易捕获并在您自己的数据存储区中存储原始数据? 请考虑这种情况.我要存储页面浏览量.原始数据存储在RDBMS中,格式化数据存储在Mongodb中.这是我当前设置的简短描述: 当用户访问我的网站时.我的应 ..
发布时间:2020-09-20 19:53:42 其他开发

Spark的性能瓶颈

发表在NSDI 2015上的论文“了解数据分析框架中的性能"得出的结论是,CPU(而非IO或网络)是Spark的性能瓶颈. Kay在Spark上进行了一些实验,包括BDbench,TPC-DS和生产工作负载(仅使用Spark SQL?).我不知道这个结论是否适用于基于Spark的某些框架(例如Streaming,通过网络接收连续的数据流,网络IO和磁盘都将承受很大压力). 解决方案 Spa ..

处理非常大的数据框

现在,我在如何处理数据并将其转换为数据框方面遇到了麻烦.基本上我想做的是先读取数据 data = pd.read_csv(querylog, sep=" ", header=None) 然后分组 query_group = data.groupby('Query') ip_group = data.groupby('IP') 最后创建一个空白数据框以映射其值 df = p ..
发布时间:2020-09-20 19:52:29 Python

计算数据框SPARK上的过滤项

我有以下数据框:df 在某些时候,我需要根据时间戳(毫秒)过滤掉项目. 但是,对我来说很重要的是保存筛选的记录数(以防万一我想使工作失败) 我可以天真地做: ======Lots of calculations on df ====== val df_filtered = df.filter($"ts" >= startDay && $"ts" ..
发布时间:2020-09-20 19:52:27 其他开发

有没有比收集更好的方法来读取Spark中的RDD了?

因此,我想读取RDD并将其放入一个数组中.为此,我可以使用 collect 方法.但是该方法确实很烦人,因为在我的情况下,它一直在给出kyro缓冲区溢出错误.如果我过多地设置了kyro缓冲区大小,它将开始出现自己的问题.另一方面,我注意到,如果仅使用 saveAsTextFile 方法将RDD保存到文件中,则不会出错.因此,我在想,必须有一些更好的方法来将RDD读入数组,这没有 collect 方 ..
发布时间:2020-09-20 19:52:22 Java开发

数据准备上传到Redis服务器

我有一个10GB的.xml文件,我想使用mass insert将其上传到Redis服务器.我需要有关如何将此.xml数据转换为Redis支持的某些键,值或任何其他数据结构的建议?我正在使用流溢出堆栈,例如,如果我占用comments.xml. 数据模式: 行Id ="5" PostId ="5" Score ="9" Text =“这是一个超级理论上的AI问题.一个有趣的讨论!但是不合时宜. ..
发布时间:2020-09-20 19:52:21 其他开发

PrimeFaces DataExporter用于大数据

我有65000个数据可以从DB导入到excel中.但是PF DataExporter组件没有将大数据写入excel中.我可以用于此过程吗?该过程是否有库? 解决方案 您可以使用: Apache POI 一些示例-快速指南非常易于使用,非常简单例子 碧玉报告只需链接-需要一些时间才能弄清 如果您只需要一个excel导出,请使用Apache POI. 如果您有很多报告,我建 ..
发布时间:2020-09-20 19:51:18 其他开发

Spark独立模式:工作者无法在cloudera中正常启动

我是火花的新手,使用cloudera管理器中可用的包裹安装了火花之后. 我已经配置了文件,如cloudera Enterprise的以下链接所示: 完成此设置后,我通过运行/opt/cloudera/parcels/SPARK/lib/spark/sbin/start-all.sh启动了spark中的所有节点.但是由于出现以下指定的错误,我无法运行工作程序节点. [root@lo ..
发布时间:2020-09-20 19:51:16 其他开发

R代码运行太慢,如何重写此代码

input.txt包含8000000行和4列.前2列为文字,后2列为数字.第1列和第2列中的唯一符号(例如"c33")的数量不固定.第3列和第4列的值分别是第1列和第2列的唯一符号数,分别用“]"分割. input.txt文件的每一行都是这样的: c33]c21]c5]c7]c8]c9 TPS2]MIC17]ERG3]NNF1]CIS3]CWP2 6 6 **理想的结果: row[ ..
发布时间:2020-09-20 19:50:11 其他开发

Java处理数十亿字节

我正在使用 Java 创建压缩算法; 要使用我的算法,我需要大量有关目标文件结构的信息. 收集数据后,我需要重新读取文件. ..
发布时间:2020-09-20 19:48:03 Java开发

记录所有presto查询

如何将提交给presto群集的所有查询存储在一个文件(ORC文件)中,或者存储在其他数据库中.目的是保留对presto worker执行的所有查询的记录. 我知道我需要覆盖queryCompleted方法,我还尝试遵循我是新手,无论是专家还是专家.如果有人可以帮助我,那就太好了. 解决方案 这是我的方法,它可以在EMR5.9(0.184之前)上工作. 首先,您已经知道,可以使用 ..
发布时间:2020-09-20 19:47:59 Java开发

在Hive中更改列数据类型

我们需要将表列数据类型从字符串更改为日期.在尝试执行操作时遇到以下错误.你能帮忙吗? hive>描述sales_staging; 好 cust_id字符串prod_num字符串 数量int sale_date字符串 sale_id字符串 耗时:0.151秒, 已提取:5行 hive>更改表sales_staging更改sale_date sale_date DATE ..
发布时间:2020-09-20 19:47:56 其他开发

Spark分区/集群执行

我将使用大量结构如下的文件: /day/hour-min.txt.gz 共14天.我将使用一个由90个节点/工人组成的集群. 我正在读取wholeTextFiles()的所有内容,因为这是允许我适当地拆分数据的唯一方法.所有计算将在每分钟的基础上完成(因此基本上是每个文件),最后减少一些步骤.大约有20.000个文件;如何有效地对它们进行分区?我要让火花决定吗? 理想情况下, ..

如何有效地存储数百万条统计记录?

我们的网上商店中大约有170万种产品,我们要记录该产品在1年的时间里有多少次观看,我们希望至少每2小时记录一次观看次数,问题是要使用哪种结构这个任务? 现在,我们尝试将统计信息保留在具有2列classified_id,stats的记录中30天,其中统计信息就像带格式date:views,date:views ...的已剥离json ...例如,一条记录看起来像 345422,{051216 ..
发布时间:2020-09-20 19:46:47 其他开发