bigdata 第12页 - IT屋-程序员软件开发技术分享社区

Streaming.StreamingContext:启动上下文时出错，将其标记为已停止[Spark Streaming]

我正在尝试运行示例Spark流代码.但我收到此错误: 16/06/02 15:25:42 ERROR streaming.StreamingContext: Error starting the context, marking it as stopped java.lang.IllegalArgumentException: requirement failed: No output op ..

发布时间：2020-09-20 19:55:14 apache-spark spark-streaming sandbox mapr bigdata 其他开发

如何从Kafka 0.8.2中的压缩日志中清除旧段

我知道在新的Kafka版本中，我们有新的保留策略选项-压缩日志，删除具有相同密钥的旧版本的邮件.但是经过很长一段时间，我们将获得太多带有旧消息的压缩日志段.我们如何自动清除此压缩日志? UDPATE : 我应该澄清一下，我们需要紧凑的日志和方法来清理那些旧的消息. 我在这里找到了针对同一问题的讨论 http://grokbase.com/t/kafka/users/14bv6gaz0t ..

发布时间：2020-09-20 19:54:45 java bigdata apache-kafka Java开发

流利如何使这种情况受益?

我遇到了 Fluentd .当它足够容易直接将原始数据存储在db上时，为什么要使用这种东西呢?我可能会误解此处技术的使用.很高兴听到一些反馈. 为什么任何人都想遍历另一层，因为它很容易捕获并在您自己的数据存储区中存储原始数据? 请考虑这种情况.我要存储页面浏览量.原始数据存储在RDBMS中，格式化数据存储在Mongodb中.这是我当前设置的简短描述: 当用户访问我的网站时.我的应 ..

发布时间：2020-09-20 19:53:42 mongodb fluentd bigdata 其他开发

HiveServer2在hdfs/tmp/hive/hive中生成很多目录

我们使用Hiveserver2(在Hortonworks HDP2.2发行版上)创建了新的数据仓库.一段时间后，我们在hdfs上的/tmp/hive/hive中有超过1048576个目录，因为hive服务器在此位置生成了该目录. 有人有类似的问题吗? 来自hiveserver的日志: 2015-08-31 06:48:15,828 WARN [HiveServer2-Handler- ..

发布时间：2020-09-20 19:53:40 hadoop hive hdfs bigdata hortonworks-data-platform 其他开发

将jsonarray聚合到Map< key，list>在spark2.x的火花中

我对Spark非常陌生.我有一个输入json文件，我将其读取为 val df = spark.read.json("/Users/user/Desktop/resource.json"); resource.json的内容如下: {"path":"path1","key":"key1","region":"region1"} {"path":"path112","key":"key ..

发布时间：2020-09-20 19:52:36 scala apache-spark bigdata 其他开发

Spark的性能瓶颈

发表在NSDI 2015上的论文“了解数据分析框架中的性能"得出的结论是，CPU(而非IO或网络)是Spark的性能瓶颈. Kay在Spark上进行了一些实验，包括BDbench，TPC-DS和生产工作负载(仅使用Spark SQL?).我不知道这个结论是否适用于基于Spark的某些框架(例如Streaming，通过网络接收连续的数据流，网络IO和磁盘都将承受很大压力). 解决方案 Spa ..

发布时间：2020-09-20 19:52:33 performance apache-spark bigdata distributed-computing 其他开发

处理非常大的数据框

现在，我在如何处理数据并将其转换为数据框方面遇到了麻烦.基本上我想做的是先读取数据 data = pd.read_csv(querylog, sep=" ", header=None) 然后分组 query_group = data.groupby('Query') ip_group = data.groupby('IP') 最后创建一个空白数据框以映射其值 df = p ..

发布时间：2020-09-20 19:52:29 python pandas bigdata Python

计算数据框SPARK上的过滤项

我有以下数据框:df 在某些时候，我需要根据时间戳(毫秒)过滤掉项目. 但是，对我来说很重要的是保存筛选的记录数(以防万一我想使工作失败) 我可以天真地做: ======Lots of calculations on df ====== val df_filtered = df.filter($"ts" >= startDay && $"ts" ..

发布时间：2020-09-20 19:52:27 scala apache-spark dataframe bigdata 其他开发

有没有比收集更好的方法来读取Spark中的RDD了?

因此，我想读取RDD并将其放入一个数组中.为此，我可以使用 collect 方法.但是该方法确实很烦人，因为在我的情况下，它一直在给出kyro缓冲区溢出错误.如果我过多地设置了kyro缓冲区大小，它将开始出现自己的问题.另一方面，我注意到，如果仅使用 saveAsTextFile 方法将RDD保存到文件中，则不会出错.因此，我在想，必须有一些更好的方法来将RDD读入数组，这没有 collect 方 ..

发布时间：2020-09-20 19:52:22 java serialization apache-spark bigdata Java开发

数据准备上传到Redis服务器

我有一个10GB的.xml文件，我想使用mass insert将其上传到Redis服务器.我需要有关如何将此.xml数据转换为Redis支持的某些键，值或任何其他数据结构的建议?我正在使用流溢出堆栈，例如，如果我占用comments.xml. 数据模式: 行Id ="5" PostId ="5" Score ="9" Text =“这是一个超级理论上的AI问题.一个有趣的讨论！但是不合时宜. ..

发布时间：2020-09-20 19:52:21 redis bigdata 其他开发

PrimeFaces DataExporter用于大数据

我有65000个数据可以从DB导入到excel中.但是PF DataExporter组件没有将大数据写入excel中.我可以用于此过程吗?该过程是否有库? 解决方案您可以使用: Apache POI 一些示例-快速指南非常易于使用，非常简单例子碧玉报告只需链接-需要一些时间才能弄清如果您只需要一个excel导出，请使用Apache POI. 如果您有很多报告，我建 ..

发布时间：2020-09-20 19:51:18 excel jsf primefaces bigdata data-export 其他开发

Spark独立模式:工作者无法在cloudera中正常启动

我是火花的新手，使用cloudera管理器中可用的包裹安装了火花之后. 我已经配置了文件，如cloudera Enterprise的以下链接所示: 完成此设置后，我通过运行/opt/cloudera/parcels/SPARK/lib/spark/sbin/start-all.sh启动了spark中的所有节点.但是由于出现以下指定的错误，我无法运行工作程序节点. [root@lo ..

发布时间：2020-09-20 19:51:16 hadoop bigdata apache-spark cloudera-manager 其他开发

R代码运行太慢，如何重写此代码

input.txt包含8000000行和4列.前2列为文字，后2列为数字.第1列和第2列中的唯一符号(例如"c33")的数量不固定.第3列和第4列的值分别是第1列和第2列的唯一符号数，分别用“]"分割. input.txt文件的每一行都是这样的: c33]c21]c5]c7]c8]c9 TPS2]MIC17]ERG3]NNF1]CIS3]CWP2 6 6 **理想的结果: row[ ..

发布时间：2020-09-20 19:50:11 r loops bigdata 其他开发

如何将函数应用于SparkR中的每一行?

我有一个CSV格式的文件，其中包含一个带有"id"，"timestamp"，"action"，"value"和"location"列的表. 我想对表的每一行应用一个函数，并且已经在R中编写了如下代码: user ..

发布时间：2020-09-20 19:49:09 r apache-spark sparkr bigdata 其他开发

错误tool.BaseSqoopTool:解析作业参数的错误:Sqoop我试图在sqoop中创建作业，但是发生以下错误

sqoop job --create myjob --import --connect "jdbc:mysql://localhost/classicmodels" --username root --password 123 --table customers -m 1 --taget-dir /manoj280217/sqoop 错误: 17/02/28 08:56:18 INFO ..

发布时间：2020-09-20 19:49:06 sqoop bigdata 其他开发

Java处理数十亿字节

我正在使用 Java 创建压缩算法；要使用我的算法，我需要大量有关目标文件结构的信息. 收集数据后，我需要重新读取文件. ..

发布时间：2020-09-20 19:48:03 java bigdata Java开发

记录所有presto查询

如何将提交给presto群集的所有查询存储在一个文件(ORC文件)中，或者存储在其他数据库中.目的是保留对presto worker执行的所有查询的记录. 我知道我需要覆盖queryCompleted方法，我还尝试遵循我是新手，无论是专家还是专家.如果有人可以帮助我，那就太好了. 解决方案这是我的方法，它可以在EMR5.9(0.184之前)上工作. 首先，您已经知道，可以使用 ..

发布时间：2020-09-20 19:47:59 java maven bigdata presto Java开发

在Hive中更改列数据类型

我们需要将表列数据类型从字符串更改为日期.在尝试执行操作时遇到以下错误.你能帮忙吗? hive>描述sales_staging; 好 cust_id字符串prod_num字符串数量int sale_date字符串 sale_id字符串耗时:0.151秒，已提取:5行 hive>更改表sales_staging更改sale_date sale_date DATE ..

发布时间：2020-09-20 19:47:56 hive bigdata 其他开发

Spark分区/集群执行

我将使用大量结构如下的文件: /day/hour-min.txt.gz 共14天.我将使用一个由90个节点/工人组成的集群. 我正在读取wholeTextFiles()的所有内容，因为这是允许我适当地拆分数据的唯一方法.所有计算将在每分钟的基础上完成(因此基本上是每个文件)，最后减少一些步骤.大约有20.000个文件；如何有效地对它们进行分区?我要让火花决定吗? 理想情况下， ..

发布时间：2020-09-20 19:47:53 file apache-spark distributed-computing partitioning bigdata 其他开发

如何有效地存储数百万条统计记录?

我们的网上商店中大约有170万种产品，我们要记录该产品在1年的时间里有多少次观看，我们希望至少每2小时记录一次观看次数，问题是要使用哪种结构这个任务? 现在，我们尝试将统计信息保留在具有2列classified_id,stats的记录中30天，其中统计信息就像带格式date:views，date:views ...的已剥离json ...例如，一条记录看起来像 345422,{051216 ..

发布时间：2020-09-20 19:46:47 sql postgresql bigdata 其他开发

bigdata相关内容