bigdata相关内容

如何使用 spark 插入 HDFS?

我在 HDFS 中对数据进行了分区.在某些时候,我决定更新它.算法是: 从 kafka 主题中读取新数据. 找出新数据的分区名称. 从 HDFS 中具有这些名称的分区加载数据. 将 HDFS 数据与新数据合并. 覆盖磁盘上已有的分区. 问题是,如果新数据具有磁盘上尚不存在的分区怎么办.在这种情况下,它们不会被写入.https://stackoverflow.com/a/4969 ..
发布时间:2021-11-14 21:46:33 其他开发

根据工作人员、核心和数据帧大小确定 Spark 分区的最佳数量

在 Spark-land 中有几个相似但又不同的概念,围绕着如何将工作分派到不同节点并同时执行.具体来说,有: Spark Driver 节点 (sparkDriverCount) 一个 Spark 集群可用的工作节点数量 (numWorkerNodes) Spark 执行器的数量(numExecutors) 所有worker/executors同时操作的DataFrame (data ..

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列?

我正在尝试使用 Spark MLlib(使用 Scala)对包含分类变量的数据集执行逻辑回归 (LogisticRegressionWithLBFGS).我发现 Spark 无法处理这种变量. 在 R 中有一种简单的方法来处理这种问题:我在因子(类别)中转换变量,因此 R 创建一组编码为 {0,1} 指示变量的列. 如何使用 Spark 执行此操作? 解决方案 使用 Vecto ..

Spark 数据类型猜测器 UDAF

想要这样的东西https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java并创建一个 Hive UDAF 以创建一个返回数据类型猜测的聚合函数. Spark 是否已经内置了类似的东西?对于探索数据的新宽数据集非常有用.对机器学习也有帮助,例如决定分类变量还是数值变量. 您通常如何确定 Spark ..

根据工作人员、核心和数据帧大小确定最佳 Spark 分区数

在 Spark-land 中有几个相似但又不同的概念,围绕着如何将工作分派到不同节点并同时执行.具体来说,有: Spark Driver 节点 (sparkDriverCount) 一个 Spark 集群可用的工作节点数量 (numWorkerNodes) Spark 执行器的数量(numExecutors) 所有worker/executors同时操作的DataFrame (data ..

PySpark DataFrames - 枚举而不转换为 Pandas 的方法?

我有一个名为 df 的非常大的 pyspark.sql.dataframe.DataFrame.我需要某种枚举记录的方法 - 因此,能够访问具有特定索引的记录.(或选择具有索引范围的记录组) 在熊猫中,我只能制作 indexes=[2,3,6,7]df[索引] 这里我想要类似的东西,(并且不将数据帧转换为熊猫) 我能得到的最近的是: 通过以下方式枚举原始数据帧中的所有对象: ..
发布时间:2021-11-12 05:31:17 Python

Hive:如何计算时差

我的要求很简单,如何计算hive中两列之间的时间差 示例 时间_开始:10:15:00 时间_结束:11:45:00 我需要做 (Time_End-Time_Start) =1:30:00 注意这两列都是字符串数据类型,请帮助获得所需的结果.. 解决方案 语言手册 包含所有可用日期时间函数的描述.秒差可以这样计算:hour(time_end) * 3600 + ..
发布时间:2021-11-12 04:16:08 Java开发

Pig - 如何迭代一袋地图

让我解释一下这个问题.我有这行代码: u = FOREACH people GENERATE FLATTEN($0#'experiences') as j;倾倒你; 产生这个输出: ([id#1,date_begin#12 2012,description#blabla,date_end#04 2013],[id#2,date_begin#02 2011,description#blabla ..
发布时间:2021-11-12 04:12:59 其他开发

如何在 hive 表中加载多行列数据?具有换行符的列

我在 Excel 文件中有一个列(不是最后一列),其中包含跨越几行的数据. 列的某些单元格是空白的,而某些单元格具有单行条目. 当另存为 .CSV 文件或从 excel 中以制表符分隔的 .txt 时,所有多行数据和少量单行条目都用双引号生成,没有任何空白字段用引号引起来.一些单行条目不在引号内. 是否可以将具有相同结构的数据存储在 hive 表中?如果是,如何做到这一点?我知道 ..
发布时间:2021-11-12 04:12:53 其他开发

在 Java 中执行 PigServer 时出错

我正在尝试从我的 Java 机器远程运行 Pig 脚本,为此我编写了以下代码 代码: import java.io.IOException;导入 java.util.Properties;导入 org.apache.pig.ExecType;导入 org.apache.pig.PigServer;导入 org.apache.pig.backend.executionengine.ExecE ..
发布时间:2021-11-12 04:12:14 Java开发

Apache Pig 的时差?

在大数据上下文中,我有一个按升序排序的时间序列 S1=(t1, t2, t3 ...).我想产生一系列时差:S2=(t2-t1, t3-t2 ...) 有没有办法在 Apache Pig 中做到这一点?短的很低效的自连接,我没有看到. 如果没有,有什么好方法可以做到这一点,适合大量使用数据? 解决方案 S1 = 生成 ID、时间戳,即从 t1...tn S2 = Genera ..
发布时间:2021-11-12 04:11:15 其他开发

Apache Pig 的时差?

在大数据上下文中,我有一个按升序排序的时间序列 S1=(t1, t2, t3 ...).我想产生一系列时差:S2=(t2-t1, t3-t2 ...) 有没有办法在 Apache Pig 中做到这一点?短的很低效的自连接,我没有看到. 如果没有,有什么好方法可以做到这一点,适合大量使用数据? 解决方案 S1 = 生成 ID、时间戳,即从 t1...tn S2 = Genera ..
发布时间:2021-11-12 04:10:43 其他开发

使用 Pig 从数据中删除单引号

这就是我的数据的样子 (10, '会计', '纽约')(20, '研究', '达拉斯')(30, '销售', '芝加哥')(40, '操作', '波士顿') 我想使用 Pig Script 从此数据中删除 (, ) 和 ' .我希望我的数据看起来像这样- 10,会计,纽约20,研究,达拉斯30, 销售, 芝加哥40, 操作, 波士顿 我很长一段时间都被困在这个问题上.请帮忙.提前致谢. ..
发布时间:2021-11-12 04:07:45 其他开发

如何使用 Pig 从列中解析 JSON 字符串

我有 tsv 日志文件,其中一列由 json 字符串填充. 我想在 Pig 脚本中使用 JsonLoader 解析该列.我看到了很多例子,其中 JsonLoader 用于每行只是一个 json 字符串的情况.我还有其他专栏想跳过,但不知道该怎么做. 文件如下所示: foo bar {"version":1;"type":"一个事件";“计数":1}富栏{“版本":1;"type":" ..
发布时间:2021-11-12 04:06:25 其他开发

将 JSON 数组加载到 Pig

我有一个格式如下的 json 文件 [{“身份证":2,"createdBy": 0,“状态":0,"utcTime": "2014 年 10 月 14 日下午 4:49:47","placeName": "21/F, Cunningham Main Rd, Sampangi Rama NagarBengaluruKarnatakaIndia",“经度":77.5983817,“纬度":12.9 ..
发布时间:2021-11-12 04:05:34 其他开发

Pig Script:加入多个文件

我正在读取一个大文件(超过 10 亿条记录)并将它与其他三个文件连接起来,我想知道是否可以提高该过程的效率以避免对大表进行多次读取.小表可能不适合内存. A = join smalltable1 by (f1,f2) RIGHT OUTER,massive by (f1,f2) ;B = join smalltable2 by (f3) RIGHT OUTER, A by (f3) ;C = j ..
发布时间:2021-11-12 04:04:38 其他开发