bigdata 第6页 - IT屋-程序员软件开发技术分享社区

如何使用 spark 插入 HDFS?

我在 HDFS 中对数据进行了分区.在某些时候，我决定更新它.算法是: 从 kafka 主题中读取新数据. 找出新数据的分区名称. 从 HDFS 中具有这些名称的分区加载数据. 将 HDFS 数据与新数据合并. 覆盖磁盘上已有的分区. 问题是，如果新数据具有磁盘上尚不存在的分区怎么办.在这种情况下，它们不会被写入.https://stackoverflow.com/a/4969 ..

发布时间：2021-11-14 21:46:33 apache-spark apache-spark-sql hdfs bigdata 其他开发

Spark parquet 分区:大量文件

我正在尝试利用火花分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件，如果我尝试从根目录读取，会导致读取速度变慢. 为了避免我尝试过 data.coalese(numPart).write.partitionBy("key").parquet("/locati ..

发布时间：2021-11-14 21:22:18 apache-spark spark-dataframe rdd apache-spark-2.0 bigdata 其他开发

根据工作人员、核心和数据帧大小确定 Spark 分区的最佳数量

在 Spark-land 中有几个相似但又不同的概念，围绕着如何将工作分派到不同节点并同时执行.具体来说，有: Spark Driver 节点 (sparkDriverCount) 一个 Spark 集群可用的工作节点数量 (numWorkerNodes) Spark 执行器的数量(numExecutors) 所有worker/executors同时操作的DataFrame (data ..

发布时间：2021-11-14 21:20:06 apache-spark spark-dataframe distributed-computing partitioning bigdata 其他开发

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列?

我正在尝试使用 Spark MLlib(使用 Scala)对包含分类变量的数据集执行逻辑回归 (LogisticRegressionWithLBFGS).我发现 Spark 无法处理这种变量. 在 R 中有一种简单的方法来处理这种问题:我在因子(类别)中转换变量，因此 R 创建一组编码为 {0,1} 指示变量的列. 如何使用 Spark 执行此操作? 解决方案使用 Vecto ..

发布时间：2021-11-14 21:01:24 scala apache-spark bigdata apache-spark-mllib categorical-data 其他开发

Spark 数据类型猜测器 UDAF

想要这样的东西https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java并创建一个 Hive UDAF 以创建一个返回数据类型猜测的聚合函数. Spark 是否已经内置了类似的东西?对于探索数据的新宽数据集非常有用.对机器学习也有帮助，例如决定分类变量还是数值变量. 您通常如何确定 Spark ..

发布时间：2021-11-14 21:00:10 apache-spark machine-learning hive bigdata apache-spark-mllib AI人工智能

Spark 的 KMeans 无法处理大数据吗?

KMeans 的 training，初始化模式默认为 kmeans||.问题是它快速前进(不到 10 分钟)到前 13 个阶段，但随后完全挂起，没有产生错误！ Minimal Example 重现问题(如果我使用 1000 点或随机初始化它会成功): from pyspark.context import SparkContext从 pyspark.mllib.clustering 导入 ..

发布时间：2021-11-14 20:57:00 python apache-spark k-means apache-spark-mllib bigdata Python

Spark parquet 分区:大量文件

我正在尝试利用火花分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件，如果我尝试从根目录读取，会导致读取速度变慢. 为了避免我尝试过 data.coalese(numPart).write.partitionBy("key").parquet("/locati ..

发布时间：2021-11-12 05:39:21 apache-spark spark-dataframe rdd apache-spark-2.0 bigdata 其他开发

Spark 的 KMeans 无法处理大数据吗?

KMeans 的 training，初始化模式默认为 kmeans||.问题是它快速前进(不到 10 分钟)到前 13 个阶段，但随后完全挂起，没有产生错误！ Minimal Example 重现问题(如果我使用 1000 点或随机初始化它会成功): from pyspark.context import SparkContext从 pyspark.mllib.clustering 导入 ..

发布时间：2021-11-12 05:38:57 python apache-spark k-means apache-spark-mllib bigdata Python

根据工作人员、核心和数据帧大小确定最佳 Spark 分区数

在 Spark-land 中有几个相似但又不同的概念，围绕着如何将工作分派到不同节点并同时执行.具体来说，有: Spark Driver 节点 (sparkDriverCount) 一个 Spark 集群可用的工作节点数量 (numWorkerNodes) Spark 执行器的数量(numExecutors) 所有worker/executors同时操作的DataFrame (data ..

发布时间：2021-11-12 05:34:47 apache-spark spark-dataframe distributed-computing partitioning bigdata 其他开发

PySpark DataFrames - 枚举而不转换为 Pandas 的方法?

我有一个名为 df 的非常大的 pyspark.sql.dataframe.DataFrame.我需要某种枚举记录的方法 - 因此，能够访问具有特定索引的记录.(或选择具有索引范围的记录组) 在熊猫中，我只能制作 indexes=[2,3,6,7]df[索引] 这里我想要类似的东西，(并且不将数据帧转换为熊猫) 我能得到的最近的是: 通过以下方式枚举原始数据帧中的所有对象: ..

发布时间：2021-11-12 05:31:17 python apache-spark bigdata pyspark rdd Python

Hive:如何计算时差

我的要求很简单，如何计算hive中两列之间的时间差示例时间_开始:10:15:00 时间_结束:11:45:00 我需要做 (Time_End-Time_Start) =1:30:00 注意这两列都是字符串数据类型，请帮助获得所需的结果.. 解决方案语言手册包含所有可用日期时间函数的描述.秒差可以这样计算:hour(time_end) * 3600 + ..

发布时间：2021-11-12 04:16:08 java hadoop hive apache-pig bigdata Java开发

Pig - 如何迭代一袋地图

让我解释一下这个问题.我有这行代码: u = FOREACH people GENERATE FLATTEN($0#'experiences') as j;倾倒你；产生这个输出: ([id#1,date_begin#12 2012,description#blabla,date_end#04 2013],[id#2,date_begin#02 2011,description#blabla ..

发布时间：2021-11-12 04:12:59 hadoop bigdata apache-pig 其他开发

如何在 hive 表中加载多行列数据?具有换行符的列

我在 Excel 文件中有一个列(不是最后一列)，其中包含跨越几行的数据. 列的某些单元格是空白的，而某些单元格具有单行条目. 当另存为 .CSV 文件或从 excel 中以制表符分隔的 .txt 时，所有多行数据和少量单行条目都用双引号生成，没有任何空白字段用引号引起来.一些单行条目不在引号内. 是否可以将具有相同结构的数据存储在 hive 表中?如果是，如何做到这一点?我知道 ..

发布时间：2021-11-12 04:12:53 hadoop hive apache-pig bigdata 其他开发

在 Java 中执行 PigServer 时出错

我正在尝试从我的 Java 机器远程运行 Pig 脚本，为此我编写了以下代码代码: import java.io.IOException;导入 java.util.Properties;导入 org.apache.pig.ExecType;导入 org.apache.pig.PigServer;导入 org.apache.pig.backend.executionengine.ExecE ..

发布时间：2021-11-12 04:12:14 java hadoop apache-pig bigdata Java开发

Apache Pig 的时差?

在大数据上下文中，我有一个按升序排序的时间序列 S1=(t1, t2, t3 ...).我想产生一系列时差:S2=(t2-t1, t3-t2 ...) 有没有办法在 Apache Pig 中做到这一点?短的很低效的自连接，我没有看到. 如果没有，有什么好方法可以做到这一点，适合大量使用数据? 解决方案 S1 = 生成 ID、时间戳，即从 t1...tn S2 = Genera ..

发布时间：2021-11-12 04:11:15 apache-pig bigdata 其他开发

Apache Pig 的时差?

在大数据上下文中，我有一个按升序排序的时间序列 S1=(t1, t2, t3 ...).我想产生一系列时差:S2=(t2-t1, t3-t2 ...) 有没有办法在 Apache Pig 中做到这一点?短的很低效的自连接，我没有看到. 如果没有，有什么好方法可以做到这一点，适合大量使用数据? 解决方案 S1 = 生成 ID、时间戳，即从 t1...tn S2 = Genera ..

发布时间：2021-11-12 04:10:43 apache-pig bigdata 其他开发

使用 Pig 从数据中删除单引号

这就是我的数据的样子 (10, '会计', '纽约')(20, '研究', '达拉斯')(30, '销售', '芝加哥')(40, '操作', '波士顿') 我想使用 Pig Script 从此数据中删除 (, ) 和 ' .我希望我的数据看起来像这样- 10，会计，纽约20，研究，达拉斯30, 销售, 芝加哥40, 操作, 波士顿我很长一段时间都被困在这个问题上.请帮忙.提前致谢. ..

发布时间：2021-11-12 04:07:45 apache-pig bigdata 其他开发

如何使用 Pig 从列中解析 JSON 字符串

我有 tsv 日志文件，其中一列由 json 字符串填充. 我想在 Pig 脚本中使用 JsonLoader 解析该列.我看到了很多例子，其中 JsonLoader 用于每行只是一个 json 字符串的情况.我还有其他专栏想跳过，但不知道该怎么做. 文件如下所示: foo bar {"version":1;"type":"一个事件";“计数":1}富栏{“版本":1；"type":" ..

发布时间：2021-11-12 04:06:25 logging hadoop apache-pig bigdata 其他开发

我有一个格式如下的 json 文件 [{“身份证":2，"createdBy": 0,“状态":0，"utcTime": "2014 年 10 月 14 日下午 4:49:47","placeName": "21/F, Cunningham Main Rd, Sampangi Rama NagarBengaluruKarnatakaIndia",“经度":77.5983817，“纬度":12.9 ..

发布时间：2021-11-12 04:05:34 json hadoop apache-pig hdfs bigdata 其他开发

Pig Script:加入多个文件

我正在读取一个大文件(超过 10 亿条记录)并将它与其他三个文件连接起来，我想知道是否可以提高该过程的效率以避免对大表进行多次读取.小表可能不适合内存. A = join smalltable1 by (f1,f2) RIGHT OUTER,massive by (f1,f2) ;B = join smalltable2 by (f3) RIGHT OUTER, A by (f3) ;C = j ..

发布时间：2021-11-12 04:04:38 join apache-pig bigdata 其他开发

bigdata相关内容

如何使用 spark 插入 HDFS?

Spark parquet 分区:大量文件

根据工作人员、核心和数据帧大小确定 Spark 分区的最佳数量

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列?

Spark 数据类型猜测器 UDAF

Spark 的 KMeans 无法处理大数据吗?

Spark parquet 分区:大量文件

Spark 的 KMeans 无法处理大数据吗?

根据工作人员、核心和数据帧大小确定最佳 Spark 分区数

PySpark DataFrames - 枚举而不转换为 Pandas 的方法?

Hive:如何计算时差

Pig - 如何迭代一袋地图

如何在 hive 表中加载多行列数据?具有换行符的列

在 Java 中执行 PigServer 时出错

Apache Pig 的时差?

Apache Pig 的时差?

使用 Pig 从数据中删除单引号

如何使用 Pig 从列中解析 JSON 字符串

将 JSON 数组加载到 Pig

Pig Script:加入多个文件