bigdata相关内容
我在 HDFS 中对数据进行了分区.在某些时候,我决定更新它.算法是: 从 kafka 主题中读取新数据. 找出新数据的分区名称. 从 HDFS 中具有这些名称的分区加载数据. 将 HDFS 数据与新数据合并. 覆盖磁盘上已有的分区. 问题是,如果新数据具有磁盘上尚不存在的分区怎么办.在这种情况下,它们不会被写入.https://stackoverflow.com/a/4969
..
我正在尝试利用火花分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件,如果我尝试从根目录读取,会导致读取速度变慢. 为了避免我尝试过 data.coalese(numPart).write.partitionBy("key").parquet("/locati
..
在 Spark-land 中有几个相似但又不同的概念,围绕着如何将工作分派到不同节点并同时执行.具体来说,有: Spark Driver 节点 (sparkDriverCount) 一个 Spark 集群可用的工作节点数量 (numWorkerNodes) Spark 执行器的数量(numExecutors) 所有worker/executors同时操作的DataFrame (data
..
我正在尝试使用 Spark MLlib(使用 Scala)对包含分类变量的数据集执行逻辑回归 (LogisticRegressionWithLBFGS).我发现 Spark 无法处理这种变量. 在 R 中有一种简单的方法来处理这种问题:我在因子(类别)中转换变量,因此 R 创建一组编码为 {0,1} 指示变量的列. 如何使用 Spark 执行此操作? 解决方案 使用 Vecto
..
想要这样的东西https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java并创建一个 Hive UDAF 以创建一个返回数据类型猜测的聚合函数. Spark 是否已经内置了类似的东西?对于探索数据的新宽数据集非常有用.对机器学习也有帮助,例如决定分类变量还是数值变量. 您通常如何确定 Spark
..
KMeans 的 training,初始化模式默认为 kmeans||.问题是它快速前进(不到 10 分钟)到前 13 个阶段,但随后完全挂起,没有产生错误! Minimal Example 重现问题(如果我使用 1000 点或随机初始化它会成功): from pyspark.context import SparkContext从 pyspark.mllib.clustering 导入
..
我正在尝试利用火花分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件,如果我尝试从根目录读取,会导致读取速度变慢. 为了避免我尝试过 data.coalese(numPart).write.partitionBy("key").parquet("/locati
..
KMeans 的 training,初始化模式默认为 kmeans||.问题是它快速前进(不到 10 分钟)到前 13 个阶段,但随后完全挂起,没有产生错误! Minimal Example 重现问题(如果我使用 1000 点或随机初始化它会成功): from pyspark.context import SparkContext从 pyspark.mllib.clustering 导入
..
在 Spark-land 中有几个相似但又不同的概念,围绕着如何将工作分派到不同节点并同时执行.具体来说,有: Spark Driver 节点 (sparkDriverCount) 一个 Spark 集群可用的工作节点数量 (numWorkerNodes) Spark 执行器的数量(numExecutors) 所有worker/executors同时操作的DataFrame (data
..
我有一个名为 df 的非常大的 pyspark.sql.dataframe.DataFrame.我需要某种枚举记录的方法 - 因此,能够访问具有特定索引的记录.(或选择具有索引范围的记录组) 在熊猫中,我只能制作 indexes=[2,3,6,7]df[索引] 这里我想要类似的东西,(并且不将数据帧转换为熊猫) 我能得到的最近的是: 通过以下方式枚举原始数据帧中的所有对象:
..
我的要求很简单,如何计算hive中两列之间的时间差 示例 时间_开始:10:15:00 时间_结束:11:45:00 我需要做 (Time_End-Time_Start) =1:30:00 注意这两列都是字符串数据类型,请帮助获得所需的结果.. 解决方案 语言手册 包含所有可用日期时间函数的描述.秒差可以这样计算:hour(time_end) * 3600 +
..
让我解释一下这个问题.我有这行代码: u = FOREACH people GENERATE FLATTEN($0#'experiences') as j;倾倒你; 产生这个输出: ([id#1,date_begin#12 2012,description#blabla,date_end#04 2013],[id#2,date_begin#02 2011,description#blabla
..
我在 Excel 文件中有一个列(不是最后一列),其中包含跨越几行的数据. 列的某些单元格是空白的,而某些单元格具有单行条目. 当另存为 .CSV 文件或从 excel 中以制表符分隔的 .txt 时,所有多行数据和少量单行条目都用双引号生成,没有任何空白字段用引号引起来.一些单行条目不在引号内. 是否可以将具有相同结构的数据存储在 hive 表中?如果是,如何做到这一点?我知道
..
我正在尝试从我的 Java 机器远程运行 Pig 脚本,为此我编写了以下代码 代码: import java.io.IOException;导入 java.util.Properties;导入 org.apache.pig.ExecType;导入 org.apache.pig.PigServer;导入 org.apache.pig.backend.executionengine.ExecE
..
在大数据上下文中,我有一个按升序排序的时间序列 S1=(t1, t2, t3 ...).我想产生一系列时差:S2=(t2-t1, t3-t2 ...) 有没有办法在 Apache Pig 中做到这一点?短的很低效的自连接,我没有看到. 如果没有,有什么好方法可以做到这一点,适合大量使用数据? 解决方案 S1 = 生成 ID、时间戳,即从 t1...tn S2 = Genera
..
在大数据上下文中,我有一个按升序排序的时间序列 S1=(t1, t2, t3 ...).我想产生一系列时差:S2=(t2-t1, t3-t2 ...) 有没有办法在 Apache Pig 中做到这一点?短的很低效的自连接,我没有看到. 如果没有,有什么好方法可以做到这一点,适合大量使用数据? 解决方案 S1 = 生成 ID、时间戳,即从 t1...tn S2 = Genera
..
这就是我的数据的样子 (10, '会计', '纽约')(20, '研究', '达拉斯')(30, '销售', '芝加哥')(40, '操作', '波士顿') 我想使用 Pig Script 从此数据中删除 (, ) 和 ' .我希望我的数据看起来像这样- 10,会计,纽约20,研究,达拉斯30, 销售, 芝加哥40, 操作, 波士顿 我很长一段时间都被困在这个问题上.请帮忙.提前致谢.
..
我有 tsv 日志文件,其中一列由 json 字符串填充. 我想在 Pig 脚本中使用 JsonLoader 解析该列.我看到了很多例子,其中 JsonLoader 用于每行只是一个 json 字符串的情况.我还有其他专栏想跳过,但不知道该怎么做. 文件如下所示: foo bar {"version":1;"type":"一个事件";“计数":1}富栏{“版本":1;"type":"
..
我有一个格式如下的 json 文件 [{“身份证":2,"createdBy": 0,“状态":0,"utcTime": "2014 年 10 月 14 日下午 4:49:47","placeName": "21/F, Cunningham Main Rd, Sampangi Rama NagarBengaluruKarnatakaIndia",“经度":77.5983817,“纬度":12.9
..
我正在读取一个大文件(超过 10 亿条记录)并将它与其他三个文件连接起来,我想知道是否可以提高该过程的效率以避免对大表进行多次读取.小表可能不适合内存. A = join smalltable1 by (f1,f2) RIGHT OUTER,massive by (f1,f2) ;B = join smalltable2 by (f3) RIGHT OUTER, A by (f3) ;C = j
..