hdfs相关内容

使用 Java 将 spark RDD 保存到本地文件系统

我有一个使用 Spark 生成的 RDD.现在,如果我将此 RDD 写入 csv 文件,则会提供一些方法,例如“saveAsTextFile()",该方法将 csv 文件输出到 HDFS. 我想将文件写入我的本地文件系统,以便我的 SSIS 进程可以从系统中选取文件并将它们加载到数据库中. 我目前无法使用 sqoop. 除了编写 shell 脚本之外,在 Java 中是否有可能做 ..
发布时间:2021-11-12 05:46:47 Java开发

Spark 迭代 HDFS 目录

我在 HDFS 上有一个目录目录,我想遍历这些目录.有没有什么简单的方法可以使用 SparkContext 对象对 Spark 执行此操作? 解决方案 您可以使用 org.apache.hadoop.fs.FileSystem.具体来说,FileSystem.listFiles([path], true) 还有 Spark... FileSystem.get(sc.hadoopCo ..
发布时间:2021-11-12 05:42:56 其他开发

纱线概念理解的火花

我想了解 spark 如何在 YARN 集群/客户端上运行.我有以下疑问. 是否需要在yarn集群的所有节点上都安装spark?我认为应该是因为集群中的工作节点执行任务并且应该能够解码驱动程序发送到集群的 spark 应用程序中的代码(spark API)? 它在文档中说“确保 HADOOP_CONF_DIR 或 YARN_CONF_DIR 指向包含 Hadoop 集群(客户端)配置文 ..
发布时间:2021-11-12 05:36:29 其他开发

Apache Spark 移动平均线

我在 HDFS 中有一个包含时间序列数据点(雅虎股票价格)的大文件. 我想找到时间序列的移动平均值,我该如何编写 Apache Spark 作业来做到这一点. 解决方案 您可以使用 MLLIB 中的滑动函数,它可能与 Daniel 的回答做同样的事情.在使用滑动功能之前,您必须按时间对数据进行排序. import org.apache.spark.mllib.rdd.RDDFunc ..
发布时间:2021-11-12 05:30:16 其他开发

Spark partition(ing) 如何处理 HDFS 中的文件?

我正在使用 HDFS 在集群上使用 Apache Spark.据我了解,HDFS 是在数据节点上分发文件.因此,如果将“file.txt"放在文件系统上,它将被分成多个分区.现在我打电话给 rdd = SparkContext().textFile("hdfs://.../file.txt") 来自 Apache Spark.rdd 现在是否自动与文件系统上的“file.txt"具有相同的分区 ..
发布时间:2021-11-12 05:26:03 其他开发

在 Windows 8 上安装 Pig 0.13.0

我可以在 Windows 上的 pig 0.13.0 版本中进入 grunt shell.当试图从 hdfs 加载一个简单的文件并转储它时.发生以下错误. 2014-10-13 17:29:45,167 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 2998:未处理的内部错误.org.apache.hadoop.mapreduce.JobCont ..
发布时间:2021-11-12 04:18:12 其他开发