hdfs 第9页 - IT屋-程序员软件开发技术分享社区

SparkSQL - 直接读取镶木地板文件

我正在从 Impala 迁移到 SparkSQL，使用以下代码读取表: my_data = sqlContext.read.parquet('hdfs://my_hdfs_path/my_db.db/my_table') 我如何调用上面的 SparkSQL，以便它可以返回如下内容: 'select col_A, col_B from my_table' 解决方案从 parquet 文件 ..

发布时间：2021-11-14 21:29:00 scala apache-spark hive apache-spark-sql hdfs 其他开发

写入 hdfs 路径时出现错误 java.io.IOException: Failed to rename

我使用的是使用 hadoop-2.6.5.jar 版本的 spark-sql-2.4.1v.我需要先将数据保存在 hdfs 上，然后再转移到 cassandra.因此，我试图将数据保存在 hdfs 上，如下所示: String hdfsPath = "/user/order_items/";cleanedDs.createTempViewOrTable("source_tab");givenIt ..

发布时间：2021-11-14 21:14:38 apache-spark hadoop apache-spark-sql hdfs hadoop2 其他开发

Spark - 将 CSV 文件加载为 DataFrame?

我想在 spark 中读取 CSV 并将其转换为 DataFrame 并使用 df.registerTempTable("table_name") 将其存储在 HDFS 中我试过了: scala>val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 我得到的错误: java.lang.RuntimeException: hd ..

发布时间：2021-11-14 21:14:13 scala apache-spark hadoop apache-spark-sql hdfs 其他开发

ALS Spark Scala 中的检查点

我只是想问一下如何在 Spark 中成功使用 checkpointInterval 的具体细节.你在 ALS 代码中的这条评论是什么意思:https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/recommendation/ALS.斯卡拉如果[[org.apache.sp ..

发布时间：2021-11-14 21:00:16 scala apache-spark hdfs apache-spark-mllib 其他开发

使用 Java 将 spark RDD 保存到本地文件系统

我有一个使用 Spark 生成的 RDD.现在，如果我将此 RDD 写入 csv 文件，则会提供一些方法，例如“saveAsTextFile()"，该方法将 csv 文件输出到 HDFS. 我想将文件写入我的本地文件系统，以便我的 SSIS 进程可以从系统中选取文件并将它们加载到数据库中. 我目前无法使用 sqoop. 除了编写 shell 脚本之外，在 Java 中是否有可能做 ..

发布时间：2021-11-12 05:46:47 java sql-server apache-spark hdfs rdd Java开发

Spark 迭代 HDFS 目录

我在 HDFS 上有一个目录目录，我想遍历这些目录.有没有什么简单的方法可以使用 SparkContext 对象对 Spark 执行此操作? 解决方案您可以使用 org.apache.hadoop.fs.FileSystem.具体来说，FileSystem.listFiles([path], true) 还有 Spark... FileSystem.get(sc.hadoopCo ..

发布时间：2021-11-12 05:42:56 hadoop hdfs apache-spark 其他开发

Amazon s3a 使用 Spark 返回 400 Bad Request

出于结帐目的，我尝试将 Amazon S3 存储桶设置为检查点文件. val checkpointDir = "s3a://bucket-name/checkpoint.txt"val sc = 新的 SparkContext(conf)sc.setLocalProperty("spark.default.parallelism", "30")sc.hadoopConfiguration.set ..

发布时间：2021-11-12 05:41:52 amazon-web-services amazon-s3 apache-spark hdfs spark-streaming 其他开发

纱线概念理解的火花

我想了解 spark 如何在 YARN 集群/客户端上运行.我有以下疑问. 是否需要在yarn集群的所有节点上都安装spark?我认为应该是因为集群中的工作节点执行任务并且应该能够解码驱动程序发送到集群的 spark 应用程序中的代码(spark API)? 它在文档中说“确保 HADOOP_CONF_DIR 或 YARN_CONF_DIR 指向包含 Hadoop 集群(客户端)配置文 ..

发布时间：2021-11-12 05:36:29 hadoop apache-spark hdfs hadoop-yarn 其他开发

Apache Spark 移动平均线

我在 HDFS 中有一个包含时间序列数据点(雅虎股票价格)的大文件. 我想找到时间序列的移动平均值，我该如何编写 Apache Spark 作业来做到这一点. 解决方案您可以使用 MLLIB 中的滑动函数，它可能与 Daniel 的回答做同样的事情.在使用滑动功能之前，您必须按时间对数据进行排序. import org.apache.spark.mllib.rdd.RDDFunc ..

发布时间：2021-11-12 05:30:16 time-series hdfs moving-average apache-spark 其他开发

从 Spark 中的压缩读取整个文本文件

我有以下问题:假设我有一个目录，其中包含存储在 HDFS 上的多个文件的压缩目录.我想创建一个包含一些 T 类型对象的 RDD，即: context = new JavaSparkContext(conf);JavaPairRDDfilesRDD = context.wholeTextFiles(inputDataPath);JavaPairRDDfilesRDD = context.whole ..

发布时间：2021-11-12 05:26:12 java hadoop apache-spark hdfs compression Java开发

Spark partition(ing) 如何处理 HDFS 中的文件?

我正在使用 HDFS 在集群上使用 Apache Spark.据我了解，HDFS 是在数据节点上分发文件.因此，如果将“file.txt"放在文件系统上，它将被分成多个分区.现在我打电话给 rdd = SparkContext().textFile("hdfs://.../file.txt") 来自 Apache Spark.rdd 现在是否自动与文件系统上的“file.txt"具有相同的分区 ..

发布时间：2021-11-12 05:26:03 apache-spark hdfs 其他开发

写入 hdfs 路径时出现错误 java.io.IOException: Failed to rename

我使用的是使用 hadoop-2.6.5.jar 版本的 spark-sql-2.4.1v.我需要先将数据保存在 hdfs 上，然后再转移到 cassandra.因此，我试图将数据保存在 hdfs 上，如下所示: String hdfsPath = "/user/order_items/";cleanedDs.createTempViewOrTable("source_tab");givenIt ..

发布时间：2021-11-12 05:24:58 apache-spark hadoop apache-spark-sql hdfs hadoop2 其他开发

Spark - 将 CSV 文件加载为 DataFrame?

我想在 spark 中读取 CSV 并将其转换为 DataFrame 并使用 df.registerTempTable("table_name") 将其存储在 HDFS 中我试过了: scala>val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 我得到的错误: java.lang.RuntimeException: hd ..

发布时间：2021-11-12 05:24:08 scala apache-spark hadoop apache-spark-sql hdfs 其他开发

通过键 Spark 写入多个输出 - 一项 Spark 作业

如何在单个作业中使用 Spark 写入依赖于键的多个输出. 相关:写入多个输出通过关键 Scalding Hadoop，一个 MapReduce 作业例如 sc.makeRDD(Seq((1, "a"), (1, "b"), (2, "c"))).writeAsMultiple(前缀，compressionCodecOption) 将确保 cat prefix/1 是 a乙 ..

发布时间：2021-11-12 05:23:03 scala hadoop output hdfs apache-spark 其他开发

猪 udf 计算博客中的时间差

是否有可以计算博客中时差的 Pig UDF? 假设我有以下格式的博客: 10.171.100.10 - - [12/Jan/2012:14:39:46 +0530] "GET/amazon/navigator/index.phpHTTP/1.1" 200 402 "someurl/page1" "Mozilla/4.0 (兼容的;MSIE 8.0；视窗 NT 5.1；三叉戟/4.0；Inf ..

发布时间：2021-11-12 04:20:09 hadoop user-defined-functions hive apache-pig hdfs 其他开发

当我尝试转储数据时，Pig 给了我这个错误

我使用以下 3 条语句来读取 hdfs 中存在的数据，然后在 mapreduce 模式下使用 pig 时转储数据，这给我带来了巨大的错误，请有人向我解释或提供解决方案咕噜声>a= load '/temp' AS (name:chararray,age:int,salary:int);咕噜声>b= foreach a generate (name,salary);咕噜声>转储 b;2017-04 ..

发布时间：2021-11-12 04:19:55 hadoop mapreduce hdfs apache-pig 其他开发

在 Windows 8 上安装 Pig 0.13.0

我可以在 Windows 上的 pig 0.13.0 版本中进入 grunt shell.当试图从 hdfs 加载一个简单的文件并转储它时.发生以下错误. 2014-10-13 17:29:45,167 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 2998:未处理的内部错误.org.apache.hadoop.mapreduce.JobCont ..

发布时间：2021-11-12 04:18:12 windows hadoop apache-pig hdfs 其他开发

有选择地将 iis 日志文件加载到 Hive 中

我刚刚开始在 cloudera 平台上使用 Hadoop/Pig/Hive，对如何有效加载数据进行查询有疑问. 我目前有大约 50GB 的 iis 日志加载到 hdfs 中，目录结构如下: /user/oi/raw_iis/Webserver1/Org/SubOrg/W3SVC1056242793//user/oi/raw_iis/Webserver2/Org/SubOrg/W3SVC ..

发布时间：2021-11-12 04:18:03 hadoop hive apache-pig hdfs 其他开发

如何使用 PIG Loader 将带有 JSON 字符串作为每行一部分的平面文件处理为 CSV 文件?

我在 HDFS 中有一个文件 44,UK,{"names":{"name1":"John","name2":"marry","name3":"stuart"},"fruits":{"fruit1":"apple","fruit2":"orange"}},31-07-2016 91,INDIA,{"names":{"name1":"Ram","name2":"Sam"},"fruits" ..

发布时间：2021-11-12 04:17:51 csv apache-pig hdfs 其他开发

使用 PIG 加载日期时间格式文件

我有以下方式的数据集. ravi, Savings, avinash,2,char,33,F,22,44,12,13,33,44,22,11,10,22,2006-01-23avinash,current,sandeep,3,char,44,M,33,11,10,12,33,22,39,12,23,19,2001-02-12supreeth,储蓄,prabhash,4,char,55,F,22, ..

发布时间：2021-11-12 04:17:12 hadoop mapreduce apache-pig hdfs 其他开发

hdfs相关内容