hdfs相关内容
我正在从 Impala 迁移到 SparkSQL,使用以下代码读取表: my_data = sqlContext.read.parquet('hdfs://my_hdfs_path/my_db.db/my_table') 我如何调用上面的 SparkSQL,以便它可以返回如下内容: 'select col_A, col_B from my_table' 解决方案 从 parquet 文件
..
我使用的是使用 hadoop-2.6.5.jar 版本的 spark-sql-2.4.1v.我需要先将数据保存在 hdfs 上,然后再转移到 cassandra.因此,我试图将数据保存在 hdfs 上,如下所示: String hdfsPath = "/user/order_items/";cleanedDs.createTempViewOrTable("source_tab");givenIt
..
我想在 spark 中读取 CSV 并将其转换为 DataFrame 并使用 df.registerTempTable("table_name") 将其存储在 HDFS 中 我试过了: scala>val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 我得到的错误: java.lang.RuntimeException: hd
..
我只是想问一下如何在 Spark 中成功使用 checkpointInterval 的具体细节.你在 ALS 代码中的这条评论是什么意思:https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/recommendation/ALS.斯卡拉 如果[[org.apache.sp
..
我有一个使用 Spark 生成的 RDD.现在,如果我将此 RDD 写入 csv 文件,则会提供一些方法,例如“saveAsTextFile()",该方法将 csv 文件输出到 HDFS. 我想将文件写入我的本地文件系统,以便我的 SSIS 进程可以从系统中选取文件并将它们加载到数据库中. 我目前无法使用 sqoop. 除了编写 shell 脚本之外,在 Java 中是否有可能做
..
我在 HDFS 上有一个目录目录,我想遍历这些目录.有没有什么简单的方法可以使用 SparkContext 对象对 Spark 执行此操作? 解决方案 您可以使用 org.apache.hadoop.fs.FileSystem.具体来说,FileSystem.listFiles([path], true) 还有 Spark... FileSystem.get(sc.hadoopCo
..
出于结帐目的,我尝试将 Amazon S3 存储桶设置为检查点文件. val checkpointDir = "s3a://bucket-name/checkpoint.txt"val sc = 新的 SparkContext(conf)sc.setLocalProperty("spark.default.parallelism", "30")sc.hadoopConfiguration.set
..
我想了解 spark 如何在 YARN 集群/客户端上运行.我有以下疑问. 是否需要在yarn集群的所有节点上都安装spark?我认为应该是因为集群中的工作节点执行任务并且应该能够解码驱动程序发送到集群的 spark 应用程序中的代码(spark API)? 它在文档中说“确保 HADOOP_CONF_DIR 或 YARN_CONF_DIR 指向包含 Hadoop 集群(客户端)配置文
..
我在 HDFS 中有一个包含时间序列数据点(雅虎股票价格)的大文件. 我想找到时间序列的移动平均值,我该如何编写 Apache Spark 作业来做到这一点. 解决方案 您可以使用 MLLIB 中的滑动函数,它可能与 Daniel 的回答做同样的事情.在使用滑动功能之前,您必须按时间对数据进行排序. import org.apache.spark.mllib.rdd.RDDFunc
..
我有以下问题:假设我有一个目录,其中包含存储在 HDFS 上的多个文件的压缩目录.我想创建一个包含一些 T 类型对象的 RDD,即: context = new JavaSparkContext(conf);JavaPairRDDfilesRDD = context.wholeTextFiles(inputDataPath);JavaPairRDDfilesRDD = context.whole
..
我正在使用 HDFS 在集群上使用 Apache Spark.据我了解,HDFS 是在数据节点上分发文件.因此,如果将“file.txt"放在文件系统上,它将被分成多个分区.现在我打电话给 rdd = SparkContext().textFile("hdfs://.../file.txt") 来自 Apache Spark.rdd 现在是否自动与文件系统上的“file.txt"具有相同的分区
..
我使用的是使用 hadoop-2.6.5.jar 版本的 spark-sql-2.4.1v.我需要先将数据保存在 hdfs 上,然后再转移到 cassandra.因此,我试图将数据保存在 hdfs 上,如下所示: String hdfsPath = "/user/order_items/";cleanedDs.createTempViewOrTable("source_tab");givenIt
..
我想在 spark 中读取 CSV 并将其转换为 DataFrame 并使用 df.registerTempTable("table_name") 将其存储在 HDFS 中 我试过了: scala>val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 我得到的错误: java.lang.RuntimeException: hd
..
如何在单个作业中使用 Spark 写入依赖于键的多个输出. 相关:写入多个输出通过关键 Scalding Hadoop,一个 MapReduce 作业 例如 sc.makeRDD(Seq((1, "a"), (1, "b"), (2, "c"))).writeAsMultiple(前缀,compressionCodecOption) 将确保 cat prefix/1 是 a乙
..
是否有可以计算博客中时差的 Pig UDF? 假设我有以下格式的博客: 10.171.100.10 - - [12/Jan/2012:14:39:46 +0530] "GET/amazon/navigator/index.phpHTTP/1.1" 200 402 "someurl/page1" "Mozilla/4.0 (兼容的;MSIE 8.0;视窗 NT 5.1;三叉戟/4.0;Inf
..
我使用以下 3 条语句来读取 hdfs 中存在的数据,然后在 mapreduce 模式下使用 pig 时转储数据,这给我带来了巨大的错误,请有人向我解释或提供解决方案 咕噜声>a= load '/temp' AS (name:chararray,age:int,salary:int);咕噜声>b= foreach a generate (name,salary);咕噜声>转储 b;2017-04
..
我可以在 Windows 上的 pig 0.13.0 版本中进入 grunt shell.当试图从 hdfs 加载一个简单的文件并转储它时.发生以下错误. 2014-10-13 17:29:45,167 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 2998:未处理的内部错误.org.apache.hadoop.mapreduce.JobCont
..
我刚刚开始在 cloudera 平台上使用 Hadoop/Pig/Hive,对如何有效加载数据进行查询有疑问. 我目前有大约 50GB 的 iis 日志加载到 hdfs 中,目录结构如下: /user/oi/raw_iis/Webserver1/Org/SubOrg/W3SVC1056242793//user/oi/raw_iis/Webserver2/Org/SubOrg/W3SVC
..
我在 HDFS 中有一个文件 44,UK,{"names":{"name1":"John","name2":"marry","name3":"stuart"},"fruits":{"fruit1":"apple","fruit2":"orange"}},31-07-2016 91,INDIA,{"names":{"name1":"Ram","name2":"Sam"},"fruits"
..
我有以下方式的数据集. ravi, Savings, avinash,2,char,33,F,22,44,12,13,33,44,22,11,10,22,2006-01-23avinash,current,sandeep,3,char,44,M,33,11,10,12,33,22,39,12,23,19,2001-02-12supreeth,储蓄,prabhash,4,char,55,F,22,
..