hdfs相关内容
由于没有 diff,我如何比较两个 HDFS 文件? 我正在考虑使用 Hive 表并从 HDFS 加载数据,然后在 2 个表上使用连接语句.有没有更好的办法? 解决方案 hadoop 没有提供 diff 命令,但实际上你可以使用 diff 在 shell 中使用重定向代码>命令: diff
..
我正在使用 Kafka Spark Streaming 来获取流数据. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2) 我正在使用这个 DStream 并处理 RDD val o
..
我是 NoSQL 解决方案的新手,想使用 Hive.但是安装 HDFS/Hadoop 需要大量资源和时间(可能没有经验但我没有时间这样做). 有没有办法在没有 HDFS/Hadoop 的本地机器上安装和使用 Hive? 解决方案 是的,你可以在没有 hadoop 的情况下运行 hive1.在本地系统上创建仓库2. 将默认 fs 设为 file:///比你可以在没有安装 hadoop
..
在我的公司,我看到这两个命令经常使用,我想知道它们之间的区别,因为它们的功能在我看来是一样的: 1 创建表(名称字符串,数字双);将数据 inpath '/directory-path/file.csv' 加载到 ; 2 创建表(名称字符串,数字双);location '/directory-path/file.csv'; 他们都将数据从 HDFS 上的目录复制到
..
我对 hive 在哪里存储数据感到有些困惑. 它是将数据存储在 HDFS 还是 RDBMS 中?Hive Meta store 是否使用 RDBMS 来存储 hive 表的元数据?? 提前致谢!! 解决方案 Hive 数据存储在 之一中Hadoop 兼容文件系统:S3、HDFS 或其他兼容文件系统. Hive 元数据像 MySQL 一样存储在 RDBMS 中,参见 支持的
..
我在 HDFS 中有一个目录(最终目录),其中每分钟加载一些文件(例如:10 mb).一段时间后,我想将所有小文件合并为一个大文件(例如:100 mb).但是用户不断地将文件推送到最终目录.这是一个持续的过程. 所以我第一次需要将前 10 个文件组合成一个大文件(例如:large.txt)并将文件保存到 Finaldir. 现在我的问题是我将如何获得不包括前 10 个文件的接下来的 1
..
我能做到 ALTER TABLE table_name ADD COLUMNS (user_id BIGINT) 在我的非分区列的末尾和我的分区列之前添加一个新列. 有没有办法在我的非分区列中的任何地方添加一个新列?例如,我想把这个新列 user_id 作为我表的第一列 解决方案 是的,可以更改列的位置,但必须在使用 CHANGE COLUMN 将其添加到表中之后
..
我正在尝试将 CSV 文件加载到 Hive 表中,如下所示: 创建表 mytable(num1 INT,文本 1 字符串,num2 INT,文本 2 字符串)行格式以“,"结尾的分隔字段;加载数据本地输入路径'/data.csv'OVERWRITE INTO TABLE mytable; csv 由逗号 (,) 分隔,如下所示: 1, "一些文本,其中包含逗号", 123, "更多文本"
..
作为从 Hortonworks 数据平台 (HDP v3.x) 迁移到 Cloudera 数据平台 (CDP) 7.1 版的一部分,我们正在测试我们的 Hadoop 应用程序.在测试时,我们在尝试创建托管 Hive 表时发现了以下问题.请就可能的解决方案提出建议.谢谢! 错误:编译语句时出错:失败:执行错误,从 org.apache.hadoop.hive.ql.ddl.DDLTask 返回
..
如果我在具有某些分区列的表上运行下面的 hive 查询,我想确保 hive 不进行全表扫描,而只是从元数据本身找出结果.有什么办法可以启用此功能吗? 从 hive_table 中选择 max(partitioned_col) ; 现在,当我运行这个查询时,它会启动 map reduce 任务,我确信它会进行数据扫描,同时它可以很好地从元数据本身中找出价值. 解决方案 每次更改数据时计算
..
问题 - 我正在 AWS EMR 中运行 1 个查询.它因抛出异常而失败 - java.io.FileNotFoundException: 文件 s3://xxx/yyy/internal_test_automation/2016/09/17/17156/data/feed/commerce_feed_redshift_dedup/.hive-staging_hive_2016-09-17
..
SO 和网络上的大多数问题/答案讨论使用 Hive 将一堆小的 ORC 文件组合成一个更大的文件,但是,我的 ORC 文件是按天分隔的日志文件,我需要将它们分开.我只想每天“汇总"ORC 文件(它们是 HDFS 中的目录). 我最有可能需要用 Java 编写解决方案并且遇到了 OrcFileMergeOperator 这可能是我需要使用的,但现在说还为时过早. 解决此问题的最佳方法是什
..
是否可以使用 Hive 创建 n 个指向单个 hdfs 路径的外部表.如果是,有什么优点和局限性. 解决方案 可以在 HDFS 的同一位置上创建多个表(同时托管和外部). 在相同数据之上创建具有完全相同架构的表根本没有用,但是您可以创建具有不同列数的不同表,例如使用 RegexSerDe 创建具有不同解析列的不同表,因此您可以有不同的这些表中的模式.您可以对 Hive 中的这些表拥有
..
一些背景信息: 我正在处理 Dataiku DSS、HDFS 和分区数据集.我有一个特定的作业正在运行(Hive 查询),它有两个输入数据集 - 一个是非常大的分区数据集,另一个是小的(~250 行,2 列)非分区数据集.我们称分区表A,非分区表B. 问题: 查询格式如下, SELECT a.f1, f2, ..., fn从 A 作为左连接 B 作为 b开 a.f1 = b.f
..
我想在我的 Spark 程序 (Pyspark) 开始时做一些清理工作.例如,我想删除以前运行 HDFS 的数据.在 pig 中,这可以使用诸如 之类的命令来完成 fs -copyFromLocal ....rmf/path/to-/hdfs 或在本地使用 sh 命令. 我想知道如何用 Pyspark 做同样的事情. 解决方案 您可以使用表单示例执行任意 shell 命令 su
..
我在 Amazon EC2 上设置了一个包含 5 个节点的 Hadoop 集群.现在,当我登录主节点并提交以下命令时 bin/hadoop jar .jar 它抛出以下错误(不是同时).当我不将斜杠替换为“%2F"时抛出第一个错误,当我将它们替换为“%2F"时抛出第二个错误: 1) Java.lang.IllegalArgum
..
我正在运行 Red Hat Enterprise Linux Server 6.4(圣地亚哥)发行版,上面安装了 Hadoop 1.1.2.我已经进行了启用伪分布式模式所需的配置.但是在尝试运行 hadoop 时,datanode 和 tasktracker 没有启动. 我无法将任何文件复制到 hdfs. [hduser@is-joshbloom-hadoop hadoop]$ hadoo
..
我们正在尝试设置 Cloudera 5.5,其中 HDFS 将只在 s3 上工作,因为我们已经在 Core-site.xml 中配置了必要的属性 fs.s3a.access.key###############fs.s3a.secret.key###############
..
..
找到许多运行 map-reduce 程序的选项.任何人都可以解释以下命令之间的区别.以及对 Map-reduce 工作的影响(如果有). java -jar MyMapReduce.jar [args]hadoop jar MyMapReduce.jar [参数]纱线 jar MyMapReduce.jar [args] 在这些命令中,哪一个最好? 可以使用以下命令中的 Web 服务端
..