hadoop相关内容

如何使用 HIVE 比较两个表并返回不同的行

假设我有一个包含大约 180 列和 100 条记录的表.该表被备份到临时表中,原始表被删除.在生成相同表的管道上运行此迁移(更改)之后.我想将备份的表与新的行(记录)进行比较,并将任何差异移至第三个表(_result 表),所以我这样做: 插入覆盖表zakj_customers.customers_detail_result选择acct_id, IF (a.title != b.title, 1 ..
发布时间:2022-01-25 09:43:27 其他开发

Hadoop:start-dfs.sh 连接被拒绝

我在 debian/stretch64 上有一个 vagrant box我尝试使用文档安装 Hadoop3http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.htm 当我运行 start-dfs.sh我有这条消息 vagrant@stretch:/opt/hadoop$ ..
发布时间:2022-01-24 23:39:12 其他开发

在 hdfs 中重命名目录

我需要重命名 hdfs 中的目录.那命令是什么? hadoop fs -mv 上述命令将 src 文件夹移动到 dest 文件夹.而不是,我希望将 src 文件夹重命名为 dest. 解决方案 重命名不在hadoop中,但是可以移动,hadoop fs -mv oldname newname ..
发布时间:2022-01-23 09:08:48 其他开发

在特定队列上运行 sqoop 作业

我正在尝试创建一个 在特定队列中运行的 Sqoop 作业,但它不起作用. 我尝试了两件事: 1st:在作业创建中声明队列 sqoop 作业\--创建我的工作\- 进口 \--连接 jdbc:teradata://RCT/DATABASE=MYDB \-Dmapred.job.queue.name=shortduration \--driver com.teradata.jdbc.T ..
发布时间:2022-01-21 12:02:33 其他开发

Base64数据的流解码

我有一些大型 base64 编码数据(存储在 hadoop 文件系统中的 snappy 文件中).此数据最初是 gzip 压缩的文本数据.我需要能够读取这些编码数据的块,对其进行解码,然后将其刷新到 GZIPOutputStream. 关于如何做到这一点而不是将整个 base64 数据加载到数组中并调用 Base64.decodeBase64(byte[]) 的任何想法? 如果我读取字 ..
发布时间:2022-01-21 08:53:00 Java开发

如何递归列出 HDFS 的子目录?

我有一组在 HDFS 中递归创建的目录.如何列出所有目录?对于普通的 unix 文件系统,我可以使用以下命令 查找/path/-type d -print 但我想为 HDFS 获得类似的东西. 解决方案 递归列出目录内容可以使用 hadoop dfs -lsr/dirname 命令. 要仅过滤目录,您可以在上述命令的输出中 grep "drwx"(因为所有者对目录具有 rwx ..
发布时间:2022-01-20 17:30:54 其他开发

通过 Cygwin 在 Windows 上配置 Hadoop

我正在尝试在我的 Windows 7 机器上配置 Hadoop.我能够启动名称节点和其他服务,但是当我运行 Hadoop 包(版本 1.0.3)附带的示例时,出现以下错误: bin/hadoop:第 320 行:C:\Program:找不到命令. 我使用以下命令运行示例: bin/hadoop jar hadoop-examples-1.0.3.jar pi 10 我打开了这个 hadoo ..
发布时间:2022-01-18 11:43:03 其他开发

.NET Core SPNEGO 身份验证与 HttpClient

我目前正在编写一个简单的基于 .NET Core 的客户端,用于通过 WebHCat 与 Hadoop 集群进行交互,并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证,就像在 curl 或 Powershell Core 中一样. 使用 Curl 我可以像这样查询 WebHCat 的状态端点: curl "http://10.2.0.9:50111/templeton/v1/sta ..
发布时间:2022-01-17 20:01:23 C#/.NET

Hadoop 0.20.2 Eclipse 插件无法完全运行 - 无法“在 Hadoop 上运行"

我刚刚使用 Eclipse Helios (3.6) 在 Windows 7 上的 Cygwin 下完成了 Hadoop 0.20.2 的安装.Hadoop 现在已经完全启动,我正在尝试在 Eclipse 中新创建的 MapReduce 测试项目中运行测试应用程序.我正在使用 Hadoop 下载中的 Hadoop 0.20.2 插件. Map/Reduce Location 透视图可以正常运 ..
发布时间:2022-01-16 13:52:00 Java开发

在 Spark 执行器节点上安装 Python 依赖项的最简单方法是什么?

我了解您可以使用 Python Spark 程序将单个文件作为依赖项发送.但是成熟的库(例如 numpy)呢? Spark 是否有办法使用提供的包管理器(例如 pip)来安装库依赖项?还是必须在执行 Spark 程序之前手动完成? 如果答案是手动,那么在大量分布式节点上同步库(安装路径、版本等)的“最佳实践"方法是什么? 解决方案 实际上已经尝试过了,我认为我作为评论发布的链接 ..