hadoop相关内容
..
假设我有一个包含大约 180 列和 100 条记录的表.该表被备份到临时表中,原始表被删除.在生成相同表的管道上运行此迁移(更改)之后.我想将备份的表与新的行(记录)进行比较,并将任何差异移至第三个表(_result 表),所以我这样做: 插入覆盖表zakj_customers.customers_detail_result选择acct_id, IF (a.title != b.title, 1
..
我在 debian/stretch64 上有一个 vagrant box我尝试使用文档安装 Hadoop3http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.htm 当我运行 start-dfs.sh我有这条消息 vagrant@stretch:/opt/hadoop$
..
我终于能够在 Hadoop 上启动 map-reduce 作业(在单个 debian 机器上运行).但是,map reduce 作业总是失败并出现以下错误: hadoopmachine@debian:~$ ./hadoop-1.0.1/bin/hadoop jar hadooptest/main.jar nl.mydomain.hadoop.debian.test.Main/user/hadoo
..
..
我有一个场景,其中 credit_Date、debit_date 和 loan_date 可以相同.输出表有以下几列 日期:应结合credit_date、debit_date和loan_date(credit_date、debit_date和loan_date可以相同(或)为空) Credit_payment:查找给定credit_date、实体、货币、所有者的信用金额总和 De
..
我需要重命名 hdfs 中的目录.那命令是什么? hadoop fs -mv 上述命令将 src 文件夹移动到 dest 文件夹.而不是,我希望将 src 文件夹重命名为 dest. 解决方案 重命名不在hadoop中,但是可以移动,hadoop fs -mv oldname newname
..
我正在尝试创建一个 在特定队列中运行的 Sqoop 作业,但它不起作用. 我尝试了两件事: 1st:在作业创建中声明队列 sqoop 作业\--创建我的工作\- 进口 \--连接 jdbc:teradata://RCT/DATABASE=MYDB \-Dmapred.job.queue.name=shortduration \--driver com.teradata.jdbc.T
..
我有一些大型 base64 编码数据(存储在 hadoop 文件系统中的 snappy 文件中).此数据最初是 gzip 压缩的文本数据.我需要能够读取这些编码数据的块,对其进行解码,然后将其刷新到 GZIPOutputStream. 关于如何做到这一点而不是将整个 base64 数据加载到数组中并调用 Base64.decodeBase64(byte[]) 的任何想法? 如果我读取字
..
我有一组在 HDFS 中递归创建的目录.如何列出所有目录?对于普通的 unix 文件系统,我可以使用以下命令 查找/path/-type d -print 但我想为 HDFS 获得类似的东西. 解决方案 递归列出目录内容可以使用 hadoop dfs -lsr/dirname 命令. 要仅过滤目录,您可以在上述命令的输出中 grep "drwx"(因为所有者对目录具有 rwx
..
我正在尝试 Spring Data - Hadoop 在从我的本地机器的 IDE 远程集群 //Hadoop 1.1.2、Spring 3.2.4、Spring-Data-Hadoop 1.0.0 尝试使用这些版本: Hadoop 1.2.1、Spring 4.0.1、Spring-Data-Hadoop 2.0.2 applicationContext.xml:
..
我正在尝试在我的 Windows 7 机器上配置 Hadoop.我能够启动名称节点和其他服务,但是当我运行 Hadoop 包(版本 1.0.3)附带的示例时,出现以下错误: bin/hadoop:第 320 行:C:\Program:找不到命令. 我使用以下命令运行示例: bin/hadoop jar hadoop-examples-1.0.3.jar pi 10 我打开了这个 hadoo
..
我目前正在编写一个简单的基于 .NET Core 的客户端,用于通过 WebHCat 与 Hadoop 集群进行交互,并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证,就像在 curl 或 Powershell Core 中一样. 使用 Curl 我可以像这样查询 WebHCat 的状态端点: curl "http://10.2.0.9:50111/templeton/v1/sta
..
我刚刚使用 Eclipse Helios (3.6) 在 Windows 7 上的 Cygwin 下完成了 Hadoop 0.20.2 的安装.Hadoop 现在已经完全启动,我正在尝试在 Eclipse 中新创建的 MapReduce 测试项目中运行测试应用程序.我正在使用 Hadoop 下载中的 Hadoop 0.20.2 插件. Map/Reduce Location 透视图可以正常运
..
问题:Eclipse Hadoop 插件问题(本地异常调用 localhost/127.0.0.1:50070 失败:java.io.EOFException).任何机构都可以给我解决方案吗? 我正在学习 Cloudera 培训教程.其中使用 Eclipse(Helios)3.6 和 Hadoop.0.20.2-cdh3u2 版本. 我已经下载了 hadoop-eclipse-plug
..
所以快速背景是我正在创建一个 java 程序,它使用许多不同的导入 导入 org.apache.hadoop.conf.*;导入 org.apache.hadoop.fs.Path;导入 org.apache.hadoop.io.*;导入 org.apache.hadoop.mapreduce.*;导入 org.apache.hadoop.util.*;导入 org.apache.hado
..
我了解您可以使用 Python Spark 程序将单个文件作为依赖项发送.但是成熟的库(例如 numpy)呢? Spark 是否有办法使用提供的包管理器(例如 pip)来安装库依赖项?还是必须在执行 Spark 程序之前手动完成? 如果答案是手动,那么在大量分布式节点上同步库(安装路径、版本等)的“最佳实践"方法是什么? 解决方案 实际上已经尝试过了,我认为我作为评论发布的链接
..
我有一个 CSV 文件,我正在尝试将其导入 Amazon DynamoDB.所以我把它上传到 S3,建立一个 EMR 集群,然后创建一个像这样的外部表: 蜂巢>创建外部表 s3_table_myitems (colA BIGINT, colB STRING, colC STRING, colD DOUBLE, colE DOUBLE, colF STRING, colG STRING)行格式 S
..
刚刚尝试将基本的 RDD 数据集导入 DynamoDB.这是代码: 导入 org.apache.hadoop.mapred.JobConfvar rdd = sc.parallelize(Array(("", Map("col1" -> Map("s" -> "abc")), "col2" -> Map("n" -> "123")))))var jobConf = new JobConf(sc.
..
我有一个 DynamoDB 表,我需要将其连接到 EMR Spark SQL 以在该表上运行查询.我得到了带有发布标签 emr-4.6.0 和 Spark 1.6.1 的 EMR Spark 集群. 我指的是文档:使用 Spark 分析 DynamoDB 数据 连接主节点后,我运行命令: spark-shell --jars/usr/share/aws/emr/ddb/lib/emr
..