hadoop 第2页 - IT屋-程序员软件开发技术分享社区

如何检查配置单元中的一串日期时间是否符合要求？

我在配置单元中有一张桌子： # the description of table desc baseinfo; cv_id string None cv_update string None ...... # data in table is like this select cv_id, cv_update from baseinfo limit 1; 000 ..

发布时间：2022-04-03 09:42:52 sql datetime hadoop hive hql 其他开发

Hadoop在[ubuntu]ubuntu上启动名称节点：权限被拒绝(公钥，密码)

Ubuntu 16.04.1 LTS Hadoop 3.3.1 当我运行start-dfs.sh时， Hadoop@ubuntu：~/hadoop/sbin$Start-dfs.sh 在[ubuntu]上启动名称节点 Ubuntu：警告：已将‘ubuntu’(ECDSA)永久添加到已知主机列表中。 Ubuntu：权限被拒绝(公钥，密码)。启动数据节点 LOCALHOST： ..

发布时间：2022-04-02 20:50:40 hadoop ubuntu-16.04 其他开发

如何在使用Scala读取HDFS目录后删除该目录中的文件？

我使用fileStream从Spark(流上下文)读取HDFS目录中的文件。如果我的Spark在一段时间后关闭并启动，我希望读取目录中的新文件。我不想读取Spark已经读取和处理过的目录中的旧文件。我在此尽量避免重复。 val lines = ssc.fileStream[LongWritable, Text, TextInputFormat]("/home/File") 是否有需要帮助 ..

发布时间：2022-03-29 19:33:04 scala hadoop apache-spark spark-streaming 其他开发

如何在Python中读取gzip镶木地板文件

我需要打开一个gzip文件，其中包含一个包含一些数据的拼图文件。我在尝试打印/读取文件中的内容时遇到了很多问题。我尝试了以下操作： with gzip.open("myFile.parquet.gzip", "rb") as f: data = f.read() 这似乎不起作用，因为我收到一个错误，指出我的文件id不是GZ文件。谢谢！推荐答案可以使用pandas模 ..

发布时间：2022-03-23 14:38:24 python hadoop gzip parquet Python

HBase客户端-服务器的版本兼容性

我想知道如何知道我的HBase客户机的JAR是否适合我的HBase服务器的版本。是否有指定HBase客户端JAR支持哪些HBase版本的地方？在我的示例中，我希望将最新的HBase客户机JAR(2.4.5)与相当旧的HBase服务器(版本1.2)一起使用。有没有地方可以检查兼容性以了解它是否可行和是否受支持？我想知道是否有一个表显示了与其他数据库一样的广泛兼容性。类似于： https: ..

发布时间：2022-03-07 16:42:37 hadoop hbase version-compatibility hbase-client 其他开发

HBase MemStore和垃圾回收

我是HBase的新手，但我已经进行了设置，并且了解了一些关于HBase和Hadoop的知识。当我研究HBase MemStore时，我对MemStore的理解是“MemStore是HBase放置必须写入或读取的数据的内存中位置”。因此，这就是为什么我们希望在何时何地阅读有关memstore的内容，也会看到有关垃圾收集的讨论。现在我的问题是，memstore的唯一目的是在内存中保存可读 ..

发布时间：2022-03-07 16:35:37 memory-management hadoop hbase 其他开发

基于子串匹配的蜂窝/猪连接

我有一个要求，我需要使用人名加入twets表，比如过滤包含任何人名的tweet。我有以下数据：推文表：(7000万条记录存储为一个配置单元表) id 推文 1 克里斯蒂亚诺·罗纳尔多有史以来最伟大的 2 布拉德·皮特电影 3 无人名的随机推文人名：(160万个姓名以.tsv文件形式存储在HDFS上) id PERSON_NAME 1 克里斯蒂亚诺·罗纳尔多 2 ..

发布时间：2022-03-01 18:34:57 hadoop join hive bigdata apache-pig 其他开发

到主机端口22的SSH连接被拒绝

我使用的是VMware虚拟化系统。我的操作系统是Centos Release 7。我安装了hadoop2.7.1。在安装Hadoop之后，我运行了命令：#hdfs namenode -format，它运行成功。但是当我运行命令：#./start-all.sh时，它给出错误。我尝试了在互联网上看到的几个建议，但问题仍然存在 [root@MASTER sbin]# ./start-all.sh ..

发布时间：2022-03-01 18:26:48 hadoop hdfs bigdata 其他开发

在一台计算机上运行Hadoop群集

我是Hadoop环境的新手。我想知道是否可以使用虚拟机在单个计算机上运行群集(包含2个或3个节点)。欢迎任何澄清。谢谢您。推荐答案来自Virtual Hadoop Wiki：需要分别检查云和虚拟化，但在所有情况下，答案都是“是的，您可以虚拟化，是的，您可以部署到云，但您需要了解后果并制定相应的计划”。此维基页面是您开始考虑如何在虚拟机上设置Hado ..

发布时间：2022-02-28 21:44:56 hadoop virtual-machine cluster-computing bigdata hadoop2 其他开发

我在笔记本电脑上安装了Hadoop，除DataNode外，所有服务都在运行。最初，NameNode和辅助NameNode没有运行。我在NameNode和辅助NameNode上进行了一些更改/权限，现在一切正常。 hduse@Lenovo-IdeaPad-S510p:/usr/local/hadoop/sbin$ jps 14339 NameNode 16579 Jps 15571 NodeM ..

发布时间：2022-02-27 17:55:47 apache hadoop mapreduce hdfs cloudera 服务器开发

HDFS中的电光类路径

对于在纱线(纱线客户端)上运行的电光作业，是否可以使用hdfs中的jar指定类路径有点像使用Map Reduce作业： DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs) 推荐答案来自SparkContext文档： defaddJar(路径：string) ..

发布时间：2022-02-27 17:54:43 hadoop apache-spark hdfs hadoop-yarn 其他开发

对行数、列数、文件大小是否有配置单元理论和实际限制？

我在https://cwiki.apache.org/confluence/display/Hive/Home 中找不到任何记录的限制我的猜测是没有行数或列数的限制。文件大小受文件系统的限制。通过正确划分数据，我们还可以管理文件大小和文件数量。谢谢您。推荐答案列数：在这个JIRA中，他们成功地使用15K列和20K列测试了ORC文件的OOM(使用默认的1 GB堆)。 ..

发布时间：2022-02-27 17:53:36 hadoop hive hdfs 其他开发

是否将文件划分为数据块以存储在HDFS中？

我了解到HDFS中的挡路系统是位于底层文件系统之上的逻辑分区。但是，当我发出cat命令时，如何检索文件。假设我有一个1 GB的文件。我的默认HDFS挡路大小为64 MB。我发出以下命令： hadoop -fs copyFromLocal my1GBfile.db input/data/ 上述命令将文件my1GBfile.db从我的本地计算机复制到HDFS: 中的inp ..

发布时间：2022-02-27 17:49:47 hadoop hdfs hadoop2 其他开发

电光-当应用程序JAR在HDFS中时提交不起作用

我正在尝试使用bin/电光-Submit运行电光应用程序。当我在本地文件系统中引用我的应用程序JAR时，它可以工作。但是，当我将应用程序JAR复制到HDFS中的目录时，我收到以下异常：警告：跳过远程JAR hdfs://localhost:9000/user/hdfs/jars/simple-project-1.0-SNAPSHOT.jar. java.lang.ClassNotFound ..

发布时间：2022-02-27 17:48:08 hadoop apache-spark hdfs 其他开发

HDFS DFS-mkdir，没有这样的文件或目录

您好，我是Hadoop新手，正在尝试在HDFS中创建名为twitter_data的目录。我已经在SoftLayer上设置了我的虚拟机，并成功安装和启动了Hadoop。这是我尝试运行的推荐： HDFS Dfs-mkdir hdfs://localhost:9000/user/Hadoop/twitter_data 并且它不断返回此错误消息： /usr/local/had ..

发布时间：2022-02-27 17:46:59 hadoop hdfs 其他开发

ApplicationMaster退出代码杀死的容器是143

我在几种情况下都收到以下错误： 2017-03-23 11:55:10,794 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1490079327128_0048_r_000003 ..

发布时间：2022-02-23 23:47:17 hadoop hive mapreduce hadoop2 其他开发

MapReduce中间数据输出位置

您刚刚执行了MapReduce作业。中间数据从映射器的map方法发出后写入何处？ A.中的中间数据通过网络从Mapper流式传输到Reduce，并且从不写入磁盘。 B.写入运行Mapper的TaskTracker节点上的内存缓冲区，该节点溢出并写入HDFS。 C.进入内存缓冲区，溢出到运行映射器的TaskTracker节点的本地文件系统。 D.内存缓冲区溢出到运行Reducer的Tas ..

发布时间：2022-02-23 23:44:33 hadoop mapreduce 其他开发

配置单元：转换"；yyyy-MM-dd'；T'；HH:mm:ss.SSS'；Z'；"；中缺少秒的字符串日期时间

我使用以下代码将字符串DATETIME变量转换为DATETIME，但转换后的字符串缺少SSS部分。使用的代码： cast(FROM_UNIXTIME(UNIX_TIMESTAMP(oldtime, "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'"),"yyyy-MM-dd HH:mm:ss.SSS") as timestamp) as newtime 结果： 2 ..

发布时间：2022-02-22 09:28:22 datetime hadoop hive hiveql cloudera 其他开发

在Windows上安装Hadoop

在解压C盘中的Hadoop之后，我尝试执行Hadoop version命令，但得到以下错误。JAVA_HOME在我的环境变量中设置正确。有人能帮忙纠正那个错误吗？ C:>hadoop version The system cannot find the path specified. Error: JAVA_HOME is incorrectly set. Please update C ..

发布时间：2022-02-21 11:39:19 windows hadoop 其他开发

Hadoop 无法连接到 Google Cloud Storage

..

发布时间：2022-01-25 20:17:39 google-app-engine hadoop google-cloud-storage google-hadoop 其他开发

hadoop相关内容