hadoop相关内容

如何在使用Scala读取HDFS目录后删除该目录中的文件?

我使用fileStream从Spark(流上下文)读取HDFS目录中的文件。如果我的Spark在一段时间后关闭并启动,我希望读取目录中的新文件。我不想读取Spark已经读取和处理过的目录中的旧文件。我在此尽量避免重复。 val lines = ssc.fileStream[LongWritable, Text, TextInputFormat]("/home/File") 是否有需要帮助 ..
发布时间:2022-03-29 19:33:04 其他开发

如何在Python中读取gzip镶木地板文件

我需要打开一个gzip文件,其中包含一个包含一些数据的拼图文件。我在尝试打印/读取文件中的内容时遇到了很多问题。我尝试了以下操作: with gzip.open("myFile.parquet.gzip", "rb") as f: data = f.read() 这似乎不起作用,因为我收到一个错误,指出我的文件id不是GZ文件。谢谢! 推荐答案 可以使用pandas模 ..
发布时间:2022-03-23 14:38:24 Python

HBase客户端-服务器的版本兼容性

我想知道如何知道我的HBase客户机的JAR是否适合我的HBase服务器的版本。是否有指定HBase客户端JAR支持哪些HBase版本的地方? 在我的示例中,我希望将最新的HBase客户机JAR(2.4.5)与相当旧的HBase服务器(版本1.2)一起使用。有没有地方可以检查兼容性以了解它是否可行和是否受支持? 我想知道是否有一个表显示了与其他数据库一样的广泛兼容性。类似于: https: ..
发布时间:2022-03-07 16:42:37 其他开发

HBase MemStore和垃圾回收

我是HBase的新手,但我已经进行了设置,并且了解了一些关于HBase和Hadoop的知识。 当我研究HBase MemStore时,我对MemStore的理解是“MemStore是HBase放置必须写入或读取的数据的内存中位置”。 因此,这就是为什么我们希望在何时何地阅读有关memstore的内容,也会看到有关垃圾收集的讨论。 现在我的问题是,memstore的唯一目的是在内存中保存可读 ..
发布时间:2022-03-07 16:35:37 其他开发

基于子串匹配的蜂窝/猪连接

我有一个要求,我需要使用人名加入twets表,比如过滤包含任何人名的tweet。我有以下数据: 推文表:(7000万条记录存储为一个配置单元表) id 推文 1 克里斯蒂亚诺·罗纳尔多有史以来最伟大的 2 布拉德·皮特电影 3 无人名的随机推文 人名:(160万个姓名以.tsv文件形式存储在HDFS上) id PERSON_NAME 1 克里斯蒂亚诺·罗纳尔多 2 ..
发布时间:2022-03-01 18:34:57 其他开发

到主机端口22的SSH连接被拒绝

我使用的是VMware虚拟化系统。我的操作系统是Centos Release 7。我安装了hadoop2.7.1。在安装Hadoop之后,我运行了命令:#hdfs namenode -format,它运行成功。但是当我运行命令:#./start-all.sh时,它给出错误。我尝试了在互联网上看到的几个建议,但问题仍然存在 [root@MASTER sbin]# ./start-all.sh ..
发布时间:2022-03-01 18:26:48 其他开发

在一台计算机上运行Hadoop群集

我是Hadoop环境的新手。 我想知道是否可以使用虚拟机在单个计算机上运行群集(包含2个或3个节点)。 欢迎任何澄清。 谢谢您。 推荐答案 来自Virtual Hadoop Wiki: 需要分别检查云和虚拟化,但在所有情况下,答案都是“是的,您可以虚拟化,是的,您可以部署到云,但您需要了解后果并制定相应的计划”。 此维基页面是您开始考虑如何在虚拟机上设置Hado ..

Hadoop DataNode未运行

我在笔记本电脑上安装了Hadoop,除DataNode外,所有服务都在运行。最初,NameNode和辅助NameNode没有运行。我在NameNode和辅助NameNode上进行了一些更改/权限,现在一切正常。 hduse@Lenovo-IdeaPad-S510p:/usr/local/hadoop/sbin$ jps 14339 NameNode 16579 Jps 15571 NodeM ..
发布时间:2022-02-27 17:55:47 服务器开发

HDFS中的电光类路径

对于在纱线(纱线客户端)上运行的电光作业,是否可以使用hdfs中的jar指定类路径 有点像使用Map Reduce作业: DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs) 推荐答案 来自SparkContext文档: defaddJar(路径:string) ..
发布时间:2022-02-27 17:54:43 其他开发

对行数、列数、文件大小是否有配置单元理论和实际限制?

我在https://cwiki.apache.org/confluence/display/Hive/Home 中找不到任何记录的限制 我的猜测是没有行数或列数的限制。文件大小受文件系统的限制。通过正确划分数据,我们还可以管理文件大小和文件数量。 谢谢您。 推荐答案 列数: 在这个JIRA中,他们成功地使用15K列和20K列测试了ORC文件的OOM(使用默认的1 GB堆)。 ..
发布时间:2022-02-27 17:53:36 其他开发

是否将文件划分为数据块以存储在HDFS中?

我了解到HDFS中的挡路系统是位于底层文件系统之上的逻辑分区。 但是,当我发出cat命令时,如何检索文件。 假设我有一个1 GB的文件。我的默认HDFS挡路大小为64 MB。 我发出以下命令: hadoop -fs copyFromLocal my1GBfile.db input/data/ 上述命令将文件my1GBfile.db从我的本地计算机复制到HDFS: 中的inp ..
发布时间:2022-02-27 17:49:47 其他开发

电光-当应用程序JAR在HDFS中时提交不起作用

我正在尝试使用bin/电光-Submit运行电光应用程序。当我在本地文件系统中引用我的应用程序JAR时,它可以工作。但是,当我将应用程序JAR复制到HDFS中的目录时,我收到以下异常: 警告:跳过远程JAR hdfs://localhost:9000/user/hdfs/jars/simple-project-1.0-SNAPSHOT.jar. java.lang.ClassNotFound ..
发布时间:2022-02-27 17:48:08 其他开发

HDFS DFS-mkdir,没有这样的文件或目录

您好,我是Hadoop新手,正在尝试在HDFS中创建名为twitter_data的目录。 我已经在SoftLayer上设置了我的虚拟机,并成功安装和启动了Hadoop。 这是我尝试运行的推荐: HDFS Dfs-mkdir hdfs://localhost:9000/user/Hadoop/twitter_data 并且它不断返回此错误消息: /usr/local/had ..
发布时间:2022-02-27 17:46:59 其他开发

MapReduce中间数据输出位置

您刚刚执行了MapReduce作业。中间数据从映射器的map方法发出后写入何处? A.中的中间数据通过网络从Mapper流式传输到Reduce,并且从不写入磁盘。 B.写入运行Mapper的TaskTracker节点上的内存缓冲区,该节点溢出并写入HDFS。 C.进入内存缓冲区,溢出到运行映射器的TaskTracker节点的本地文件系统。 D.内存缓冲区溢出到运行Reducer的Tas ..
发布时间:2022-02-23 23:44:33 其他开发

在Windows上安装Hadoop

在解压C盘中的Hadoop之后,我尝试执行Hadoop version命令,但得到以下错误。JAVA_HOME在我的环境变量中设置正确。有人能帮忙纠正那个错误吗? C:>hadoop version The system cannot find the path specified. Error: JAVA_HOME is incorrectly set. Please update C ..
发布时间:2022-02-21 11:39:19 其他开发