hdfs相关内容
以下已经实现 Kafka Producer 使用 Spark Streaming 从 Twitter 提取数据. Kafka 消费者将数据提取到 Hive 外部表(在 HDFS 上). 虽然到目前为止工作正常.我只面临一个问题,当我的应用程序将数据插入 Hive 表时,它创建了一个小文件,每个文件的每一行数据. 下面是代码 //定义要读取的主题val 主题 = "topic_
..
就我而言,我只使用 Flink 的可查询状态.特别是,我不关心检查点. 发生事件时,我仅在最多 X 分钟后查询可查询状态.理想情况下,我会删除“旧"状态以节省空间. 这就是为什么我想知道:我可以在一段时间后向 Flink 的状态发出信号以清除自身吗?通过配置?通过特定的事件信号?怎么样? 解决方案 清除状态的一种方法是在状态对象(例如 ValueState 对象)上显式调用 c
..
我想用 Spark runner 运行管道,数据存储在远程机器上.已使用以下命令提交作业: ./spark-submit --class org.apache.beam.examples.WordCount --master spark://192.168.1.214:6066 --deploy-mode cluster --supervise --executor-memory 2G--tot
..
我想用 Spark runner 运行管道,数据存储在远程机器上.已使用以下命令提交作业: ./spark-submit --class org.apache.beam.examples.WordCount --master spark://192.168.1.214:6066 --deploy-mode cluster --supervise --executor-memory 2G--tot
..
我正在尝试编译 libhdfs(一个允许外部应用程序与 hdfs 交互的本机共享库).这是我使用 Fuse 挂载 Hadoop 的 hdfs 必须采取的几个步骤之一. 编译似乎进行了一段时间,但以“BUILD FAILED"和以下问题总结结束 - commons-logging#commons-logging;1.0.4:在 commons-logging#commons-loggin
..
我正在尝试使用 Sqoop 将一个黑斑羚表从 HDFS 导出到 MySQL.该表已经在 MySQL 中创建,并且两个表的架构应该匹配. Impala 表信息:1 开始日期字符串2 start_station_code 字符串3 end_date 字符串4 end_station_code 字符串5 duration_sec 整数6 is_member int7 cnt bigintImpala
..
我有一个 Oracle 查询,它正在获取 2500 万条记录,没有 pk 或没有正确分布的列以按列拆分.所以我想到了使用 ROW_number() over () as RANGEGROUP 来制作一个序列号.但是当我使用这个伪列时,它给了我一个错误说 在 org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164)引起:java.s
..
我是 Spark 的新手,不知道如何问这个问题(使用哪些术语等),所以这是我在概念上试图实现的目标的图片: 我有很多小的、单独的 .txt“分类帐"文件(例如,当时带有时间戳和属性值的行分隔文件). 我想: 将每个“分类帐"文件读入单独的数据框(阅读:不合并为一个大数据框); 对每个单独的数据框进行一些基本的计算,得到一行新的数据值;然后 将所有单独的结果行合并为一个
..
有一些拼花文件路径为: /a/b/c ='str1'/d ='str' /a/b/c ='str2'/d ='str' /a/b/c ='str3'/d ='str' 我想像这样读取实木复合地板文件: df = spark.read.parquet('/a/b/c ='*'/d ='str') 但是通过使用"*" 通配符不能使用.我该怎么做?谢谢你的帮助 解决
..
我通过像这样从HDFS读取数据在PySpark中创建了数据框: df = spark.read.parquet('path/to/parquet') 我希望数据框具有两列字符串: + ------------ + ------------------ +| my_column | my_other_column |+ ------------ + ------------------
..
我正在使用 wholeTextFiles 读取目录中的每个文件.之后,我使用 map 在rdd的每个元素上调用一个函数.整个程序每个文件仅使用50行.代码如下: def processFiles(fileNameContentsPair):fileName = fileNameContentsPair [0]结果="\ n \ n" +文件名resultEr ="\ n \ n" +文件名输入
..
我是Python的新手,我想从hdfs中读取一个文件(已实现). 读取文件后,我正在执行一些字符串操作,我想将这些修改后的内容写入输出文件中. 由于打开对我不起作用,因此读取了我使用子进程(花费了很多时间)获得的文件. cat = Popen(["hadoop","fs","-cat","/user/hdfs/test-python/input/test_replace"],std
..
我正在尝试将大型稀疏数据帧保存到hdf5文件中,但出现了归属错误: one_hot = pd.get_dummies(my_DF,columns = ['cat'],sparse = True)one_hot.to_hdf('/content/data.h5','table',mode ='w',append = True,complevel = 9,complib ='bzip2') 我
..
我一直在尝试通过pip( pip install pyarrow ,以及建议的Yagav: py -3.7 -m pip install --user pyarrow )进行pyarrow安装.conda( conda install -c conda-forge pyarrow ,也使用了 conda install pyarrow ),从src构建lib(使用conda环境和一些魔术,我不是真
..
我一直在阅读有关此主题的几个问题,也阅读过几个论坛,在所有这些论坛中,他们似乎都提到从Spark生成的每个.parquet文件的大小应为64MB或1GB,但仍然可以我不介意哪种情况属于每种文件大小,其背后的原因除了HDFS将它们分成64MB的块. 我当前的测试方案如下. 数据集.coalesce(n)#为'n'4或48-原因说明如下..写.mode(SaveMode.Append).par
..
我已经使用Ambari设置了一个包含3个节点的集群. 现在,我想使用客户端应用程序访问HDFS中的文件. 我可以在Amabari的“数据节点"下找到所有节点URI. 访问文件我需要使用什么URI +端口?我已经使用了默认的安装过程. 解决方案 默认端口为"8020". 您可以通过3种不同的方式访问"hdfs"路径. 只需使用"/"作为根路径 例如 E
..
我必须使用具有Java子目录的HDFS文件夹大小. 在命令行中,我们可以使用-dus选项,但是任何人都可以帮助我了解如何使用Java来获取相同的信息. 解决方案 ContentSummary 类中的 getSpaceConsumed()函数将返回文件/目录占用的实际空间在群集中,即它考虑了为群集设置的复制因子. 例如,如果hadoop群集中的复制因子设置为3,并且目录大小为1.
..
是否存在使用Hadoop API/Spark Scala在Hdfs上将文件从一个目录复制到另一个目录的已知方法? 我尝试使用copyFromLocalFile,但没有帮助 解决方案 尝试使用Hadoop的 FileUtil.copy()命令,如下所述:
..
我需要找出在每个架构中创建的表的数量,并找出每个架构所占用的大小. 解决方案 使用shell脚本可以做到这一点 计算命令输出中的行 hive -S -e“设置hive.cli.print.header = false;使用$ schema;显示表;"|wc -l 其中$ schema是您的架构名称 模式的大小有些棘手.模式中的每个表都可以在HDFS中拥有其自己的位置,该位置与模
..
我正在尝试获取HDFS目录中特定文件的字节数. 我尝试使用 fs.getFileStatus(),但是我看不到任何获取文件字节数的方法,我只能看到 getBlockSize()方法 有什么方法可以获取HDFS中特定文件的字节数吗? 解决方案 fs.getFileStatus()返回具有方法 getLen()的FileStatus对象,该方法将返回“此文件的长度,以字节为单位."
..