hdfs相关内容
有没有办法使用 Ruby 来处理 HDFS Api?据我所知,没有多语言文件 Api,唯一的方法是使用本机 Java Api.我尝试使用 JRuby,但此解决方案不稳定且不是很原生.此外,我查看了 HDFS Thrift Api,但它并不完整,而且还缺少许多功能(例如写入索引文件). 除了使用 JRuby 或 Thrift Api 之外,还有没有办法使用 Ruby 来处理 HDFS?
..
我是 hadoop、hdfs 的新手.我已经完成了接下来的步骤: 我已经在三个namenodes中启动了zookeeper: *vagrant@172:~$ zkServer.sh start 我可以看到状态: *vagrant@172:~$ zkServer.sh 状态 结果状态: 默认启用JMX使用配置:/opt/zookeeper-3.4.6/bin/../conf/zoo.
..
在 hbase shell 中执行任何命令时,我在 hbase shell 中收到以下错误“ERROR: KeeperErrorCode = NoNode for/hbase/master". 开始使用 HBASE: HOSTCHND:hbase-2.0.0 gvm$ ./bin/start-hbase.sh本地主机:运行zookeeper,登录到/usr/local/Cellar/hb
..
可用于将数据写入 HDFS 的“storm-hdfs 连接器"的源代码.github 网址是:https://github.com/ptgoetz/storm-hdfs有一个特殊的拓扑结构:“HdfsFileTopology"用来写'|'分隔数据到 HDFS.链接:https://github.com/ptgoetz/storm-hdfs/blob/master/src/test/java/org
..
目前还不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制). 我想让 Kafka 将数据保存到 HDFS 或 S3,并将该数据的副本发送到 Storm 进行实时处理.Storm 聚合/分析的输出将存储在 Cassandra 中.我看到一些实现将所有数据从 Kafka 流入 Storm,然后从 Storm 流出两个输出.但是,我想消除 Storm 对原始数据存储的依赖.
..
我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File..
..
我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File..
..
我已经使用 orc 格式在 Hive 中保存了 json 数据帧 jsonDF.write.format("orc").saveAsTable(hiveExamples.jsonTest) 现在我需要在 HDFS 上将文件显示为普通文本.有没有办法做到这一点? 我使用了 hdfs dfs -text/path-of-table,但它以 ORC 格式显示数据. 解决方案 在 lin
..
我已经使用 orc 格式在 Hive 中保存了 json 数据帧 jsonDF.write.format("orc").saveAsTable(hiveExamples.jsonTest) 现在我需要在 HDFS 上将文件显示为普通文本.有没有办法做到这一点? 我使用了 hdfs dfs -text/path-of-table,但它以 ORC 格式显示数据. 解决方案 在 lin
..
运行 spark-submit 作业并收到“无法获取广播_58_piece0..."错误.我真的不确定我做错了什么.我是否过度使用 UDF?功能太复杂? 作为我目标的总结,我正在解析 pdf 中的文本,这些文本以 base64 编码的字符串形式存储在 JSON 对象中.我正在使用 Apache Tika 获取文本,并尝试大量使用数据框以简化操作. 我编写了一段代码,通过 tika 将文
..
我在 PySpark 中有一个名为 df 的数据框.我已将此 df 注册为 temptable,如下所示. df.registerTempTable('mytempTable')date=datetime.now().strftime('%Y-%m-%d %H:%M:%S') 现在从这个临时表中我将获得某些值,例如列 id 的 max_id min_id = sqlContext.sql(
..
嗨,我有我的 spark 数据框的输出,它创建了文件夹结构并创建了部分文件.现在我必须合并文件夹内的所有部分文件并将该文件重命名为文件夹路径名. 这就是我做分区的方式 df.write.partitionBy("DataPartition","PartitionYear").format("csv").option("nullValue", "").option("header", "tr
..
目前,当我使用 paritionBy() 写入 HDFS 时: DF.write.partitionBy("id") 我会得到看起来像的输出结构(这是默认行为): ../id=1/../id=2/../id=3/ 我想要一个看起来像这样的结构: ../a/../b/../C/ 这样: 如果 id = 1,则一个如果 id = 2,则 b.. 等等 有没有办法改变文件名输出?如果没有
..
我的开发环境: 智能 马文 Scala2.10.6 win7 x64 依赖关系: org.apache.sparkspark-core_2.10
..
我有一个非常大的 pyspark 数据框.所以我想对它的子集进行预处理,然后将它们存储到 hdfs.后来我想阅读所有这些并合并在一起.谢谢. 解决方案 将 DataFrame 写入 HDFS (Spark 1.6). df.write.save('/target/path/', format='parquet', mode='append') ## df 是一个现有的 DataFra
..
我使用以下代码在 Spark SQL 中创建/插入数据到 Hive 表中: val sc = SparkSession.builder().appName("应用程序").master("本地[2]").config("spark.sql.warehouse.dir", "file:///tmp/spark-warehouse").enableHiveSupport().getOrCreate(
..
当我将 sparksql 查询产生的 DataFrame 保存在 HDFS 中时,它会生成大量的零件文件,每个文件的大小为 1.4 KB.有没有办法增加文件的大小,因为每个部分文件包含大约 2 条记录. df_crimes_dates_formated = spark.sql('SELECT CONCAT( SUBSTR(Dates,1,2), SUBSTR(Dates,7,4)) AS DAT
..
我是 Spark SQL 世界中的一只新蜜蜂.我目前正在迁移我的应用程序的摄取代码,其中包括在 HDFS 中的 stage、Raw 和应用程序层中摄取数据并执行 CDC(更改数据捕获),这目前是在 Hive 查询中编写的,并通过 Oozie 执行.这需要迁移到 Spark 应用程序(当前版本 1.6).另一部分代码稍后会迁移. 在 spark-SQL 中,我可以直接从 Hive 中的表创建数
..
我在 HDFS 中对数据进行了分区.在某些时候,我决定更新它.算法是: 从 kafka 主题中读取新数据. 找出新数据的分区名称. 从 HDFS 中具有这些名称的分区加载数据. 将 HDFS 数据与新数据合并. 覆盖磁盘上已有的分区. 问题是,如果新数据具有磁盘上尚不存在的分区怎么办.在这种情况下,它们不会被写入.https://stackoverflow.com/a/4969
..
我是 Spark 新手,我想使用 group-by &减少从 CSV 中找到以下内容(受雇者一行): 部门、职称、costToCompany、州销售,实习生,12000,UP销售,潜在客户,32000,AP销售,主管,32000,洛杉矶销售,铅,32000,田纳西州销售,潜在客户,32000,AP销售,铅,32000,田纳西州销售,主管,32000,洛杉矶销售,主管,32000,洛杉矶市场营销
..