hdfs 第8页 - IT屋-程序员软件开发技术分享社区

如何使用 Ruby 在 Hadoop HDFS 中写入和读取文件?

有没有办法使用 Ruby 来处理 HDFS Api?据我所知，没有多语言文件 Api，唯一的方法是使用本机 Java Api.我尝试使用 JRuby，但此解决方案不稳定且不是很原生.此外，我查看了 HDFS Thrift Api，但它并不完整，而且还缺少许多功能(例如写入索引文件). 除了使用 JRuby 或 Thrift Api 之外，还有没有办法使用 Ruby 来处理 HDFS? ..

发布时间：2021-11-15 02:30:20 ruby api hadoop hdfs 其他开发

执行 hdfs zkfc 命令时出错

我是 hadoop、hdfs 的新手.我已经完成了接下来的步骤: 我已经在三个namenodes中启动了zookeeper: *vagrant@172:~$ zkServer.sh start 我可以看到状态: *vagrant@172:~$ zkServer.sh 状态结果状态: 默认启用JMX使用配置:/opt/zookeeper-3.4.6/bin/../conf/zoo. ..

发布时间：2021-11-15 00:07:01 apache hadoop hdfs apache-zookeeper high-availability 服务器开发

Hbase 错误“错误:KeeperErrorCode = NoNode for/hbase/master"

在 hbase shell 中执行任何命令时，我在 hbase shell 中收到以下错误“ERROR: KeeperErrorCode = NoNode for/hbase/master". 开始使用 HBASE: HOSTCHND:hbase-2.0.0 gvm$ ./bin/start-hbase.sh本地主机:运行zookeeper，登录到/usr/local/Cellar/hb ..

发布时间：2021-11-14 23:58:37 hadoop hbase hdfs apache-zookeeper 其他开发

可用于将数据写入 HDFS 的“storm-hdfs 连接器"的源代码.github 网址是:https://github.com/ptgoetz/storm-hdfs有一个特殊的拓扑结构:“HdfsFileTopology"用来写'|'分隔数据到 HDFS.链接:https://github.com/ptgoetz/storm-hdfs/blob/master/src/test/java/org ..

发布时间：2021-11-14 23:42:52 hadoop yaml hdfs apache-storm snakeyaml 其他开发

Kafka Storm HDFS/S3 数据流

目前还不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制). 我想让 Kafka 将数据保存到 HDFS 或 S3，并将该数据的副本发送到 Storm 进行实时处理.Storm 聚合/分析的输出将存储在 Cassandra 中.我看到一些实现将所有数据从 Kafka 流入 Storm，然后从 Storm 流出两个输出.但是，我想消除 Storm 对原始数据存储的依赖. ..

发布时间：2021-11-14 23:37:05 hdfs apache-kafka apache-storm 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据，其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然，每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一，还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..

发布时间：2021-11-14 23:31:34 apache-spark hdfs apache-spark-sql avro parquet 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据，其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然，每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一，还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..

发布时间：2021-11-14 23:25:50 apache-spark hdfs apache-spark-sql avro parquet 其他开发

在 HDFS 上，我想显示以 ORC 格式存储的配置单元表的普通文本

我已经使用 orc 格式在 Hive 中保存了 json 数据帧 jsonDF.write.format("orc").saveAsTable(hiveExamples.jsonTest) 现在我需要在 HDFS 上将文件显示为普通文本.有没有办法做到这一点? 我使用了 hdfs dfs -text/path-of-table，但它以 ORC 格式显示数据. 解决方案在 lin ..

发布时间：2021-11-14 23:16:02 hadoop hive apache-spark-sql hdfs orc 其他开发

在 HDFS 上，我想显示以 ORC 格式存储的配置单元表的普通文本

我已经使用 orc 格式在 Hive 中保存了 json 数据帧 jsonDF.write.format("orc").saveAsTable(hiveExamples.jsonTest) 现在我需要在 HDFS 上将文件显示为普通文本.有没有办法做到这一点? 我使用了 hdfs dfs -text/path-of-table，但它以 ORC 格式显示数据. 解决方案在 lin ..

发布时间：2021-11-14 23:12:56 hadoop hive apache-spark-sql hdfs orc 其他开发

Spark Hadoop 无法获得广播

运行 spark-submit 作业并收到“无法获取广播_58_piece0..."错误.我真的不确定我做错了什么.我是否过度使用 UDF?功能太复杂? 作为我目标的总结，我正在解析 pdf 中的文本，这些文本以 base64 编码的字符串形式存储在 JSON 对象中.我正在使用 Apache Tika 获取文本，并尝试大量使用数据框以简化操作. 我编写了一段代码，通过 tika 将文 ..

发布时间：2021-11-14 23:08:23 scala hadoop apache-spark hdfs spark-dataframe 其他开发

使用 PySpark 在 HDFS 中保存和附加文件

我在 PySpark 中有一个名为 df 的数据框.我已将此 df 注册为 temptable，如下所示. df.registerTempTable('mytempTable')date=datetime.now().strftime('%Y-%m-%d %H:%M:%S') 现在从这个临时表中我将获得某些值，例如列 id 的 max_id min_id = sqlContext.sql( ..

发布时间：2021-11-14 23:05:53 apache-spark pyspark apache-spark-sql hdfs 其他开发

如何合并由 SPARK 数据框创建的文件夹中的所有零件文件并在 Scala 中重命名为文件夹名称

嗨，我有我的 spark 数据框的输出，它创建了文件夹结构并创建了部分文件.现在我必须合并文件夹内的所有部分文件并将该文件重命名为文件夹路径名. 这就是我做分区的方式 df.write.partitionBy("DataPartition","PartitionYear").format("csv").option("nullValue", "").option("header", "tr ..

发布时间：2021-11-14 23:03:36 scala apache-spark hdfs spark-dataframe hadoop2 其他开发

Spark:PartitionBy，更改输出文件名

目前，当我使用 paritionBy() 写入 HDFS 时: DF.write.partitionBy("id") 我会得到看起来像的输出结构(这是默认行为): ../id=1/../id=2/../id=3/ 我想要一个看起来像这样的结构: ../a/../b/../C/ 这样: 如果 id = 1，则一个如果 id = 2，则 b.. 等等有没有办法改变文件名输出?如果没有 ..

发布时间：2021-11-14 22:58:47 apache-spark pyspark apache-spark-sql hdfs 其他开发

dataframereader 如何读取http?

我的开发环境: 智能马文 Scala2.10.6 win7 x64 依赖关系: org.apache.sparkspark-core_2.10 ..

发布时间：2021-11-14 22:42:36 scala apache-spark intellij-idea apache-spark-sql hdfs 其他开发

如何将pyspark数据帧写入HDFS，然后如何将其读回数据帧?

我有一个非常大的 pyspark 数据框.所以我想对它的子集进行预处理，然后将它们存储到 hdfs.后来我想阅读所有这些并合并在一起.谢谢. 解决方案将 DataFrame 写入 HDFS (Spark 1.6). df.write.save('/target/path/', format='parquet', mode='append') ## df 是一个现有的 DataFra ..

发布时间：2021-11-14 22:37:57 python hadoop pyspark hdfs spark-dataframe Python

Spark SQL saveAsTable 返回空结果

我使用以下代码在 Spark SQL 中创建/插入数据到 Hive 表中: val sc = SparkSession.builder().appName("应用程序").master("本地[2]").config("spark.sql.warehouse.dir", "file:///tmp/spark-warehouse").enableHiveSupport().getOrCreate( ..

发布时间：2021-11-14 22:10:00 hadoop apache-spark hive hdfs apache-spark-sql 其他开发

有没有办法控制从 spark 数据帧创建的 hdfs 中零件文件的数量?

当我将 sparksql 查询产生的 DataFrame 保存在 HDFS 中时，它会生成大量的零件文件，每个文件的大小为 1.4 KB.有没有办法增加文件的大小，因为每个部分文件包含大约 2 条记录. df_crimes_dates_formated = spark.sql('SELECT CONCAT( SUBSTR(Dates,1,2), SUBSTR(Dates,7,4)) AS DAT ..

发布时间：2021-11-14 22:01:01 pyspark hdfs pyspark-sql 其他开发

在 Spark SQL 中编写 SQL 与使用数据帧 API

我是 Spark SQL 世界中的一只新蜜蜂.我目前正在迁移我的应用程序的摄取代码，其中包括在 HDFS 中的 stage、Raw 和应用程序层中摄取数据并执行 CDC(更改数据捕获)，这目前是在 Hive 查询中编写的，并通过 Oozie 执行.这需要迁移到 Spark 应用程序(当前版本 1.6).另一部分代码稍后会迁移. 在 spark-SQL 中，我可以直接从 Hive 中的表创建数 ..

发布时间：2021-11-14 21:49:48 apache-spark hive apache-spark-sql hdfs 其他开发

如何使用 spark 插入 HDFS?

我在 HDFS 中对数据进行了分区.在某些时候，我决定更新它.算法是: 从 kafka 主题中读取新数据. 找出新数据的分区名称. 从 HDFS 中具有这些名称的分区加载数据. 将 HDFS 数据与新数据合并. 覆盖磁盘上已有的分区. 问题是，如果新数据具有磁盘上尚不存在的分区怎么办.在这种情况下，它们不会被写入.https://stackoverflow.com/a/4969 ..

发布时间：2021-11-14 21:46:33 apache-spark apache-spark-sql hdfs bigdata 其他开发

使用 Apache Spark 和 Java 将 CSV 解析为 DataFrame/DataSet

我是 Spark 新手，我想使用 group-by &减少从 CSV 中找到以下内容(受雇者一行): 部门、职称、costToCompany、州销售，实习生，12000，UP销售，潜在客户，32000，AP销售，主管，32000，洛杉矶销售，铅，32000，田纳西州销售，潜在客户，32000，AP销售，铅，32000，田纳西州销售，主管，32000，洛杉矶销售，主管，32000，洛杉矶市场营销 ..

发布时间：2021-11-14 21:32:54 java apache-spark hadoop apache-spark-sql hdfs Java开发

hdfs相关内容

如何使用 Ruby 在 Hadoop HDFS 中写入和读取文件?

执行 hdfs zkfc 命令时出错

Hbase 错误“错误:KeeperErrorCode = NoNode for/hbase/master"

使用 Storm hdfs 连接器将数据写入 HDFS

Kafka Storm HDFS/S3 数据流

使用 Avro/Parquet 的 Spark 作业中的最大行数

使用 Avro/Parquet 的 Spark 作业中的最大行数

在 HDFS 上，我想显示以 ORC 格式存储的配置单元表的普通文本

在 HDFS 上，我想显示以 ORC 格式存储的配置单元表的普通文本

Spark Hadoop 无法获得广播

使用 PySpark 在 HDFS 中保存和附加文件

如何合并由 SPARK 数据框创建的文件夹中的所有零件文件并在 Scala 中重命名为文件夹名称

Spark:PartitionBy，更改输出文件名

dataframereader 如何读取http?

如何将pyspark数据帧写入HDFS，然后如何将其读回数据帧?

Spark SQL saveAsTable 返回空结果

有没有办法控制从 spark 数据帧创建的 hdfs 中零件文件的数量?

在 Spark SQL 中编写 SQL 与使用数据帧 API

如何使用 spark 插入 HDFS?

使用 Apache Spark 和 Java 将 CSV 解析为 DataFrame/DataSet