hdfs相关内容

关于 LoadFunc 的示例和更多说明

在哪里可以找到有关 LoadFunc 的更多信息/示例.除了 http://web.archive.org/web/20130701024312/http://ofps.oreilly.com/titles/9781449302641/load_and_store_funcs.html我没有看到任何使用新 LoadFunc API 的示例.谁能告诉我在哪里可以找到一些编写 Load UDF 的示例 ..
发布时间:2021-11-12 04:09:05 其他开发

我怎么能忽略"(双引号)在 PIG 中加载文件时?

我在文件中有以下数据 "a","b","1","2"“a"、“b"、“4"、“3"“a"、“b"、“3"、“1" 我正在使用以下命令读取此文件 File1 = LOAD '/path' using PigStorage (',') as (f1:chararray,f2:chararray,f3:int,f4:int) 但是这里忽略了字段3和4的数据 如何正确读取此文件或以任何方式使 ..
发布时间:2021-11-12 04:06:40 其他开发

从 udf 访问 hdfs 文件

我想从我的 udf 调用中访问一个文件.这是我的脚本: files = LOAD '$docs_in' USING PigStorage(';') AS (i​​d, stopwords, id2, file);buzz = FOREACH files GENERATE pigbuzz.Buzz(file, id) as file:bag{(year:chararray, word:charar ..
发布时间:2021-11-12 04:06:08 其他开发

在 PIG UDF 中调试

我是 Hadoop/PIG 的新手.我有一个基本问题. 我们在 PIG UDF 中有日志记录工具吗?我写了一个需要验证的 UDF我需要记录某些语句来检查流程.是否有可用的日志记录工具?如果是,Pig 日志在哪里? 解决方案 假设您的 UDF 扩展了 EvalFunc,您可以使用从 EvalFunc.getLogger().日志输出应该在 pig 执行的关联 Map/Reduce 任务 ..
发布时间:2021-11-12 04:05:58 其他开发

将 JSON 数组加载到 Pig

我有一个格式如下的 json 文件 [{“身份证":2,"createdBy": 0,“状态":0,"utcTime": "2014 年 10 月 14 日下午 4:49:47","placeName": "21/F, Cunningham Main Rd, Sampangi Rama NagarBengaluruKarnatakaIndia",“经度":77.5983817,“纬度":12.9 ..
发布时间:2021-11-12 04:05:34 其他开发

Apache Pig 权限问题

我正在尝试在我的 Hadoop 集群上启动并运行 Apache Pig,但遇到了权限问题.Pig 本身正在启动并连接到集群就好了——在 Pig shell 中,我可以ls 遍历我的 HDFS 目录.但是,当我尝试实际加载数据并运行 Pig 命令时,我遇到了与权限相关的错误: 咕噜声>A = load 'all_annotated.txt' USING PigStorage() AS (i​​d: ..
发布时间:2021-11-12 04:02:36 其他开发

如何在 Pig 中强制存储(覆盖)到 HDFS?

在开发使用 STORE 命令的 Pig 脚本时,我必须删除每次运行的输出目录,否则脚本会停止并提供: 2012-06-19 19:22:49,680 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 6000:输出位置验证失败:'hdfs://[server]/user/[user]/foo/bar 更多信息如下:输出目录 hdfs://[serve ..
发布时间:2021-11-12 04:01:35 其他开发

NiFi moveHDFS 处理器似乎什么都不做

只是尝试自动将文件从一个 HDFS 目录移动到另一个.使用 Apache NiFi 中的 moveHDFS 处理器执行此操作,但在启动处理器时似乎没有任何反应. 处理器指标在很长一段时间后保持为零并且查看公告板显示没有错误(日志级别设置为 INFO),公告板中唯一的日志输出是: 14:50:04 HSTINFO1e637d0d-0163-1000-7bde-a7993ae403e8Move ..
发布时间:2021-11-12 03:57:16 其他开发

HdfsSink3Connector 可以创建重复项吗?

根据文档,接收器连接器确保 Exactly-Once-Delivery. 在连接器任务线程失败的情况下如何确保Exact-Once-Delivery? 它是否删除了失败的任务线程创建的文件?还是将损坏的/部分文件留在 HDFS 中? 连接器使用预写日志来确保每条记录只写入一次 HDFS.此外,连接器通过将 Kafka 偏移信息编码到 HDFS 文件中来管理偏移,以便在出现故障和任 ..

将 kafka-connect-transform-archive 与 HdfsSinkConnector 一起使用时的刷新大小

我想将 Kafka 主题中的数据保留在我的数据湖中. 在担心密钥之前,我能够使用 HdfsSinkConnector 将 Avro 值保存在数据湖上的文件中.每个文件中消息值的数量由 HdfsSinkConnector 的“flush.size"属性决定. 一切都很好.接下来,我也想保留密钥.为此,我使用了 kafka-connect-transform-archive,它将 Stri ..

Kafka to hdfs3 sink 缺少必需的配置“confluent.topic.bootstrap.servers"没有默认值

状态 我的 HDFS 是通过 ambari、HDP 安装的.我目前正在尝试将 kafka 主题加载到 HDFS 接收器中.Kafka 和 HDFS 安装在同一台机器 x.x.x.x 上.除了一些根据我需要的端口外,我没有对默认设置进行太多更改. 这是我执行 kafka 的方式: /usr/hdp/3.1.4.0-315/kafka/bin/connect-standalone.sh/ ..

Camus Migration - Kafka HDFS Connect 没有从设置的偏移量开始

我目前正在使用 Confluent HDFS Sink Connector (v4.0.0) 来替换 Camus.我们正在处理敏感数据,因此我们需要在切换到连接器期间保持偏移量的一致性. 转换计划: 我们创建了 hdfs 接收器连接器并订阅了一个写入临时 hdfs 文件的主题.这将创建一个名为 connect- 的消费者组使用 DELETE 请求停止连接器. 使用 /usr/bin ..
发布时间:2021-11-12 03:24:49 其他开发

HdfsSink3Connector 可以创建重复项吗?

根据文档,接收器连接器确保 Exactly-Once-Delivery. 在连接器任务线程失败的情况下如何确保Exact-Once-Delivery? 它是否删除了失败的任务线程创建的文件?还是将损坏的/部分文件留在 HDFS 中? 连接器使用预写日志来确保每条记录只写入一次 HDFS.此外,连接器通过将 Kafka 偏移信息编码到 HDFS 文件中来管理偏移,以便在出现故障和任 ..

HdfsSink3Connector 可以创建重复项吗?

根据文档,接收器连接器确保 Exactly-Once-Delivery. 在连接器任务线程失败的情况下如何确保Exact-Once-Delivery? 它是否删除了失败的任务线程创建的文件?还是将损坏的/部分文件留在 HDFS 中? 连接器使用预写日志来确保每条记录只写入一次 HDFS.此外,连接器通过将 Kafka 偏移信息编码到 HDFS 文件中来管理偏移,以便在出现故障和任 ..

将 kafka-connect-transform-archive 与 HdfsSinkConnector 一起使用时的刷新大小

我想将 Kafka 主题中的数据保留在我的数据湖中. 在担心密钥之前,我能够使用 HdfsSinkConnector 将 Avro 值保存在数据湖上的文件中.每个文件中消息值的数量由 HdfsSinkConnector 的“flush.size"属性决定. 一切都很好.接下来,我也想保留密钥.为此,我使用了 kafka-connect-transform-archive,它将 Stri ..

在 Spark Streaming 中合并微批次

(我对批处理火花知之甚少,但对火花流一无所知) 问题 我有一个 kafka 主题 Kafka[(A,B)->X] 其中 (A,B) 是键(A 和 B 是简单的数字类型),X 是消息类型,比较大(几 Mb​​).抛开输入失败的问题,数据是一个网格:对于A中的每一个a,都会有消息(a,b) 用于 B 中的所有 b.此外,b 是有序的,我认为我们可以假设一个 a 的所有消息都将按照 b 的顺 ..
发布时间:2021-11-12 02:30:49 其他开发

Kafka Storm HDFS/S3 数据流

目前还不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制). 我想让 Kafka 将数据保存到 HDFS 或 S3,并将该数据的副本发送到 Storm 进行实时处理.Storm 聚合/分析的输出将存储在 Cassandra 中.我看到一些实现将所有数据从 Kafka 流入 Storm,然后从 Storm 流出两个输出.但是,我想消除 Storm 对原始数据存储的依赖. ..
发布时间:2021-11-12 02:21:04 其他开发

Kafka to hdfs3 sink 缺少必需的配置“confluent.topic.bootstrap.servers"没有默认值

状态 我的 HDFS 是通过 ambari、HDP 安装的.我目前正在尝试将 kafka 主题加载到 HDFS 接收器中.Kafka 和 HDFS 安装在同一台机器 x.x.x.x 上.除了一些根据我需要的端口外,我没有对默认设置进行太多更改. 这是我执行 kafka 的方式: /usr/hdp/3.1.4.0-315/kafka/bin/connect-standalone.sh/ ..

Camus Migration - Kafka HDFS Connect 没有从设置的偏移量开始

我目前正在使用 Confluent HDFS Sink Connector (v4.0.0) 来替换 Camus.我们正在处理敏感数据,因此我们需要在切换到连接器期间保持偏移量的一致性. 转换计划: 我们创建了 hdfs 接收器连接器并订阅了一个写入临时 hdfs 文件的主题.这将创建一个名为 connect- 的消费者组使用 DELETE 请求停止连接器. 使用 /usr/bin ..
发布时间:2021-11-12 02:00:43 其他开发

从 kafka 写入到 hdfs 并将文件分区为日期的最有效方法是什么

我正在处理应该通过 kafka 写入 hdfs 的项目.假设有在线服务器将消息写入 kafka.每条消息都包含时间戳.我想根据消息中的时间戳创建一个输出将是一个/多个文件的作业.例如如果kafka中的数据是 {"ts":"01-07-2013 15:25:35.994", "data": ...}...{"ts":"01-07-2013 16:25:35.994", "数据": ...}... ..
发布时间:2021-11-12 01:53:13 其他开发