apache-nifi相关内容
Nifi 有没有办法运行 Python 脚本,该脚本具有从不同文件夹导入的模块、pipfile 中指定的要求以及要传递的参数? 简而言之,如何使用Nifi执行通常在我的虚拟环境中运行的python脚本? 我的最终目标是使用 Get File 获取文件并将其发布到 API.我试过执行进程,执行流命令处理器. 解决方案 要使用 Python 对流文件进行后续处理,您可以使用 Exe
..
我有两个表,一个在 mysql test.employee 中,另一个在 hive default.dept我想通过 test.employee 表的 empid 作为参数在 hive 表中查询并将数据存储到 HDFS ExecuteSQL -> 从 test.employee 中选择 empid(给出 10 条记录) SelectHiveQL -> SELECT * FROM def
..
我需要在 Apache Nifi 环境中修改 CSV 文件. 我的 CSV 看起来像文件: 广告商 ID、广告系列开始日期、广告系列结束日期、广告系列名称10730729,1/29/2020 3:00:00 AM,2/20/2020 3:00:00 AM,雀巢40376079,2/1/2020 3:00:00 AM,4/1/2020 3:00:00 AM,亨氏... 我想将具有上午/下午
..
尝试从负载均衡器访问 nifi 时,在 eks 集群中部署 nifi 出现以下错误: 系统错误 请求 [/nifi] 中包含无效的主机头 [abc.com]. 检查请求操纵或第三方拦截. 有效的主机头为 [空] 或: 127.0.0.1127.0.0.1:8443本地主机本地主机:8443::1nifi-deployment-59494c46dc-v4kk6nifi-
..
在 Apache Nifi 中解析 json 中的 xml.在数据集有限的本地机器上,我的代码工作.在完整数据集中,在服务器 Apache Nifi 上,当收集 JSON 时,某些值会导致错误. 完整脚本: 导入 groovy.json.*导入 org.apache.commons.io.IOUtils导入 java.nio.charset.StandardCharsets导入 org.a
..
如何将转换应用于具有以下格式(不是数组,只是多个对象)的记录的 json 文件.我想提供一个具有以下输入格式并在应用转换后的文件.想要将它保存在某个文件夹中.例子: 输入记录格式 {"name": "亚当",“年龄":12,“城市":“澳大利亚"}{"name": "亚当",“年龄":12,“城市":“澳大利亚"}{"name": "亚当",“年龄":12,“城市":“澳大利亚"}{"n
..
我要将日志文件事件(由 LogAttribute 处理器记录)转换为 JSON. 我在此配置中使用 ExtractGrok: 模式文件中的堆栈模式是(?m).* 每个日志的格式如下: 2019-11-21 15:26:06,912 INFO [Timer-Driven Process Thread-4] org.apache.nifi.processors.standard.L
..
按照我之前的帖子Jolt:在 Nifi 中拆分/连接数组值 现在我希望将另一个值 (ts) 复制到每个拆分中.我的输入: [{“值0":0,“值1":1,“值2":2,“ts":1},{“值0":3,“值1":4,“值2":5,“ts":2}] 所需的输出: [ {“值0":0,“ts":1}, {“值1":1,“ts":1}, {“值2":2,“ts":1}, {“值0":3,“
..
在 Apache Nifi 中解析 json 中的 xml.在数据集有限的本地机器上,我的代码工作.在完整数据集中,在服务器 Apache Nifi 上,当收集 JSON 时,某些值会导致错误. 完整脚本: 导入 groovy.json.*导入 org.apache.commons.io.IOUtils导入 java.nio.charset.StandardCharsets导入 org.a
..
我想知道根据日期范围获取每个月的起始日期值的最佳方法是什么. 例如:如果我的年份范围为 2015-11-10 和 2018-01-15(格式为 YYYY-mm-dd).然后我想提取以下日期: 2015-12-012016-01-01..2018-01-01 解决方案 您可以尝试使用此流程在提供的日期范围内生成每个月的第一天. 整体流程 第一步配置:开始 第 2 步配置
..
在 apache nifi 中对 csv 中的列重新排序. 输入 - 我有多个具有相同列但顺序不同的文件. 输出 - 抓取一些列并按相同顺序存储. 解决方案 就我而言,因为我确定这些列将包含在所有 CSV 文件中,所以我只需要对它们重新排序.所以我使用 QueryRecord 重新排序我的 csv 文件. 例如,这是我的 csv 文件: \\file1姓名、年龄、地点、
..
我有一个 nifi 流,它与 ListS3 处理器保持某种状态.我有一个开发实例和一个生产实例.我想要一些从 dev 部署到 prod 的选项,其中保留状态并且我不必手动进入并更改所有处理器和进程组. 这似乎不能用模板来完成?基于以下 stackoverflow 问题: NIFI listfile 如何维护其时间戳? 编辑:为了避免误解,我想在部署时保持 prod 状态.
..
我正在努力在 Nifi 中使用 JOLT 进行转换 我的输入 [{“值0":0,“值1":1,“值2":2},{“值0":3,“值1":4,“值2":5}] 期望的输出: [{"val":0 },{"val" :1 },{"val" :2 },{"val" :3 },{"val":4 },{"val":5 },] 我几乎设法让它发挥作用.这是我的(错误的)Jolt 规范:
..
我需要在 Apache Nifi 环境中修改 CSV 文件. 我的 CSV 看起来像文件: 广告商 ID、广告系列开始日期、广告系列结束日期、广告系列名称10730729,1/29/2020 3:00:00 AM,2/20/2020 3:00:00 AM,雀巢40376079,2/1/2020 3:00:00 AM,4/1/2020 3:00:00 AM,亨氏... 我想将具有上午/下午
..
我正在向表中插入/更新数据.数据库系统不提供“Upsert"功能.因此,我使用临时表进行插入,然后合并到“最终"表中,最后我截断了临时表. 这会导致竞争条件.如果在合并+截断之间将新数据插入临时表,则此数据将丢失. 我如何确保不会发生这种情况? 我尝试通过等待/通知对此进行建模,但这也不是一个干净的解决方案.“Put Data into staging table"PutData
..
Nifi 自定义属性(每个环境的属性文件)看起来是定义环境特定路径和凭据的完美方式.唯一的问题是如何将敏感信息保存在那里?有 Nifi 加密配置工具 详细描述此处. 是 Nifi 加密-除了nifi.properties? 之外,配置工具能够加密变量文件(用nifi.variable.registry.properties定义) 据我所知,它只加密 nifi.properties.这很重
..
我正在使用 GetFile 收集包含 JSON 记录的文件.每条记录都包含一个具有值 A 或 B 的参数(让我们将其命名为 Sensor). 基于该值,我希望将每条记录路由到不同的输出端口——我应该使用哪个模块?我需要拆分记录还是可以停留在文件级别? 可以在文件中找到的记录示例 {“EventTime":“2020-12-07 04:49:00",“传感器":“A",“关键字":-9
..
以下是我的流程: GetFile >ExecuteSparkInteractive >放置文件 我想从 ExecuteSparkInteractive 处理器中的 GetFile 处理器读取文件,应用一些转换并将其放在某个位置.下面是我的流程 我在spark处理器的code部分下写了spark scala code: val sc1=sc.textFile("local_path")s
..
我有这样的 Json 数组; [{"item_id": "","时间戳": "",“类型": "",“价值": ""},{"item_id": "","时间戳": "",“类型": "",“价值": ""}] 我想像这样为 HBase 创建行键 :item_id 时间戳类型 但是 PutHBaseRecord 等待我的一个字段.我能做什么? 我可以这样做吗? 对于记录阅读
..
我有以下 JSON: {“结果":[{“客户客户":{“资源名称":“customers/7876562723/customerClients/8506630423",“clientCustomer":“customers/8506630423",“隐藏":假,“级别":“1",“经理":假,“描述性名称":“宝马",“id":“85061423"}},{“客户客户":{“资源名称":“cust
..