基于子串匹配的蜂窝/猪连接 [英] HIVE/PIG JOIN Based on SUBSTRING match

查看：31 发布时间：2022/3/1 18:34:57 hadoop join hive bigdata apache-pig

本文介绍了基于子串匹配的蜂窝/猪连接的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

我有一个要求，我需要使用人名加入twets表，比如过滤包含任何人名的tweet。我有以下数据：

推文表：(7000万条记录存储为一个配置单元表)

人名：(160万个姓名以.tsv文件形式存储在HDFS上)

预期结果：

id	推文	PERSON_NAME
1	克里斯蒂亚诺·罗纳尔多有史以来最伟大的	克里斯蒂亚诺·罗纳尔多
2	布拉德·皮特电影	布拉德·皮特

到目前为止我尝试的内容：

我还将人名.tsv文件转换为配置单元表，然后尝试使用以下配置单元查询联接两个表：

SELECT * FROM tweets t INNER JOIN people p WHERE instr(t.tweet, p.person_name) > 0;

尝试了一些示例数据，运行良好。但当我试图运行整个数据(7000万条tweet和160万个人名)时，它永远都要花费很长时间。看起来肯定不是很有效率。

我也想尝试与PIG连接(因为它被认为比配置单元连接效率略高)，我可以直接连接人名.tsv文件twets配置单元表，但不确定如何根据PIG中的子字符串进行连接。

如果您有什么想法，能不能请大家分享一下这个问题的PIG连接语法？另外，请给我推荐一些我可以使用的替代品？