如何在pyspark中使用filter()删除空的tweets? [英] How do I remove the empty tweets using filter() in pyspark?
本文介绍了如何在pyspark中使用filter()删除空的tweets?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
如何在pyspark中使用 filter()
删除空的tweets?我已经完成了以下工作:
$ b $ pre $ t $ c $ tweets =
结果给我13995.然而当我从mongodb导入数据时,它显示了11186
我似乎无法应用 filter()
命令来删除空的tweets。如果你的数据像这样
解决方案 >
tweets = sc.parallelize([title1,,title2,title3,])
您可以使用 len(x)
作为过滤条件:
tweets.filter(lambda x:len(x)> 0).count()
How do I remove the empty tweets using filter()
in pyspark? I have done the following
tweets = sc.textFile(.....)
tweets.count()
the result gives me 13995. However when I imported the data from mongodb, it showed 11186
I can't seem to apply the filter()
command for removing the empty tweets. Help please.
解决方案
If your data like this
tweets = sc.parallelize(["title1", "", "title2", "title3", ""])
you can use len(x)
as the filter condition:
tweets.filter(lambda x: len(x) > 0).count()
这篇关于如何在pyspark中使用filter()删除空的tweets?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文